1. Trang chủ
  2. » Công Nghệ Thông Tin

Khai phá dữ liệu thuật toán decision tree ĐH Bách Khoa HN

52 679 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 52
Dung lượng 5,43 MB

Nội dung

PHẦN IĐịnh nghĩa Một số ứng dụng Ưu điểm của cây quyết định Phần I: Giới thiệu mô hình Cây quyết định... • Gốc: là node trên cùng của cây• Node trong: biểu diễn kiểm tra trên một thuộ

Trang 1

Decision tree &

instance - based methods

Nguyễn Khánh NgọcNguyễn Quang Tú

Toán – Tin Ứng Dụng 1K54

Trang 2

NỘI DUNG TRÌNH BÀY

Giới thiệu mô hình Cây quyết định

Trang 3

PHẦN I

Trang 4

PHẦN I

Định nghĩa

Một số ứng dụng

Ưu điểm của cây quyết định

Phần I: Giới thiệu mô hình Cây quyết định

Trang 5

PHẦN I

Phần I: Giới thiệu mô hình Cây quyết định

Trang 6

CÂY QUYẾT ĐỊNH LÀ GÌ?!

Trang 7

• Gốc: là node trên cùng của cây

• Node trong: biểu diễn kiểm tra trên một thuộc tính đơn (hình chữ nhật)

• Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên)

• Node lá: biểu diễn lớp hay sự phân phối lớp (hình tròn)

Cây quyết định là biểu đồ phát triển có cấu trúc dạng cây, như mô tả trong hình vẽ:

Trang 8

Dự báo thời tiết dựa trên một số yếu tố nhiệt độ, sức gió, độ ẩm,…

MỘT SỐ ỨNG DỤNG

Trang 9

MỘT SỐ ỨNG DỤNG

Dự báo trong kinh doanh dựa các yếu tố chỉ số tiêu dùng, yếu tố xã hội, sự kiện,…

Trang 10

MỘT SỐ ỨNG DỤNG

Tín dụng ngân hàng (khả năng chi trả tín dụng của khách hàng khi vay mượn)

Trang 11

Tương đối dễ hiểu

Tiền xử lý dữ liệu đơn giản

Xử lý với cả các dữ liệu rời rạc và liên tục

Mô hình hộp trắng

Có thể thẩm định bằng thống kê

ƯU ĐIỂM CÂY QUYẾT ĐỊNH

Trang 12

C4.5

Xây dựng Cây quyết định

PHẦN 2

Trang 13

C4.5

Xây dựng Cây quyết định

PHẦN 2

Trang 14

XÂY DỰNG CÂY QUYẾT ĐỊNH

a Xây dựng cây: Chia một cách đệ quy tập dữ liệu chuẩn cho đến khi các mẫu ở mỗi nút lá thuộc cùng một lớp

c Cắt tỉa cây: Là việc dùng để tối ưu hóa cây Cắt tỉa cây chính là việc trộn một cây con vào trong một nút lá

e Đánh giá cây: Dùng để đánh giá độ chính xác của cây kết quả Tiêu chí đánh giá là tổng số mẫu được phân lớp chính xác trên tổng số mẫu đưa vào

Trang 15

Ngày Quang cảnh Nhiêt độ Độ ẩm Gió to Kết quả

Bảng 1: Tập dữ liệu về thi đấu bóng đá lớp Toán-Tin Ứng Dụng 1

Trang 16

Hình 1: Minh họa phương pháp Hunt

Trang 17

THUỘC TÍNH PHÂN LỚP?!

Trang 18

Hình 2: Một cây quyết định chọn Nhiệt độ làm gốc

Trang 19

THUẬT TOÁN ID3

2.1 Giới thiệu giải thuật

Tại mỗi đỉnh của cây, một thuộc tính có Information Gains

lớn nhất sẽ được chọn để phân chia tập đối tượng

Quá trình này sẽ được thực hiện một cách đệ qui cho đến khi một tập đối tượng tại một cây con đã trở nên thuần nhất, tức là nó chỉ chứa các đối tượng về cùng môt lớp, lớp này sẽ trở thành một lá của cây

Trang 20

đó, và một giá trị phân loại của nó

• Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các

ví dụ trong tập dữ liệu

THUẬT TOÁN ID3

Trang 22

Gọi S là tập các ca dữ liệu, trong đó:

• là tỉ lệ các ca dương tính trong S (Ví dụ Thi đấu)

• là tỉ lệ các ca âm tính trong S (Ví dụ Không thi đấu)

trong đó là tỉ lệ của các ca thuộc lớp i trong tập S

Trường hợp tổng quát, nếu S bao gồm c lớp, thì Entropy của

S được tính bằng công thức sau:

−+

= P log P P log P )

S (

Trang 23

Ví dụ 1 Trong Bảng 1 của ví dụ thi đấu bóng đá trên

thì tập S có 9 ca dương và 5 ca âm (ký hiệu là [9+,5-]).

Trang 25

Value(Gió to)={true,false}, S=[9+,5-]

là đỉnh con với giá trị “true”, bằng [2+,3-]

là đỉnh con với giá trị là “false”, bằng [7+,2-]

Ví dụ 2.

Trang 27

LOGO

Trang 28

Tương tự như vậy, ta có thể tiến hành triển khai các nút ở mức tiếp theo

Từ các giá trị của Entropy Gain, ta thấy Độ ẩm là thuộc tính tốt nhất cho đỉnh nằm dưới nhánh Nắng của thuộc tính Quang cảnh.

Trang 29

• R1: If (Quang cảnh = Nắng) U (Độ ẩm = Bình thường) Then Kết quả = Thi đấu

• R2: If (Quang cảnh = Nắng) U (Độ ẩm = Cao) Then Kết quả = Không thi đấu

• R3: If (Quang cảnh = Nhiều mây) Then Kết quả = Thi đấu

• R4: If (Quang cảnh = Mưa) U (Gió to = Không) Then Kết quả = Thi đấu

• R5: If (Quang cảnh = Nắng) U (Gió to = Có) Then Kết quả = Không thi đấu

2.3 Chuyển cây về luật

Trang 30

ĐÁNH GIÁ THUẬT TOÁN

Trang 32

Sử dụng thuật toán tìm kiếm dựa trên giá trị Gain để

tìm kiếm các thuộc tính trong toàn bộ Cây quyết định.

Đầu ra (Output) chỉ là một giả thuyết đơn (1 kết quả duy nhất).

Không gặp hiện tượng quay lui – tính hội tụ cao.

ƯU ĐIỂM

Trang 34

Chỉ thích hợp với mô hình có lượng dữ liệu ít, rời rạc.

Không thích ứng được với những tập dữ liệu phức tạp (dễ phát sinh lỗi).

Không hiệu quả khi xuất hiện những dữ liệu không mong muốn.

Cây quyết định khi dựng ra vẫn còn có thể lớn, rườm rà, chưa được tối ưu ở mức tối đa có thể.

Trang 36

THUẬT TOÁN C4.5

Trang 37

ID3

C4.5

Trang 38

Lựa chọn thuộc tính phân loại tốt

Theo information Gain

Theo Gain ratio

ID3

)

Entropy(S S

S

Entropy(S) A)

Value(A) v

Trang 39

v 2

v

0 2

0

S

S log

S

S S

S log

S

S A)

(S,

SplitInfo

Trang 40

VD: Tính GainRatio của Quang cảnh - (O)

Trang 41

LOGO

Trang 42

CƠ CHẾ RIÊNG CỦA C4.5

Information:

Split information cũng thay đổi:

Trong đó So là tập các mẫu có giá trị của thuộc tính O bị thiếu

v 2

0 0

2

0

S

S log S

S S

S log S

S O)

S, splitInfo(

Trang 44

CẮT TỈA

Luật khởi tạo ban đầu là đường đi từ gốc đến lá của

cây quyết định Một cây quyết định có n lá thì tương ứng tập luật sản xuất sẽ có n luật khởi tạo Từng

điều kiện trong luật được xem xét và loại bỏ nếu

không ảnh hưởng tới độ chính xác của luật đó

Trang 45

LỰA CHỌN

Các luật đã cắt tỉa được nhóm lại theo giá trị phân

lớp, tạo nên các tập con chứa các luật theo lớp Sẽ có

k tập luật con nếu tập training có k giá trị phân lớp Từng tập con trên được xem xét để chọn ra một tập con các luật mà tối ưu hóa độ chính xác dự đoán của lớp gắn với tập luật đó

Trang 46

SẮP XẾP

Sắp xếp K tập luật đã tạo ra từ trên bước theo tần số lỗi Lớp mặc định được tạo ra bằng cách xác định các case trong tập training không chứa trong các luật hiện tại và chọn lớp phổ biến nhất trong các case đó làm lớp mặc định

Trang 47

ƯỚC LƯỢNG & ĐÁNH GIÁ

Tập luật được đem ước lượng lại trên toàn bộ tập

training, nhằm mục đích xác định xem liệu có luật nào làm giảm độ chính xác của sự phân lớp Nếu có, luật đó bị loại bỏ và quá trình ước lượng được lặp cho đến khi không thể cải tiến thêm

Trang 48

VD: Chuyển đổi sang luật

• L1: IF(quang cảnh = nắng) & (độ ẩm = cao) Then (không thi đấu)

• L2: IF(quang cảnh = nắng) & (độ ẩm = bình thường) Then (thi đấu)

• L3: IF(quang cảnh = nhiều mây) Then (thi đấu)

• L4: IF(quang cảnh = mưa) & (gió to = có) Then (không thi đấu)

• L5: IF(quang cảnh = mưa) & (gió to = không) Then (thi đấu)

Trang 49

ƯU ĐIỂM CỦA C4.5

 Hiệu quả và chặt chẽ bằng việc sử dụng độ đo lựa

chọn thuộc tính tốt nhất là gain-ratio

 Xử lý được với giá trị lỗi, thiếu và chống “quá

vừa” (phù hợp trội) cùng với cơ chế cắt tỉa cây

 Tăng độ chính xác và tính dễ hiểu của kết quả

phân lớp

Trang 50

PHẦN 3

Mô phỏng Cây quyết định sử dụng WEKA

Trang 51

K54

Ngày đăng: 10/02/2017, 06:18

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w