PHẦN IĐịnh nghĩa Một số ứng dụng Ưu điểm của cây quyết định Phần I: Giới thiệu mô hình Cây quyết định... • Gốc: là node trên cùng của cây• Node trong: biểu diễn kiểm tra trên một thuộ
Trang 1Decision tree &
instance - based methods
Nguyễn Khánh NgọcNguyễn Quang Tú
Toán – Tin Ứng Dụng 1K54
Trang 2NỘI DUNG TRÌNH BÀY
Giới thiệu mô hình Cây quyết định
Trang 3PHẦN I
Trang 4PHẦN I
Định nghĩa
Một số ứng dụng
Ưu điểm của cây quyết định
Phần I: Giới thiệu mô hình Cây quyết định
Trang 5PHẦN I
Phần I: Giới thiệu mô hình Cây quyết định
Trang 6CÂY QUYẾT ĐỊNH LÀ GÌ?!
Trang 7• Gốc: là node trên cùng của cây
• Node trong: biểu diễn kiểm tra trên một thuộc tính đơn (hình chữ nhật)
• Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên)
• Node lá: biểu diễn lớp hay sự phân phối lớp (hình tròn)
Cây quyết định là biểu đồ phát triển có cấu trúc dạng cây, như mô tả trong hình vẽ:
Trang 8Dự báo thời tiết dựa trên một số yếu tố nhiệt độ, sức gió, độ ẩm,…
MỘT SỐ ỨNG DỤNG
Trang 9MỘT SỐ ỨNG DỤNG
Dự báo trong kinh doanh dựa các yếu tố chỉ số tiêu dùng, yếu tố xã hội, sự kiện,…
Trang 10MỘT SỐ ỨNG DỤNG
Tín dụng ngân hàng (khả năng chi trả tín dụng của khách hàng khi vay mượn)
Trang 11Tương đối dễ hiểu
Tiền xử lý dữ liệu đơn giản
Xử lý với cả các dữ liệu rời rạc và liên tục
Mô hình hộp trắng
Có thể thẩm định bằng thống kê
ƯU ĐIỂM CÂY QUYẾT ĐỊNH
Trang 12C4.5
Xây dựng Cây quyết định
PHẦN 2
Trang 13C4.5
Xây dựng Cây quyết định
PHẦN 2
Trang 14XÂY DỰNG CÂY QUYẾT ĐỊNH
a Xây dựng cây: Chia một cách đệ quy tập dữ liệu chuẩn cho đến khi các mẫu ở mỗi nút lá thuộc cùng một lớp
c Cắt tỉa cây: Là việc dùng để tối ưu hóa cây Cắt tỉa cây chính là việc trộn một cây con vào trong một nút lá
e Đánh giá cây: Dùng để đánh giá độ chính xác của cây kết quả Tiêu chí đánh giá là tổng số mẫu được phân lớp chính xác trên tổng số mẫu đưa vào
Trang 15
Ngày Quang cảnh Nhiêt độ Độ ẩm Gió to Kết quả
Bảng 1: Tập dữ liệu về thi đấu bóng đá lớp Toán-Tin Ứng Dụng 1
Trang 16Hình 1: Minh họa phương pháp Hunt
Trang 17THUỘC TÍNH PHÂN LỚP?!
Trang 18Hình 2: Một cây quyết định chọn Nhiệt độ làm gốc
Trang 19THUẬT TOÁN ID3
2.1 Giới thiệu giải thuật
Tại mỗi đỉnh của cây, một thuộc tính có Information Gains
lớn nhất sẽ được chọn để phân chia tập đối tượng
Quá trình này sẽ được thực hiện một cách đệ qui cho đến khi một tập đối tượng tại một cây con đã trở nên thuần nhất, tức là nó chỉ chứa các đối tượng về cùng môt lớp, lớp này sẽ trở thành một lá của cây
Trang 20đó, và một giá trị phân loại của nó
• Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các
ví dụ trong tập dữ liệu
THUẬT TOÁN ID3
Trang 22Gọi S là tập các ca dữ liệu, trong đó:
• là tỉ lệ các ca dương tính trong S (Ví dụ Thi đấu)
• là tỉ lệ các ca âm tính trong S (Ví dụ Không thi đấu)
trong đó là tỉ lệ của các ca thuộc lớp i trong tập S
Trường hợp tổng quát, nếu S bao gồm c lớp, thì Entropy của
S được tính bằng công thức sau:
−
−+
−
= P log P P log P )
S (
Trang 23Ví dụ 1 Trong Bảng 1 của ví dụ thi đấu bóng đá trên
thì tập S có 9 ca dương và 5 ca âm (ký hiệu là [9+,5-]).
Trang 25Value(Gió to)={true,false}, S=[9+,5-]
là đỉnh con với giá trị “true”, bằng [2+,3-]
là đỉnh con với giá trị là “false”, bằng [7+,2-]
Ví dụ 2.
Trang 27LOGO
Trang 28Tương tự như vậy, ta có thể tiến hành triển khai các nút ở mức tiếp theo
Từ các giá trị của Entropy Gain, ta thấy Độ ẩm là thuộc tính tốt nhất cho đỉnh nằm dưới nhánh Nắng của thuộc tính Quang cảnh.
Trang 29• R1: If (Quang cảnh = Nắng) U (Độ ẩm = Bình thường) Then Kết quả = Thi đấu
• R2: If (Quang cảnh = Nắng) U (Độ ẩm = Cao) Then Kết quả = Không thi đấu
• R3: If (Quang cảnh = Nhiều mây) Then Kết quả = Thi đấu
• R4: If (Quang cảnh = Mưa) U (Gió to = Không) Then Kết quả = Thi đấu
• R5: If (Quang cảnh = Nắng) U (Gió to = Có) Then Kết quả = Không thi đấu
2.3 Chuyển cây về luật
Trang 30ĐÁNH GIÁ THUẬT TOÁN
Trang 32Sử dụng thuật toán tìm kiếm dựa trên giá trị Gain để
tìm kiếm các thuộc tính trong toàn bộ Cây quyết định.
Đầu ra (Output) chỉ là một giả thuyết đơn (1 kết quả duy nhất).
Không gặp hiện tượng quay lui – tính hội tụ cao.
ƯU ĐIỂM
Trang 34Chỉ thích hợp với mô hình có lượng dữ liệu ít, rời rạc.
Không thích ứng được với những tập dữ liệu phức tạp (dễ phát sinh lỗi).
Không hiệu quả khi xuất hiện những dữ liệu không mong muốn.
Cây quyết định khi dựng ra vẫn còn có thể lớn, rườm rà, chưa được tối ưu ở mức tối đa có thể.
Trang 36THUẬT TOÁN C4.5
Trang 37ID3
C4.5
Trang 38Lựa chọn thuộc tính phân loại tốt
Theo information Gain
Theo Gain ratio
ID3
)
Entropy(S S
S
Entropy(S) A)
Value(A) v
Trang 39v 2
v
0 2
0
S
S log
S
S S
S log
S
S A)
(S,
SplitInfo
Trang 40VD: Tính GainRatio của Quang cảnh - (O)
Trang 41LOGO
Trang 42CƠ CHẾ RIÊNG CỦA C4.5
Information:
Split information cũng thay đổi:
Trong đó So là tập các mẫu có giá trị của thuộc tính O bị thiếu
v 2
0 0
2
0
S
S log S
S S
S log S
S O)
S, splitInfo(
Trang 44CẮT TỈA
Luật khởi tạo ban đầu là đường đi từ gốc đến lá của
cây quyết định Một cây quyết định có n lá thì tương ứng tập luật sản xuất sẽ có n luật khởi tạo Từng
điều kiện trong luật được xem xét và loại bỏ nếu
không ảnh hưởng tới độ chính xác của luật đó
Trang 45LỰA CHỌN
Các luật đã cắt tỉa được nhóm lại theo giá trị phân
lớp, tạo nên các tập con chứa các luật theo lớp Sẽ có
k tập luật con nếu tập training có k giá trị phân lớp Từng tập con trên được xem xét để chọn ra một tập con các luật mà tối ưu hóa độ chính xác dự đoán của lớp gắn với tập luật đó
Trang 46SẮP XẾP
Sắp xếp K tập luật đã tạo ra từ trên bước theo tần số lỗi Lớp mặc định được tạo ra bằng cách xác định các case trong tập training không chứa trong các luật hiện tại và chọn lớp phổ biến nhất trong các case đó làm lớp mặc định
Trang 47ƯỚC LƯỢNG & ĐÁNH GIÁ
Tập luật được đem ước lượng lại trên toàn bộ tập
training, nhằm mục đích xác định xem liệu có luật nào làm giảm độ chính xác của sự phân lớp Nếu có, luật đó bị loại bỏ và quá trình ước lượng được lặp cho đến khi không thể cải tiến thêm
Trang 48VD: Chuyển đổi sang luật
• L1: IF(quang cảnh = nắng) & (độ ẩm = cao) Then (không thi đấu)
• L2: IF(quang cảnh = nắng) & (độ ẩm = bình thường) Then (thi đấu)
• L3: IF(quang cảnh = nhiều mây) Then (thi đấu)
• L4: IF(quang cảnh = mưa) & (gió to = có) Then (không thi đấu)
• L5: IF(quang cảnh = mưa) & (gió to = không) Then (thi đấu)
Trang 49ƯU ĐIỂM CỦA C4.5
Hiệu quả và chặt chẽ bằng việc sử dụng độ đo lựa
chọn thuộc tính tốt nhất là gain-ratio
Xử lý được với giá trị lỗi, thiếu và chống “quá
vừa” (phù hợp trội) cùng với cơ chế cắt tỉa cây
Tăng độ chính xác và tính dễ hiểu của kết quả
phân lớp
Trang 50PHẦN 3
Mô phỏng Cây quyết định sử dụng WEKA
Trang 51K54