Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 48 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
48
Dung lượng
1,57 MB
Nội dung
Khoa Công NghệThông Tin Trường Đại Học Cần Thơ Đỗ Thanh Nghị dtnghi@cit.ctu.edu.vn Cần Thơ 02-12-2008 Phương pháp học câyquyết đị nh Decision Tree Nội dung Giớithiệuvềcâyquyếtđịnh Giải thuật học của câyquyếtđịnh Kết luận và hướng phát triển 2 Nội dung Giớithiệuvềcâyquyếtđịnh Giải thuật học của câyquyếtđịnh Kết luận và hướng phát triển 3 Câyquyếtđịnh lớp các giải thuật học kết quả sinh ra dễ dịch (if … then …) khá đơn giản, nhanh, hiệu quả được sử dụng nhiều liên tục trong nhiều năm qua, câyquyếtđịnh được bình chọn là giải thuật được sử dụng nhiều nhất và thành công nhất giải quyết các vấn đề của phân loại, hồi quy làm việc cho dữ liệu số và loại được ứng dụng thành công trong hầu hết các lãnh vực về phân tích dữ liệu, phân loại text, spam, phân loại gien, etc có rất nhiều giải thuật sẵn dùng : C4.5 (Quinlan, 1993), CART (Breiman et al., 1984), etc 4 Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển Kỹ thuật DM thành công trong ứng dụng thực (2004) 5 Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển Nội dung Giớithiệuvềcâyquyếtđịnh Giải thuật học của câyquyếtđịnh Kết luận và hướng phát triển 6 Giải thuật học câyquyếtđịnh 7 Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển 1 nút trong : test trên 1 thuộc tính (biến) 1 nhánh : trình bày cho dữ liệu thỏa mãn test, ví dụ : age < 25. nút lá : lớp (nhãn) ở mỗi nút, 1 thuộc tính được chọn để phân hoạch dữ liệu học sao cho tách rời các lớp tốt nhất có thể dữ liệu mới đến được phân loại theo đường dẫn từ gốc đến nút lá 8 Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển Dữ liệu weather, dựa trên các thuộc tính ( Outlook, Temp, Humidity, Windy ), quyếtđịnh( play/no ) NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast YesTrueNormalMildSunny YesFalseNormalMildRainy YesFalseNormalCoolSunny NoFalseHighMildSunny YesTrueNormalCoolOvercast NoTrueNormalCoolRainy YesFalseNormalCoolRainy YesFalseHighMildRainy YesFalseHighHot Overcast NoTrueHigh Hot Sunny NoFalseHighHotSunny PlayWindyHumidityTempOutlook 9 Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển Câyquyếtđịnhcho tập dữ liệu weather, dựa trên các thuộc tính ( Outlook, Temp, Humidity, Windy ) overcast high normal false true sunny rain No No Yes Yes Yes Outlook Humidity Windy 10 Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển Giải thuật câyquyếtđịnh xây dựng cây Top-down bắt đầu nút gốc, tất cả các dữ liệu học ở nút gốc phân hoạch dữ liệu một cách đệ quy bằng việc chọn 1 thuộc tính để thực hiện phân hoạch tốt nhất có thể cắt nhánh Bottom-up cắt những cây con hoặc các nhánh từ dưới lên trên, để tránh học vẹt (overfitting, over learning) [...]... gain(" Outlook" ) 0.247 bits gain("Temperatur ) 0.029 bits e" gain(" Humidity" ) 0.152 bits gain(" Windy" ) 0.048 bits 20 Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển Tiếp tục phân hoạch dữ liệu gain(" Humidity") 0.971 bits gain("Temperatur ) 0.571bits e" gain(" Windy") 0.020 bits 21 Giớithiệuvềcâyquyếtđịnh Giải thuật học cây quyết. .. Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển Độ lợi thông tin thông tin được đo lường bằng bits cho 1 phân phối xác suất, thông tin cần thiết để dự đoán 1 sự kiện là entropy công thức tính entropy: entropy( p1 , p 2 , , p n ) p1log p1 p 2 log p2 p n log p n 14 *Claude Shannon Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyết định. .. Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển Chọn thuộc tính phân hoạch ở mỗi nút, các thuộc tính được đánh giá dựa trên phân tách dữ liệu học tốt nhất có thể việc đánh giá dựa trên độ lợi thông tin, information gain (ID3/C4.5) information gain ratio chỉ số gini, gini index (CART) 11 Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyết định. .. “Rainy”: là 0 info([3,2]) entropy(3/5,2/5) 3 / 5 log(3 / 5) 2 / 5 log(2 / 5) 0.971 bits thông tin của thuộc tính outlook: info([3,2], [4,0],[3,2]) (5 / 14) 0.971 (4 / 14) 0 (5 / 14) 0.971 0.693 bits 17 Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển Độ lợi thông tin độ lợi thông tin của outlook (trước khi phân hoạch) – (sau khi phân... gain(" Outlook" ) info([9,5]) - info([2,3], [4,0], [3,2]) 0.940 - 0.693 0.247 bits 18 Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển Thuộc tính humidity “Humidity” = “High”: info([3,4]) entropy(3/7,4/7) 3 / 7 log(3 / 7) 4 / 7 log(4 / 7) 0.985 bits “Humidity” = “Normal”: info([6,1]) entropy(6/7,1/7) 6 / 7 log(6 / 7) 1 / 7 log(1... 0.592 bits thông tin của thuộc tính humidity info([3,4], [6,1]) (7 / 14) 0.985 (7 / 14) 0.592 0.788 bits độ lợi thông tin của thuộc tính humidity info([9,5]) - info([3,4], [6,1]) 0.940 - 0.788 0.152 19 Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển Độ lợi thông tin độ lợi thông tin của các thuộc tính (trước khi phân hoạch) – (sau khi phân... Yes rain mild high true No 16 Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển Ví dụ : thuộc tính outlook “Outlook” = “Sunny”: info([2,3]) entropy(2/5,3/5) 2 / 5 log(2 / 5) 3 / 5 log(3 / 5) 0.971 bits chú ý : log(0) “Outlook” = “Overcast”: không xác định info([4,0]) entropy(1,0) 1log(1) 0 log(0) 0 bits nhưng 0*log(0) “Outlook” = “Rainy”:... measure([2,3,4]) measure([2,7]) (7 /9) measure([3,4]) entropy là hàm thỏa mãn các tính chất trên! 23 Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển Tính chất của entropy tính chất multistage q r entropy(p,q,r) entropy(p,q r ) (q r ) entropy( , ) qr qr đơn giản hóa trong tính toán info([2,3,4]) 2 / 9 log(2 / 9) 3 / 9 log(3 /... Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển Tỷ số độ lợi (gain ratio) Gain ratio : khắc phục vấn đề dữ liệu có các thuộc tính có nhiều giá trị phân nhánh Gain ratio tính đến số lượng và độ lớn của các nhánh khi chọn 1 thuộc tính phân hoạch 28 Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển Gain ratio & Intrinsic... gain ratio gain("Attribute") gain_ratio("Attribute") intrinsic_info("Attribute") 0.940 bits gain_ratio("ID_code") 0.246 3.807 bits 30 Giớithiệuvềcâyquyếtđịnh Giải thuật học câyquyếtđịnh kết luận và hướng phát triển Gain ratios của Weather Outlook Temperature Info: 0.693 Info: 0.911 Gain: 0.94 0-0 .693 0.247 Gain: 0.94 0-0 .911 0.029 Split info: info([5,4,5]) 1.577 Split info: info([4,6,4])