Bài giảng Khai mở dữ liệu: Phương pháp học cây quyết định (Decision Tree) giới thiệu về cây quyết định, giải thuật học của cây quyết định, kết luận và hướng phát triển. Mời các bạn tham khảo bài giảng để hiểu rõ hơn về điều này.
Khoa Công Nghệ Thông Tin Trường Đại Học Cần Thơ Phương pháp học định Decision Tree Đỗ Thanh Nghị dtnghi@cit.ctu.edu.vn Cần Thơ 02-12-2008 Nội dung Giới thiệu định Giải thuật học định Kết luận hướng phát triển Nội dung Giới thiệu định Giải thuật học định Kết luận hướng phát triển Giới thiệu định Giải thuật học định kết luận hướng phát triển Cây định lớp giải thuật học kết sinh dễ dịch (if … then …) đơn giản, nhanh, hiệu sử dụng nhiều liên tục nhiều năm qua, định bình chọn giải thuật sử dụng nhiều thành công giải vấn đề phân loại, hồi quy làm việc cho liệu số loại ứng dụng thành công hầu hết lãnh vực phân tích liệu, phân loại text, spam, phân loại gien, etc có nhiều giải thuật sẵn dùng : C4.5 (Quinlan, 1993), CART (Breiman et al., 1984), etc Kỹ thuật DM thành công ứng dụng thực (2004) Giới thiệu định Giải thuật học định kết luận hướng phát triển Nội dung Giới thiệu định Giải thuật học định Kết luận hướng phát triển Giới thiệu định Giải thuật học định kết luận hướng phát triển Giải thuật học định nút : test thuộc tính (biến) nhánh : trình bày cho liệu thỏa mãn test, ví dụ : age < 25 nút : lớp (nhãn) nút, thuộc tính chọn để phân hoạch liệu học cho tách rời lớp tốt liệu đến phân loại theo đường dẫn từ gốc đến nút Giới thiệu định Giải thuật học định kết luận hướng phát triển Dữ liệu weather, dựa thuộc tính (Outlook, Temp, Humidity, Windy), định (play/no) Outlook Temp Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Rainy Mild High True No Giới thiệu định Giải thuật học định kết luận hướng phát triển Cây định cho tập liệu weather, dựa thuộc tính (Outlook, Temp, Humidity, Windy) Outlook sunny rain overcast Humidity Yes Windy high normal true false No Yes No Yes Giới thiệu định Giải thuật học định kết luận hướng phát triển Giải thuật định xây dựng Top-down bắt đầu nút gốc, tất liệu học nút gốc phân hoạch liệu cách đệ quy việc chọn thuộc tính để thực phân hoạch tốt cắt nhánh Bottom-up cắt nhánh từ lên trên, để tránh học vẹt (overfitting, over learning) 10 Giới thiệu định Giải thuật học định kết luận hướng phát triển Giải thuật giải thuật ID3/C4.5 (Quinlan, 1993) sử dụng Gain ratio xử lý liệu số, loại, nhiễu CART (Breiman et al., 1984) sử dụng số Gini xử lý liệu số, loại, nhiễu 25 Giới thiệu định Giải thuật học định kết luận hướng phát triển Giải thuật C4.5, liệu kiểu số phân hoạch nhị phân ví dụ : temp < 45 không liệu loại, liệu kiểu số có nhiều nhánh phân hoạch phương pháp tính độ lợi thông tin cho giá trị phân nhánh thuộc tính chọn giá trị phân nhánh tốt 26 Giới thiệu định Giải thuật học định kết luận hướng phát triển Tập Weather, liệu kiểu số If If If If If Outlook Temperature Humidity Windy Play Sunny 85 85 False No Sunny 80 90 True No Overcast 83 86 False Yes Rainy 75 80 False Yes … … … … … outlook = sunny and humidity > 83 then play = no outlook = rainy and windy = true then play = no outlook = overcast then play = yes humidity < 85 then play = yes none of the above then play = yes 27 Giới thiệu định Giải thuật học định kết luận hướng phát triển Tập Weather, liệu kiểu số phân hoạch thuộc tính temperature 64 Yes 65 No 68 Yes 69 Yes 70 Yes 71 No 72 No 72 75 Yes Yes 75 Yes 80 No 81 Yes 83 85 Yes No ví dụ temperature 71.5: yes/4, no/2 temperature 71.5: yes/5, no/3 Info([4,2],[5,3]) = 6/14 info([4,2]) + 8/14 info([5,3]) = 0.939 bits điểm phân hoạch : tính tất với lần pass! cần xếp liệu 28 Giới thiệu định Giải thuật học định kết luận hướng phát triển Cải tiến cần tính entropy điểm thay đổi lớp (Fayyad & Irani, 1992) giá trị lớp 64 Yes 65 No 68 69 Yes Yes 70 Yes 71 No 72 No 72 75 Yes Yes 75 Yes 80 No 81 Yes 83 85 Yes No X điểm lớp điểm tối ưu 29 Giới thiệu định Giải thuật học định kết luận hướng phát triển Cắt nhánh mục tiêu : tránh học vẹt (overfitting), chịu đựng nhiễu, tăng độ xác phân loại tập test có pha postpruning – cắt nhánh cho tăng khả phân loại prepruning – dừng sớm trình phân nhánh thực tế, postpruning sử dụng nhiều prepruning 30 Giới thiệu định Giải thuật học định kết luận hướng phát triển Postpruning xây dựng đầy đủ cắt nhánh thay đưa lên có nhiều chiến lược ước lượng lỗi significance test 31 Giới thiệu định Giải thuật học định kết luận hướng phát triển Thay Bottom-up thay sau xét tất 32 Giới thiệu định Giải thuật học định kết luận hướng phát triển Thay thay nào? 33 Giới thiệu định Giải thuật học định kết luận hướng phát triển Thay 34 Giới thiệu định Giải thuật học định kết luận hướng phát triển Đưa lên X 35 Nội dung Giới thiệu định Giải thuật học định Kết luận hướng phát triển 36 Giới thiệu định Giải thuật học định kết luận hướng phát triển Kết luận định xây dựng top-down chọn thuộc tính để phân hoạch (độ lợi thông tin, entropy, số Gini, etc) cắt nhánh bottom-up dễ cài đặt, học nhanh, kết dễ hiểu sử dụng nhiều thành công ứng dụng thực 37 Giới thiệu định Giải thuật học định kết luận hướng phát triển Hướng phát triển phát triển tăng độ xác xử lý liệu không cân liệu phức tạp có số chiều lớn oblique tìm kiếm thơng tin (ranking) clustering 38 ... Giới thiệu định Giải thuật học định Kết luận hướng phát triển Nội dung Giới thiệu định Giải thuật học định Kết luận hướng phát triển Giới thiệu định Giải thuật học định kết luận... Giới thiệu định Giải thuật học định kết luận hướng phát triển Nội dung Giới thiệu định Giải thuật học định Kết luận hướng phát triển Giới thiệu định Giải thuật học định kết luận... định Giải thuật học định kết luận hướng phát triển Thay 34 Giới thiệu định Giải thuật học định kết luận hướng phát triển Đưa lên X 35 Nội dung Giới thiệu định Giải thuật học định Kết luận