1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Khai mở dữ liệu: Phương pháp học cây quyết định (Decision Tree)

39 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Bài giảng Khai mở dữ liệu: Phương pháp học cây quyết định (Decision Tree) giới thiệu về cây quyết định, giải thuật học của cây quyết định, kết luận và hướng phát triển. Mời các bạn tham khảo bài giảng để hiểu rõ hơn về điều này.

Khoa Công Nghệ Thông Tin Trường Đại Học Cần Thơ Phương pháp học định Decision Tree Đỗ Thanh Nghị dtnghi@cit.ctu.edu.vn Cần Thơ 02-12-2008 Nội dung Giới thiệu định  Giải thuật học định  Kết luận hướng phát triển  Nội dung Giới thiệu định  Giải thuật học định  Kết luận hướng phát triển     Giới thiệu định Giải thuật học định kết luận hướng phát triển Cây định  lớp giải thuật học        kết sinh dễ dịch (if … then …) đơn giản, nhanh, hiệu sử dụng nhiều liên tục nhiều năm qua, định bình chọn giải thuật sử dụng nhiều thành công giải vấn đề phân loại, hồi quy làm việc cho liệu số loại ứng dụng thành công hầu hết lãnh vực phân tích liệu, phân loại text, spam, phân loại gien, etc có nhiều giải thuật sẵn dùng : C4.5 (Quinlan, 1993), CART (Breiman et al., 1984), etc   Kỹ thuật DM thành công ứng dụng thực (2004)  Giới thiệu định Giải thuật học định kết luận hướng phát triển Nội dung Giới thiệu định  Giải thuật học định  Kết luận hướng phát triển     Giới thiệu định Giải thuật học định kết luận hướng phát triển Giải thuật học định      nút : test thuộc tính (biến) nhánh : trình bày cho liệu thỏa mãn test, ví dụ : age < 25 nút : lớp (nhãn) nút, thuộc tính chọn để phân hoạch liệu học cho tách rời lớp tốt liệu đến phân loại theo đường dẫn từ gốc đến nút  Giới thiệu định Giải thuật học định kết luận hướng phát triển Dữ liệu weather, dựa thuộc tính (Outlook, Temp, Humidity, Windy), định (play/no)   Outlook Temp Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Rainy Mild High True No  Giới thiệu định Giải thuật học định kết luận hướng phát triển Cây định cho tập liệu weather, dựa thuộc tính (Outlook, Temp, Humidity, Windy)   Outlook sunny rain overcast Humidity Yes Windy high normal true false No Yes No Yes    Giới thiệu định Giải thuật học định kết luận hướng phát triển Giải thuật định   xây dựng Top-down  bắt đầu nút gốc, tất liệu học nút gốc  phân hoạch liệu cách đệ quy việc chọn thuộc tính để thực phân hoạch tốt cắt nhánh Bottom-up  cắt nhánh từ lên trên, để tránh học vẹt (overfitting, over learning) 10    Giới thiệu định Giải thuật học định kết luận hướng phát triển Giải thuật   giải thuật ID3/C4.5 (Quinlan, 1993)  sử dụng Gain ratio  xử lý liệu số, loại, nhiễu CART (Breiman et al., 1984)  sử dụng số Gini  xử lý liệu số, loại, nhiễu 25    Giới thiệu định Giải thuật học định kết luận hướng phát triển Giải thuật C4.5, liệu kiểu số    phân hoạch nhị phân  ví dụ : temp < 45 không liệu loại, liệu kiểu số có nhiều nhánh phân hoạch phương pháp  tính độ lợi thông tin cho giá trị phân nhánh thuộc tính  chọn giá trị phân nhánh tốt 26    Giới thiệu định Giải thuật học định kết luận hướng phát triển Tập Weather, liệu kiểu số If If If If If Outlook Temperature Humidity Windy Play Sunny 85 85 False No Sunny 80 90 True No Overcast 83 86 False Yes Rainy 75 80 False Yes … … … … … outlook = sunny and humidity > 83 then play = no outlook = rainy and windy = true then play = no outlook = overcast then play = yes humidity < 85 then play = yes none of the above then play = yes 27    Giới thiệu định Giải thuật học định kết luận hướng phát triển Tập Weather, liệu kiểu số  phân hoạch thuộc tính temperature 64 Yes  65 No 68 Yes 69 Yes 70 Yes 71 No 72 No 72 75 Yes Yes 75 Yes 80 No 81 Yes 83 85 Yes No ví dụ temperature  71.5: yes/4, no/2 temperature  71.5: yes/5, no/3 Info([4,2],[5,3]) = 6/14 info([4,2]) + 8/14 info([5,3]) = 0.939 bits điểm phân hoạch : tính tất với lần pass! cần xếp liệu     28    Giới thiệu định Giải thuật học định kết luận hướng phát triển Cải tiến  cần tính entropy điểm thay đổi lớp (Fayyad & Irani, 1992) giá trị lớp 64 Yes 65 No 68 69 Yes Yes 70 Yes 71 No 72 No 72 75 Yes Yes 75 Yes 80 No 81 Yes 83 85 Yes No X điểm lớp điểm tối ưu 29    Giới thiệu định Giải thuật học định kết luận hướng phát triển Cắt nhánh    mục tiêu : tránh học vẹt (overfitting), chịu đựng nhiễu, tăng độ xác phân loại tập test có pha  postpruning – cắt nhánh cho tăng khả phân loại  prepruning – dừng sớm trình phân nhánh thực tế, postpruning sử dụng nhiều prepruning 30    Giới thiệu định Giải thuật học định kết luận hướng phát triển Postpruning    xây dựng đầy đủ cắt nhánh  thay  đưa lên có nhiều chiến lược  ước lượng lỗi  significance test 31    Giới thiệu định Giải thuật học định kết luận hướng phát triển Thay   Bottom-up thay sau xét tất 32    Giới thiệu định Giải thuật học định kết luận hướng phát triển Thay  thay nào? 33    Giới thiệu định Giải thuật học định kết luận hướng phát triển Thay 34    Giới thiệu định Giải thuật học định kết luận hướng phát triển Đưa lên X 35 Nội dung Giới thiệu định  Giải thuật học định  Kết luận hướng phát triển  36    Giới thiệu định Giải thuật học định kết luận hướng phát triển Kết luận  định      xây dựng top-down chọn thuộc tính để phân hoạch (độ lợi thông tin, entropy, số Gini, etc) cắt nhánh bottom-up dễ cài đặt, học nhanh, kết dễ hiểu sử dụng nhiều thành công ứng dụng thực 37    Giới thiệu định Giải thuật học định kết luận hướng phát triển Hướng phát triển  phát triển       tăng độ xác xử lý liệu không cân liệu phức tạp có số chiều lớn oblique tìm kiếm thơng tin (ranking) clustering 38 ... Giới thiệu định  Giải thuật học định  Kết luận hướng phát triển  Nội dung Giới thiệu định  Giải thuật học định  Kết luận hướng phát triển     Giới thiệu định Giải thuật học định kết luận...  Giới thiệu định Giải thuật học định kết luận hướng phát triển Nội dung Giới thiệu định  Giải thuật học định  Kết luận hướng phát triển     Giới thiệu định Giải thuật học định kết luận... định Giải thuật học định kết luận hướng phát triển Thay 34    Giới thiệu định Giải thuật học định kết luận hướng phát triển Đưa lên X 35 Nội dung Giới thiệu định  Giải thuật học định  Kết luận

Ngày đăng: 10/05/2021, 08:33

Xem thêm:

TỪ KHÓA LIÊN QUAN

w