1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Học máy: Bài 5 - Nguyễn Hoàng Long

68 42 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Bài giảng Học máy - Bài 5: Cây phân loại và hồi quy cung cấp cho người học các kiến thức: Các giải thuật học máy, cây quyết định, biểu diễn cây quyết định, tập luật từ cây quyết định,... Mời các bạn cùng tham khảo nội dung chi tiết.

Cây phân loại hồi quy Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website mơn học: https://sites.google.com/a/wru.vn/cse445fall2016 Bài giảng có sử dụng hình vẽ sách “An Introduction to Statistical Learning with Applications in R” với cho phép tác giả, có sử dụng slides khóa học CME250 ĐH Stanford IOM530 ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 Các giải thuật Học máy Yes Do you have labeled data? No Supervised Unsupervised What you want to predict? Do you want to group the data? Category Classification Quantity Cluster Analysis Regression No Dimensionality Reduction LASSO KNN Logistic Regression Yes ICA Linear Regression Hierarchical Clustering K means CSE 445: Học máy | Học kỳ 1, 2016-2017 PCA NMF SOM Các giải thuật Học máy Yes Do you have labeled data? No Supervised Unsupervised What you want to predict? Do you want to group the data? Category Quantity Classification KNN Logistic Regression Yes Cluster Analysis Regression CART No Dimensionality Reduction LASSO PCA ICA Linear Regression Hierarchical Clustering K means CSE 445: Học máy | Học kỳ 1, 2016-2017 NMF SOM Cây định (Decision tree) CSE 445: Học máy | Học kỳ 1, 2016-2017 Cây định gì? • Học định (Decision tree –DT– learning) • • Để học (xấp xỉ) hàm mục tiêu có giá trị rời rạc (discrete- valued target function) – hàm phân lớp Hàm phân lớp biểu diễn định • Một định biểu diễn (diễn giải) tập luật IF-THEN (dễ đọc dễ hiểu) • Học định thực với liệu có chứa nhiễu/lỗi (noisy data) • Được áp dụng thành cơng nhiều tốn ứng dụng thực tế nguồn: Nguyễn Nhật Quang-Học máy CSE 445: Học máy | Học kỳ 1, 2016-2017 Cây định gì? “sport”? is present is absent “player”? is present Interested is absent Uninterested “football”? is absent is present “goal”? Interested is absent is present Ví dụ DT: Những tin tức mà tơi quan tâm? Interested • (…,“sport”,…,“player”,…) → Interested • (…,“goal”,…) → Interested • (…,“sport”,…) → Uninterested Uninterested nguồn: Nguyễn Nhật Quang-Học máy CSE 445: Học máy | Học kỳ 1, 2016-2017 Cây định gì? Outlook=? Sunny Rain Overcast Humidity=? Windy=? Yes High Normal No Yes True No False Yes • (Outlook=Overcast, Temperature=Hot, Humidity=High, Windy=False) → Yes • (Outlook=Rain, Temperature=Mild, Humidity=High, Windy=True) → No • (Outlook=Sunny, Temperature=Hot, Humidity=High, Windy=True) → No Ví dụ DT: Một người có chơi tennis khơng? CSE 445: Học máy | Học kỳ 1, 2016-2017 Cây định gì? Hastie, Trevor, et al The elements of statistical learning Vol No New York: Springer, 2009 CSE 445: Học máy | Học kỳ 1, 2016-2017 Cây định gì? Hastie, Trevor, et al The elements of statistical learning Vol No New York: Springer, 2009 CSE 445: Học máy | Học kỳ 1, 2016-2017 Cây định gì? ĐÚNG SAI Hastie, Trevor, et al The elements of statistical learning Vol No New York: Springer, 2009 CSE 445: Học máy | Học kỳ 1, 2016-2017 10 Tách biến X • Khi ta tạo vùng theo phương pháp này, ta biểu diễn chúng dùng cấu trúc • Phương pháp dễ diễn giải mơ hình dự đốn, dễ diễn giải kết CSE 445: Học máy | Học kỳ 1, 2016-2017 54 Giải thuật tham lam: hồi quy • Tìm thuộc tính tách điểm tách mà cực tiểu lỗi dự đốn CSE 445: Học máy | Học kỳ 1, 2016-2017 55 Cây phân lớp CSE 445: Học máy | Học kỳ 1, 2016-2017 56 Giải thuật tham lam: phân lớp • Nhiều độ đo cho lỗi dự đoán (độ hỗn tạp nút-node impurity) Hastie, Trevor, et al The elements of statistical learning Vol No New York: Springer, 2009 CSE 445: Học máy | Học kỳ 1, 2016-2017 57 Giải thuật tham lam: phân lớp • Nhiều độ đo cho lỗi dự đốn (độ hỗn tạp nút-node impurity) Hastie, Trevor, et al The elements of statistical learning Vol No New York: Springer, 2009 CSE 445: Học máy | Học kỳ 1, 2016-2017 58 Độ hỗn tạp nút phân lớp Classification node impurity Hastie, Trevor, et al The elements of statistical learning Vol No New York: Springer, 2009 CSE 445: Học máy | Học kỳ 1, 2016-2017 59 Ưu điểm CART • Dễ xử lý liệu thiếu (surrogate splits) • Mạnh xử lý liệu chứa thơng tin rác (non-informative data) • Cho phép tự động lựa chọn thuộc tính (variable selection) • Dễ giải thích, lý tưởng để giải thích “tại sao” người định • Xử lý tính tương tác cao thuộc tính CSE 445: Học máy | Học kỳ 1, 2016-2017 60 Ưu điểm CART Dễ giải thích, lý tưởng để lý giải “tại sao” cho người định CSE 445: Học máy | Học kỳ 1, 2016-2017 61 Ưu điểm CART Xử lý tính tương tác cao thuộc tính Y = β + β1 x + β2 x … Y = β0 + β1 x1 + β2 x2 + θ1 x1 x2 + θ2 x1 x3 + θ3 x2 x3 + λ1 x1 x2 x3 … Y = 3.5 if ((1

Ngày đăng: 15/05/2020, 22:28

Xem thêm:

TỪ KHÓA LIÊN QUAN