Bài giảng Học máy - Bài 6: Các phương pháp học máy kết hợp cung cấp cho người học các kiến thức: Bootstrap là gì, các phương pháp kết hợp enemble methods, phương páp kết hợp boosting, độ sâu của từng cây,... Mời các bạn cùng thâm khảo nội dung chi tiết.
Các phương pháp học máy kết hợp Boosting, Bagging, Random Forests Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016 Bài giảng có sử dụng hình vẽ sách “An Introduction to Statistical Learning with Applications in R” với cho phép tác giả, có sử dụng slides khóa học CME250 ĐH Stanford IOM530 ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 Bootstrap gì? • Giả sử ta có bóng gắn nhãn A,B,C,D, E bỏ tất chúng vào giỏ • Lấy ngẫu nhiên từ giỏ ghi lại nhãn, sau bỏ lại bóng vừa bốc vào giỏ • Tiếp tục lấy ngẫu nhiên bóng lặp lại q trình việc lấy mẫu kết thúc Việc lấy mẫu gọi lấy mẫu có hồn lại • Kết việc lấy mẫu sau (giả sử kích thước mẫu 10): C, D, E, E, A, B, C, B, A, E Nguồn: bis.net.vn/forums CSE 445: Học máy | Học kỳ 1, 2016-2017 Bootstrap gì? • Bootstrap phương pháp lấy mẫu có hồn lại (sampling with replacement)-> mẫu xuất nhiều lần lần lấy mẫu CSE 445: Học máy | Học kỳ 1, 2016-2017 Bootstrap gì? • Là kỹ thuật quan trọng thống kê • Lấy mẫu có hồn lại từ tập liệu ban đầu để tạo tập liệu CSE 445: Học máy | Học kỳ 1, 2016-2017 Các phương pháp kết hợp Ensemble Methods CSE 445: Học máy | Học kỳ 1, 2016-2017 Sức mạnh phân lớp yếu Condorcet’s Jury Theorem – Nếu p lớn 1/2 (mỗi cử tri bỏ phiếu mong muốn họ), thêm nhiều cử tri tăng xác suất theo định số đông xác Trong giới hạn, xác suất bầu chọn theo số đông tiến đến số cử tri tăng lên CSE 445: Học máy | Học kỳ 1, 2016-2017 Sức mạnh phân lớp yếu Condorcet’s Jury Theorem – Nếu p lớn 1/2 (mỗi cử tri bỏ phiếu mong muốn họ), thêm nhiều cử tri tăng xác suất theo định số đơng xác Trong giới hạn, xác suất bầu chọn theo số đông tiến đến số cử tri tăng lên CSE 445: Học máy | Học kỳ 1, 2016-2017 Sức mạnh phân lớp yếu • Việc lấy trung bình làm giảm phương sai không làm tăng bias (bias giữ nguyên) Var[Ȳ] = σ2/n CSE 445: Học máy | Học kỳ 1, 2016-2017 Sức mạnh phân lớp yếu • Việc lấy trung bình làm giảm phương sai không làm tăng bias (bias giữ nguyên) Var[Ȳ] = σ2/n • Các phiếu bầu phân lớp tương quan không trợ giúp nhiều CSE 445: Học máy | Học kỳ 1, 2016-2017 Sức mạnh phân lớp yếu • Việc lấy trung bình làm giảm phương sai khơng làm tăng bias (bias giữ nguyên) Var[Ȳ] = σ2/n • Các phiếu bầu phân lớp tương quan không trợ giúp nhiều Var[Ȳ] = σ2/n + (ρσ2)(n-1)/n CSE 445: Học máy | Học kỳ 1, 2016-2017 10 Các tham số Các tham số quan trọng Rừng ngẫu nhiên: • Số lượng biến khả tách nút ( ) • Độ sâu rừng (số lượng mẫu tối thiểu nút cây-minimum node size) • Số lượng rừng CSE 445: Học máy | Học kỳ 1, 2016-2017 39 Số lượng biến khả tách Giá trị mặc định Bài toán phân lớp = Bài toán hồi quy = gói randomForest R dùng mtry CSE 445: Học máy | Học kỳ 1, 2016-2017 40 Độ sâu (số lượng mẫu tối thiểu nút cây) Hastie, Trevor, et al The elements of statistical learning Vol No New York: Springer, 2009 CSE 445: Học máy | Học kỳ 1, 2016-2017 41 Độ sâu Giá trị mặc định Bài toán phân lớp Bài toán hồi quy CSE 445: Học máy | Học kỳ 1, 2016-2017 42 Số lượng rừng Hastie, Trevor, et al The elements of statistical learning Vol No New York: Springer, 2009 • Thêm nhiều không gây overfitting CSE 445: Học máy | Học kỳ 1, 2016-2017 43 Các tính khác RF • Các mẫu Out-of-bag (OOB) • Độ quan trọng biến (Variable importance measurements) CSE 445: Học máy | Học kỳ 1, 2016-2017 44 Độ quan trọng biến Dạng 1: Độ giảm lỗi dự đoán impurity từ điểm tách nút liên quan đến biến đó, cuối lấy trung bình rừng CSE 445: Học máy | Học kỳ 1, 2016-2017 45 Độ quan trọng biến Dạng 2: Độ tăng lỗi dự đoán tổng thể giá trị biến hoán vị ngẫu nhiên mẫu CSE 445: Học máy | Học kỳ 1, 2016-2017 46 Ví dụ độ quan trọng biến • Cả dạng biểu thị gần giống nhau, nhiên có khác biệt xếp hạng biến: Dạng Dạng Hastie, Trevor, et al The elements of statistical learning Vol No New York: Springer, 2009 CSE 445: Học máy | Học kỳ 1, 2016-2017 47 Ưu điểm RF Tương tự CART: • Tương đối mạnh việc xử lý biến rác (non-informative variable) (Việc lựa chọn biến tích hợp sẵn xây dựng mơ hình, built-in variable selection) CSE 445: Học máy | Học kỳ 1, 2016-2017 48 Ảnh hưởng biến rác Hastie, Trevor, et al The elements of statistical learning Vol No New York: Springer, 2009 CSE 445: Học máy | Học kỳ 1, 2016-2017 49 Ưu điểm RF Tương tự CART: • Tương đối mạnh việc xử lý biến rác (non-informative variable) • Xử lý (nắm bắt) độ tương tác bậc cao biến (Capture high-order interactions between variables) • Có lỗi bias thấp • Dễ xử lý biến hỗn hợp (biến rời rạc, phân loại) CSE 445: Học máy | Học kỳ 1, 2016-2017 50 Ưu điểm RF Ưu điểm vượt trội CART: • Lỗi phương sai thấp (mạnh sử dụng phương pháp bootstrapping lấy mẫu từ tập huấn luyện) • Ít bị overfitting • Khơng cần tỉa (No need for pruning) • Kiểm tra chéo tích hợp sẵn mơ hình (dùng mẫu OOB) CSE 445: Học máy | Học kỳ 1, 2016-2017 51 Nhược điểm RF Tương tự CART: • Khó nắm bắt độ cộng tính Nhược điểm so với CART: • Khó diễn giải/giải thích mơ hình dự đốn CSE 445: Học máy | Học kỳ 1, 2016-2017 52 Câu hỏi? CSE 445: Học máy | Học kỳ 1, 2016-2017 53 ... lỗi học, λ CSE 445: Học máy | Học kỳ 1, 20 1 6- 2017 26 Boosting AdaBoost with trees has been called the “best off-the-shelf classifier in the world” -Leo Breiman CSE 445: Học máy | Học kỳ 1, 20 1 6- 2017... xấp xỉ 63 .2% số lượng mẫu tập liệu ban đầu Số lượng mẫu lại ( 36. 8%) dùng để kiểm thử CSE 445: Học máy | Học kỳ 1, 20 1 6- 2017 19 Bagging CSE 445: Học máy | Học kỳ 1, 20 1 6- 2017 20 Bonus! Out-of-bag... (ρσ2)(n-1)/n CSE 445: Học máy | Học kỳ 1, 20 1 6- 2017 10 Kết hợp phân lớp α×{CART}+ (1−α)×{LinearModel} CSE 445: Học máy | Học kỳ 1, 20 1 6- 2017 11 Các phương pháp kết hợp: Bagging CSE 445: Học máy | Học