Bài giảng Học máy - Bài 2: Học có giám sát cung cấp cho người học các kiến thức: Giải thuật phân lớp đơn giản, lựa chọn K, giải thuật học máy tốt nhất, chuẩn bị dữ liệu, giới thiệu về học có giám sát, phân lớp và hồi quy,... Mời các bạn cùng tham khảo.
Học có giám sát Nguyễn Thanh Tùng Khoa Cơng nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016 Bài giảng có sử dụng hình vẽ sách “An Introduction to Statistical Learning with Applications in R” với cho phép tác giả, có sử dụng slides khóa học CME250 ĐH Stanford IOM530 ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 Giải thuật phân lớp đơn giản (nhắc lại Bài 1) CSE 445: Học máy | Học kỳ 1, 2016-2017 K-Nearest Neighbor classifier (KNN) • Ý tưởng: phân lớp mẫu dựa “hàng xóm” mẫu biết nhãn CSE 445: Học máy | Học kỳ 1, 2016-2017 K-Nearest Neighbor classifier (KNN) • Bộ phân lớp: Chia khơng gian thuộc tính thành nhiều vùng – Mỗi vùng gắn với nhãn lớp (class label) – Ranh giới định chia tách vùng định • Các phương pháp phân lớp xây dựng mơ hình có dạng: CSE 445: Học máy | Học kỳ 1, 2016-2017 K-Nearest Neighbor classifier (KNN) • Bộ phân lớp KNN – Việc dự đoán lớp cho mẫu X lớp phổ biến K láng giềng gần (trong tập học) – Mơ hình phân lớp: CSE 445: Học máy | Học kỳ 1, 2016-2017 K-Nearest Neighbor classifier (KNN) Figure 2.14, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 Lựa chọn K (bộ phân lớp KNN) • K nhỏ – Ranh giới định linh hoạt hơn, nhiên dễ bị overfit • K lớn – Ranh giới định linh hoạt bị overfit • Overfitting: Cho kết tốt tập học tập thử nghiệm CSE 445: Học máy | Học kỳ 1, 2016-2017 Lựa chọn K (bộ phân lớp KNN) Figure 2.16, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 Lựa chọn K (bộ phân lớp KNN) Tại lỗi huấn luyện (trên liệu học) tăng K? Tại lỗi kiểm thử lại khác? Figure 2.17, ISL 2013 Tăng K, tăng linh hoạt CSE 445: Học máy | Học kỳ 1, 2016-2017 Lựa chọn K (bộ phân lớp KNN) Figure 2.15, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 10 Hồi quy Logistic (β O+ β X) = CSE 445: Học máy | Học kỳ 1, 2016-2017 1+ (β O + β X) 82 Hồi quy Logistic (β O+ β X) = CSE 445: Học máy | Học kỳ 1, 2016-2017 1+ (β O + β X) 83 Hồi quy Logistic • Các tham số mơ hình β0 β1 ước lượng từ liệu huấn luyện – Trong phương pháp hồi quy tuyến tính, ta sử dụng bình phương nhỏ • Tìm tham số mơ hình hồi quy Logistic sử dụng phương pháp Ước lượng hợp lý cực đại (maximum likelihood estimation) CSE 445: Học máy | Học kỳ 1, 2016-2017 84 Hồi quy Logistic đa biến • Ta mở rộng hồi quy logistic với trường hợp nhiều biến đầu vào: CSE 445: Học máy | Học kỳ 1, 2016-2017 85 Hồi quy Logistic • Ưu điểm: – Mở rộng hồi quy tuyến tính – Khơng cần siêu tham số điều chỉnh mơ hình • Nhược điểm: – Khơng thể mơ hình hóa tốn có hàm định dạng phức tạp – Có thể bị overfit liệu huấn luyện • Khắc phục cách điều chỉnh phương pháp hợp lý cực đại (maximum likelihood) – Chỉ giải dạng toán phân lớp nhị phân CSE 445: Học máy | Học kỳ 1, 2016-2017 86 Tóm tắt • Học có giám sát (Supervised learning) – học từ mẫu quan sát • Hồi quy tuyến tính (Linear regression) – đơn giản, mơ hình dễ diễn giải cho dự đốn biến đích dạng liên tục • Hồi quy Logistic – phương pháp hồi quy dung để dự đoán xác suất cho toán phân lớp nhị phân – Phương pháp hợp lý cực đại (Maximum likelihood): kỹ thuật ước lượng giá trị tham số CSE 445: Học máy | Học kỳ 1, 2016-2017 87 Câu hỏi? CSE 445: Học máy | Học kỳ 1, 2016-2017 88 CSE 445: Học máy | Học kỳ 1, 2016-2017 89 Maximum Likelihood • Idea: choose the most likely value of parameter given the available observations • Consider the following example – We have a distribution with parameter θ – We want to estimate θ based on training data using maximum likelihood estimation CSE 445: Học máy | Học kỳ 1, 2016-2017 90 Maximum Likelihood • For fixed θ = α, we can find the probability density corresponding to a single observation x(1): p(x(1); θ = α) p(x; θ = α) p(x(1); θ = α) x(1) CSE 445: Học máy | Học kỳ 1, 2016-2017 91 Maximum Likelihood • The likelihood for a set of training observations is the product of the individual densities (fixed θ) p(x; θ = α) x CSE 445: Học máy | Học kỳ 1, 2016-2017 92 Maximum Likelihood • If the value of θ is not fixed, but the set of training observations is fixed, the likelihood will change as θ changes p(x; θ = β) x CSE 445: Học máy | Học kỳ 1, 2016-2017 93 Maximum Likelihood • If the value of θ is not fixed, but the set of training observations is fixed, the likelihood will change as θ changes p(x; θ = γ) x CSE 445: Học máy | Học kỳ 1, 2016-2017 94 Maximum Likelihood • We can plot the likelihood value (y-axis) against the parameter value θ (xaxis) for a fixed training set • The maximum likelihood estimator ( ˆ)for θ is the parameter values that corresponds to the highest likelihood L(θˆ; x(1), …, x(7)) θ=β ˆ =α θ=γ CSE 445: Học máy | Học kỳ 1, 2016-2017 95 Maximum Likelihood • Maximum likelihood estimation can be used to estimate multiple parameters • Likelihood function for logistic regression: – Fit parameters training set O and by maximizing this function using the CSE 445: Học máy | Học kỳ 1, 2016-2017 96 ... 445: Học máy | Học kỳ 1, 20 16 -2 0 17 18 Dữ liệu học Class “A” Class “B” ? CSE 445: Học máy | Học kỳ 1, 20 16 -2 0 17 19 Dữ liệu học Figure 2. 2 , ISL 20 13 CSE 445: Học máy | Học kỳ 1, 20 16 -2 0 17 20 Học. .. 445: Học máy | Học kỳ 1, 20 16 -2 0 17 34 Trade-off: Độ lệch vs Phương sai CSE 445: Học máy | Học kỳ 1, 20 16 -2 0 17 35 Trade-off: Độ lệch vs Phương sai CSE 445: Học máy | Học kỳ 1, 20 16 -2 0 17 36 Trade-off:... kiểm thử MSE tăng CSE 445: Học máy | Học kỳ 1, 20 16 -2 0 17 38 Trade-off: Độ lệch vs Phương sai Figures 2. 9, 2. 12, ISL 20 13 CSE 445: Học máy | Học kỳ 1, 20 16 -2 0 17 39 Trade-off: Độ lệch vs Phương sai