Học Máy (IT4862) Nhập môn Học máy và Khai phá dữ liệu (IT3190) Nguyễn Nhật Quang quang nguyennhat@hust edu vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2020 2021[.]
Nhập môn Học máy Khai phá liệu (IT3190) Nguyễn Nhật Quang quang.nguyennhat@hust.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin truyền thông Năm học 2020-2021 Nội dung môn học: ◼ Giới thiệu Học máy Khai phá liệu ◼ Tiền xử lý liệu ◼ Đánh giá hiệu hệ thống ◼ Hồi quy ◼ Phân lớp ❑ Các phương pháp học dựa xác suất (Probabilistic learning) ◼ Phân cụm ◼ Phát luật kết hợp Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Các phương pháp học dựa xác suất ◼ Các phương pháp thống kê cho toán phân loại ◼ Phân loại dựa mơ hình xác suất sở ◼ Việc phân loại dựa khả xảy (probabilities) phân lớp ◼ Các chủ đề chính: • Giới thiệu xác suất • Định lý Bayes • Xác suất hậu nghiệm cực đại (Maximum a posteriori) • Đánh giá khả (Maximum likelihood estimation) • Phân loại Nạve Bayes Nhập mơn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Các khái niệm xác suất ◼ ◼ Giả sử có thí nghiệm (ví dụ: đổ quân xúc sắc) mà kết mang tính ngẫu nhiên (phụ thuộc vào khả xảy ra) Không gian khả S Tập hợp tất kết xảy Ví dụ: S= {1,2,3,4,5,6} thí nghiệm đổ quân xúc sắc ◼ Sự kiện E Một tập khơng gian khả Ví dụ: E= {1}: kết quân súc xắc đổ Ví dụ: E= {1,3,5}: kết quân súc xắc đổ số lẻ ◼ Không gian kiện W Không gian (thế giới) mà kết kiện xảy Ví dụ: W bao gồm tất lần đổ súc xắc ◼ Biến ngẫu nhiên A Một biến ngẫu nhiên biểu diễn (diễn đạt) kiện, có mức độ khả xảy kiện Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Biểu diễn xác suất P(A): “Phần khơng gian (thế giới) mà A đúng” Không gian kiện (không gian tất giá trị xảy A) Khơng gian mà A Khơng gian mà A sai [http://www.cs.cmu.edu/~awm/tutorials] Nhập mơn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Các biến ngẫu nhiên giá trị ◼ Một biến ngẫu nhiên giá trị (nhị phân) nhận giá trị (true) sai (false) ◼ Các tiên đề • P(A) • P(true)= • P(false)= • P(A V B)= P(A) + P(B) - P(A B) ◼ Các hệ • P(not A) P(~A)= - P(A) • P(A)= P(A B) + P(A ~B) Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Các biến ngẫu nhiên đa trị Một biến ngẫu nhiên nhiều giá trị nhận số k (>2) giá trị {v1,v2,…,vk} P( A = vi A = v j ) = if i j P(A=v1 V A=v2 V V A=vk) = i P( A = v1 A = v2 A = vi ) = P( A = v j ) k P( A = v ) = j =1 j =1 j i P(B A = v1 A = v2 A = vi ) = P( B A = v j ) [http://www.cs.cmu.edu/~awm/tutorials] Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining j =1 Xác suất có điều kiện (1) ◼ P(A|B) phần không gian (thế giới) mà A đúng, với điều kiện (đã biết) B ◼ Ví dụ • A: Tơi đá bóng vào ngày mai • B: Trời khơng mưa vào ngày mai • P(A|B): Xác suất việc tơi đá bóng vào ngày mai (đã biết rằng) trời không mưa (vào ngày mai) Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Xác suất có điều kiện (2) Định nghĩa: P( A | B) = P ( A, B ) P( B) Không gian mà B Các hệ quả: P(A,B)=P(A|B).P(B) P(A|B)+P(~A|B)=1 k P( A = v | B) = i =1 Khơng gian mà A i Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Các biến độc lập xác suất (1) ◼ Hai kiện A B gọi độc lập xác suất xác suất kiện A trường hợp: • Khi kiện B xảy ra, • Khi kiện B khơng xảy ra, • Khơng có thơng tin (khơng biết gì) việc xảy kiện B ◼ Ví dụ •A: Tơi đá bóng vào ngày mai •B: Tuấn tham gia trận đá bóng ngày mai •P(A|B) = P(A) → “Dù Tuấn có tham gia trận đá bóng ngày mai hay khơng khơng ảnh hưởng tới định việc đá bóng ngày mai.” Nhập mơn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 10 Xác suất hậu nghiệm cựu đại (MAP) ◼ Với tập giả thiết (các phân lớp) H, hệ thống học tìm giả thiết xảy (the most probable hypothesis) h(H) liệu quan sát D ◼ Giả thiết h gọi giả thiết có xác suất hậu nghiệm cực đại (Maximum a posteriori – MAP) hMAP = arg max P(h | D) hH hMAP P ( D | h).P(h) = arg max P( D) hH hMAP = arg max P( D | h).P(h) hH (bởi định lý Bayes) (P(D) giả thiết h) Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 18 MAP – Ví dụ ◼ Tập H bao gồm giả thiết (có thể) • h1: Anh ta chơi tennis • h2: Anh ta khơng chơi tennis ◼ Tính giá trị xác xuất có điều kiện: P(h1|D), P(h2|D) ◼ Giả thiết hMAP=h1 P(h1|D) ≥ P(h2|D); ngược lại hMAP=h2 ◼ Bởi P(D)=P(D,h1)+P(D,h2) giả thiết h1 h2, nên bỏ qua đại lượng P(D) ◼ Vì vậy, cần tính biểu thức: P(D|h1).P(h1) P(D|h2).P(h2), đưa định tương ứng • Nếu P(D|h1).P(h1) ≥ P(D|h2).P(h2), kết luận chơi tennis • Ngược lại, kết luận không chơi tennis Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 19 Đánh giá khả (MLE) ◼ Phương pháp MAP: Với tập giả thiết H, cần tìm giả thiết cực đại hóa giá trị: P(D|h).P(h) ◼ Giả sử (assumption) phương pháp đánh giá khả (Maximum likelihood estimation – MLE): Tất giả thiết có giá trị xác suất trước nhau: P(hi)=P(hj), hi,hjH ◼ Phương pháp MLE tìm giả thiết cực đại hóa giá trị P(D|h); P(D|h) gọi khả (likelihood) liệu D h ◼ Giả thiết có khả (maximum likelihood hypothesis) hML = arg max P( D | h) hH Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 20 ...Nội dung môn học: ◼ Giới thiệu Học máy Khai phá liệu ◼ Tiền xử lý liệu ◼ Đánh giá hiệu hệ thống ◼ Hồi quy ◼ Phân lớp ❑ Các phương pháp học dựa xác suất (Probabilistic learning)... (Probabilistic learning) ◼ Phân cụm ◼ Phát luật kết hợp Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Các phương pháp học dựa xác suất ◼ Các phương pháp thống kê cho toán... probability) này! Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 17 Xác suất hậu nghiệm cựu đại (MAP) ◼ Với tập giả thiết (các phân lớp) H, hệ thống học tìm giả thiết