Học Máy (IT4862)

32 3 0
Tài liệu đã được kiểm tra trùng lặp
Học Máy (IT4862)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Học Máy (IT4862) Nhập môn Học máy và Khai phá dữ liệu (IT3190) Nguyễn Nhật Quang quang nguyennhat@hust edu vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2020 2021[.]

Nhập môn Học máy Khai phá liệu (IT3190) Nguyễn Nhật Quang quang.nguyennhat@hust.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin truyền thông Năm học 2020-2021 Nội dung môn học: ◼ Giới thiệu Học máy Khai phá liệu ◼ Tiền xử lý liệu ◼ Đánh giá hiệu hệ thống ◼ Hồi quy ◼ Phân lớp ❑ Các phương pháp học dựa xác suất (Probabilistic learning) ◼ Phân cụm ◼ Phát luật kết hợp Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Các phương pháp học dựa xác suất ◼ Các phương pháp thống kê cho toán phân loại ◼ Phân loại dựa mơ hình xác suất sở ◼ Việc phân loại dựa khả xảy (probabilities) phân lớp ◼ Các chủ đề chính: • Giới thiệu xác suất • Định lý Bayes • Xác suất hậu nghiệm cực đại (Maximum a posteriori) • Đánh giá khả (Maximum likelihood estimation) • Phân loại Nạve Bayes Nhập mơn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Các khái niệm xác suất ◼ ◼ Giả sử có thí nghiệm (ví dụ: đổ quân xúc sắc) mà kết mang tính ngẫu nhiên (phụ thuộc vào khả xảy ra) Không gian khả S Tập hợp tất kết xảy Ví dụ: S= {1,2,3,4,5,6} thí nghiệm đổ quân xúc sắc ◼ Sự kiện E Một tập khơng gian khả Ví dụ: E= {1}: kết quân súc xắc đổ Ví dụ: E= {1,3,5}: kết quân súc xắc đổ số lẻ ◼ Không gian kiện W Không gian (thế giới) mà kết kiện xảy Ví dụ: W bao gồm tất lần đổ súc xắc ◼ Biến ngẫu nhiên A Một biến ngẫu nhiên biểu diễn (diễn đạt) kiện, có mức độ khả xảy kiện Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Biểu diễn xác suất P(A): “Phần khơng gian (thế giới) mà A đúng” Không gian kiện (không gian tất giá trị xảy A) Khơng gian mà A Khơng gian mà A sai [http://www.cs.cmu.edu/~awm/tutorials] Nhập mơn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Các biến ngẫu nhiên giá trị ◼ Một biến ngẫu nhiên giá trị (nhị phân) nhận giá trị (true) sai (false) ◼ Các tiên đề •  P(A)  • P(true)= • P(false)= • P(A V B)= P(A) + P(B) - P(A  B) ◼ Các hệ • P(not A) P(~A)= - P(A) • P(A)= P(A  B) + P(A  ~B) Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Các biến ngẫu nhiên đa trị Một biến ngẫu nhiên nhiều giá trị nhận số k (>2) giá trị {v1,v2,…,vk} P( A = vi  A = v j ) = if i  j P(A=v1 V A=v2 V V A=vk) = i P( A = v1  A = v2   A = vi ) =  P( A = v j ) k  P( A = v ) = j =1 j =1 j i P(B  A = v1  A = v2   A = vi ) =  P( B  A = v j ) [http://www.cs.cmu.edu/~awm/tutorials] Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining j =1 Xác suất có điều kiện (1) ◼ P(A|B) phần không gian (thế giới) mà A đúng, với điều kiện (đã biết) B ◼ Ví dụ • A: Tơi đá bóng vào ngày mai • B: Trời khơng mưa vào ngày mai • P(A|B): Xác suất việc tơi đá bóng vào ngày mai (đã biết rằng) trời không mưa (vào ngày mai) Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Xác suất có điều kiện (2) Định nghĩa: P( A | B) = P ( A, B ) P( B) Không gian mà B Các hệ quả: P(A,B)=P(A|B).P(B) P(A|B)+P(~A|B)=1 k  P( A = v | B) = i =1 Khơng gian mà A i Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Các biến độc lập xác suất (1) ◼ Hai kiện A B gọi độc lập xác suất xác suất kiện A trường hợp: • Khi kiện B xảy ra, • Khi kiện B khơng xảy ra, • Khơng có thơng tin (khơng biết gì) việc xảy kiện B ◼ Ví dụ •A: Tơi đá bóng vào ngày mai •B: Tuấn tham gia trận đá bóng ngày mai •P(A|B) = P(A) → “Dù Tuấn có tham gia trận đá bóng ngày mai hay khơng khơng ảnh hưởng tới định việc đá bóng ngày mai.” Nhập mơn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 10 Xác suất hậu nghiệm cựu đại (MAP) ◼ Với tập giả thiết (các phân lớp) H, hệ thống học tìm giả thiết xảy (the most probable hypothesis) h(H) liệu quan sát D ◼ Giả thiết h gọi giả thiết có xác suất hậu nghiệm cực đại (Maximum a posteriori – MAP) hMAP = arg max P(h | D) hH hMAP P ( D | h).P(h) = arg max P( D) hH hMAP = arg max P( D | h).P(h) hH (bởi định lý Bayes) (P(D) giả thiết h) Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 18 MAP – Ví dụ ◼ Tập H bao gồm giả thiết (có thể) • h1: Anh ta chơi tennis • h2: Anh ta khơng chơi tennis ◼ Tính giá trị xác xuất có điều kiện: P(h1|D), P(h2|D) ◼ Giả thiết hMAP=h1 P(h1|D) ≥ P(h2|D); ngược lại hMAP=h2 ◼ Bởi P(D)=P(D,h1)+P(D,h2) giả thiết h1 h2, nên bỏ qua đại lượng P(D) ◼ Vì vậy, cần tính biểu thức: P(D|h1).P(h1) P(D|h2).P(h2), đưa định tương ứng • Nếu P(D|h1).P(h1) ≥ P(D|h2).P(h2), kết luận chơi tennis • Ngược lại, kết luận không chơi tennis Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 19 Đánh giá khả (MLE) ◼ Phương pháp MAP: Với tập giả thiết H, cần tìm giả thiết cực đại hóa giá trị: P(D|h).P(h) ◼ Giả sử (assumption) phương pháp đánh giá khả (Maximum likelihood estimation – MLE): Tất giả thiết có giá trị xác suất trước nhau: P(hi)=P(hj), hi,hjH ◼ Phương pháp MLE tìm giả thiết cực đại hóa giá trị P(D|h); P(D|h) gọi khả (likelihood) liệu D h ◼ Giả thiết có khả (maximum likelihood hypothesis) hML = arg max P( D | h) hH Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 20 ...Nội dung môn học: ◼ Giới thiệu Học máy Khai phá liệu ◼ Tiền xử lý liệu ◼ Đánh giá hiệu hệ thống ◼ Hồi quy ◼ Phân lớp ❑ Các phương pháp học dựa xác suất (Probabilistic learning)... (Probabilistic learning) ◼ Phân cụm ◼ Phát luật kết hợp Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Các phương pháp học dựa xác suất ◼ Các phương pháp thống kê cho toán... probability) này! Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 17 Xác suất hậu nghiệm cựu đại (MAP) ◼ Với tập giả thiết (các phân lớp) H, hệ thống học tìm giả thiết

Ngày đăng: 22/11/2022, 22:11

Tài liệu cùng người dùng

Tài liệu liên quan