Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 41 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
41
Dung lượng
514,76 KB
Nội dung
Học Máy (IT 4862) Nguyễn ễ Nhật hậ Quang quangnn-fit@mail.hut.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin truyền thông Năm học 2011-2012 CuuDuongThanCong.com https://fb.com/tailieudientucntt Nội dung d môn ô học: h Giới thiệu chung g Đánh giá hiệu hệ thống học máy Cá phương Các h pháp há học h dựa d t ê xác suất ất Các phương pháp học có giám sát Các phương pháp học không giám sát Lọc cộng tác Học tăng cường Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt Các phương pháp học dựa xác suất Các phương pháp thống kê cho toán phân loại Phâ lloạii d Phân dựa t ê ột mơ hì hình h xác suất ất sở Việc phân loại dựa khả xảy (probabilities) phân lớp Các chủ đề chính: • Giới thiệu xác suất • Định lý Bayes g cực đại (Maximum ( a posteriori) p ) • Xác suất hậu nghiệm • Đánh giá khả (Maximum likelihood estimation) • Phân loại Nạve Bayes • Cực đại hóa kỳ vọng (Expectation maximization) Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt Các khái niệm xác suất Giả sử có thí nghiệm (ví dụ: đổ qn xúc sắc) mà kết mang tính ngẫu nhiên (phụ thuộc vào khả xảy ra) Không gian khả S Tập hợp tất kết xảy Ví dụ: S= S {1 {1,2,3,4,5,6} 6} thí nghiệm đổ quân xúc sắc Sự kiện E Một tập không gian khả Ví dụ: E= {1}: kết quân súc xắc đổ Ví dụ: d E= {1,3,5}: kết ả quân â súc ú xắc ắ đổ ột số ố lẻ Không gian kiện W Không gian (thế giới) mà kết kiện xảy Ví dụ: W bao gồm tất ấ lần ầ đổ ổ súc xắc ắ Biến ngẫu nhiên A Một biến ngẫu nhiên biểu diễn (diễn đạt) kiện, có mức độ khả xảy kiện Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt Biểu diễn xác suất P(A): “Phần không gian (thế giới) mà A đúng” Khơng gian kiện ((không g ggian tất giá trị xảy A) Khơng gian mà A Khơng gian mà A sai [http://www cs cmu edu/~awm/tutorials] [http://www.cs.cmu.edu/~awm/tutorials] Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt Các biến ngẫu g nhiên ggiá trị Một biến ngẫu nhiên giá trị (nhị phân) nhận giá trị (true) sai (false) Các tiên đề • ≤ P(A) ≤ • P(true)= P(false)= • P(false) • P(A V B)= P(A) + P(B) - P(A ∧ B) Các hệ • P(not A)≡ P(~A)= - P(A) P(A)= P(A ∧ B) + P(A ∧ ~B) B) • P(A) Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt Các biến ngẫu g nhiên đa trị Một biến ngẫu nhiên nhiều giá trị nhận số k ((>2) 2) giá trị {v1,v2,…,vk} P ( A = vi ∧ A = v j ) = if i ≠ j P(A=v1 V A=v2 V V A=vk) = i P( A = v1 ∨ A = v2 ∨ ∨ A = vi ) = ∑ P( A = v j ) k ∑ P( A = v ) = j =1 j =1 j i P(B ∧ [A = v1 ∨ A = v2 ∨ ∨ A = vi ]) = ∑ P( B ∧ A = v j ) [http://www.cs.cmu.edu/~awm/tutorials] j =1 Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt Xác suất có điều kiện (1) P(A|B) phần không gian (thế giới) mà A đúng, với điều ề kiện (đã biết) ế B Ví dụ • A: Tơi đá bóng vào ngày mai • B: Trời khơng mưa vào ngày mai • P(A|B): Xác suất việc tơi đá bóng vào ngày mai (đã biết rằng) trời không mưa (vào ngày mai) Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt Xác suất có điều kiện (2) Định nghĩa: P( A | B) = P( A, B) P( B) Các hệ ệq quả: P(A,B)=P(A|B).P(B) P(A|B)+P(~A|B)=1 k ∑ P( A = v | B) = i =1 Không gian mà B đú Khơng gian mà g A g i Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt Các biến độc lập p xác suất (1) Hai kiện A B gọi độc lập xác suất xác suất kiện A trường hợp: • Khi kiện B xảy ra, • Khi kiện kiệ B không khô xảy ả ra, h ặ • Khơng có thơng tin (khơng biết gì) việc xảy kiện B Ví dụ d •A: Tơi đá bóng vào ngày mai B: Tuấn tham gia trận đá bóng ngày mai •B: •P(A|B) = P(A) → “Dù Tuấn có tham gia trận đá bóng ngày mai hay khơng không ảnh hưởng tới ế định ề việc đá bóng ngày mai.” Học Máy – IT 4862 CuuDuongThanCong.com 10 https://fb.com/tailieudientucntt Phân lớp Naïve Bayes – Ví dụ (3) Tính tốn xác suất xảy (likelihood) ví dụ z phân lớp • Đối ố với phân lớp c1 P(z|c1) = P(Age=Young|c1).P(Income=Medium|c1).P(Student=Yes|c1) P(Credit_Rating=Fair|c1) = (2/9).(4/9).(6/9).(6/9) = 0.044 • Đối với phân lớp c2 P(z|c2) = P(Age=Young|c2).P(Income=Medium|c2).P(Student=Yes|c2) P(Credit_Rating=Fair|c2) = (3/5).(2/5).(1/5).(2/5) = 0.019 Xác định phân lớp (the most probable class) • Đối với phân lớp c1 P(c1).P(z|c ) P(z|c1) = (9/14) (9/14).(0.044) (0 044) = 0.028 028 • Đối với phân lớp c2 P(c2).P(z|c2) = (5/14).(0.019) = 0.007 → Kết luận: Anh ta (z) mua máy tính! Học Máy – IT 4862 CuuDuongThanCong.com 27 https://fb.com/tailieudientucntt Phân lớp Naïve Bayes – Vấn đề (1) Nếu khơng có ví dụ gắn với phân lớp ci có giá trị thuộc tính xj… n P(x ( j| |ci) )=0 , vậy: ậy P (ci ) ) ∏ P ( x j | ci ) = j =1 Giải pháp: Sử dụng phương pháp Bayes để ước lượng P(xj|ci) P ( x j | ci ) = n(ci , x j ) + mp n(ci ) + m • n(c ( i) ): số lượng ợ g ví dụ ụ học ọ g gắn với p phân lớp p ci • n(ci,xj): số lượng ví dụ học gắn với phân lớp ci có giá trị thuộc tính xj • p: ước lượng giá trị xác suất P(xj|ci) → Các ước lượng đồng mức: p=1/k, với thuộc tính fj có k giá trị • m: hệ số (trọng số) → Để bổ sung cho n(ci) ví dụ thực quan sát với thêm m mẫu ví dụ với ước lượng p Học Máy – IT 4862 CuuDuongThanCong.com 28 https://fb.com/tailieudientucntt Phân lớp Naïve Bayes – Vấn đề (2) Giới hạn độ xác tính tốn máy tính • P( j|c P(x | i)