1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Khai mở dữ liệu: Phương pháp học Bayes (Bayesian claification)

23 21 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 23
Dung lượng 789,44 KB

Nội dung

Bài giảng Khai mở dữ liệu: Phương pháp học Bayes (Bayesian claification) giới thiệu về Bayesian classification, giải thuật học của naive Bayes, kết luận và hướng phát triển. Với các bạn chuyên ngành CNTT thì đây là tài liệu hữu ích.

Khoa Công Nghệ Thông Tin Trường Đại Học Cần Thơ Phương pháp học Bayes Bayesian classification Đỗ Thanh Nghị dtnghi@cit.ctu.edu.vn Cần Thơ 02-12-2008 Nội dung Giới thiệu Bayesian classification  Giải thuật học naive Bayes  Kết luận hướng phát triển  Nội dung Giới thiệu Bayesian classification  Giải thuật học naive Bayes  Kết luận hướng phát triển     Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Bayesian classification  lớp giải thuật học      dựa theorem Bayes mạng Bayes naive Bayes kết sinh dịch giải vấn đề phân loại, gom nhóm, etc ứng dụng thành cơng : phân tích liệu, phân loại text, spam, etc   Kỹ thuật DM thành công ứng dụng thực (2004)  Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Nội dung Giới thiệu Bayesian classification  Giải thuật học naive Bayes  Kết luận hướng phát triển     Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Giải thuật naive Bayes  ngây thơ    thuộc tính (biến) có độ quan trọng thuộc tính (biến) độc lập thống kê nhận xét   giả thiết thuộc tính độc lập khơng thực tế, naive Bayes cho kết tốt   Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Dữ liệu weather, dựa thuộc tính (Outlook, Temp, Humidity, Windy), định (play/no)   Outlook Temp Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Rainy Mild High True No Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển  Dữ liệu weather, dựa thuộc tính (Outlook, Temp, Humidity, Windy), định (play/no)   Outlook Temperature Yes No Yes No Sunny Hot 2 Overcast Mild Rainy Cool Sunny 2/9 3/5 Hot 2/9 2/5 Overcast 4/9 0/5 Mild 4/9 2/5 Rainy 3/9 2/5 Cool 3/9 1/5 Play Windy Humidity Yes No Yes No Yes No High False Normal True 3 High 3/9 4/5 False 6/9 2/5 9/14 5/14 Normal 6/9 1/5 True 3/9 3/5 Outlook Temp Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Rainy Mild High True No  Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Dữ liệu weather, dựa thuộc tính (Outlook, Temp, Humidity, Windy), định (play/no)   Outlook Temperature Yes No Sunny Hot 2 Overcast Mild Rainy Cool Sunny 2/9 3/5 Hot 2/9 2/5 Overcast 4/9 0/5 Mild 4/9 2/5 Rainy 3/9 2/5 Cool 3/9 1/5  Yes No Yes No High Normal High Normal định (play=yes/no) Play Windy Humidity Yes No Yes No False True 3 3/9 4/5 False 6/9 2/5 9/14 5/14 6/9 1/5 True 3/9 3/5 Outlook Temp Humidity Windy Play Sunny Cool High True ? Likelihood(yes) = 2/9 x 3/9 x 3/9 x 3/9 x 9/14 = 0.0053 Likelihood(no) = 3/5 x 1/5 x 4/5 x 3/5 x 5/14 = 0.0206 Xác suất : P(yes) = 0.0053 / (0.0053 + 0.0206) = 0.205 P(no) = 0.0206 / (0.0053 + 0.0206) = 0.795 10    Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Luật Bayes  Probability of event H given evidence E : Pr[ E | H ] Pr[ H ] Pr[ H | E ]  Pr[ E ]   A priori probability of H : Pr[H]  Probability of event before evidence is seen A posteriori probability of H : Pr[H | E]  Probability of event after evidence is seen 11    Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Luật Bayes   học phân lớp có liệu đến  Evidence E = liệu  Event H = giá trị lớp liệu naïve : Pr[ E1 | H ] Pr[ E2 | H ] Pr[ En | H ] Pr[ H ] Pr[ H | E ]  Pr[ E ] 12    Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Luật Bayes Outlook Temp Humidity Windy Play Sunny Cool High True ? Evidence E Pr[ yes | E ]  Pr[Outlook  Sunny | yes ]  Pr[Temperature  Cool | yes] xác suất lớp “yes”  Pr[ Humidity  High | yes ]  Pr[Windy  True | yes ] Pr[ yes]  Pr[ E ]  93  93  93  149  Pr[ E ] 13    Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Xác suất =  giá trị thuộc tính khơng xuất tất lớp (“Humidity = high” lớp “yes”)  Probability will be zero! Pr[ Humidity  High | yes]   A posteriori probability will also be zero! Pr[ yes | E ]   sử dụng Laplace estimator xác suất khơng có giá trị  14    Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Laplace estimator   ví dụ : thuộc tính outlook cho lớp yes 2  /3 9 4  /3 9 3  /3 9 Sunny Overcast Rainy trọng số khơng nhau, tổng phải  p1 9  p 9   p3 9  Sunny Overcast Rainy 15    Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Giá trị thuộc tính nhiễu    học : bỏ qua liệu nhiễu phân lớp : bỏ qua thuộc tính nhiễu ví dụ : Outlook Temp Humidity Windy Play ? Cool High True ? Likelihood(yes) = 3/9  3/9  3/9  9/14 = 0.0238 Likelihood(no) = 1/5  4/5  3/5  5/14 = 0.0343 P(yes) = 0.0238 / (0.0238 + 0.0343) = 41 P(no) = 0.0343 / (0.0238 + 0.0343) = 59 16    Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Dữ liệu liên tục   giả sử thuộc tính có phân phối Gaussian hàm mật độ xác suất tính sau  mean  n    xi n i1 standard deviation  n   ( x   )  i n  i 1  hàm mật độ xác suất f(x) f ( x)  e 2  ( x )2  2 Karl Gauss, 1777-1855 great German mathematician 17    Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Dữ liệu liên tục  ví dụ : f (temperature  66 | yes)  2 6.2 e ( 6673)  26.22  0.0340 18    Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Dữ liệu liên tục  phân lớp Outlook Temp Humidity Windy Play Sunny 66 90 true ? Likelihood(yes) = 2/9  0.0340  0.0221  3/9  9/14 = 0.000036 Likelihood(no) = 3/5  0.0291  0.0380  3/5  5/14 = 0.000136 P(yes) = 0.000036 / (0.000036 + 000136) = 20.9 P(no) = 0.000136 / (0.000036 + 000136) = 79.1 19 Nội dung Giới thiệu Bayesian classification  Giải thuật học naive Bayes  Kết luận hướng phát triển  20    Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Kết luận  naïve Bayes       cho kết tốt thực tế chịu giả thiết tính độc lập thống kê thc tính phân lớp khơng u cầu phải ước lượng cách xác xác suất dễ cài đặt, học nhanh, kết dễ hiểu sử dụng phân loại text, spam, etc nhiên liệu có nhiều thuộc tính dư thừa nạve Bayes khơng cịn hiệu liệu liên tục khơng tuân theo phân phối chuẩn (=> kernel density estimators) 21    Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Hướng phát triển  naïve Bayes     chọn thuộc tính từ thuộc tính ban đầu sử dụng thuộc tính để học phân lớp mạng Bayes : mối liên quan thuộc tính tìm kiếm thơng tin (ranking) 22 ...  Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Bayesian classification  lớp giải thuật học      dựa theorem Bayes mạng Bayes naive Bayes kết sinh...Nội dung Giới thiệu Bayesian classification  Giải thuật học naive Bayes  Kết luận hướng phát triển  Nội dung Giới thiệu Bayesian classification  Giải thuật học naive Bayes  Kết luận hướng... thực (2004)  Giới thiệu Bayesian classification Giải thuật học naive Bayes kết luận hướng phát triển Nội dung Giới thiệu Bayesian classification  Giải thuật học naive Bayes  Kết luận hướng phát

Ngày đăng: 10/05/2021, 08:32

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w