Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 35 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
35
Dung lượng
131,33 KB
Nội dung
TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI 2 ‘KHÒATOÁN’ TRẦN THỊ HÀ PHÂN LỚP NAI VE BAYES VÀ ỨNG DỤNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC • • • • Chuyên ngành: ứng dụng Người hướng dẫn khoa học TRẦN TUẤN VINH HÀ NỘI – 2014 Phân lớp naive Bayes và ứng dụng ________•__________ LỜI CẢM ƠN Trước tiên, tôi xin gửi lời cảm ơn chân thành và sự biết ơn sâu sắc tới thày Trần Tuấn Vinh đã tận tình hướng dẫn tôi ừong suốt quá trình thực hiện khóa luận này. Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt 4 năm học qua, đã cho tôi những kiến thức quý báu để tôi có thể vững bước trên con đường đi của mình. Trong quá trình góp nhặt kiến thức các thày cô bạn bè là những người đã cùng tôi sát cánh trong suốt thời gian tôi học tập và nghiên cứu dưới mái trường Đại học Sư phạm Hà Nội 2. Trong những nỗ lực đó, không thể không kể đến công lao to lớn không gì có thể đền đáp được của cha mẹ những người đã sinh thành, dưỡng dục tôi nên người, luôn nhắc nhở động viên tôi hoàn thành tốt nhiệm vụ. Hà Nội, tháng 5 năm 2014 Sinh viên Trần Thị Hà Phân lớp naive Bayes và ứng dụng LỜI CAM ĐOAN Tôi xin cam đoan đề tài “ P H  N L Ớ P N A I V E B A Y E S V À Ứ N G D Ụ N G ” là kết quả mà tôi đã trực tiếp nghiên cứu, tìm hiểu được. Trong quá trình nghiên cứu, tôi có sử dụng tài liệu của một số tác giả khác. Tuy nhiên, đó chỉ là cơ sở để tôi rút ra được vấn đề càn tìm hiểu ở đề tài của mình. Đây là kết quả của riêng cá nhân tôi, hoàn toàn không trùng khớp với kết quả của tác giả nào khác. Nếu sai tôi xin chịu hoàn toàn trách nhiệm. Hà Nội, tháng 5 năm 2014 Sinh viên Trần Thi Hà Phân lớp naive Bayes và ứng dụng MỤC LỤC ■ • Phân lớp naive Bayes và ứng dụng MễDU Xac suõt thụng kờ l bụ mon rõt quan trong v cụ nhiốu urng dung trong thuc tờ, giỹp con ngui rut ra thụng tin tir dỷ lieu quan sõt, nhọm giõi quyờt cõc bi toõn trong cuục sụng. Trong khụa luõn ny trinh by mot tiờp cõn thụng kờ trong viờc du doõn su: kiờn dua vo li thuyờt Bayes. L thuyờt nụi vờ viờc tinh xac suõt cua su kiờn dua vo cõc kờt quõ thụng kờ cõc su kiờn trong quọ khu. Sau viờc tinh toõn mụi su kiờn duoc gõn xac suõt (tựy thuục vo mụi phuong phõp dõnh giõ) ựng voi kh nang cụ thờ xõy ra vai su kiờn dụ. V cuụi cựng dua vo nguong dộ phõn loai cho cõc su kiờn. Sau phõn li thuyờt chung chung ta sở tim hiờu vờ cõc bi toõn trong thuc tộ duoc ựng dung tự l thuyờt Bayes: Thuõt toõn phõn loai van ban v loc thu rõc trong cõc thu diờn tu. Naive Bayes cỹng duỗrc sỹ dung trong Matlab-mụt ngụn ngu lõp trinh thuc hnh bõc cao duoc sỹ dung dộ giõi quyờt cõc bi toõn vờ kù thuõt. Phõn lụp naive Bayes v img dung 5 Chương I LÝ THUYẾT CHUNG [1] 1.1. Biến cố ngẫu nhiên 1.1.1. Hiện tượng ngẫu nhiên Người ta chia các hiện tượng xảy ra trong cuộc sống hàng ngày làm hai loại: Tất nhiên và ngẫu nhiên. - Những hiện tượng mà khi thực hiện ừong một điều kiện sẽ cho ra kết quả như nhau được gọi là H I Ệ N T Ư Ợ N G T Ấ T N H I Ê N . - Những hiện tượng mà cho dù khi được thực hiện ở ừong cùng một điều kiện vẫn có thể cho ra các kết quả khác nhau được gọi là những H I Ệ N T Ư Ợ N G N G Ẫ U N H I Ê N . - Hiện tượng ngẫu nhiên chính là đối tượng khảo sát của lí thuyết xác suất. 1.1.2. Phép thử và biến cố - Để quan sát các hiện tượng ngẫu nhiên, người ta cho các hiện tượng này xuất hiện nhiều lần. Việc thực hiện một quan sát về một hiện tượng ngẫu nhiên nào đó, để xem hiện tượng này có xảy ra hay không được gọi là một phép thử. - Khi thực hiện một phép thử, ta không thể dự đoán được kết quả xảy ra. Tuy nhiên ta có thể liệt kê được tất cả các kết quả có thể xảy ra. - Tập họp tất cả các kết quả có thể xảy ra của một phép thử được gọi là không gian mẫu của phép thử kí hiệu Q. Biến cố không thể xảy ra được gọi là biến cố rỗng kí hiệu Ộ . - Biến cố ngẫu nhiên là biến cố có thể xảy ra hoặc không xảy ra khi thực hiện phép thử. - Biến cố sơ cấp là biến cố không thể phân tích được nữa. Phân lớp naive Bayes và ứng dụng 6 1.1.3. Quan hêgiüa câc bien cô - Quan hê kéo theo: Bien cô A dugc goi là kéo theo bien cô B khi và chî khi A xày ra thi B xây ra. Ki hiêu: A Œ B - Quan hê tuong duong: Hai bien cô A và B dugc goi là tuong duong voi nhau khi và chî khi A C Z B và ßcA.Ki hiêu: A = B - Tông cüa hai bién cô: Bién cô C dugc goi là tông cüa hai bién cô A và B, ki hiêu: C = Aufi hay C = A + B , C xây ra khi và chi khi it nhât mot trong hai bien cô A và B xây ra. - Hiêu cüa hai bien cô A và B, ki hiêu C = A IB , C xây ra khi và chi khi A xây ra nhung B không xày ra. - Tich cüa hai bién cô A và B, ki hiêu C = A . B , C xây ra khi và chi khi câ A lân B dêu xây ra. - Bién cô dôi lâp: A = QIA - Hai bién cô xung khâc A và B duoc goi là xung khâc voi nhau néu A B = ( F > 1.2. Xac suât cua biên cô 1.2.1. Dinh nghîa xac suât dang co dien Xét mot phép thü voi không gian mâu Q={ A > L , C O 2 , . . . , C O N } và biên cô A cz Q cô k phân tü. Nêu n biên cô sa câp cô cùng khâ näng xây ra thi xac suât cüa biên cô A dugc dinh nghîa là k: Sô phân tü cüa A n: Sô phân tü cüa Q 1.2.2. TTNH CHÂT CÜA XAC SUÂT 1. Nêu A là biên cô tùy y thi 0 < P(A) < 1 Phân lớp naive Bayes và ứng dụng 7 Phân lớp naive Bayes và ứng dụng 8 2. P(^) = 0 3. P { Q) = l 4. Nêu A Œ B thï P(A)<P ( B ) 1.3. Công thirc tinh xac suât 1.3.1. Công thü'c công xac suât Xét phép mot thü, ta cô càc công thüc công xac suât sau: - Nêu A và B là hai bién cô tùy ÿ: P ( A ufi) = P ( A ) + P ( B ) - P ( A B ) - Nêu A và B là hai bien cô xung khac thi P ( A ^ J B ) = P ( A ) + P ( B ) Nêu ho {Ai} (i=l,2, ,,n) xung khac tùng dôi thi P(A l vA 2 u uA n ) = P(A l ) + P(A 2 ) + + P(A n ) Chu ÿ: P(A) = 1-P(À),P(A) = P(AB) + P(ÀB) 1.3.2. Xac suât cô dieu kiên 1.3. 2 . 1 . D I N H N G H I A : Cho bien cô B vôi P { B ) > 0. Xac suât cüa A khi biêt B xây ra là: P(AI*) = ^ P(B) Khi biêt B xây ra, xac suât cüa A IB ti le vai A . B , vây: p{A ' B)=P m Voi k là hê sô ti le dê tinh k, ta chon A = B . Vây: 1 = P(B\B) = k.P(BB) = k.P(B) Do dô: K — Phân lớp naive Bayes và ứng dụng 9 võy: Nhõn xột: Khi tinh P(AIB) vai dieu kiờn B dõ xõy ra, nghùa l ta da han chờ khụng gian mõu Q xuụng con B v han chờ A xuụng con AflB. Tinh chõt 1) 0 < P ( A Iặ) < 1, VA c Q 2) NờuAcC thù P ( A \ B ) < P ( C \ B ) 3) P(A\B) = l-P(A\B) 1.3.2.2. Su kiờn dục lõp Cho khụng gian xc suõt (Q , C,P), A, B e C. A v B dugc goi l dục lõp vai nhau P { A B ) = P { A ) P { B ) 1.3.3. Cụng thỹc xc suõt ton phõn Cho khụng gian xc suõt (Q ,C,P). Giõ su AI,A 2 , .,A n l nhụm dõy du su kiờn v B l su kiờn bõt ki trong C. Khidụ: P(B) = '^P(A l ).P(BlA i ) ẻ =1 1.4. Cụng thỹc Bayes Dinh ly Bayes Binh li Bayes cho phộp tinh xc suõt xõy ra cỹa mot su kiờn ngõu nhiờn A khi biờt su kiờn lien quan B dõ xõy ra. Xc suõt ny dugc ki hiờu l P { A I B ) v doc l xc suõt cỹa A nờu cụ B. Bai luỗmg ny duỗrc goi l xc suõt cụ dieu kiờn hay xc suõt hõu nghiờm vi nụ duỗrc rut ra tự giõ tri dugc cho cỹa B hoac phu thuục vo giõ tri dụ. Theo dinh li Bayes, xõc suõt xõy ra A khi biờt B sở phu thuục vo 3 r r /V J /\ yeu to: Xõc suõt xõy ra A cỹa riờng nụ, khụng quan tõm dộn B, ki hiờu l P(A) v doc l xõc suõt cỹa A, dõy dugc goi l xõc suõt tien nghiờm, nụ l tien nghiờm theo nghùa rang nụ khụng quan tõm dờn bõt ki thụng tin no vờ B. Phõn lp naive Bayes v ng dng 1 0 [...]... phi s dng xỏc sut Bayes cng nh phng phỏp Bayes Mc dự vi gi nh n gin hn nhng d nhn thy rng phõn lp naive Bayes thng hot ng khỏ tt trong nhiu tỡnh hung phc tp Vo nm 2004 phõn tớch cỏc vn ca phõn lp Bayes ó cho thy rng cú mt s gi thuyt gii thớch cho tớnh hiu qu ca phõn lp naive Bayes. [2] So sỏnh ton din vi cỏc 1 3 Phõn lp naive Bayes v ng dng phng phỏp phõn lp ong nm 2006 cho thy phõn lp Bayes lm tt hn... gii quyt c vn ca cụng thc (3) 2 4 Chng III NG DNG CA BAYES 3.1 Thut toỏn phõn loi vn bn naive Bayes K thut phõn hoch ca naive Bayes da trờn c s nh lý Bayes v c bit phự hp cho cỏc trng hp phõn loi cú kớch thc u vo l ln Mc dự naive Bayes khỏ n gin nhng nú cú kh nng phõn loi tt hn rt nhiu phng phỏp phõn hoch phc tp khỏc Vi mi loi vn bn, thut toỏn naive Bayes tớnh cho mi lp vn bn mt xỏc sut m ti liu cn phõn... Phõn lp nave Bayes B phõn lp naive Bayes hay b phõn lp Bayes n gin (simple Bayes classifier) hot ng nh sau: 1 8 Phõn lp naive Bayes v ng dng 1 Gi D l tp d liu hun luyn, ong ú mi phn t d liu X c biu din bng mt vect cha n giỏ tr thuc tớnh A l5A2, ,An, X = {XL,X2, ,XN} 2 Gi s cú m lp Ci,C2, ,cm; Cho mt phn t d liu X, b phõn lp s gỏn nhón cho X l lp cú xỏc sut hu nghim ln nht C th, b phõn lp Bayes s d oỏn... khỏc, phõn lp naive Bayes xem xột tt c cỏc c tớnh c lp gúp phn vo khỏi nim trỏi cõy ny l qu tỏo Tựy thuc vo tớnh chớnh xỏc bn cht ca mụ hỡnh xỏc sut, phõn lp naive Bayes cú th c to ra rt hiu qu trong hc mỏy Trong nhiu ng dng thc t, tham s c lng cho cỏc mụ hỡnh naive Bayes s dng cỏc phng phỏp maximum likelihood (c lng hp lớ cc i), núi cỏch khỏc, vi phng phỏp ny mt ng dng da ờn mụ hỡnh naive Bayes thỡ s... u im ca phõn lp naive Bayes l nú hot ng khỏ tt ong nhiu tỡnh hung th gii thc phc tp v ch ũi hi mt s lng nh d liu hun luyn c lng cỏc tham s v NG DNG: T lý thuyt khúa lun ó a ra cỏc ng dng ca phõn lp naive Bayes trong thc t nh l phõn loi vn bn, lc th rỏc v mt s vớ d minh ha cho vic s dng naive Bayes trong Matlab H N G P H T T R I N ' Thụng qua cỏc ng dng thc tin ca phõn lp naive Bayes cú th thy... sc quan trng ca ng dng c s d liu ú l tớnh uyn chuyn cao 2.2 Gii thiu phõn lp naive Bayes 2.2.1 nh ngha Phõn lp naive Bayes l mt phng phỏp phõn lp n gin da trờn cỏc ng dng nh lớ Bayes vi gi nh c lp bn vng Mt thut ng mụ t chi tit cho nhng mụ hỡnh xỏc sut s l mụ hỡnh c trng khụng ph thuc Theo thut ng n gin, mt phõn lp naive Bayes gi nh rng s cú mt (hay khụng cú mt) ca mt c trng ca mt lp l khụng liờn quan... hỡnh xỏc sut naive Bayes Phõn lp naive Bayes kt hp mụ hỡnh ny vi mt lut quyt nh ú l mt lut chung chn ra cỏc gi thuyt cú kh nng xy ra nht, iu ny c bit n nh l M A X I M U M A P O S T E R I O R I hay lut quyt nh MAP Phõn lp tng ng c xỏc nh nh sau: Classify fn) = argmaxc p(C = c)\p(F = f \ C = c ) I =1 S tht cú th ỏp dng rng rói cỏc gi nh c lp nhng chỳng thng khụng chớnh xỏc, phõn lp naive Bayes cú vi... Nờu cụ k lop v nờu mot mụ hinh cho P { F I IC = c) cụ thờ duoc thờ hiờn 1 5 Phõn lp naive Bayes v ng dng ong cỏc thut ng ca r tham s, sau ú cỏc mụ hỡnh naive Bayes tng ng cú (k-1) + nrk tham s Trong thc t, thng k=2 (phõn loi nh phõn) v r = 1 (phõn phi Bernoulli) l ph bin v nh vy tng s lng cỏc tham s ca mụ hỡnh naive Bayes l 2n+l, õy n l s cỏc c trng nh phõn s dng cho cỏc d oỏn 2.2.3 c lng tham s Tt... P{ck)*P(di Ic k ) ong ú N l tng s ti liu Túm li phõn loi vn bn s dng thut toỏn naive Bayes cú th din t mt cỏch ngn gn nh sau: Vi mi vn bn D (document) ngi ta s tớnh cho mi loi mt xỏc sut m ti liu D cú th thuc vo lp ti liu ú bng vic s dng lut Bayes: ( 1 ) Trong ú: D l ti liu cn phõn loi, Ci l ti liu bt kỡ Theo gi nh ca naive Bayes xỏc sut ca mi t trong ti liu D l c lp vi ng cnh xut hin cỏc t ng thi cng... rt nhiu phng phỏp a ra gim s lng th rỏc, nhiu h thng mỏy lc th rỏc s dng thut toỏn naive Bayes, phõn lp da ờn thng kờ u cho kt qu khỏ tt Sau õy chỳng ta s tỡm hiu v ng dng ca Bayes trong lc th rỏc Vớ d: Phõn loi th rỏc ong cỏc th in t phõn loi th rỏc trong cỏc th in t ta lm theo hai bc: u tiờns dng phõn lp naive Bayes phõn loi ti liu theo ni dung ca chỳng Sau ú s dng kt qu phõn loi th rỏc trong . 2 ‘KHÒATOÁN’ TRẦN THỊ HÀ PHÂN LỚP NAI VE BAYES VÀ ỨNG DỤNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC • • • • Chuyên ngành: ứng dụng Người hướng dẫn khoa học TRẦN TUẤN VINH HÀ NỘI – 2014 Phân lớp naive Bayes và. [Sahamietal, 1998] 2.2.8. Phân lớp naỉve Bayes Bộ phân lớp naive Bayes hay bộ phân lớp Bayes đơn giản (simple Bayes classifier) hoạt động như sau: Phân lớp naive Bayes và ứng dụng 1 8 1. Gọi D là. cho tính hiệu quả của phân lớp naive Bayes. [2] So sánh toàn diện với các Phân lớp naive Bayes và ứng dụng 1 3 phương pháp phân lớp ừong năm 2006 cho thấy phân lớp Bayes làm tốt hơn bởi nhiều tiếp