Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 17 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
17
Dung lượng
578,37 KB
Nội dung
! "#$%&'() Đ ti: Phân loi văn bn: Lc thư rc *+,)'(-. !"# $$ %&'( ) *+, $ /01)2345. */01012#3 3.456,7 MỤC LỤC 6789: 89+.#:.89+;(< 5=>>9?@2A> 4B.C DEBF7GAH#B.I?412:+A#=>>9?@ 2J<;E5B.>7#::.74J2:2:+KJLMJ5#KB. ANM2=>>13O.7G8PQRS>7#:9TU9V 74:V:F>7#:52C JNMN6>7#:7.#U9V9T # 7.#A#W71>7#:7.#C 7HU:.>7#: PJ#71V:+5>7#:C JNPJ#7!:.-XPJ#7Y>7#:VJ: 9V8R(MJUZ1 >7#:PJ#7WN@ B[#8PQRS5W-! N76;\;45H8#B.T;+9DIK#]5 9 C!KD7M >7#:A#!B^;&IK#7_11 `MJ6a\+9K5K7]>79?!9T.;$1<= >?@ A-'20- BF7S9L^7D5Q76JJ6JEJU -;.-6JW:-+>7#:5a9K\JW:-+>7#:]J,b>7#: PJ#7AN1 ]>7IW.N7P\FRc[# 2#3N BT27 d9&F-A6^]>7\9T.1^ CEe+fJ 2;6-6-[#K7C D6CgEPK1 ]>7M7-9VP\KJh[# 9D;6-6-[#]>79 1 B:/ I. Lý thuyết học máy. 1.1 Giới thiệu v học máy. 1.1.1 Các định nghĩa v học máy (Machine learning). KMT69&"#BT!76i X >-'>::X))$i “Hc my là qu trình mà một chương trình my tính ci thiện hiệu suất của nó trong một công việc thông qua kinh nghiệm”. X >-j:J#RX“Hc my là việc lập trình cc my tính để tối ưu hóa một tiêu chí hiệu suất dựa trên cc dữ liệu ví dụ hoặc kinh nghiệm trong qu khứ”. X >-kCJ>R#i “Hc my, có tài liệu gi là My hc, (tiếng Anh là: machine learning) là một lĩnh vực của trí tuệ nhân to liên quan đến việc pht triển cc kĩ thuật cho phép cc my tính có thể "hc". Cụ thể hơn, hc my là một phương php để to ra cc chương trình my tính bằng việc phân tích cc tập dữ liệu. Hc my có liên quan lớn đến thống kê, vì c hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khc với thống kê, hc my tập trung vào sự phức tp của cc gii thuật trong việc thực thi tính ton. Nhiều bài ton suy luận được xếp vào loi bài ton NP- khó, vì thế một phần của hc my là nghiên cứu sự pht triển cc gii thuật suy luận xấp xỉ mà có thể xử lí được. Hc my có tính ứng dụng rất cao bao gồm my truy tìm dữ liệu, chẩn đon y khoa, pht hiện thẻ tín dụng gi, phân tích thị trường chứng khon, phân loi cc chuỗi DNA, nhận dng tiếng nói và chữ viết, dịch tự động, chơi trò chơi và cử động rô-bốt (robot locomotion)”. Biểu diễn một bi toán học máy. >-'>::X))$i3!76:.NAN[#74 B A# C7i X '4 BY7BSZ1 X HBF62L966PM*1 X A#YPQRSZC7l1 Quá trình học máy. #KD;DR%>-P9mP#i II. Thuật toán Naive Bayesian v ứng dụng trong phân loại email. 2.1 Một vi khái niệm xác suất có liên quan 2.1.1 Định nghĩa biến cố, xác suất: II.1.1.1. Định nghĩa phép thử v biến cố: />-749mI27bJni9K:.JoJQ1pEANKDIN# C>-9mTiq`M7bPMJr-bq`M7bQ#r1.# 9&"#qIM7bPMJr#qIM7bQ#r:.74;EH1 II.1.1.2. Định nghĩa xác suất: +<9DiXc suất của biến cố A là một số không âm, ký hiệu P(A), biểu thị kh năng xy ra biến cố A và được xc định như sau: *YjZss0H8VJIN#j#-PH8VJKDIN# C\JoJQ1 Định nghĩa xác suất theo phương pháp thống kê: .79:.7:+74JoJQ 9K:7.K7:;EHjIM ^tPH7u!:.PM[#;EHj. p#9<5PM7ud #9<K: R#-94A#74PHH9&9K10HH9&M9V !:.I6PM[#;EHj>-"#HC212\EC9[:F# IMJIv*YjZ;g7u1 X .6JJ6J!JW:FJK67P6B.R\#2I6PM 2.2 Xác suất có điu kiện,công thức xác suất đầy đủ,công thức xác suất Bayes 2.2.1 Xc suất có điều kiện `6PMK9TC[#;EHjBF9TC;EGw9?IN#:.74 -PHC W75 9VCh*YjxwZK;D&CN,IN#;EHj -^H;EHw9?IN# 0#i *YjxwZI*YwZs*YwxjZI*YjZs*YjwZ 2.2.2 Công thức xác suất đầy đủ /v#PQw5w5__5w :.74K799[6;EH1`o;EHjP#- -jIN#vC74-6;EHw 5w 5_15w IN#1 p9Ki 2.2.3 Công thức Bayes 2.3 Phương pháp phân loại Naïve Bayesian: *W:-+w#>P#:.JJ6JJW:-+PQRS6I6PM9? A#M:1*J6J.LVJBF:FJ;.-69egJNR\ 9-6LI6:FJ[#7cCD7#R\#2 aUJM :;#91 >-#:>Pl:C#5-` 5_15` :.64LBF66&8+9V R(9DR\9-674:FJ2;-747c5UJ6:FJ7.7cKD 4BT:.sy 5 5_15 7 z1-747cM:BF6&64L :.x 1 5__5x n 5R\9-67c4BT:FJ{CI6PM K6&:FM10QRS I6PMw#>P#Ki `6PM*YsZ9VLR%R.aUJR:M:1`6PM__1 p LVJ9DR(-BAE9&:FJ[#;@B^6&.# 9HBF7G:FJ1BU,9DR\9-6:FJ[#:.R\#B I6PM 2BL-6I6PM.MJ+J1'4JJ6J9NB. 9V9##PF7M:.JJ6JJW:-+#|B>w#>P#5>-9KNE O7G` 94:UJBF6` } (i # j ), BU#P~Ki UBU5PQRS I6PMw#>P#Ki ;O69ABEa#PH-L2P#i .EJSBU1*J6JJW:-+#|B>w#>P#NEOBF 7G` CEAN694[#K94:UJBF6` } C61BU5]#a# UO B.\BU9HBF` _11` 'Ga#PH-L2KD9VLR%R.aUJM:;#91 BUJJ6J#|B>w#>P#N7P\J+J[#BL-66& I6PM 2.4 Phân loại email bằng phương pháp Naïve Bayesian •9W7G7c7.#IoL:.74>7#:5UJ6:FJ7.7G>7#:KD 4BT:.syPJ#75-XPJ#7z p#U9V74>7#:5E#C ;E74PH ^BTK^CK KDAE9&LI6>7#:.:.PJ#7#C 1 E#K279b9D7#4L 9K:.>7#:^#KDW #-ANU9V>7#::.PJ#71'4>7#:KT9b9D7i2 9T54R5KUJ9LC€7#C _1#KDR\#B 6 .9D W#-ANJW:-+>7#:PJ#71 2.4.1 Phân loại email dựa trên thuật toán Naïve Bayesian /v#E7G74>7#:9V9+R;@74B>-4L9b :.6&[#64L` 5` 5_15` ]-C #B>-9b `1#PQRS6&&JW` sE69b9D7[#` K- >7#:5V:+` s1 #L6&G'=Y`5ZY'#:=•-7#-Z7.7G749+R[#` 4BT:-+P#i 0# 9K # ! 6 4 L K 6 & '= #- M1 6 I6 PM *Y`Z5*YZ5*Y`5Z9VLR\#2R:! \#B I6PMw#>PB. I6PM99[#K9V I6PM74>7#:BFB>-9bx 4BT:-+:.i \E^MCKL9VI6PM*Y`xZ;@B^6&PH:V[#6 B>-MTB.TB>-E7C#U7LC IM-UJ R:M:19?KJJ6J#|B>w#>P#NEO` 5` 5 _15` :.;EH94:UJ5 R-9K]#KDL9VI6PM@2 P#i F*Y` xZB.*YZ9VLR\#2R:!5BL.R\#B UJ M:;#91 aI6PM.#P-P6BF746&‚7.#-:.‚9D JW:-+74>7#::.PJ#7#C 5EI6PM.:F^>7#:9K:. PJ#75V:+^#I>7>7#:9K:.-XPJ#71 2.4.2 Chọn ngưỡng phân loại email. -JW:-+>7#:K#:-+P#:7i X '4>7#:9VU:.PJ#77bR(\EK:.-XPJ#7Y•#:P>J-PB>Z X '4>7#:9VU:.-XPJ#77bR(K:.PJ#7Y•#:P>>#B>Z ƒ„#P#:7M:.27!;@B^8PQRSKDMJ U74>7#:PJ#7BVA#;4:!C MJU74>7#:A# !:+;&b;@;4:!1 /v#PQ0B.0BF#:G21#NPQO:G0K JLMJ…::G05]#JW:-+74>7#::.PJ#7R\#B 2† P#i [...]... thể xem như là các từ cần xem xét mà ta tách ra từ nội dung của email Với các kí tự chữ,kí tự số,kí tự $,kí tự gạch ngang ‘-’,kí tự gạch dưới ‘_’,kí tự nháy đơn ‘ ‘ ’ là những kí tự cấu tạo thành token Còn những kí tự còn lại như khoảng trắng ,kí tự ‘*’, kí tự ‘:’….được xem là kí tự để tách từ hay phân cách các từ Với những từ tách được mà gồm toàn kí số thì không được xem là... thư nghiệm với giá trị λ là 1 ngưỡng phân loại t xác định một email là spam là 0.5 5.4 Cách thực hiện Chúng ta sẽ bắt đầu với hai kho ngữ liệu email : kho ngữ liệu email spam và kho ngữ liệu email non-spam số lượng email trong mỗi kho ngữ liệu ban đầu không hạn chế Nếu kho ngữ liệu càng lớn thì hiệu quả lọc email càng cao Từ hai kho dữ liệu này ta phân tích và duyệt qua tất cả các token... email tổng cộng của hai kho ngữ liệu spam và non-spam lần lượt là N S và NN ,thế thì xác suất spam của token w được tính như sau : Tuy nhiên, vì số lần xuất hiện của một token có khả năng vượt quá số token phân biệt nên Khi token chỉ xuất hiện ở một kho: 5.5 Kết quả thử nghiệm - Nếu ta chọn ngưỡng - phân loại email 0.5 tức là � = 1 ngưỡng phân loại Quá trình thư nghiệm • • - Spam: cho... hợp IV - - V Giá trị của TCR càng lớn thì hiệu quả phân loại càng cao, với TCR nhỏ hơn 1 thì rõ ràng không sử dụng bộ lọc còn tốt hơn Kho ngữ liệu email chữ Tập huấn luyện : o số email spam:594 o số email non-spam:922 Tập kiểm thư : o số email spam :47 o số email non-spam :73 Cài đăt chương trình phân loại email dựa trên phương pháp phân loại Naïve Bayesian: 5.1 Khái niệm “Token” Để... luận lý (Boolean),như vậy Xi =1 nếu email chứa token,trường hợp ngược lại Xi =0 Chúng tôi chọn thuộc tính là token đơn,nhưng thay vì giá trị của các thuộc tính là giá trị luận lý (Boolean) ,chúng tôi chọn là xác xuất spam của mỗi token Xác suất spam của mỗi token sẽ có giá trị trong đoạn [0,1] Xác suất cho ta nhiều thông tin hơn giá trị luận lý 5.3 Chọn ngưỡng phân loại Tiến hành thư ... • o Acc = = 97.5% Err = = 2.5% Tỉ lệ lỗi gia trọng và tỉ lệ chính xác gia trọng • • - Wacc = 97.5% WErr = 2.5% Chi phí tổng hợp TCR • TCR = = 15.67 VI - - TÀI LIỆU THAM KHẢO Bài giảng Xử lý ngôn ngữ tự nhiên - PGS.TS Lê Thanh Hương M Sahami, S Dumais, D Heckerman and E Horvits A Bayesian Approach to Filtering Junk E-Mail Proceedings of AAAI-98 Workshop on Learning for Text Categorization, 1998... email là ham mà bộ lọc nhận là ham 3.4 Tỉ số chi phí tổng hợp TCR(Total Cost Ratio) Giá trị của tỉ lệ chính xác và tỉ lệ lỗi thư ̀ng có sự sai lệch cao Để thấy rõ được hiệu quả của cách phân loại, người ta thư ̀ng so sánh tỉ lệ chính xác hoặc tỉ lệ lỗi giữa bộ phân loại với trường hợp đơn giản nhất được xem là trường hợp ranh giới (baseline) “Baseline” được chọn là trường hợp... token đã được phân tích ,xác suất này chính là xác suất một email chỉ chứa token đó và là email spam Như vậy mấu chốt là ta phải tính ra được xác suất spam của mỗi token Xác suất spam của mỗi token được tính dựa trên số lần xuất hiện của mỗi token trong mỗi kho ngữ liệu học ban đầu ví dụ một token w có số lần xuất hiện trong kho ngữ liệu spam là s,trong kho ngữ liệu non-spam... nhận là ham nN→S : Là số email là ham mà bộ lọc nhận là spam nN→N : Là số email là ham mà bộ lọc nhận là ham 3.2 Tỉ lệ lỗi Err(Error) và tỉ lệ chính xác Acc(Accuracy) - Trong việc phân loại email, hiệu quả phân loại dựa vào tỉ lệ chính xác (Acc) hoặc tỉ lệ lỗi (Err) Công thức tính tỉ lệ chính xác và tỉ lệ lỗi như sau: Công thức tính tỉ lệ lỗi Công thức tính tỉ lệ chính xác - Trong... thị tác động của hai loại lỗi này đối với tỉ lệ chính xác và tỉ lệ lỗi, ta sẽ xem mối một email hợp lệ như là λ email hợp lệ Do đó khi một email hợp lệ bị phân loại sai, thay vì ta xem như có một lỗi, ta xem như λ lỗi, và khi phân loại đúng ta xem như là λ lần thành công Ta có hia tỉ lệ: tỉ lệ chính xác gia trọng WAcc(Weighted Accuracy Rate) và tỉ lệ lỗi gia trọng WErr (Weighted Error . ! "#$%&'() Đ ti: Phân loi văn bn: Lc thư rc *+,)'(-. . liệu, chẩn đon y khoa, pht hiện thẻ tín dụng gi, phân tích thị trường chứng khon, phân loi cc chuỗi DNA, nhận dng tiếng nói và chữ viết, dịch tự động, chơi trò chơi và cử động rô-bốt (robot. to ra cc chương trình my tính bằng việc phân tích cc tập dữ liệu. Hc my có liên quan lớn đến thống kê, vì c hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khc với thống kê,