Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 36 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
36
Dung lượng
302,08 KB
Nội dung
1 I HC QUC GIA TP. H CHÍ MINH TRNG I HC KHOA HC T NHIÊN KHOA CÔNG NGH THÔNG TIN MÔN H THNG THÔNG TIN LÊ NGUYN BÁ DUY –TRN MINH TRÍ TÌM HIU CÁC HNG TIP CN PHÂN LOI EMAIL VÀ XÂY DNG PHN MM MAIL CLIENT TR TING VIT KHOÁ LUN C NHÂN TIN HC TP. HCM, NM 2005 2 I HC QUC GIA TP. H CHÍ MINH TRNG I HC KHOA HC T NHIÊN KHOA CÔNG NGH THÔNG TIN MÔN H THNG THÔNG TIN LÊ NGUYN BÁ DUY -0112050 TRN MINH TRÍ -0112330 TÌM HIU CÁC HNG TIP CN PHÂN LOI EMAIL VÀ XÂY DNG PHN MM MAIL CLIENT TR TING VIT KHOÁ LUN C NHÂN TIN HC GIÁO VIÊN HNG DN THY LÊ C DUY NHÂN NIÊN KHÓA 2001-2005 3 I CM N Trc tiên, chúng tôi xin chân thành cm n thy Lê c Duy Nhân, ngi ã hng dn chúng tôi thc hin tài này. Nh có s hng dn, ch bo tn tình ca thy, chúng tôi ã hoàn thành khoá lun này. Chúng con xin kính gi lòng bit n, kính trng ca chúng con n ông bà, cha m và các ngi thân trong gia ình ã ht lòng nuôi chúng con n hc, luôn luôn bên chúng con,ng viên giúp chúng con vt qua khó khn Chúng em xin cm n tt c các thy cô trng i hc Khoa Hc T Nhiên, c bit là các thy cô trong khoa Công Ngh Thông Tin ã ht lòng ging dy, truyn t nhiu kin thc và kinh nghim quý báu cho chúng em. Chúng em cng xin chân thành cm n khoa Công Ngh Thông Tin, b môn H Thng Thông Tin ã to mi u kin thun li trong quá trình thc hin khoá lun ca chúng em. Chúng tôi xin chân thành cm n bn bè trong lp cng nh các anh chi trc ã giúp , óng góp ý kin cho chúng tôi. Vi thi gian nghiên cu ngn, trong vòng 6 tháng và nng lc ca nhng ngi làm tài, chc chn tài còn có nhiu thiu sót. Chúng tôi rt mong nhn c nhng góp ý, nhn xét tài c hoàn thin hn. Thành ph H Chí Minh Tháng 7 nm 2005 Nhng ngi thc hin: Lê Nguyn Bá Duy – Trn Minh Trí. 4 v Mc lc: Chng 1 : MU 9 1.1 Gii thiu: 10 1. 2 Yêu c u bài t oán: 12 1.3 B cc khoá lun : 12 Chng 2 : TNG QUAN 14 2.1 Các cách thc con ngi x lý vi spam : 15 2.2 Các phng pháp tip cn: 16 2.2.1 Complaining to Spammers' ISPs : 16 2. 2.2 Ma il Bl ackl i sts /Whit el is ts: 16 2.2.3 Mail volume : 18 2. 2.4 Sign ature/ Checksum schemes: 19 2.2.5 Genetic Algorithms: 20 2.2.6 Ru le-Based (hay là Heuristic): 21 2.2.7 Challenge-Response: 22 2.2.8 Machine Learning ( Máy hc ): 23 2.3 Phng pháp la chn : 24 2.4 Các ch sánh giá hiu qu phân loi email : 24 2.4.1 Spam Recall và Spam Precision: 24 2.4.2 T l li Err (Error) và t l chính xác Acc(Accuracy) : 25 2.4.3 T l li gia trng WErr (Weighted Error ) và t l chính xác gia trng (Weighted Accuracy): 25 2.4.4 T s chi phí tng hp TCR (Total Cost Ratio ): 26 Chng 3 : GII THIU CÁC KHO NG LIU DÙNG KIM TH PHÂN LOI EMAIL 28 3.1 Kho ng liu PU (corpus PU ): 29 3.1.1 Vài nét v kho ng liu PU: 29 3.1.2 Mô t cu trúc kho ng liu PU: 30 3.2 Kho ng liu email ch: 31 Chng 4 : PHNG PHÁP PHÂN LOI NAÏVE BAYESIAN VÀ NG DNG PHÂN LOI EMAIL 33 4.1 Mt vài khái nim xác sut có liên quan 34 4.1.1 nh ngha bin c, xác sut : 34 4.1.2 Xác sut có u kin, công thc xác sut y – công thc xác sut Bayes35 4.2 Phng pháp phân loi Naïve Bayesian : 36 4.3 Phân loi email bng phng pháp Naïve Bayesian : 37 4.3.1 Phân loi email da trên thut toán Naïve Bayesian 38 4.3.2 Chn ngng phân loi email : 39 Chng 5 : THC HIN VÀ KIM TH PHÂN LOI EMAIL DA TRÊN PHNG PHÁP PHÂN LOI NAÏVE BAYESIAN 41 5.1 Cài t chng trình phân loi email da trên phng pháp phân loi Naïve Bayesian: 42 5.1.1 Khái nim “Token” : 42 5.1.2 Vector thuc tính : 42 5.1.3 Chn ngng phân loi : 43 5.1.4 Cách thc hin :. 43 5 5.2 Th nghim hiu qu phân loi 51 5.2.1 Th nghim vi kho ng liu pu: 51 5.2.2 Th nghim vi kho ng liu email ch : 60 5.3 u – nhc m ca phng pháp phân loi Naïve Bayesian: 61 5.3.1 u m : 61 5.3.2 Khuyt m : 62 Chng 6 : PHNG PHÁP ADABOOST VÀ NG DNG PHÂN LOI EMAIL 63 6.1 Thut toán AdaBoost : 64 6.2 AdaBoost trong phân loi vn bn nhiu lp : 65 Thut toán AdaBoost MH phân loi vn bn nhiu lp : 66 6.3 ng dng AdaBoost trong phân loi email: 66 6.3.1 Thut toán AdaBoost.MH trong trung hp phân loi nh phân 67 Gii hn li hun luyn sai : 68 6.3.2 Phng pháp la chn lut yu : 70 Chng 7 : THC HIN VÀ KIM TH PHÂN LOI EMAIL DA TRÊN PHNG PHÁP ADABOOST 73 7.1 Cài t b phân loi email da trên phng pháp AdaBoost: 74 7.1.1 Tp hun luyn mu và tp nhãn : 74 7.1.2 Xây dng tp lut yu ban u : 75 7.1.3 Th tc WeakLearner chn lut yu: 76 7.1.4 Phân loi email : 76 7.2 Th nghim hiu qu phân loi : 76 7.2.1 Th nghim vi kho ng liu pu: 76 7.2.2 Th nghim vi kho ng liu email ch: 79 7.3 u – nhc m ca phng pháp phân loi AdaBoost: 80 7.3.1 u m : 80 7.3.2 Khuyt m : 80 Chng 8 : XÂY DNG CHNG TRÌNH MAIL CLIENT TING VIT H TR PHÂN LOI EMAIL 82 8.1 Chc nng: 83 8.2 Xây dng b lc email spam : 83 8.3 T chc d liu cho chng trình : 84 8.4 Giao d in ngi dùng : 85 8.4.1 S màn hình : 85 8.4.2 Mt s màn hình chính : 85 Chng 9 : TNG KT VÀ HNG PHÁT TRIN 94 9.1 Các vic ã thc hin c : 95 9.2 Hng ci tin, m rng : 95 9.2.1 V phân loi và lc email spam: 95 9.2.2 V chng trình Mail Client: 96 TÀI LIU THAM KHO 97 Ting Vit : 97 Ting Anh : 97 Ph lc 99 6 Ph lc 1 : Kt qu th nghim phân loi email bng phng pháp Bayesian vi kho ng liu hc và kim th pu 99 Ph lc 2 : Kt qu th nghim phân loi email bng phng pháp AdaBoost vi kho ng liu hc và kim th pu 103 1. Kt qu thc hin vi thut toán AdaBoost with real value predictions 103 2. Kt qu thc hin vi thut toán AdaBoost with discrete predictions 105 7 Danh mc các hình v: Hình 3-1Email sau khi tách token và mã hoá (trong kho ng liu pu) 29 Hình 5-1Mô t cu trúc bng bm 48 Hình 5-2 Lc so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th nghim trên kho ng liu PU1 vi công thc 5-7 ( 9 λ= ) 53 Hình 5-3 Lc ch s TCR theo s token th nghim trên kho ng liu PU1 vi công thc 5-7 ( 9 λ= ) 53 Hình 5-4 Lc so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th nghim trên kho ng liu PU2 vi công thc 5-5 ( 9 λ= ) 55 Hình 5-5 Lc ch s TCR theo s token th nghim trên kho ng liu PU2 vi công thc 5-5 ( 9 λ= ) 55 Hình 5-6 Lc so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th nghim trên kho ng liu PU3 vi công thc 5-6 ( 9 λ= ) 57 Hình 5-7 Lc ch s TCR theo s token th nghim trên kho ng liu PU3 vi công thc 5-6 ( 9 λ= ) 57 Hình 5-8 Lc so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th nghim trên kho ng liu PUA vi công thc 5-5 ( 9 λ= ) 59 Hình 5-9 Lc ch s TCR theo s token th nghim trên kho ng liu PUA vi công thc 5-5 ( 9 λ= ) 59 8 Danh mc các bng: Bng 3-1Mô t cu trúc kho ng liu PU 31 Bng 5-1 Kt qu kim th phân lai email bng phng pháp phân lai Naïve Bayesian trên kho ng liu PU1 52 Bng 5-2 Kt qu kim th phân lai email bng phng pháp phân lai Naïve Bayesian trên kho ng liu PU2 54 Bng 5-3 Kt qu kim th phân lai email bng phng pháp phân lai Naïve Bayesian trên kho ng liu PU3 56 Bng 5-4 Kt qu kim th phân lai email bng phng pháp phân lai Naïve Bayesian trên kho ng liu PUA 58 Bng 5-5 Kt qu kim th phân lai email bng phng pháp phân lai Bayesian trên kho ng liu email ch 61 Bng 7-1 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán AdaBoost with real -value predictions 77 Bng 7-2 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán AdaBoost with discrete predictions 77 Bng 7-3 kt qu th nghim phân loi email vi ng liu email ch bng thut toán AdaBoost with real-value predictions 79 Bng 7-4 Kt qu th nghim phân loi email vi ng liu email ch bng thut toán AdaBoost with discrete predictions 80 9 Chng 1 : MU 10 1.1 Gii thiu: Thi i ngày nay là thi i bùng n thông tin, Internet ã tr nên quen thuc và không th thiu i vi mi quc gia và xã hi. Liên lc qua Internet ã tr nên ph bin, và email là mt phng tin liên lc có chi phí thp, nhanh chóng và hiu qu nht trên Internet. Hng ngày mi ngi s dng email u nhn c mt ng ln email, tuy nhiên không phi tt c các email mà ta nhn c u cha thông tin mà ta quan tâm. Nhng email mà ta không mun nhn y là email Spam. Ngc li, nhng email không phi là spam gi là non-spam – email hp lc ngidùng chp nhn. Spam chính là nhng email c phát tán mt cách rng rãi không theo bt c mt yêu cu nào ca ngi nhn vi s lng ln (unsolicited bulk email (UBE)), hay nhng email qung cáo c gi mà không có yêu cu ca ngi nhn (unsolicited commercial email (UCE)) [1]. Nhiu ngi trong chúng ta ngh rng spam là mt vn mi, nhng thc ra nó ã xut hin khá lâu – ít nht là t nm 1975. Vào lúc khi thy, ngi dùng hu ht là các chuyên gia v máy tính, h có th gi hàng tá thm chí hàng trm email n các nhóm tin (newsgroup) và spam hu nh ch liên quan n các email gi n các nhóm tin Usenet, gây ra tình trng không th kim soát c các email nhn. Sau ó các bin pháp trng tr v mt xã hi và hành chính ã có tác dng, th phm ã b trng pht , công khai hay bí mt, nhng ngi này nhanh chóng c a vào mt danh sách, và mt k thut lc spam sm nht xut hin ó là ”bad sender” – lc email ca nhng ngi gi c xem là xu. WWW(World-Wide Web) ã mang th gii Internet n nhiu ngi, và h qu ca nó là nhiu ngi không phi là chuyên gia trong th gii máy tính cng c tip xúc nhiu vi Internet, nó cho phép truy cp n nhng thông tin và dch v mà trc ây là không c phép. Ch trong vòng 2-3 nm chúng ta ã chng kin s bùng n s ngi s dng Internet và tt nhiên là nhng c hi qung cáo trên y. Và spam ã phát trin mt cách nhanh chóng tây, nhng k thut ngn [...]... toỏn phõn lo i email v xõy d ng ph n m m Mail Client h tr ti ng Vi t v i m c ớch tỡm hi u, th nghi m cỏc ph phỏp ti p c n cho bi toỏn phõn lo i email , t ng n ch n email spam hi u qu 1 2 http://zdnet.com.com/ 210 0 -1 10 6-9 55842.html http://zdnet.com.com/ 210 0 -1 10 5_ 2 -1 019 528.html 11 ng ú th c hi n phõn lo i email giỳp 1. 2 Yờu c u bi toỏn: Yờu c u i v i m t h th ng phõn lo i email v ng n ch n email spam ng... 6253 258 2 313 18 26 413 9 1. 27 Pua 980 369 40 5 71 5 71 114 2 1 ng 3 -1 Mụ t c u trỳc kho ng li u PU M i kho ng li u pu l i c chia ra lm 11 th m c t part 1 m t th m c unused, m i th m c t part 1 nhau v s l n part 10 ch a s l n part 10 , v ng email nh ng email spam v email h p l trong m i th m c part i (i =1, ,10 ) trờn l nh nhau, th m c unused ch a nh ng email khụng s d ng Chỳng tụi s d ng t part 1 n part 9 ph... li u g m nh ng email c thu th p trong cỏc n m 2002 v 2003, s l ng email 69 51 31 ng email spam 2398 l, s Chỳng tụi ti n hnh x lý v phõn l ai email : l ai b nh ng email cú t p tin ớnh kốm, phõn lo i email html v email v n b n tr n (text/plain) S email spam l v n b n tr n sau khi ó x lý kh ang 600 email, email nonspam l v n b n tr n sau khi ó x lý l kho ng 2500 mail S email non-spam l email html sau khi... l n email l c a nh ng ng i g i th ng i t o kho ng li u - nh ng email RC (Relative Correspondence), nh ng email ny c ng c lo i b 3 .1. 2 Mụ t c u trỳc kho ng li u PU: Nh ng email h p l trong PU1 l nh ng email h p l ng c trong vũng 36 thỏng cho i t o ó nh n n thỏng 12 n m 2003, g m cú 11 82 email Nh ng email h p l khụng cú n i dung v nh ng email RC s b lo i b , k t qu l cú 618 email h p l Nh ng email. .. 1: 1 Trong t t c cỏc kho ng li u PU, cỏc t p tin ớnh kốm, cỏc th HTML, cỏc tr ng khỏc trong header c a email (subject) Cỏc d u ch m cõu, cỏc kớ t u b lo i b (ngo i tr tr c bi t khỏc (!,$) c ng 30 ng tiờu c xem xột c Tờn Email Email h p l ban Email Email Email T ng T l non- RC h p l h p l spam s spam:spam khỏc b cũn l i u email gi l i xúa Pu1 11 82 564 618 4 81 1099 1. 28 Pu2 6207 5628 579 14 2 7 21 4. 01. .. V i ng li u email ng dựng hu n luy n l 528, s l ng ki m th l 10 0 t o kho ng li u email html, chỳng tụi c ng xõy d ng t V i ng li u email non-spam l html, chỳng tụi dựng 14 1 email email dựng ng t nh trờn hu n luy n, 50 ki m th Cũn ng li u emal spam l html, chỳng tụi dựng 205 email hu n luy n v 50 email ki m th 32 Ch ng 4 : PH NG PHP PHN LO I NAẽVE BAYESIAN V LO I EMAIL 33 NG D NG PHN 4 .1 M t vi khỏi... lý l g n 200 mail, s email spam l email html sau khi ó x lý kho ng 10 00 mail Sau ú chỳng tụi t o thnh hai kho ng li u email v n b n tr n (text/plain) v email html Vi c t o kho ng li u email v n b n tr n (text/plain) th c hi n b ng cỏch ch n ng u nhiờn cỏc email t kho ng li u sau khi ó qua x lý, s email spam dựng hu n luy n l 517 , s l ng email spam non-spam l v n b n tr n (text/plain) s l dựng ki m th... lo i c email l spam hay non-spam, t ú s cú bi n phỏp ng n ch n email spam, hi u qu phõn lo i email ph i kh quan, tuy nhiờn khụng th ỏnh i hi u qu phõn lo i email spam cao m b qua l i sai cho r ng email non- spam l spam, b i vỡ cựng v i vi c t ng kh n ng phõn lo i email spam thỡ kh n ng x y ra l i nh n nh m email non-spam thnh email spam c ng t ng theo Do ú yờu c u i v i m t h th ng phõn lo i email spam... PU1 l email spam ng ó nh n c trong kho ng th i gian 22 thỏng cho n th i it o m 1 2-2 003, bao g m nh ng email khụng ph i l email ti ng Anh v nh ng email gi ng nhau nh n trong m t ngy PU2 c ng t ng t nh PU1, i m khỏc nhau õy l nh ng email RC PU3 v PUA,nh ng email h p l khụng ph i l ti ng Anh v n gi l i T l non-spam :spam c a PU3 x p x PU1, tuy nhiờn s l nhi u g p 4 l n PU1, trong PU2 t l ú x p x 4 :1, ... (WErr =1 -WAcc) WAcc = nN > N + nS > S N N + NS Cụng th c 2-5 T l chớnh xỏc gia tr ng WErr = nN > S + nS > N N N + NS Cụng th c 2-6 T l l i gia tr ng V i: ỹ N N v N S l s email non-spam v s email spam c n phõn lo i ỹ n N > N l s email l non-spam v c b l c nh n ra l non- spam ỹ n N > S l s email l non-spam m b l c nh n ra l spam ỹ n S > S l s email l spam m c b l c nh n ra l spam ỹ nS > N l s email . phân loi email , t ó thc hin phân loi email giúp ngn chn email spam hiu qu. 1 http://zdnet.com.com/ 210 0 -1 10 6-9 55842.html 2 http://zdnet.com.com/ 210 0 -1 105_ 2 -1 019 528.html 12 1. 2 Yêu. lc: Chng 1 : MU 9 1. 1 Gii thiu: 10 1. 2 Yêu c u bài t oán: 12 1. 3 B cc khoá lun : 12 Chng 2 : TNG QUAN 14 2 .1 Các cách thc con ngi x lý vi spam : 15 2.2 Các phng pháp tip cn: 16 2.2 .1. TIN MÔN H THNG THÔNG TIN LÊ NGUYN BÁ DUY -0 11 2050 TRN MINH TRÍ -0 11 2330 TÌM HIU CÁC HNG TIP CN PHÂN LOI EMAIL VÀ XÂY DNG PHN MM MAIL CLIENT TR TING VIT KHOÁ LUN C NHÂN TIN