Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 106 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
106
Dung lượng
1 MB
Nội dung
1 I HC QUC GIA TP. H CHÍ MINH TRNG I HC KHOA HC T NHIÊN KHOA CÔNG NGH THÔNG TIN MÔN H THNG THÔNG TIN LÊ NGUYN BÁ DUY –TRN MINH TRÍ TÌM HIU CÁC HNG TIP CN PHÂN LOI EMAILVÀXÂY DNG PHN MM MAILCLIENT TR TING VIT KHOÁ LUN C NHÂN TIN HC TP. HCM, NM 2005 2 I HC QUC GIA TP. H CHÍ MINH TRNG I HC KHOA HC T NHIÊN KHOA CÔNG NGH THÔNG TIN MÔN H THNG THÔNG TIN LÊ NGUYN BÁ DUY -0112050 TRN MINH TRÍ -0112330 TÌM HIU CÁC HNG TIP CN PHÂN LOI EMAILVÀXÂY DNG PHN MM MAILCLIENT TR TING VIT KHOÁ LUN C NHÂN TIN HC GIÁO VIÊN HNG DN THY LÊ C DUY NHÂN NIÊN KHÓA 2001-2005 3 I CM N Trc tiên, chúng tôi xin chân thành cm n thy Lê c Duy Nhân, ngi ã hng dn chúng tôi thc hin tài này. Nh có s hng dn, ch bo tn tình ca thy, chúng tôi ã hoàn thành khoá lun này. Chúng con xin kính gi lòng bit n, kính trng ca chúng con n ông bà, cha m vàcác ngi thân trong gia ình ã ht lòng nuôi chúng con n hc, luôn luôn bên chúng con,ng viên giúp chúng con vt qua khó khn Chúng em xin cm n tt c các thy cô trng i hc Khoa Hc T Nhiên, c bit là các thy cô trong khoa Công Ngh Thông Tin ã ht lòng ging dy, truyn t nhiu kin thc và kinh nghim quý báu cho chúng em. Chúng em cng xin chân thành cm n khoa Công Ngh Thông Tin, b môn H Thng Thông Tin ã to mi u kin thun li trong quá trình thc hin khoá lun ca chúng em. Chúng tôi xin chân thành cm n bn bè trong lp cng nh các anh chi trc ã giúp , óng góp ý kin cho chúng tôi. Vi thi gian nghiên cu ngn, trong vòng 6 tháng và nng lc ca nhng ngi làm tài, chc chn tài còn có nhiu thiu sót. Chúng tôi rt mong nhn c nhng góp ý, nhn xét tài c hoàn thin hn. Thành ph H Chí Minh Tháng 7 nm 2005 Nhng ngi thc hin: Lê Nguyn Bá Duy – Trn Minh Trí. 4 v Mc lc: Chng 1 : MU . 9 1.1 Gii thiu: .10 1.2 Yêu cu bài toán: .12 1.3 B cc khoá lun : .12 Chng 2 : TNG QUAN . 14 2.1 Các cách thc con ngi x lý vi spam : 15 2.2 Các phng pháp tip cn: . 16 2.2.1 Complaining to Spammers' ISPs : 16 2.2.2 Mail Blacklists /Whitelists: . 16 2.2.3 Mail volume : . 18 2.2.4 Signature/ Checksum schemes: . 19 2.2.5 Genetic Algorithms: 20 2.2.6 Rule-Based (hay là Heuristic): 21 2.2.7 Challenge-Response: . 22 2.2.8 Machine Learning ( Máy hc ): .23 2.3 Phng pháp la chn : .24 2.4 Các ch sánh giá hiu qu phân loi email : .24 2.4.1 Spam Recall và Spam Precision: .24 2.4.2 T l li Err (Error) và t l chính xác Acc(Accuracy) : 25 2.4.3 T l li gia trng WErr (Weighted Error ) và t l chính xác gia trng (Weighted Accuracy): .25 2.4.4 T s chi phí tng hp TCR (Total Cost Ratio ): 26 Chng 3 : GII THIU CÁC KHO NG LIU DÙNG KIM TH PHÂN LOI EMAIL . 28 3.1 Kho ng liu PU (corpus PU ): 29 3.1.1 Vài nét v kho ng liu PU: 29 3.1.2 Mô t cu trúc kho ng liu PU: 30 3.2 Kho ng liu email ch: . 31 Chng 4 : PHNG PHÁP PHÂN LOI NAÏVE BAYESIAN VÀ NG DNG PHÂN LOI EMAIL . 33 4.1 Mt vài khái nim xác sut có liên quan .34 4.1.1 nh ngha bin c, xác sut : 34 4.1.2 Xác sut có u kin, công thc xác sut y – công thc xác sut Bayes35 4.2 Phng pháp phân loi Naïve Bayesian : .36 4.3 Phân loi email bng phng pháp Naïve Bayesian : .37 4.3.1 Phân loi email da trên thut toán Naïve Bayesian 38 4.3.2 Chn ngng phân loi email : 39 Chng 5 : THC HIN VÀ KIM TH PHÂN LOI EMAIL DA TRÊN PHNG PHÁP PHÂN LOI NAÏVE BAYESIAN 41 5.1 Cài t chng trình phân loi email da trên phng pháp phân loi Naïve Bayesian: . 42 5.1.1 Khái nim “Token” : . 42 5.1.2 Vector thuc tính : 42 5.1.3 Chn ngng phân loi : .43 5.1.4 Cách thc hin : 43 5 5.2 Th nghim hiu qu phân loi 51 5.2.1 Th nghim vi kho ng liu pu: 51 5.2.2 Th nghim vi kho ng liu email ch : .60 5.3 u – nhc m ca phng pháp phân loi Naïve Bayesian: 61 5.3.1 u m : 61 5.3.2 Khuyt m : 62 Chng 6 : PHNG PHÁP ADABOOST VÀ NG DNG PHÂN LOI EMAIL 63 6.1 Thut toán AdaBoost : . 64 6.2 AdaBoost trong phân loi vn bn nhiu lp : . 65 Thut toán AdaBoost MH phân loi vn bn nhiu lp : 66 6.3 ng dng AdaBoost trong phân loi email: .66 6.3.1 Thut toán AdaBoost.MH trong trung hp phân loi nh phân . 67 Gii hn li hun luyn sai : .68 6.3.2 Phng pháp la chn lut yu : .70 Chng 7 : THC HIN VÀ KIM TH PHÂN LOI EMAIL DA TRÊN PHNG PHÁP ADABOOST . 73 7.1 Cài t b phân loi email da trên phng pháp AdaBoost: 74 7.1.1 Tp hun luyn mu và tp nhãn : .74 7.1.2 Xây dng tp lut yu ban u : 75 7.1.3 Th tc WeakLearner chn lut yu: .76 7.1.4 Phân loi email : .76 7.2 Th nghim hiu qu phân loi : 76 7.2.1 Th nghim vi kho ng liu pu: 76 7.2.2 Th nghim vi kho ng liu email ch: . 79 7.3 u – nhc m ca phng pháp phân loi AdaBoost: .80 7.3.1 u m : 80 7.3.2 Khuyt m : 80 Chng 8 : XÂY DNG CHNG TRÌNH MAILCLIENT TING VIT H TR PHÂN LOI EMAIL . 82 8.1 Chc nng: 83 8.2 Xây dng b lc email spam : 83 8.3 T chc d liu cho chng trình : 84 8.4 Giao din ngi dùng : 85 8.4.1 S màn hình : .85 8.4.2 Mt s màn hình chính : 85 Chng 9 : TNG KT VÀ HNG PHÁT TRIN . 94 9.1 Các vic ã thc hin c : 95 9.2 Hng ci tin, m rng : 95 9.2.1 V phân loi và lc email spam: 95 9.2.2 V chng trình Mail Client: 96 TÀI LIU THAM KHO 97 Ting Vit : .97 Ting Anh : .97 Ph lc . 99 6 Ph lc 1 : Kt qu th nghim phân loi email bng phng pháp Bayesian vi kho ng liu hc và kim th pu 99 Ph lc 2 : Kt qu th nghim phân loi email bng phng pháp AdaBoost vi kho ng liu hc và kim th pu 103 1. Kt qu thc hin vi thut toán AdaBoost with real value predictions 103 2. Kt qu thc hin vi thut toán AdaBoost with discrete predictions 105 7 Danh mc các hình v: Hình 3-1Email sau khi tách token và mã hoá (trong kho ng liu pu) 29 Hình 5-1Mô t cu trúc bng bm .48 Hình 5-2 Lc so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th nghim trên kho ng liu PU1 vi công thc 5-7 ( 9λ= ) .53 Hình 5-3 Lc ch s TCR theo s token th nghim trên kho ng liu PU1 vi công thc 5-7 ( 9λ= ) .53 Hình 5-4 Lc so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th nghim trên kho ng liu PU2 vi công thc 5-5 ( 9λ= ) 55 Hình 5-5 Lc ch s TCR theo s token th nghim trên kho ng liu PU2 vi công thc 5-5 ( 9λ= ) .55 Hình 5-6 Lc so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th nghim trên kho ng liu PU3 vi công thc 5-6 ( 9λ= ) 57 Hình 5-7 Lc ch s TCR theo s token th nghim trên kho ng liu PU3 vi công thc 5-6 ( 9λ= ) .57 Hình 5-8 Lc so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th nghim trên kho ng liu PUA vi công thc 5-5 ( 9λ= ) .59 Hình 5-9 Lc ch s TCR theo s token th nghim trên kho ng liu PUA vi công thc 5-5 ( 9λ= ) .59 8 Danh mc các bng: Bng 3-1Mô t cu trúc kho ng liu PU .31 Bng 5-1 Kt qu kim th phân lai email bng phng pháp phân lai Naïve Bayesian trên kho ng liu PU1 .52 Bng 5-2 Kt qu kim th phân lai email bng phng pháp phân lai Naïve Bayesian trên kho ng liu PU2 .54 Bng 5-3 Kt qu kim th phân lai email bng phng pháp phân lai Naïve Bayesian trên kho ng liu PU3 .56 Bng 5-4 Kt qu kim th phân lai email bng phng pháp phân lai Naïve Bayesian trên kho ng liu PUA 58 Bng 5-5 Kt qu kim th phân lai email bng phng pháp phân lai Bayesian trên kho ng liu email ch 61 Bng 7-1 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán AdaBoost with real -value predictions 77 Bng 7-2 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán AdaBoost with discrete predictions 77 Bng 7-3 kt qu th nghim phân loi email vi ng liu email ch bng thut toán AdaBoost with real-value predictions .79 Bng 7-4 Kt qu th nghim phân loi email vi ng liu email ch bng thut toán AdaBoost with discrete predictions .80 9 Chng 1 : MU 10 1.1 Gii thiu: Thi i ngày nay là thi i bùng n thông tin, Internet ã tr nên quen thuc và không th thiu i vi mi quc gia và xã hi. Liên lc qua Internet ã tr nên ph bin, vàemail là mt phng tin liên lc có chi phí thp, nhanh chóng và hiu qu nht trên Internet. Hng ngày mi ngi s dng email u nhn c mt ng ln email, tuy nhiên không phi tt c cácemail mà ta nhn c u cha thông tin mà ta quan tâm. Nhng email mà ta không mun nhn y là email Spam. Ngc li, nhng email không phi là spam gi là non-spam – email hp lc ngidùng chp nhn. Spam chính là nhng email c phát tán mt cách rng rãi không theo bt c mt yêu cu nào ca ngi nhn vi s lng ln (unsolicited bulk email (UBE)), hay nhng email qung cáo c gi mà không có yêu cu ca ngi nhn (unsolicited commercial email (UCE)) [1]. Nhiu ngi trong chúng ta ngh rng spam là mt vn mi, nhng thc ra nó ã xut hin khá lâu – ít nht là t nm 1975. Vào lúc khi thy, ngi dùng hu ht là các chuyên gia v máy tính, h có th gi hàng tá thm chí hàng trm email n các nhóm tin (newsgroup) và spam hu nh ch liên quan n cácemail gi n các nhóm tin Usenet, gây ra tình trng không th kim soát c cácemail nhn. Sau ó các bin pháp trng tr v mt xã hi và hành chính ã có tác dng, th phm ã b trng pht , công khai hay bí mt, nhng ngi này nhanh chóng c a vào mt danh sách, và mt k thut lc spam sm nht xut hin ó là ”bad sender” – lc email ca nhng ngi gi c xem là xu. WWW(World-Wide Web) ã mang th gii Internet n nhiu ngi, và h qu ca nó là nhiu ngi không phi là chuyên gia trong th gii máy tính cng c tip xúc nhiu vi Internet, nó cho phép truy cp n nhng thông tin và dch v mà trc ây là không c phép. Ch trong vòng 2-3 nm chúng ta ã chng kin s bùng n s ngi s dng Internet và tt nhiên là nhng c hi qung cáo trên y. Và spam ã phát trin mt cách nhanh chóng tây, nhng k thut ngn [...]... 2003, s l ng email 6951 31 ng email spam 2398 l, s Chỳng tụi ti n hnh x lý v phõn l ai email : l ai b nh ng email cú t p tin ớnh kốm, phõn lo i email html v email v n b n tr n (text/plain) S email spam l v n b n tr n sau khi ó x lý kh ang 600 email, email nonspam l v n b n tr n sau khi ó x lý l kho ng 2500 mail S email non-spam l email html sau khi ó x lý l g n 200 mail, s email spam l email html sau... m cú 1182 email Nh ng email h p l khụng cú n i dung v nh ng email RC s b lo i b , k t qu l cú 618 email h p l Nh ng email spam trong PU1 l email spam ng ó nh n c trong kho ng th i gian 22 thỏng cho n th i it o m 12-2003, bao g m nh ng email khụng ph i l email ti ng Anh v nh ng email gi ng nhau nh n trong m t ngy PU2 c ng t ng t nh PU1, i m khỏc nhau õy l nh ng email RC PU3 v PUA,nh ng email h p l... lo i c email l spam hay non-spam, t ú s cú bi n phỏp ng n ch n email spam, hi u qu phõn lo i email ph i kh quan, tuy nhiờn khụng th ỏnh i hi u qu phõn lo i email spam cao m b qua l i sai cho r ng email non- spam l spam, b i vỡ cựng v i vi c t ng kh n ng phõn lo i email spam thỡ kh n ng x y ra l i nh n nh m email non-spam thnh email spam c ng t ng theo Do ú yờu c u i v i m t h th ng phõn lo i email spam... khi ó x lý kho ng 1000 mail Sau ú chỳng tụi t o thnh hai kho ng li u email v n b n tr n (text/plain) v email html Vi c t o kho ng li u email v n b n tr n (text/plain) th c hi n b ng cỏch ch n ng u nhiờn cỏc email t kho ng li u sau khi ó qua x lý, s email spam dựng hu n luy n l 517, s l ng email spam non-spam l v n b n tr n (text/plain) s l dựng ki m th l 98 V i ng li u email ng dựng hu n luy n l 528,... xỏc nh ng email spam ny th c s nt ó khộo lộo che gi u i ph n header c a email ú c n ph i hi u bi t v header c a email th t s nt õu do cỏc spammer n i ngu n g c Do hi u rừ email spam ny õu 2.2.2 Mail Blacklists /Whitelists: ít ng: M t danh sỏch en (Blacklist) cỏc a ch email hay cỏc mỏy ch email (mail server) chuyờn dựng c a cỏc spammer s 16 c thi t l p v d a vo ú ta cú th ng n ch n nh n email spam... dựng hu n luy n l 528, s l ng ki m th l 100 t o kho ng li u email html, chỳng tụi c ng xõy d ng t V i ng li u email non-spam l html, chỳng tụi dựng 141 emailemaildựng ng t nh trờn hu n luy n, 50 ki m th Cũn ng li u emal spam l html, chỳng tụi dựng 205 email hu n luy n v 50 email ki m th 32 Ch ng 4 : PH NG PHP PHN LO I NAẽVE BAYESIAN V LO I EMAIL 33 NG D NG PHN 4.1 M t vi khỏi ni m xỏc su t cú liờn... i, ch gi l i m t email m thụi ch ny c ỏp d ng cho c email spam v email non-spam Theo [18], trong quỏ trỡnh t o kho ng li u PU, m t v n phỏt sinh ú l cú m t l xuyờn liờn l c v i ng ng l n email l c a nh ng ng i g i th ng i t o kho ng li u - nh ng email RC (Relative Correspondence), nh ng email ny c ng c lo i b 3.1.2 Mụ t c u trỳc kho ng li u PU: Nh ng email h p l trong PU1 l nh ng email h p l ng c trong... n i ny Vi c thi t l p danh sỏch cỏc a ch email en hay mỏy ch g i email ny s do m t nhúm tỡnh nguy n xỏc nh n M t s nh cung c p d ch v m ng ISP s dựng danh sỏch en ki u ny v t ng t ch i nh n email t nh ng mỏy ch hay email trong dỏnh sỏch ú Nh v y, nh ng email spam s c phõn lo i v ch n ngay t i mỏy ch nh n email c m: Ph ng phỏp ny b c u lo i c kho ng 50% [5] email spam Khuy t m c a ph ng phỏp ny l chỳng... i email cỏ nhõn thỡ nh ng k g i email qu ng cỏo ph i thi t l p nhi u k t n i h n ng email gi ng nhau g im ts u ny lm cho cỏc email qu ng cỏo ú d dng b phỏt hi n d a trờn vi c phõn tớch s l ng email M t h n ch c a b l c ny l t l ch p nh n phõn lo i sai FAR (false acceptance rate) c a nú cũn khỏ cao V i: 3 http://spamshield.conti.nu 18 FAR = nS N nS nS N : email spam m b l c nh n l non-spam nS email. .. t c cỏc kho ng li u PU, cỏc t p tin ớnh kốm, cỏc th HTML, cỏc tr ng khỏc trong header c a email (subject) Cỏc d u ch m cõu, cỏc kớ t u b lo i b (ngo i tr tr c bi t khỏc (!,$) c ng 30 ng tiờu c xem xột c Tờn EmailEmail h p l ban EmailEmailEmail T ng T l non- RC h p l h p l spam s spam:spam khỏc b cũn l i u email gi l i xúa Pu1 1182 564 618 481 1099 1.28 Pu2 6207 5628 579 142 721 4.01 Pu3 8824 6253 . mt h thng phân loi email và ngn chn email spam ng nhiên là phân loi c email là spam hay non-spam, tó s có bin pháp ngn chn email spam,. nng phân loi email spam thì kh nng xy ra li nhn nhm email non-spam thành email spam cng tng theo. Do ó yêu cu i vi mt h thng phân loi email