Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP và ứng dụng

80 244 0
Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 MC LC DANH MC CC T VIT TT .iii DANH MC HèNH V v LI M U CHNG 1: TNG QUAN V TH IN T 1.1 Khỏi nim th in t 1.1.1 Th in t l gỡ?, 1.1.2 Kin trỳc v hot ng ca h thng th in t 1.2 Gii thiu mt s giao thc s dng gi v nhn th in t 12 1.2.1 Giao thc gi th SMTP (Simple Mail Transfer Protocol) 12 1.2.2 Giao thc POP (Post Office Protocol) 17 1.2.3 Giao thc IMAP (Internet Message Access Protocol) 20 CHNG 2: TH RC V CC PHNG PHP LC TH RC 24 2.1 Th rỏc 24 2.1.1 Khỏi nim v th in t rỏc 24 2.1.2 Cỏc c im nhn dng th in t rỏc 24 2.1.3 Phõn loi th in t rỏc 26 2.2 Cỏc phng phỏp lc th rỏc 29 2.2.1 K thut chng thc th in t .30 2.2.2 Domain Keys (DK) 33 2.2.3 Phng phỏp lc theo t khúa 35 2.2.4 S dng DNS Blacklist 36 2.2.5 Kim tra ngi nhn 38 2.2.6 Chn IP 38 2.3 K thut lc theo ni dung 38 2.3.1 S dng b lc Bayesian. 38 2.3.2 S dng lc theo thut toỏn Naùve Bayes 44 2.3.3 Lc s dng phng phỏp Heuristic 49 Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng CHNG 3: XY DNG B LC TH T NG DA TRấN K THUT NAẽVE BAYES 56 3.1 Phõn tớch cõu 57 3.2 Xõy dng b lc th in t t ng 58 3.2.1 Tin trỡnh thu thp ni dung .60 3.2.2 Tin x lý 61 3.2.3 Phõn tớch ni dung th 62 3.2.3.1 Th ting Anh 62 3.2.3.2 Th ting Vit. 62 3.2.4 Phõn tớch t n 63 3.2.5 Phõn tớch t ghộp 64 3.3 Quy trỡnh lc th rỏc ting Vit 66 3.4 Ci t thc nghim 68 3.5 Kt qu thc nghim 71 3.5.1 Danh sỏch t n 71 3.5.2 Danh sỏch t ghộp 73 3.5.3 Danh sỏch t n v t ghộp 75 KT LUN 78 TI LIU THAM KHO .79 Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng DANH MC CC T VIT TT TT T VIT TT SMTP POP T Y TING ANH NGHA TING VIT Simple Mail Transfer Giao thc truyn th Protocol in t Post Office Protocol Giao thc nhn th in t IMAP SPF Internet Message Access Giao thc truy cp Protocol th in t Sender Policy Framework Giao thc chng thc th in t DK DomainKeys Giao thc chng thc xỏc thc tờn ca ngi gi MTA Message Transfer Agent) Tỏc nhõn truyn ti th in t MUA Mail User Agent Tỏc nhõn ngi dựng in t DNSBL DNSBL (DNS-based Blocklist) Danh sỏch en IP Internet Protocol Giao thc liờn mng Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng User Agent Tỏc nhõn ngi dựng 10 UA 11 Spammer Ngi gi th rỏc 12 Client Mỏy trm 13 Port Cng 14 Server Mỏy ch 15 Header Tiờu 16 routers B nh tuyn 17 Address Kim tra a ch th Debugging 18 Mail Chuyn th Forwarding 19 Mail Cng th Gatewaying 20 save lu tr 21 delete Xúa 22 reply Tr li Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng DANH MC HèNH V Hỡnh 1.1: Mụ hỡnh trao i th in t Hỡnh 1.2 : Mụ hỡnh trm phc v th (mail Server) 11 Hỡnh 1.3: Mụ hỡnh s dng SMTP (Ngun: RFC 5321, Simple Mail Transfer Protocol) 12 Hỡnh 1.4: Mụ hỡnh hot ng ca giao thc POP3 .18 Hỡnh 2.1: Vit Nam lt top 10 quc gia gi i nhiu th in t rỏc nht th gii .27 Hỡnh 2.2: Top 10 quc gia cú t l th rỏc/u ngi cao nht - nh: ST 28 Hỡnh 2.3: hot ng ca SPF ng 31 Hỡnh 2.4: Hiu qu phng phỏp SPF ng.32 Hỡnh 2.5: Khung ID ngi gi c thi hnh trờn MTA 34 Hỡnh 2.6: DNS Blacklist 37 Hỡnh 2.7: Chn IP .38 Hỡnh 2.8: Hot ng ca b lc th rỏc Bayesian 40 Hỡnh 2.9: Mụ t bc xõy dng b phõn lp 47 Bng 2.10: Cỏc phn mm chng th rỏc cú bn quyn 52 Bng 2.11: Cỏc phn mm chng th rỏc mó ngun m 52 Hỡnh 3.1: Mụ hỡnh tng quỏt.60 Hỡnh 3.2: Tin trỡnh hc t 61 Hỡnh 3.3: Quy trỡnh tỏch t vi th ting Vit.63 Bng 3.4: Thng kờ di ca t t in.65 Bng 3.5: Vớ d minh phõn tớch t n 68 Hỡnh 3.6 : Giao din x lý bn VLSP 69 Hỡnh 3.7: Np d liu t n vi Naùve Bayes 71 Hỡnh 3.8: Phõn lp t n vi Naùve Bayes .71 Hỡnh 3.9: Np d liu t ghộp vi Naùve Bayes 73 Hỡnh 3.10: Phõn lp t ghộp vi Naùve Bayes 73 Hỡnh 3.11: Np d liu t n v t ghộp vi Naùve Bayes.75 Hỡnh 3.12: Phõn lp t n v t ghộp vi Naùve Bayes.75 Bng 3.13: Kt qu phõn loi th ting Vit77 Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng LI M U Truyn thụng qua internet núi chung v giao dch trc tuyn bng th in t núi riờng ó tr thnh mt nhu cu khụng th thiu i vi ngi thi i Cụng ngh thụng tin hin Mi ngi s dng internet u cú th to cho mỡnh mt hoc nhiu ti khon email cú th liờn h vi gia ỡnh, bn bố v cụng vic Chớnh vỡ iu ny m k phỏt tỏn th rỏc (spammer) ó tỡm mi cỏch thu thp a ch email ca ngi dựng, t ú cú th s dng thụng tin ny vo cỏc mc ớch nh gi th qung cỏo, bỏn danh sỏch a ch email ca ngi dựng cho cỏc doanh nghip khỏc thu li nhng khon tin ln Spams ngy mt nhiu hn v chỳng khụng ngng tng theo cp s nhõn Spams, ngoi nhng thụng ip qung cỏo, tip th thụng thng ca cỏc spammers, mt s hackers cũn li dng vic phỏt tỏn th rỏc tn cụng vo cỏc email Server, li dng th rỏc la o trc tuyn hay ci t virus, Trojan vo mỏy tớnh ca ngi dựng S xut hin v gia tng th rỏc khụng nhng gõy khú chu v lm mt thi gian ca ngi nhn m cũn nh hng ti ng truyn Internet v lm chm tc x lý ca mỏy ch th in t, gõy thit hi ln v kinh t Trong phm vi ca ti, di s hng dn ca PGS.TS Nguyn Vn Tam, hc viờn ó chn ti Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng nhm xut gii phỏp xõy dng b lc ni dung t ng bng phng phỏp tỏch t n, t ghộp v ỏp dng thut toỏn Naùve bayes phõn loi th hp l v th rỏc Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng CHNG TNG QUAN V TH IN T 1.1 Khỏi nim th in t 1.1.1 Th in t l gỡ? Th in t l mt thụng ip gi t mỏy tớnh ny n mt mỏy tớnh khỏc trờn mng mỏy tớnh mang ni dung cn thit t ngi gi n ngi nhn Do th in t gi qua li trờn mng v s dng tớn hiu in vỡ vy tc truyn rt nhanh Ngoi ngi s dng cú th gi hoc nhn th riờng hoc cỏc bc in giao dch vi cỏc file ớnh kốm nh hỡnh nh, cỏc cụng ti liu thm c bn nhc hay cỏc chng trỡnh phn mm Th in t cũn c gi tt l E-mail (Electronic Mail) E-Mail cú nhiu cu trỳc khỏc tựy thuc vo h thng mỏy vi tớnh ca ngi s dng Mc dự khỏc v cu trỳc nhng tt c u cú chung mc ớch l gi hoc nhn th in t t mt ni ny n mt ni khỏc nhanh chúng Ngy nh s phỏt trin mnh m ca Internet, ngi ta cú th gi in th ti cỏc quc gia trờn ton th gii Vi li ớch nh vy nờn th in t hu nh tr thnh mt nhu cu cn phi cú ca ngi s dng mỏy vi tớnh 1.1.2 Kin trỳc v hot ng ca h thng th in t Mun gi th in t ngi gi cn phi cú mt account trờn mt mỏy ch th Mt mỏy ch cú th cú mt hoc nhiu account Mi account u c mang mt tờn khỏc (userid) Mi account u cú mt hp th riờng (mailbox) cho account ú Thụng thng thỡ tờn ca hp th s ging nh tờn ca account Ngoi mỏy vi tớnh ú phi c ni trc tip hoc giỏn tip vi h thng Internet nu mun gi nhn th in t ton cu Ngi s dng mỏy vi tớnh ti nh cú th gi nhn th in t bng cỏch kt ni mỏy vi tớnh ca h Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng vi mt mỏy vi tớnh khỏc bng mỏy modem Cú mt s ni cp phỏt account th in t phớ cho cỏc mỏy vi tớnh ti nh cú th dựng modem kt ni vi mỏy vi tớnh ú chuyn nhn th in t nh hotmail.com hoc yahoo.com v.v ng i ca th Mi mt bc th truyn thng phi i ti cỏc bu cc khỏc trờn ng n vi ngi dựng Tng t th in t cng chuyn t mỏy mỏy ch th in t ny (mail server) ti mỏy ch t in t khỏc trờn internet Khi th c chuyn n ớch thỡ nú c cha ti hp th in t ti mỏy ch th in t cho n nú c nhn bi ngi nhn Ton b quỏ trỡnh x lý ch xy vi phỳt, ú nú cho phộp nhanh chúng liờn lc vi mi ngi trờn ton th gii mt cỏnh nhanh chúng ti bt c thi im no dự ngy hay ờm Gi, nhn v chuyn th nhn c th in t bn cn phi cú mt ti khon (account) th in t Ngha l bn phi cú mt a ch nhn th Mt nhng thun li hn vi th thụng thng l bn cú th nhn th in t t bt c õu Bn ch cn kt ni vo Server th in t ly th v mỏy tớnh ca mỡnh gi c th bn cn phi cú mt kt ni vo internet v truy nhp vo mỏy ch th in t chuyn th i Th tc tiờu chun c s dng gi th l SMTP (Simple Mail Transfer Protocol) Nú c kt hp vi th tc POP (Post Office Protocol) v IMAP ly th Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng Hỡnh 1.1: Mụ hỡnh trao i th in t Trờn thc t cú rt nhiu h thng vi tớnh khỏc v mi h thng li cú cu trỳc chuyn nhn th in t khỏc Vỡ cú s khỏc bit nh vy nờn vic chuyn nhn th in t gia hai h thng khỏc rt l khú khn v bt tin Do vy, ngi ta ó t mt nghi thc chung cho th in t Cú ngha l cỏc h thng mỏy vi tớnh u ng ý vi v mt nghi thc chung gi l Simple Mail Transfer Protocol vit tt l SMTP (Nghi Thc n Gin Chuyn Vn Th T) Nh vo SMTP ny m s chuyn th t in t trờn Internet ó tr thnh d dng nhanh chúng cho tt c cỏc ngi s dng mỏy vi tớnh cho dự h cú s dng h thng mỏy vi tớnh khỏc Khi gi th in t thỡ mỏy tớnh ca ngi s dng cn phi nh hng n mỏy ch SMTP Mỏy ch s tỡm kim a ch th in t (tng t nh a ch in trờn phong bỡ) sau ú chuyn ti mỏy ch ca ngi nhn v nú c cha ú cho n c ly v Ngi gi cú th gi th in t n bt c trờn th gii m cú mt a ch th in t Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng 10 Chuyn th (Send Mail) Sau ngi s dng mỏy vi tớnh dựng chng trỡnh th vit th v ó ghi rừ a ch ca ngi nhn thỡ mỏy tớnh s chuyn bc th in n hp th ngi nhn SMTP s dng nghi thc TCP (TCP protocol) chuyn th Vỡ nghi thc TCP rt l hu hiu v cú phn kim soỏt tht lc mt mỏt cho nờn vic gi th in t cú hiu sut rt cao Khi nhn c mnh lnh gi i ca ngi s dng, mỏy vi tớnh s dựng nghi thc TCP liờn lc vi mỏy vi tớnh ca ngi nhn chuyn th ụi vỡ mỏy vi tớnh ca ngi nhn ó b tt in hoc ng dõy kt ni t mỏy gi ti mỏy nhn ó tm thi b h hng tm thi ti mt ni no ú (tranmission wire failure), hoc l cú th l mỏy chuyn tip (routers) trờn tuyn ng liờn lc gia hai mỏy tm thi b h (out of order) thỡ mỏy gi khụng cỏch no liờn lc vi mỏy nhn c Gp trng hp nh vy thỡ mỏy gi s tm thi gi lỏ th khu vc d tr tm thi Mỏy gi sau ú s tỡm cỏch liờn lc vi mỏy nhn chuyn th Nhng vic ny xy mỏy vi tớnh v ngi s dng s khụng hay bit gỡ Nu khong thi gian m mỏy vi tớnh ca ni gi khụng liờn lc c vi mỏy nhn thỡ mỏy gi s gi mt thụng bỏo cho ngi gi núi rng vic chuyn ca lỏ th in t ó khụng thnh cụng Nhn Th (Receive Mail) Nu mỏy gi cú th liờn lc c vi mỏy nhn thỡ vic chuyn th s c tin hnh Trc nhn lỏ th thỡ mỏy nhn s kim soỏt tờn ngi nhn cú hp th trờn mỏy nhn hay khụng Nu tờn ngi nhn th cú hp th trờn mỏy nhn thỡ lỏ th s c nhn ly v th s c b vo hp th ca ngi nhn Trng hp nu mỏy nhn kim soỏt thy rng tờn ngi nhn khụng cú hp th thỡ mỏy nhn s khc t vic nhn lỏ th Trong trng hp khc t Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng 66 Kt qu ca quỏ trỡnh tin x lý nờu trờn, s cú c mt t ghộp cha c t cú giỏ tr s dng v nhng t ting khụng cú ý ngha Mi t t ny s cú mt tn s k biu din tn s xut hin ca t hun luyn Tn s k th hin tng s ln xut hin ca t trờn ton b hun luyn, mi ln t xut hin thỡ tng trng s k lờn mt n v Tớnh giỏ tr ca ngng ca mi t CW b t ghộp Ngng c xỏc nh nh sau: k TotalMessage Trong ú: - K: tn s xut hin ca t - Total Message: Tng s th Da vo kt qu thc nghim tỏch t, th nghim vi khong 1000 t t chớnh xỏc 94% nu ngng >= 0.25 thỡ chớnh xỏc ca t cú th chp nhn c Nhng t cú ngng nm ngoi ngng trờn c xp vo cỏc t cn c hun luyn tip tc Vi hun luyn cỏc th rỏc v th bỡnh thng ban u, dng cỏc quy trỡnh tỏch cõu, phõn tớch t n, t ghộp ting ó trỡnh by trờn ó to thnh b t in t n, t ghộp v tn s xut hin ca chỳng hun luyn 3.3 Quy trỡnh lc th rỏc ting Vit p dng thut toỏn Naùve Bayes Da vo token(s) c phõn tớch t ni dung bc th v tn s ca cỏc token(s) ó c lu tr c s d liu trc ú v da trờn cụng thc Naùve Bayes, ỏp dng nguyờn tc tớnh xỏc sut cho cho cỏc token(s) cỏc t n, t ghộp nh sau: Gi s ni dung ca mi bc th in t l: content Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng 67 - Lp th rỏc ký hiu l: spam - Lp th bỡnh thng ký hiu l: ham -Xỏc sut mt th in t l th rỏc: P(spam | content) Word1, Word2, Word3, Wordm l cỏc t c trng xut hin content P( spam | content ) P(content | spam) * P( spam) Total Trong ú total c xỏc nh bng Total = P(content|spam)*P(spam) + P (content|ham)* P(ham) Vi P(content|ham) v P(content|spam) c tớnh bng P(content|ham) = P(word P(content|spam) = i | ham) P( word | spam) i Cui cựng, P(spam) v P(ham) c tớnh bi cụng thc P( spam) TotalSpam TotalMessage P(ham) TotalHam TotalMessage Tr kt qu: Trong quỏ trỡnh phõn lp th, ngoi lp th rỏc v th hp l, nu xỏc sut spam > 0.7 s c phõn vo lp th spam, nu xỏc sut spam < 0.3 thỡ c phõn vo th bỡnh thng, cũn trng hp ngc li thỡ s c a vo phõn lp th ba: lp th trung tớn Nhng th thuc lp ny s ch ngi duyt th quyt nh phõn loi l th hp l hay th rỏc theo giỏ tr sai s x no ú Xỏc sut xỏc nh th rỏc cú th thay i lm tng tin cy cho quỏ trỡnh lc th spam P(spam) > P(ham) + x => th rỏc P(spam) th bỡnh thng Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng 68 Di õy l vớ d ỏp dng cụng thc tớnh t l spam v t l ham theo cụng thc Bayes Tn s xut hin T n Ham Spam Total All messages 400 600 1000 With bỏn 300 100 400 With mua 10 90 100 Bng 3.5: Vớ d minh phõn tớch t n p dng cụng thc tớnh P( spam | token) P( spam) * P(token | spam) P(token) Thu c cỏc giỏ tr sau õy P(spam|bỏn) = P(600/1000) * P(300/600) / P(400/1000) = 0.6*0.5/0.4=0.75=75% P(ham|bỏn) = P(400/1000) * P(100/400)/P(400/1000) = 0.4*0.25/0.4=0.25=25% P(spam|mua) = P(600/1000) * P(90/600) / P(100/1000) = 0.6*0.15/0.1=0.9=90% P(ham|mua) = P(400/1000) *P(10/400) /P(100/1000) = 0.4*0.025/0.1=0.1=10% 3.4 Ci t thc nghim Vic x lý ng ngha ting Vit rt phc lm mt rt nhiu thi gian, õy da vo bng thng kờ 3.4 cho thy t ghộp ting Vit ch yu l loi t cú di ting, vỡ vy vic tỏch t hc viờn ch thc hin cho t ghộp cú di ti a ting Quỏ trỡnh th nghim lc ni dung th ting Vit, hc viờn ó ly trờn internet th ting Vit gm 50 th hp l v 50 th rỏc tham gia quỏ trỡnh lc th bng cỏch s dng cụng c VLSP (Vietnamese Language and Speech Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng 69 Processing) x lý bn phõn tớch cõu gm tỏch th hp l v th rỏc thnh cỏc cõu n, cỏc t n, t ghộp Hỡnh 3.6: Giao din x lý bn VLSP Sau ú hp thnh danh sỏch t n, t ghộp v cho hun luyn ti cụng c Weka vi danh sỏch cỏc t n, t ghộp, t n v t ghộp Cụng c Weka s hun luyn m s ln xut hin cỏc t cỏc danh sỏch t n, t ghộp, t n v t ghộp v cho kt qu xỏc sut phõn loi th spam, th hp l da trờn cụng thc naive Bayes Thc hin ci t - Cụng c VLSP Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng 70 http://vlsp.vietlp.org:8080/demo/?page=seg_pos_chunk - Cụng c Weka 3.6.9 http://www.cs.waikato.ac.nz/ml/weka/ - Java JRE 1.7.0 C s d liu s dng: - 50 th hp l v 50 th rỏc c thu thp trờn internet S dng cụng c VLSP tỏch cõu n, t n, t ghộp Sau cú cỏc t n, t ghộp ca th hp l, th rỏc thỡ to cỏc danh sỏch t n, danh sỏch t ghộp, danh sỏch t n v ghộp nh sau: + Danh sỏch t n: to file danhsach_tu_don, danh sỏch ny gm 424 t v thuc tớnh + Danh sỏch t ghộp: to file danhsach_tu_ghep, danh sỏch ny gm 304 t v thuc tớnh + Danh sỏch t n v ghộp: to file danhsach_tudon_ghep, danh sỏch ny gm 735 t n v ghộp, gm thuc tớnh sau khi ng Weka, chn Exploer, chn Preproces, chn Open m cỏc file d liu ó c to Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng 71 Hỡnh 3.7: Np d liu t n vi Naùve Bayes 3.5 Kt qu thc nghim 3.5.1 Danh sỏch t n Chy hun luyn danh sỏch t n trờn Naùve bayes trờn thu c kt qu nh sau: Hỡnh 3.8: Phõn lp t n vi Naùve Bayes Instances: 604 Attributes: Danh sach tu don Lop Test mode:10-fold cross-validation Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng 72 === Classifier model (full training set) === Naive Bayes Classifier Class spam ham (0.5) (0.5) Time taken to build model: seconds Attribute === Stratified cross-validation === === Summary === Correctly Classified Instances 353 83.2547 % Incorrectly Classified Instances 71 16.7453 % Kappa statistic 0.6646 Mean absolute error 0.3561 Root mean squared error 0.3813 Relative absolute error 71.2189 % Root relative squared error 76.2649 % Total Number of Instances 424 Ignored Class Unknown Instances 180 === Detailed Accuracy By Class === TP Rate 0.995 0.668 Weighted Avg 0.833 FP Rate Precision 0.332 0.752 0.005 0.993 0.169 0.872 Recall 0.995 0.668 0.833 F-Measure 0.857 0.799 0.828 ROC Area Class 0.764 spam 0.917 ham 0.84 === Confusion Matrix === a b < classified as 212 | a = spam 70 141 | b = ham Gii thớch: Kt qu : Attribute phõn lp Lp spam (0.5), ham (0.5) l tn s tng trờn hun luyn Kt qu 2: Weka phõn lp cỏc d liu vo lp: spam v ham Trong mc classified as (phõn loi) cú hai lp l mt ma trn 2ì2 Weka thay a bng spam v b bng ham Cỏc hng th hin cỏc t thc s thuc v lp ú S lng cỏc trng hp phõn loi chớnh xỏc l tng ca ng chộo ma trn Nh vy Recall ( trung thc) - spam = 211/212 = 0.99% - ham = 141/211 = 0.66 % Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng 73 3.5.2 Danh sỏch t ghộp Chy hun luyn danh sỏch t ghộp trờn Naùve bayes thu c kt qu nh sau: Hỡnh 3.9: Np d liu t ghộp vi Naùve Bayes Hỡnh 3.10: Phõn lp t ghộp vi Naùve Bayes Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng 74 Instances: 604 Attributes: Danh sach tu ghep Classe Test mode:10-fold cross-validation === Classifier model (full training set) === Naive Bayes Classifier Attribute Class ham spam (0.46) (0.54) Time taken to build model: seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 225 74.0132 % Incorrectly Classified Instances 79 25.9868 % Kappa statistic 0.4532 Mean absolute error 0.4278 Root mean squared error 0.4415 Relative absolute error 86.1863 % Root relative squared error 88.6136 % Total Number of Instances 304 Ignored Class Unknown Instances 300 === Detailed Accuracy By Class === TP Rate 0.446 0.988 Weighted Avg 0.74 FP Rate Precision 0.012 0.969 0.554 0.679 0.306 0.812 Recall 0.446 0.988 0.74 F-Measure 0.611 0.805 0.716 ROC Area Class 0.907 ham 0.462 spam 0.665 === Confusion Matrix === a b < classified as 62 77 | a = ham 163 | b = spam Gii thớch: Kt qu : Attribute phõn lp Lp spam (0.54), ham (0.46) l tn s tng trờn hun luyn Kt qu 2: Weka phõn lp cỏc d liu vo lp: spam v ham Trong mc classified as (phõn loi) cú hai lp l mt ma trn 2ì2 Weka thay a bng ham v b bng spam Cỏc hng th hin cỏc t thc s thuc v lp ú S lng cỏc trng hp phõn loi chớnh xỏc l tng ca ng chộo ma trn Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng 75 Nh vy Recall ( trung thc) - spam = 163/165 = 0.98% - ham = 62/139 = 0.44 % 3.5.3 Danh sỏch t n v t ghộp Chy hun luyn danh sỏch t n v t ghộp trờn Naùve bayes thu c kt qu nh sau: Hỡnh 3.11: Np d liu t n v t ghộp vi Naùve Bayes Hỡnh 3.12: Phõn lp t n v t ghộp vi Naùve Bayes Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng 76 Instances : 4627 Attributes : danh sach tu don_tu ghep Phan loai Test mode:10-fold cross-validation === Classifier model (full training set) === Naùve Bayes Classifier Class spam ham (0.51) (0.49) Time taken to build model: seconds Attribute === Stratified cross-validation === === Summary === Correctly Classified Instances 576 78.3673 % Incorrectly Classified Instances 159 21.6327 % Kappa statistic 0.5619 Mean absolute error 0.3886 Root mean squared error 0.4095 Relative absolute error 77.7835 % Root relative squared error 81.9227 % Total Number of Instances 735 Ignored Class Unknown Instances 3892 === Detailed Accuracy By Class === TP Rate 0.987 0.569 Weighted Avg 0.784 FP Rate 0.431 0.013 0.228 Precision Recall F-Measure ROC Area Class 0.708 0.987 0.824 0.47 spam 0.976 0.569 0.719 0.97 ham 0.838 0.784 0.773 0.713 === Confusion Matrix === a b classified as 373 | a = spam 154 203 | b = ham Gii thớch: Kt qu : Attribute phõn lp Lp spam (0.51), ham (0.49) l tn s tng trờn hun luyn Kt qu 2: Weka phõn lp cỏc d liu vo lp: spam v ham Trong mc classified as (phõn loi) cú hai lp l mt ma trn 2ì2 Weka thay a bng spam v b bng ham Cỏc hng th hin cỏc t thc s thuc v lp ú S lng cỏc trng hp phõn loi chớnh xỏc l tng ca ng chộo ma trn Nh vy Recall ( trung thc) Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng 77 - spam = 373/379 = 0.98% - ham = 203/356 = 0.56 % Nh vy kt qu phõn loi th gm 50 th rỏc v 50 th hp l sau tin x lý bng cụng c tỏch t v thc hin chy trờn cụng c Weka, kt qu c th hin bng thng kờ di õy Th nghim trờn Kt qu phõn loi chớnh xỏc Spam Ham Spam Ham T n 211/212 141/211 99% 66% T ghộp 163/165 62/139 98% 44% T n v t ghộp 373/379 203/356 98% 56% Bng 3.13: Kt qu phõn loi th ting Vit Da trờn kt qu thc nghim, cho thy vic lc th spam ting Vit theo t n cho kt qu l cao nht (99%) so vi kt qu lc t ghộp, t n v t ghộp Chng lun trỡnh by gii phỏp cho b lc th ỏp dng k thut Naùve bayes, ch yu cho ting Vit khụng du vi phng phỏp tỏch t n, ghộp mi th Sau ú hp thnh danh sỏch cỏc t n, t ghộp, t n v t ghộp, ỏp dng thut toỏn Naùve Bayes trờn cụng c Weka da trờn danh sỏch cỏc t n ln t ghộp ó phõn tớch trờn xỏc nh tn s xut hin ca cỏc t, qua ú phõn lp th thuc lp th hp l hay l th rỏc Trờn õy hc viờn mi th nghim 50 th hp l v 50 th rỏc, chớnh xỏc phõn loi trờn ó t c kt qu kh quan th hin c hng tip cn ca lun Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng 78 KT LUN Hin th rỏc ngy cng phỏt trin gõy thit hi ln v kinh t cng nh gõy nhiu khú chu cho ngi dựng S lng th rỏc ngy cng tng, ni dung cu trỳc ca chỳng cng thay i vỡ vy cn cú mt h thng b lc tt loi b c s lng th rỏc ln gim s lo lng v phin toỏi cho ngi s dng email Lun trỡnh by gm ba chng nờu lờn c khỏi nim th in t, li ớch s dng th in t, kin trỳc c bn ca th in t, cỏc giao thc gi v nhn th in t Lun cng nhn mnh cỏc gii phỏp lc th spam bng nhng phn mm ang c s dng hin v bng cỏc phng phỏp thng kờ nh mng bayesian, Heuristic, Naive Bayes ú a ý tng lc th da trờn phng phỏp phõn loi bn tỏch t n v t ghộp, sau ú da vo tn sut xut hin cỏc t danh sỏch t n, t ghộp, ỏp dng thut toỏn Naive Bayes phõn loi th hp l v th khụng hp l em li hiu qu cao Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng 79 TI LIU THAM KHO Ting Vit [1] Nguyn Ngc Cng, 2012 An ninh mng v tỏc chin tin hc, NXB Cụng an nhõn dõn [2] V ỡnh Cng, Phng Lan,2009 Th rỏc phng phỏp phỏt tỏn v cỏch phũng chng, NXB Lao ng xó hi [3] T Minh Phng, Phm Vn Cng, Nguyn Duy Phng, Hong Trng Huy (2006) Bỏo cỏo ti Nghiờn cu xõy dng h thng lc th rỏc cú kh nng lc th rỏc ting Anh v ting Vit Hc vin Bu chớnh Vin thụng, 2006 [4] inh Th Phng Thu, Hong Vnh Sn, Hunh Quyt Thng, Phng ỏn xõy dng mu cho bi toỏn phõn lp bn ting Vit, nguyờn lý, gii thut, th nghim v ỏnh giỏ kt qu, Tp Khoa hc v cụng ngh, 2005 Ting Anh [5] Aha, D W., Kibler, D and Albert, M.K.: 1991, Instance-based learning algorithms, Machine Learning [6] Dinh Dien, Tu Tieng Viet , Proceeding of ICMLC2002 Conference, Beijing, November 2002 [7] H David D Lewis, Ph.D.Ornarose, Inc & David D Lewis Consulting, Naùve Bayes Text Classification for Spam Filtering , 2007 [8] Ion Androutsopoulos, John Koutsias V.Chandrinos and Contstantine D.Spyropoulos An Experimental Comparision of Naùve Bayes and keyword-based anti-spam Filtering with persional email message Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng 80 [9] Johan Hovold () Naùve Bayes Spam filtering using Word-Position-Based attributes Department of Computer Science Lund University [10] Mehran Sahami, Susan Dumais, David Heckerman and Eric Horvitz (1998) A Bayesian Approach toFiltering Junk E-Mail Proceedings of AAAI-98 Workshop on Learning for Text Categorization [11] Mehran Sahami, Susan Dumais, David Heckerman, Eric Horvitz () A bayesian approach to filtering junk email (mehran sahami, susan dumais, david heckerman, eric horvitz) [12] S J Delany and P Cunningham, An analysis of case-based editing in a spam filtering system, in 7th European Conference on Case-Based Reasoning (ECCBR 2004), eds., P Funk and P Gonzalez-Calero, volume 3155 of LNAI, pp 128141 Springer, (2004) Website [13] Quang T Le,2003, t in VietFun, http://www.dict.vietfun.com, 2003 [14] Mladen Adamovic,2006, About Online-Utility.org,http://www.onlineutility.org/text/analyzer.jsp,december 2009 [15] Gary Robinson and Tim Peters, 2002, SpamBayes,2002,SpamBayes, http://spambayes.sourceforge.net/, august 2002 [16] H Tỳ Bo,(), X lý bn ting Vit, http://vlsp.vietlp.org:8080/demo/?page=seg_pos_chunk [17] The University of Waikato, NewZealand, 1997, Weka, http://www.cs.waikato.ac.nz/ml/weka/ , 2013 Mt s gii phỏp lc ni dung cho h thng th in t SMTP v ng dng [...]... có thể xem là thư không được yêu cầu và được gửi đi hàng loạt Nội dung bức thư là yếu tố quyết định dùng để phân biệt thư spam và thư thông thư ng, và đó cũng chính là cơ sở chính cho giải pháp phân loại thư spam bằng cách phân tích nội dung thư 2.1.2 Các đặc điểm nhận dạng thư điện tử rác - Dựa vào nội dung thư điện tử Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP và ứng dụng 25 - Để... khi gửi và nhận thư điện tử Những nội dung này sẽ là cơ sở nghiên cứu sâu hơn các công nghệ ngăn chặn thư rác được mô tả tại chương hai Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP và ứng dụng 24 CHƯƠNG 2 THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC 2.1 Thư rác 2.1.1 Khái niệm về thư điện tử rác Hiện nay, chưa có bất cứ một định nghĩa chính thức nào về thư spam Một định nghĩa thông dụng nhất... số khác nhau về khả năng lọc thư rác, ví dụ nếu ngưỡng Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP và ứng dụng 33 thời gian có hiệu lực là 3 ngày, khi đó phương pháp SPF động lọc được 98% tổng số thư rác, lọc nhầm 0.1% số thư bình thư ng 2.2.2 Domain Keys (DK) DomainKeys (DK) là một hệ thống chứng thực được thiết kế để xác thực tên miền của người gửi thư điện tử và độ toàn vẹn của thư. .. giúp cho bên gửi chỉnh sửa lại địa chỉ đến, hoặc gửi lại một thông báo lỗi Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP và ứng dụng 15 Một số tính năng quan trọng của SMTP Bên cạnh cơ chế chuyển thư cơ bản, SMTP còn có một số tính năng khác cho phép SMTP hỗ trợ các yêu cầu kỹ thuật quan trọng, bổ trợ cho hệ thống thư điện tử như sau: - Chuyển tiếp (Mail Relaying): Là khả năng máy chủ SMTP. .. trong thư điện tử và tên miền trong thanh trạng thái Giả mạo thông tin định danh trong thư điện tử là thay đổi các thông tin trong phần tiêu đề thư điện tử Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP và ứng dụng 26 Bản thân SMTP, đã không được thiết kế với tính năng bảo mật Chính vì vậy thư điện tử có thể giả mạo rất dễ dàng Mặc dù không phải tất cả các trường trong tiêu đề thư điện tử. .. tới một người ở máy B một lá thư thì trước nhất máy A sẽ gửi đến máy chủ thư điện tử X Khi trạm phục vụ thư X nhận được thư từ máy A thì X sẽ chuyển tiếp cho máy chủ thư điện tử Y Khi trạm phục vụ thư Y nhận được thư từ X thì Y sẽ Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP và ứng dụng 12 chuyển thư tới máy B là nơi người nhận Trường hợp máy B bị trục trặc thì máy chủ thư Y sẽ giữ thư. .. Protocol) Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP và ứng dụng 13 Sender -SMTP thiết lập một kênh truyền tải hai chiều tới một Receiver -SMTP Receiver -SMTP hoặc là đích hoặc là điểm tạm thời • Các lệnh SMTP được sinh ra bởi Sender -SMTP và gửi tới ReceiverSMTP • Receiver -SMTP trả lời các lệnh gửi từ Sender -SMTP Để gửi một thông điệp đến máy chủ SMTP (SMTP server), máy khách SMTP (SMTP client)... Windows Messenger ) Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP và ứng dụng 27 - Dựa vào quan hệ với người gửi thư rác: bao gồm người lạ mặt, bạn bè, người quen và các dịch vụ quyên góp giúp đỡ… - Dựa vào nội dung của thư rác: các kiểu nội dung phổ biến như thư về thư ng mại, thư về chính trị, thư về công nghệ, chuỗi thư (chain e-mail) và các loại khác (như thư phát tán virus ) - Dựa trên... trong POP2 vào năm 1988 Chuẩn hiện hành là POP3 - POP3 UA kết nối với TCP/IP đến server (cổng chuẩn 110) Người dùng điền username và password Sau khi xác thực đầu client sẽ sử dụng các lệnh của POP3 để có thể thực hiện các chức năng sau: - Nhận và xóa thư điện tử trên máy chủ thư điện tử Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP và ứng dụng 18 - Nhận nhưng không xóa thư điện tử trên... Bộ Thông tin và Truyền thông Công bố Danh mục tiêu chuẩn kỹ thuật về ứng dụng công nghệ thông tin Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP và ứng dụng 16 trong cơ quan nhà nước quy định Bắt buộc áp dụng tiêu chuẩn SMTP và được xếp vào nhóm Tiêu chuẩn về kết nối Một số câu lệnh phổ biến trong SMTP DATA HELO (hoặc EHLO) MAIL VRFY (VERIFY) RCTP (RECIPIENT) Câu lệnh gửi nội dung của thông

Ngày đăng: 12/05/2016, 10:18

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan