1. Trang chủ
  2. » Công Nghệ Thông Tin

Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (LV thạc sĩ)

49 647 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 49
Dung lượng 0,99 MB

Nội dung

Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (LV thạc sĩ)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (LV thạc sĩ)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (LV thạc sĩ)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (LV thạc sĩ)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (LV thạc sĩ)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (LV thạc sĩ)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (LV thạc sĩ)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (LV thạc sĩ)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (LV thạc sĩ)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (LV thạc sĩ)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (LV thạc sĩ)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (LV thạc sĩ)

HC VIN CễNG NGH BU CHNH VIN THễNG - TRN M HONG NGHIấN CU PHN LOI TH RC DA TRấN K THUT HC MY NAẽVE BAYES CHUYấN NGNH : H THNG THễNG TIN M S: 60.48.01.04 LUN VN THC S K THUT NGI HNG DN KHOA HC: TS HONG XUN DU H NI 2017 i LI CAM OAN Tụi cam oan õy l cụng trỡnh nghiờn cu ca riờng tụi Cỏc s liu, kt qu nờu lun l trung thc v cha tng c cụng b bt k cụng trỡnh no khỏc Tỏc gi Trn M Hong ii MC LC DANH MC HèNH III DANH MC BNG IV DANH MC T VIT TT V M U CHNG 1: TNG QUAN V EMAIL V VN LC TH RC 1.1 Khỏi quỏt v email v dch v email 1.1.1 Gii thiu .3 1.1.2 Cỏc bo mt email v dch v email .10 1.1.3 Cỏc bin phỏp m bo an ton email v dch v email 11 1.2 Th rỏc v lc th rỏc .21 1.2.1 Khỏi quỏt v th rỏc 21 1.2.2 Cỏc c trng ca th rỏc 22 1.2.3 Phõn loi th rỏc 24 1.2.4 Tỏc hi ca th rỏc .24 1.3 Kt lun chng 26 CHNG 2: XY DNG Mễ HèNH LC TH RC DA TRấN NAẽVE BAYES 27 2.1 Thut toỏn hc mỏy Naùve Bayes 27 2.1.1 nh lý Bayes 27 2.1.2 Thut toỏn Naùve Bayes 28 2.2 Xõy dng mụ hỡnh lc th rỏc da trờn Naùve Bayes 29 2.2.1 Mụ hỡnh lc th rỏc da trờn Naùve Bayes 29 2.2.2 Cỏc bc x lý mụ hỡnh lc th rỏc da trờn Naùve Bayes 30 2.3 Kt lun chng 37 CHNG 3: TH NGHIM V KT QU 38 3.1 Gii thiu b d liu th nghim .38 3.2 Cỏc th nghim v kt qu 39 3.2.1 Tiờu ỏnh giỏ 39 3.2.2 Cỏc th nghim 39 3.4 Kt lun chng 41 KT LUN 42 DANH MC CC TI LIU THAM KHO 43 iii DANH MC HèNH Hỡnh 1.1: Cỏc thụng ip quỏ trỡnh gi v nhn email (S: Server, C: Client) Hỡnh 1.2: Quỏ trỡnh gi v nhn mail Hỡnh 1.3: Hot ng ca DomainKeys .15 Hỡnh 1.4: Hot ng ca SPF 17 Hỡnh 1.5: Hot ng ca Sender ID Framework 18 Hỡnh 2.1: Mụ hỡnh hun luyn v lc th da trờn Naùve Bayes 29 Hỡnh 2.2: Quy trỡnh tin x lý d liu .30 iv DANH MC BNG Bng 1.1: Cỏc lnh ca SMTP (RFC 821) Bng 1.2: Cỏc lnh ca POP3 (RFC 1939) Bng 1.3: Cỏc lnh ca IMAP4 (RFC 2060) Bng 1.4: Khuụn dng ca email Bng 1.5: Cỏc kiu mụ t d liu Bng 1.6: Cỏc kiu d liu thng gp 10 Bng 3.1: B d liu th nghim 38 Bng 3.2: Kt qu th nghim vi b hun luyn enron1 39 Bng 3.3: Kt qu th nghim vi b hun luyn enron6 40 Bng 3.4: Kt qu ỏnh giỏ th nghim Naùve Bayes 40 v DANH MC T VIT TT T vit Ting Anh tt SMTP POP IMAP Ting Vit Simple Mail Transfer Protocol Giao thc truyn ti th n gin Post Office Protocol Internet Message Access Protocol Giao thc bu cc Giao thc truy nhp tin nhn Internet MUA Mail User Agent i lý ngi dựng th MTA Mail Tranfer Agent i lý chuyn th MDA Mail Delivery Agent i lý phõn phi th MIME Multi-Purpose Internet Mail Extensions M rng th Internet a mc ớch SPF Sender Policy Framework Khung chớnh sỏch ngi gi ISP Internet Service Provider Nh cung cp dch v Internet DNS Domain Name Server Dch v tờn Hypertext Markup Language Ngụn ng ỏnh du siờu bn DF Document Frequency Tn sut ti liu MI Manual Information Lng t tng h TF Term Frequency Tn sut thut ng IDF Inverse Document Frequency Tn sut ti liu nghch HTML M U Trong thi i bựng n cụng ngh thụng tin hin nay, mt nhng dch v ó c ng dng t lõu nhng mang nhng u im khụng th thay th ú l dch v th in t (email) Email l mt phng tin giao tip rt n gin, tin li, r tin v hiu qu gia mi ngi cng ng s dng mng Internet Lng email trao i hng ngy rt ln, lờn n hng t email mi ngy Mt cỏc gõy au u cho cỏc nh cung cp dch v email v ngi dựng email l th rỏc (spam) Th rỏc thng c gi vi s lng rt ln, khụng c ngi dựng mong i, thng vi mc ớch qung cỏo, cú th ớnh kốm virus, gõy phin toỏi khú chu cho ngi dựng, lm gim tc ng truyn Internet v tc x lý ca mỏy ch email, gõy thit hi rt ln v kinh t ó cú nhiu phng phỏp c nghiờn cu v trin khai gim s lng th rỏc Nh vic a cỏc lut l hn ch vic gi th rỏc, a cỏc phng phỏp k thut lc th rỏc nh: lc da trờn a ch IP (whitelist, blacklist), lc da trờn danh tớnh ngi gi, lc da trờn chui hi ỏp, v phng phỏp lc ni dung Trong cỏc phng phỏp lc th rỏc, phng phỏp lc da trờn ni dung hin ang c quan tõm nhiu v c ỏnh giỏ l cú hiu qu cao Phng phỏp lc ni dung da trờn vic phõn tớch ni dung ca th phõn bit th rỏc v th bỡnh thng õy cng l tin ỏp dng cỏc thut toỏn hc mỏy, nhng Naùve Bayes vo lc email rỏc da trờn ni dung ca chỳng Nhm nghiờn cu v th nghim phng phỏp lc th rỏc da trờn phng phỏp hc mỏy Naùve Bayes, lun thc hin ti Nghiờn cu phõn loi th rỏc da trờn k thut hc mỏy Naùve Bayes Lun gm cú ba chng nh sau: Chng 1: Tng quan v email v lc th rỏc: Chng ny trỡnh by mt cỏch tng quan v email, cỏc dch v email, bo mt email v dch v email, th rỏc v cỏc v lc th rỏc Chng 2: Xõy dng mụ hỡnh lc th rỏc da trờn Naùve Bayes: Chng ny nghiờn cu thut toỏn hc mỏy Naùve Bayes, xõy dng mụ hỡnh lc th rỏc da trờn thut toỏn Naùve Bayes Chng 3: Th nghim v kt qu: Phn u chng gii thiu b d liu th nghim, phn sau th nghim b lc th rỏc da trờn Naùve Bayes T ú a ỏnh giỏ, nhn xột CHNG 1: TNG QUAN V EMAIL V VN LC TH RC 1.1 Khỏi quỏt v email v dch v email 1.1.1 Gii thiu Email (electronic mail), hay th in t l phng phỏp trao i cỏc thụng ip gia mt ngi gi vi mt hoc nhiu ngi nhn thụng qua cỏc mng mỏy tớnh v mng Internet Email l mt cỏc phng tin trao i thụng tin c s dng rng rói nht trờn mng Internet Email cú th c gi i dng thụng thng hay mó hoỏ v c chuyn qua cỏc mng mỏy tớnh c bit l mng Internet Email cú th chuyn t mt mỏy ngun ti mt hay nhiu mỏy nhn H thng email hot ng da trờn mụ hỡnh lu v chuyn tip (store and forward) Mỏy ch email nhn, chuyn tip, phõn phi v lu tr thụng ip Quỏ trỡnh gi nhn email khụng yờu cu ngi dựng (ngi gi, ngi nhn) v mỏy tớnh ca h trc tuyn cựng mt lỳc Ngi dựng ch cn kt ni mt thi gian ngn, thng l kt ni ti mỏy ch mt khong thi gian gi v nhn thụng ip 1.1.1.1 Cỏc giao thc gi v nhn email * Giao thc SMTP SMTP (ting Anh: Simple Mail Transfer Protocol - giao thc truyn ti th tớn n gin) l mt chun truyn ti th in t qua mng Internet c s dng rng rói SMTP c xut ln u tiờn vo nm 1982 chun RFC 821 [1] v c cp nht, m rng thnh Extended SMTP (ESMTP ) vo nm 2008 chun RFC 5321 [2] Bng 1.1 cung cp chi tit v cỏc lnh ca giao thc SMTP Giao tip SMTP gia cỏc mỏy ch email s dng cng TCP 25 Mc dự cỏc mỏy ch email thng s dng giao thc SMTP gi v nhn cỏc email, cỏc ng dng mỏy khỏch ch s dng giao thc SMTP chuyn tip ti email, cỏc ng dng mỏy khỏch thng s dng hoc giao thc IMAP hay POP3 Bng 1.1: Cỏc lnh ca SMTP (RFC 821) Lnh HELO Mụ t S dng xỏc nh ngi gi th Lnh ny ny i kốm vi tờn ca host gi th Trong ESMTP (extended protocol), thỡ lnh ny s l EHLO MAIL Khi to mt giao dch gi th Nú kt hp "from" xỏc nh ngi gi th RCPT Xỏc nh ngi nhn th Thụng bỏo bt u ni dung thc s ca bc th (phn thõn ca th) D liu DATA c mó húa thnh dng mó 128-bit ASCII v nú c kt thỳc vi mt dũng n cha du chm (.) RSET Hu b giao dch th VRFY S dng xỏc thc ngi nhn th NOOP L lnh "no operation" xỏc nh khụng thc hin hnh ng QUIT Thoỏt tin trỡnh kt thỳc phiờn giao tip SEND Cho host nhn bit rng th cũn phi gi n u cui khỏc Hỡnh 1.1: Cỏc thụng ip quỏ trỡnh gi v nhn email (S: Server, C: Client) 29 2.2 Xõy dng mụ hỡnh lc th rỏc da trờn Naùve Bayes 2.2.1 Mụ hỡnh lc th rỏc da trờn Naùve Bayes Bi toỏn lc th rỏc thc cht l bi toỏn phõn loi cỏc th nhn c thnh hai nhúm l nhúm th rỏc v nhúm th bỡnh thng Mụ hỡnh lc th rỏc thc hin lun gm bc: hun luyn v phõn loi, nh biu din trờn Hỡnh 2.1 Hỡnh 2.1: Mụ hỡnh hun luyn v lc th da trờn Naùve Bayes Mụ hỡnh lc hay phõn loi th c thc hin nh sau: - Trc tiờn, ni dung th c biu din di dng cỏc c trng hay cỏc thuc tớnh, mi c trng thng l mt t hoc cm t xut hin th Cỏc c trng hp thnh mt vector c trng cho mi th - Tip theo, giai on hun luyn, th ó c gỏn nhón {rỏc, bỡnh thng} gi l d liu hun luyn hay d liu mu, c s dng hun luyn mt b phõn loi 30 - Sau hun luyn xong, b phõn loi c s dng xỏc nh th mi th (cha bit nhón) thuc vo loi no hai loi núi trờn Trong c giai on hun luyn v phõn loi, thut toỏn phõn loi ch lm vic vi ni dung th ó c biu din di dng vector c trng Cỏc bc x lý mụ hỡnh lc th rỏc c trỡnh by mc tip theo 2.2.2 Cỏc bc x lý mụ hỡnh lc th rỏc da trờn Naùve Bayes 2.2.2.1 Tin x lý Phn tin x lý d liu c coi l mt nhng phn quan trng nht phõn loi th nú riờng v phõn loi bn núi chung Cú nhiu thỏch thc cho khõu tin x lý phc tp, tớnh linh hot ca ngụn ng t nhiờn Vớ d: cỏc t ng õm, cỏc cm ng t, cỏc thnh ng phong thỏi ngụn ng khỏc ca tng vựng Nhỡn chung, quy trỡnh tin x lý nh mụ t trờn Hỡnh 2.2, bao gm bc chớnh: Hỡnh 2.2: Quy trỡnh tin x lý d liu Bc : Loi b nhiu Khi tin hnh chun b d liu chỳng ta cn phi loi b cỏc phn d liu khụng liờn quan, cỏc c trng cú tn sut xut hin ln nhng khụng cú ý ngha C th, cn cú mt c ch ỏnh x cỏc t, cm t v dng gc m chỳng l sai chớnh t Cỏc cụng vic chớnh bao gm: - i vi cỏc email cú nh dng HTML cn phi loi b cỏc th HTML v cỏc thuc tớnh ca chỳng Hn th, cỏc email thuc loi ny thng c trao i 31 (reply) qua li nhiu ln gia bờn gi v bờn nhn nờn cha rt nhiu thụng tin nhiu cng cn phi c loi b - Trong ting Anh, cỏc t dng (stop word) ch mang ngha ng phỏp m khụng mang ngha t vng Khi nhc ti mt t dng ta khụng cú tri thc v s vt, hin tng no T dng s b loi b bn v vic ny c xem l khụng cú nh hng gỡ ti ni dung bn Tp t dng c nh ngha sn v cỏc c trng s c cụng nhn hp l nu khụng nm ny Cỏc t dng ting Anh thụng thng l cỏc mo t (articles), gii t (prepositions), liờn t (conjunctions) v mt s i t (pronouns) Mt s vớ d in hỡnh l: a, about, an, are, as, at, be, by, for, from, how, in, is, of, on, or, that, the, these, this, to, was, what, when, where, who, will, with - S v cỏc thut ng cha kớ t s (digits) u c loi b ngoi tr mt vi kiu riờng nh: ngy thỏng (dates), thi gian (times) v cỏc kiu c xỏc nh c th bi cỏc biu thc chớnh quy (regular expressions) - Ct b cỏc du ni thng c ỏp dng i phú vi d liu khụng nht quỏn Vớ d: mt s ngi s dng state-of-the-art mt s khỏc li s dng state of the art Nu cỏc du gch ni trng hp th nht c loi b thỡ chỳng ta ó loi tr c khụng nht quỏn Cú hai kiu loi b du gch ni: (i) mi du gch ni c thay bi mt khong trng v (ii) cỏc du gch ni c loi b m khụng thờm khong trng Tuy nhiờn, cú nhng trng hp rt khú quyt nh nh pre-processing nu c chuyn i thnh pre processing l hon ton khụng chớnh xỏc Bc 2: Sa li chớnh t Quan sỏt thy, email cú rt nhiu t c vit khụng ỳng chớnh t v thụng thng chỳng s c coi l nhng c trng khỏc Cỏc thut toỏn x lý s cho kt qu tt hn nu cỏc t vit sai chớnh t v t gc ca chỳng c xem l cựng mt c trng Vn ny ó cú nhng ý kin xut mt phng phỏp ỏnh x (cú quan tõm n tn sut xut hin ca t b li) c cp nht th cụng hoc s dng thut toỏn sa chớnh t (spelling correction) ca Peter Norvig [13] 32 Quy tc ny cú th c b sung dn theo thi gian Theo ú, t thanx cú th c coi nh thank, complketed c xem l completed Bc 3: a t v dng gc (Stemming) Bng cỏch ỏp dng thut toỏn stemming s a c cỏc t bn v dng gc (stem), c xut bi Porter t nhng nm 1980 [14] Vớ d: working sau stemming s thu c work, looked chuyn thnh look Nh nhn xột trờn, email ln s dn n cú s c trng (feature) rt ln Vic gim thiu khụng gian c trng s ci thin khỏ nhiu n phc v thi gian ca cỏc thut toỏn x lý Thụng thng, ch cú mt s nh cỏc chiu (dimension) l cú liờn quan ti cỏc cm no ú D liu cỏc chiu khụng liờn quan cú th sinh nhiu nhiu v che khut i cỏc cm thc Hn na, s chiu tng dn n mt d liu tr nờn tha hn bi vỡ cỏc im c xỏc nh bi nhiu khụng gian khỏc Khi mt d liu thc s tha, cỏc im c t nhiu chiu khỏc cú th s cú khong cỏch tng ng v phộp o khong cỏch ú tr nờn vụ ngha Do ú, cỏc c trng cú tn sut nh s b loi b sau bc tin x lý d liu Mt khỏc, ta cú th cng phi loi b bt cỏc c trng cú tn sut xut hin quỏ ln hun luyn trỏnh hin tng quỏ va d liu Bc 4: Tỏch thut ng Trong ting Anh, n v cú ngha nh nht l t (word) Cỏc t c phõn cỏch vi bi t khong trng v cỏc du cõu Cỏc t cú th kt hp vi to thnh cm t (phrase) i vi bi toỏn phõn loi bn, mi bn s c biu din bi mt vector k chiu ú mi chiu l mt t hoc mt cm t tỏch cỏc t, n gin ta da vo khong trng v cỏc du cõu Vic tỏch cỏc cm t thụng thng cn phi s dng thờm mt mụ hỡnh hc mỏy hoc mt b t in Bc 5: Trớch chn c trng La chn c trng bn l bc u tiờn phõn loi bn õy l tin quan trng cú th hc c mt b phõn loi hp lớ Cú nhiu c trng 33 hm cha mt ti liu, nhiờn cỏc bn thụng thng ngi ta s dng phng phỏp la chn c trng: Tn sut ti liu (DF- Document frequency) v - Lng tin tng h (MI - Manual Information) Tn sut ti liu (DF) DF l s ti liu cú s xut hin ca mt t (term) Ngi ta ó tớnh bi toỏn tn sut ti liu cho mt t n bn mu Ct lừi ca phng phỏp ny l phi tỡm mt khụng gian cỏc t c trng, vi khụng gian ny thỡ cỏc t ph bin (xut hin thng xuyờn mi bn) ó c loi bt, v c nhng t ch xut hin mt ln (t loi him) cng khụng c tớnh vo khụng gian cỏc t c trng ú Cỏch xỏc nh DF l k thut n gin nht lm gim bt t cú bn Mc dự i vi cỏc bn ln phng phỏp ny ch t n phc tuyn tớnh (cỏc giỏ tr DF tớnh c thng nh hn thc t) nhng nú c coi l phộp tớnh gn ỳng ci tin hiu qu ca thut toỏn Cỏc bc phng phỏp la chn ny bao gm: + Tớnh DF ca cỏc t bn + Sp xp theo chiu gim dn cỏc DF + Loi b t ph bin v t him + Chn cỏc c trng cú DF ln: mun thc hin cụng vic ny ngi ta phi nh mt ngng (coi l gin hn chn t) Vi phng phỏp ny, t loi no xut hin cng nhiu bn cng cú giỏ tr v cng cú th c chn vo khụng gian c trng ca ti liu ang xột ú Lng t tng h (MI) MI l giỏ tr logarit ca nghch o xỏc sut xut hin ca mt t thuc vo lp bn c no ú õy l mt tiờu th hin s ph thuc ca t t vi loi bn c Nu kớ hiu t loi l t (term), loi bn l c (category), A l s ln xut hin ca t c, B l s ln xut hin ca t ngoi c, C l s ln xut hin ca c 34 khụng cú t, N l tng s cỏc ti liu, thỡ lng tin tng h I gia t v c c nh ngha nh sau: v c c lng bi (2.5) gii hn cỏc t cú ton b cỏc c trng ó la chn thỡ chỳng ta hp nhng im c bit ca mt t loi bng hai s luõn phiờn (2.6) { } (2.7) Bc 6: ỏnh trng s cho bn Trong khụng gian, ó la chn c cỏc c trng ca bn thỡ bn ca chỳng ta s c biu din bng mt vector n chiu mi chiu l mt c trng ca bn Trong mỏy tớnh, bn c biu din l mt vector cú khụng gian l cỏc t (word) xut hin bn ú Nhng t ny cng ó c la chn nh vo hai thụng s l Tn sut thut ng (TF - Term Frequency) v Tn sut ti liu nghch (IDF - Inverse Document Frequency) Tn sut thut ng (TF) Trong giai on tin x lớ bn, mi bn c biu din bi mt vector C cú N chiu w1, w2 , , wN Mi chiu wi i din cho mt t (term) xut hin bn c c trng bi mt i lng gi l tn sut thut ng (TF) l s ln xut hin ca t ú ti liu ang xột 35 Cho mt ti liu (document) D v mt khỏc gm t thut ng (term) Chỳng ta mụ hỡnh mi ti liu nh mt vector V khụng gian t chiu Nh vy, tn sut thut ng thụ l s ln thut ng t xut hin ti liu d (d D), kớ hiu freq(t,d) Mt cỏch n gin nht tn sut thut ng TF(t,d) l nu ti liu d khụng cha thut ng t v ngc li s nhn giỏ tr l freq(t,d) Mt s cỏch khỏc tớnh TF(t,d) theo [12]: Kiu logic: TF(t,d) = nu thut ng t xut hin d = cỏc trng hp khỏc Kiu logarit: TF(t,d) = 1+log(freq(t,d)) nu freq(t,d) > = nu freq(t,d) = Tn sut ti liu nghch (IDF) Tn sut ti liu nghch biu din nhõn t t l hay mc quan trng ca thut ng t Tc l, nu thut ng t xut hin nhiu ti liu thỡ quan trng ca nú s gim xung mt cỏch t l Tn sut ti liu nghch ca thut ng t ti liu D, idf(t, D) l [12]: (2.8) Trong ú, N l tng s ti liu D, hay N = | D |, |d D : t d| l s lng ti liu m thut ng t xut hin (tc l TF(t, d) 0) Nu thut ng t khụng xut hin ti liu s dn n phộp chia cho trỏnh trng hp ny, ngi ta thng cng thờm vo phn mu s tớnh IDF: 1+ |d D : t d| Lun ny s dng phộp o TF-IDF(d,t) c kt hp t hai tham s TF v IDF c tớnh nh sau [12]: ( , d, D) = ( , d) ì ( , D) (2.9) Kt qu cui cựng ca khõu tin x lý l mt vector biu din cho bn u vo tng ng õy s l u vo cho khõu k tip, khõu hun luyn d liu cng nh l u vo cho phn d oỏn phõn loi bn 36 2.2.2.2 Hun luyn S dng d liu u vo l cỏc vector c trng cho cỏc ti liu (mi c trng c biu din bi mt giỏ tr ()), bc hun luyn thc hin vic tớnh cỏc giỏ s dng thut toỏn Naùve Bayes ó trỡnh by mc 2.1 Ni v dung c th ca bc hun luyn gm: u vo: Cỏc vector c trng ca bn hun luyn (Ma trn MxN, vi M l s vector c trng hun luyn, N l s c trng ca vector) Tp nhón/lp cho tng vector c trng ca hun luyn u ra: Cỏc giỏ tr xỏc sut v Cụng thc tớnh (2.10) Trong ú: |docsi|: s bn ca hun luyn thuc phõn lp i |total docs|: s bn hun luyn m s phõn lp Cụng thc tớnh | | (2.11) Trong ú: | |: S bn phõn lp i cú c trng th k mang giỏ tr xk (hay s bn lp i, cú xut hin/khụng xut hin c trng k) : S bn ca hun luyn thuc phõn lp i S giỏ tr cú th cú ca c trng th k 37 2.2.2.3 Phõn loi Bc phõn loi s dng cỏc giỏ tr xỏc sut thu c bc hun luyn phõn loi cỏc bn u vo vo lp phự hp Bc phõn loi c thc hin c th nh sau: u vo: Vector c trng ca bn cn phõn lp Cỏc giỏ tr xỏc sut v u ra: Nhón/lp ca bn cn phõn loi Cụng thc tớnh xỏc sut thuc phõn lp i bit trc mu X: (2.12) Da vo vector c trng ca bn cn phõn lp, ỏp dng cụng thc trờn tớnh xỏc sut thuc tng phõn lp cho bn, v chn lp cú xỏc sut cao nht 2.3 Kt lun chng Chng trỡnh by khỏi quỏt v nh lý Bayes v thut toỏn Naùve Bayes Trong phn tip theo, chng ny trỡnh by mụ hỡnh lc th rỏc da trờn Naùve Bayes, vi bc: hun luyn v phõn loi Trong chng 3, lun s dng mụ hỡnh lc th rỏc da trờn Naùve Bayes thc hin mt s th nghim ỏnh giỏ hiu qu lc th rỏc 38 CHNG 3: TH NGHIM V KT QU 3.1 Gii thiu b d liu th nghim D liu th nghim c ly t d liu Enron mail trang web http://www.aueb.gr/users/ion/data/enron-spam/ õy l d liu cỏ nhõn ca hn 150 nhõn viờn ti cụng ty Enron Houston, bang Texas, Hoa K D liu ny bao gm mt lng ln email cỏ nhõn, c cụng b cụng khai v s dng to cỏc tiờu chun phõn loi email B d liu bao gm th rỏc v th bỡnh thng Phn ln cỏc th rỏc u khụng mang tớnh cỏ nhõn, ú trn ln th bỡnh thng (c nhn bi ngi) vi th rỏc (c nhn bi nhiu ngi) s to cỏc tiờu chun hp lý B d liu cú tng cng 21783 th c chia thnh phn, bao gm cỏc th mụ phng nhiu tỡnh khỏc m ngi s dng cú th gp phi thc t Bng 3.1: B d liu th nghim Tờn d liu Enron1 Enron2 Enron3 Enron4 Enron5 Enron6 Th rỏc 382 608 1500 3675 4000 4678 Th bỡnh thng 645 961 1512 1500 2000 5187 Tng s 1027 1569 3012 5175 6000 9865 Tt c th b d liu u ó c x lý qua bc x lý s b nh sau: - Bc : Loi b cỏc th ngi dựng gi cho chớnh mỡnh (bng cỏch kim tra tờn ca ngi dựng ú cú xut hin trng To:, Cc: hoc Bcc: hay khụng) - Bc 2: Loi b cỏc th html v phn header, ch gi li phn tiờu (Subject) v phn ni dung th Trong cỏc b lc thc t, th html v phn header cú th cung cp nhiu c im cú ớch Tuy nhiờn, vic loi b cỏc thnh phn ny s m bo hiu nng ca b lc 39 - Bc 3: Loi b cỏc th spam c vit bng b t non-Latin Do cỏc th bỡnh thng b d liu u c vit bng t Latin nờn cỏc th rỏc vit bng t non-Latin s quỏ d b phỏt hin, dú ú loi b cỏc th ny nhm tng khú ca b d liu, t ú tng hiu qu hot ng ca h thng lc 3.2 Cỏc th nghim v kt qu 3.2.1 Tiờu ỏnh giỏ Hiu qu lc th cú th c ỏnh giỏ theo cỏc tiờu chớ, nh nhy (recall), chớnh xỏc (precision), hoc o F1 Lun s dng chớnh xỏc phõn loi th rỏc c tớnh toỏn nh sau: TP: T l gia s th rỏc c phõn loi ỳng v s th rỏc thc t FP: T l gia s th bỡnh thng c phõn loi l th rỏc v v s th bỡnh thng thc t (3.1) Cỏc th a vo hun luyn ó c gỏn nhón sn Tt c cỏc th rỏc c gỏn nhón chung l SPAM, cỏc th bỡnh thng c gỏn nhón l HAM 3.2.2 Cỏc th nghim - Th nghim 1: Thc hin vi u vo hun luyn l b d liu enronl 1027 th (382 th rỏc, 645 th bỡnh thng) Thc hin kim tra b lc vi cỏc b d liu t enron2 n enron6 Kt qu phõn loi th rỏc cho trờn Bng 3.2 Bng 3.2: Kt qu th nghim vi b hun luyn enron1 u vo email lc Enron2 Enron3 Enron4 Enron5 Enron6 1569 3012 5175 6000 9865 Th rỏc phõn loi c 540 1363 2905 3256 3723 Th rỏc phõn loi ỳng 516 1296 2764 3097 3599 Kt qu 40 Th bỡnh thng phõn loi thnh th rỏc 24 67 141 159 124 - Th nghim 2: Thc hin vi u vo hun luyn l b hun luyn enron6 9865 th (4678 th rỏc, 5187 th bỡnh thng) Thc hin kim tra b lc vi cỏc b d liu t enronl n enron5 Kt qu phõn loi th rỏc cho trờn Bng 3.3 Bng 3.3: Kt qu th nghim vi b hun luyn enron6 u vo email lc Enron1 Enron2 Enron3 Enron4 Enron5 1027 1569 3012 5175 6000 Th rỏc phõn loi c 374 576 1403 3405 3656 Th rỏc phõn loi ỳng 370 557 1376 3264 3497 19 27 141 159 Kt qu Th bỡnh thng phõn loi thnh th rỏc Kt qu tng hp chớnh xỏc ca cỏc trng hp th nghim cho trờn Bng 3.4 Bng 3.4: Kt qu tng hp chớnh xỏc ca cỏc trng hp th nghim B u vo email lc Enron1 hun luyn Kt qu 1027 Enron2 Enron3 Enron4 Enron5 Enron6 1569 3012 5175 6000 9865 Enron1 chớnh xỏc 97.14% 95.12% 88.89% 90.69% Enron6 chớnh xỏc 99.38% 97.89% 98.09% 90.43% 91.66% 96.99% 3.3 Mt s nhn xột T kt qu tng hp trờn Bng 3,4 cú th thy, trung bỡnh chớnh xỏc hun luyn bng Enron l 93,77% v trung bỡnh chớnh xỏc hun luyn bng Enron l 95,49% Rừ rng, s dng hun luyn cú kớch thc ln hn (Enron 6), chớnh xỏc phõn loi th rỏc tng ỏng k 41 Phng phỏp Naùve Bayes nhỡn chung n gin, chi phớ tớnh toỏn thp, nờn cú tc hun luyn, lc email nhanh, thớch hp vi vic lc email trc tuyn chớnh xỏc ca phng phỏp Naùve Bayes t khỏ cao, trung bỡnh trờn 93%, cú kh nng ng dng hiu qu thc t 3.4 Kt lun chng Chng trỡnh by cỏc kt qu th nghim mụ hỡnh lc th rỏc da trờn thut toỏn hc mỏy Naùve Bayes Cỏc kt qu th nghim cho thy phng phỏp Naùve Bayes n gin, chi phớ tớnh toỏn thp, cú tc hun luyn, lc email nhanh, thớch hp vi vic lc email trc tuyn Mụ hỡnh cn c th nghim trờn nhiu email hn cú ỏnh giỏ tng quỏt hn 42 KT LUN Lun nghiờn cu khỏi quỏt v th in t v th rỏc mt gõy nhiu phin toỏi cho ụng o ngi dựng Internet Vic nghiờn cu cỏc phng phỏp lc th rỏc hiu qu vi chớnh xỏc cao v tc lc nhanh l cn c tip tc quan tõm Kt qu t c ca lun vn: Nghiờn cu khỏi quỏt v email, dch v email, cỏc bo mt v cỏc bin phỏp m bo an ton cho email v dch v email Nghiờn cu khỏi quỏt v th rỏc v lc th rỏc Xõy dng v th nghim mụ hỡnh lc th rỏc da trờn Naùve Bayes Hng phỏt trin: Th nghim mụ hỡnh lc th rỏc ó xõy dng trờn mt s d liu thc t cú ỏnh giỏ ton din hn Hiu chnh v th nghim mụ hỡnh cho lc th rỏc ting Vit 43 DANH MC CC TI LIU THAM KHO [1] RFC 821, https://tools.ietf.org/html/rfc821, truy nhp thỏng 10/2016 [2] RFC 5321, https://tools.ietf.org/html/rfc5321, truy nhp thỏng 10/2016 [3] RFC 1939, https://tools.ietf.org/html/rfc1939, truy nhp thỏng 10/2016 [4] RFC 2060, https://tools.ietf.org/html/rfc2060, truy nhp thỏng 10/2016 [5] RFC 822, https://tools.ietf.org/html/rfc822, truy nhp thỏng 10/2016 [6] RFC 4870, https://tools.ietf.org/html/rfc4870, truy nhp thỏng 10/2016 [7] RFC 7208, https://tools.ietf.org/html/rfc7208, truy nhp thỏng 10/2016 [8] Ayahiko Niimi, Hirofumi Inomata, Masaki Miyamoto and Osamu Konishi, Evaluation of Bayesian Spam Filter and SVM Spam Filter, School of Systems Information Science, Future University-Hakodate, 2004 [9] M Crispin, INTERNET MESSAGE ACCESS PROTOCOL - VERSION 4rev1, University of Washington, December 1996 [10] Jonathan B Postel, SIMPLE MAIL TRANSFER PROTOCOL, Information Sciences Institute, University of Southern California, August 1982 [11] J Myers, Carnegie Mellon, M Rose, Post Office Protocol - Version 3, Dover Beach Consulting, Inc., May 1996 [12] J Han and M Kamber, Data mining: concepts and techniques San Francisco: Morgan Kaufmann Publishers, 2006 [13] Peter Norvig, How to Write a Spelling Corrector, November 2015, http://norvig.com/spell-correct.html [14] M.F Porter, 1980, An algorithm for suffix stripping, Program, 14(3) pp 130137 ... NAẽVE BAYES 27 2.1 Thut toỏn hc mỏy Naùve Bayes 27 2.1.1 nh lý Bayes 27 2.1.2 Thut toỏn Naùve Bayes 28 2.2 Xõy dng mụ hỡnh lc th rỏc da trờn Naùve Bayes. .. 2: Xõy dng mụ hỡnh lc th rỏc da trờn Naùve Bayes: Chng ny nghiờn cu thut toỏn hc mỏy Naùve Bayes, xõy dng mụ hỡnh lc th rỏc da trờn thut toỏn Naùve Bayes Chng 3: Th nghim v kt qu: Phn u chng... dng cỏc thut toỏn hc mỏy, nhng Naùve Bayes vo lc email rỏc da trờn ni dung ca chỳng Nhm nghiờn cu v th nghim phng phỏp lc th rỏc da trờn phng phỏp hc mỏy Naùve Bayes, lun thc hin ti Nghiờn cu phõn

Ngày đăng: 27/04/2017, 13:59