Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 36 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
36
Dung lượng
405,41 KB
Nội dung
37 Bng cách qui, vit tha s th hai trong tích trên nh sau : ( ) 22 | nn PXx XxCc =∧∧ = == ( ) ( ) 2233 33 | , | nn nn PXxXx XxCcPXx XxCc = =∧∧= = =∧∧= = và c tip tc nh vy. Phng pháp phân loi Naïve Bayesian gi thit rng vi mi i X kt qu tác ng ca nó là c lp vi các j X khác, nh vy chúng ta tha nhn rng: ( ) ( ) 112 2 11 | ,| nn PXxXx XxCcPXxCc = =∧∧=== == và tng t nh vy i vi 2 X , , n X . Nh vy xác sut ( ) 11 22 | nn PX x X x X xCc =∧=∧∧== = ( )( )( )( ) 11 22 | | | | n nn ii i PX x C cPX x C c PX x C c PX x C c == == === == ∏ Mi mt tha s trong tích trên có thc tính d dàng t tp hun luyn ban u, nh vy phng pháp Naïve Bayesian gim s phc tp ca vic tính toán giá tr xác sut ( ) 11 22 | nn PX x X x X xCc =∧=∧∧== 4.3 Phân loi email bng phng pháp Naïve Bayesian : ây mi mu mà ta xét chính là mi mt email, tp các lp mà mi email có th thuc v là C ={spam, non-spam} Khi ta nhn c mt email, nu ta không bit mt thông tin gì v nó, do ó khó có th quyt nh chính xác email này là spam hay không . Nu nh ta có thêm c m hay thuc tính nào ó ca email thì ta có th nâng cao hiu qu nhn c email là spam Mt email có nhiu c im nh : tiêu , ni dung, có ính kèm tp tin hay không,…Ta có th da vào các thông tin này nâng cao hiu qu phân lai email spam. Mt ví d n gin : nu ta bit c rng 95 % email html là email spam, và ta li nhn c mt email html, nh vy có th da vào xác sut bit trc 95% email html là email spam tính c xác sut email mà ta nhn c là spam, nu xác sut này ln hn xác sut email ó là non-spam, có th kt 38 lun rng email ó là spam, tuy nhiên kt lun này không chính xác lm Nhng nu ta cóc nhiu xác sut bit trc nh vy, thì kt lun s tr nên áng tin cy hn. có c các xác sut bit trc này, s dng phng pháp Naïve Bayesian hun luyn tp mu (email) ban u, sau ó s s dng các xác sut này ng dng vào phân lai mt mu (email) mi. 4.3.1 Phân loi email da trên thut toán Naïve Bayesian Gi thit mi mt email c i din bi mt vector thuc tính c trng 12 ( , , , ) n xxxx = r vi 12 , , , n xxx , là giá tr ca các thuc tính 1 X , 2 X , , n X tng ng trong không gian vector c trng X r . Theo M Sahami et al [9] ta s dng các giá tr nh phân, i X =1 nu các c m ca i X có trong email, ngc li i X =0. Ta tính giá tr tng h MI (X,C) (Mutual Information) mà mi mt i din ca X thuc v loi C nh sau: { } 0,1 (,) ( , ) ( , ).log ( )() x PXxCc MIXC PX xCc PX xPCc ∈ == = == == ∑ { } , c spam non spam ∈− Công thc 4-5 :công thc tính tng h MI Sau ó ta chn các thuc tính có giá tr MI cao nht.Các xác sut P(X), P(C), P(X,C)c tính da trên d liu hc Da vào công thc xác sut Bayes và công thc xác sut y ta có c xác sut mt email vi vector c trng x r x r thuc v loi c là: { } , ().( |) (|) ().(|) k spam non spam PCcPX xCc PCcXx PCkPXxCk ∈− = == = == = == ∑ uurr uurr uurr Vi C là e email c xét, { } , c spam nonspam ∈ Công thc 4-6 39 Thc t thì rt khó tính c xác sut (|) PXC u ur bi vì giá tr s ng ca các vector rt nhiu và nhiu vector him khi hay thm chí không xut hin trong tp d liu hun luyn.Nhã nói, phng pháp Naïve Bayesian gi thit rng 1 X , 2 X , , n X là nhng bin cc lp, do ó chúng ta có th tính c xác sut trên nh sau: { } i1 , 1 ().( |) (|) ().( |) n ii n ii k spam non spam i PCc PX xCc PCcXx PCk PX xCk = ∈− = = == = == = == ∏ ∑ ∏ Công thc 4-7 Vi ( |) i PXC và () PC c tính da trên d liu hc, vic tính này da vào tp hun luyn ban u. T xác sut này, ta so sánh vi mt giá tr ngng t (trình bày mc ) mà ta cho là ngng phân loi email spam hay không, nu xác suât này ln hn t, ta cho là email ó là spam, ngc li ta xem email ó là non-spam. 4.3.2 Chn ngng phân loi email : Trong phân loi email, có hai loi sai lm : sai lm nhn mt email là spam mc dù thc t nó là non-spam (false positive) và sai lm th hai là nhn mt email là non-spam mc dù nó là spam (false negative). Rõ ràng là sai lm th nht là nghiêm trng hn bi vì ngi s dng có th chp nhn mt email spam vt qua b lc nhng không chp nhn mt email hp l quan trng li b b lc chn li. Gi s N → S và S → N tng ng vi hai li sai trên ây S dng lut quyt nh Bayes da trên chi phí [9], ta gi s rng li N → S có chi phí gp λ ln li S → N, chúng ta phân loi mt email là spam da vào tiêu chun sau: 40 ( )|) ( |) P C spam X x P C non spam X x λ == > =−= uurr uurr Công thc 4-8 Mà ( |)1( |) P C spam X x P C non spam X x ===−=−= uurr uurr Nên ta có: ( |) P C spam X x t = => uurr vi 1 t λ λ = + và 1 t t λ= − Nh vy ngng phân loi c chn là t tùy thuc vào giá tr λ 41 Chng 5 :THC HIN VÀ KIM TH PHÂN LOI EMAIL DA TRÊN PHNG PHÁP PHÂN LOI NAÏVE BAYESIAN 42 5.1 Cài t chng trình phân loi email da trên phng pháp phân loi Naïve Bayesian: 5.1.1 Khái nim Token : xem xét ni dung email chúng tôi dùng khái nim “token” Các “token” có th xem nh là các t cn xem xét mà ta tách ra t ni dung ca email. Vi các kí t ch, kí t s, kí t ‘$', kí t gch ngang ‘-’, kí t gch di ‘_’, kí t nháy n ‘’’ là nhng kí t cu to thành token. Còn nhng kí t còn li nh khong trng, kí t ‘*’, kí t ‘:’, … c xem là kí t tách t hay phân cách các t. Vi nhng t tách c mà gm toàn kí s thì không c xem là token (ví d: “12345”). Ví d ta có các token sau: “qvp0045”, “ indira”, “mx-05”, “$7500”, “3d0725”, “ platinum”. Nu ta có mt chui sau: “http://www.27meg.com/foo ” thì ta s có các token tng ng là: “http”, “www”, “27meg”, “com”, “foo”. 5.1.2 Vector thuc tính : Nhã nói mc 4.3.1, ta chuyn mi mt email sang mt vector x r =( 1 x , 2 x , , n x ) vi 1 x , 2 x , , n x là giá tr các thuc tính 1 X , 2 X , , n X trong không gian vector c trng X r . Các thuc tính có th là mt token , nhóm các token …Trong trng hp n gin nht, mi mt thuc tính c th hin bi mt token n và tt c các thuc tính có giá tr lun lý (Boolean), nh vy i X =1 nu email chá token, trng hp ngc li i X =0. Chúng tôi chn thuc tính là token n, nhng thay vì giá tr ca các thuc tính là giá tr lun lý (boolean), chúng tôi chn là xác sut spam ca mi token. Xác sut spam ca mi token s có giá tr trong an [0, 1].Xác sut cho ta nhiu thông tin hn so vi giá tr lun lý.Ví d : xét 43 token “$” xut hin trong email, nu ta s dng giá tr lun lý, ta không c s nghi ng email này là email spam, và nu email này khá dài thì càng khó kt lun rng nó là spam. Tuy nhiên s dng xác sut, ta có th bit c kh nng email ó là spam là bao nhiêu,iu này hp lý n là ch s dng hai giá tr 0 và 1.Vi không gian vector c trng X r , chúng tôi chn n là s các thuc tính ca X r th nghim ln lt là 10, 15 và 20. Chn n sao cho không ln quá, nu n ln có kh nng nhng thuc tính không phi là c trng, nh vy s làm “nhiu “ kh nng phân loi úng.Ngc li nu chn n quá nh, ta s không có c s cn thit các thuc tính. 5.1.3 Chn ngng phân loi : Chúng tôi tin hành th nghim vi giá tr λ ln lt là 1, 9 và 999, nh vy ngng phân loi t xác nh mt email là spam ln lt là 0.5, 0.9, 0.999. 5.1.4 Cách thc hin : Chúng ta s bt u vi hai kho ng liu email : kho ng liu email spam và kho ng liu email non-spam. S lng email trong mi kho ng liu ban u không hn ch. Nu kho ng liu càng ln thì hiu qu lc email s càng cao. T hai kho ng liu này, chúng tôi phân tích và duyt qua tt c các token bao gm c phn tiêu ca email.i vi nhng email html, chúng tôi thc hin bóc tách các th html ly ni dung gia các th. Sau ó ta tính xác sut spam ca mi token ã c phân tích, xác sut này chính là xác sut mt email ch cha token ó và là email spam. Nh vy mu cht ây là ta phi tính ra c xác sut spam ca mi token. Theo Paulgraham [7], xác sut spam ca mi token c tính da trên s ln xut hin ca mi token trong mi kho ng liu hc ban u. Ví d mt token w có s ln xut hin trong kho ng liu spam là s, 44 trong kho ng liu non-spam là n, s email tng cng ca hai kho ng liu spam và non-spam ln lt là S N và N N , th thì xác sut spam ca token w c tính nh sau: (,) S SN s N P X w C spam sn NN === + Công thc 5-1 Tuy nhiên, vì s ln xut hin ca mt token trong mi kho ng liu hc có kh nng vt quá kích thc ca kho ng liu hc ó (tng s email) do ó, trong công thc trên, thay S N s bng Min(1, S N s ) và N N n bng Min(1, N N n ) Do ó Công thc 5-1vit li nh sau: (1, ) (,) (1, ) (1, ) S S S SN Min N P X w C spam n Min Min NN === + công thc 5-2 Theo cách trên thì chúng ta ánh giá kh nng spam ca mt token xut hin trong mt kho ng liu hc 100 ln 100 email khác nhau là bng vi kh nng spam ca mt token xut hin trong mt kho ng liu hc 100 ln nhng ch trong mt email Chúng tôi xut mt cách tính xác sut spam ca token khác nh sau: thay vì da vào s ln xut hin ca token trong tng kho ng liu hc, chúng tôi da vào s email cha token trong tng kho ng liu hc. Công thc tính nh sau : 45 (,) S S SN SN n N P X w C spam nn NN === + công thc 5-3 Vi : ü S n là s email có cha token trong kho ng liu email spam ü N n là s email có cha token trong kho ng liu email non- spam ü S N là tng s email ca kho ng liu hc spam ü N N là tng s email ca kho ng liu hc non-spam Tuy nhiên, ta nhn thy rng công thc trên ã ánh giá kh nng spam ca mi token là nh nhau vi token xut hin 1 ln trong 1 email và token xut hin 100 ln trong 1 email, bi vì c hai trng hp, ta u ch tính thêm vào s email cha token là 1 mà thôi Chúng ta có th kt hp hai cách tính trên, có th s dng c nhiu thông tin v token hn. Chúng tôi xut thêm mt công thc na - c xem là s kt hp gia hai công thc trên * (,) ** S S SN SN n b N P X w C spam nn bg NN === + công thc 5-4 Vi ü S n là s email có cha token trong kho ng liu email spam ü N n là s email có cha token trong kho ng liu email non- spam ü S N là tng s email ca kho ng liu hc spam ü N N là tng s email ca kho ng liu hc non-spam 46 ü b là s ln xut hin ca token trong kho ng liu email spam ü g là s ln xut hin ca token trong kho ng liu email non- spam Còn i vi các token ch xut hin kho ng liu này mà không xut hin kho ng liu kia thì ta không th kt lun rng mt token ch xut hin kho ng liu spam thì không bao gi xut hin trong mt email non-spam, và ngc li. Cách thích hp ây là ta s gán cho chúng mt giá tr phù hp [7] Nh vy, vi nhng token ch xut hin trong kho ng liu email spam thì ta s gán kh nng xác sut spam cho nó là giá tr N gn vi 1 (chng hn 0.9999 )và ngc li thì gán xác sut spam là giá tr M gn vi 0 (chng hn 0.0001). Nh vy ta ã xác nh c xác sut spam ca mt email có chá mt token nào ó hay xác sut spam ca mt token nh sau: Tính theo công thc 5-2, ta có : (1, ) ,, (1, ) (1, ) S S S SN Min N P Max M Min N n Min Min NN = + Công thc 5-5 :công thc tính xác sut spam ca token da trên s ln xut hin Tính theo công thc 5-3, ta có : ,, S S SN SN n N P Max M Min N nn NN = + Công thc 5-6 :công thc tính xác sut spam ca token da trên s email cha token Tính theo công thc 5-4 [...]... 1 72 170 N 13 14 14 15 13 17 17 10 12 N 22 8 22 8 22 7 22 8 22 8 22 9 22 6 22 2 22 4 S 3 3 4 3 3 2 5 9 7 SR 92. 86% 92. 31% 92. 31% 91.76% 92. 86% 90.66% 90.66% 94.51% 93.41% SP 98 .26 % 98 .25 % 97.67% 98 .24 % 98 .26 % 98.80% 97.06% 95.03% 96.05% TCR 11.37510.7058810.1111110.11111 11.3759.5789478 .27 2 727 9.5789479.578947 9S S 167 168 168 164 166 163 165 171 170 N 15 14 14 18 16 19 17 11 12 N 22 9 22 8 22 7 22 8 22 9 22 9 22 7 22 2... 22 8 22 7 22 8 22 9 22 9 22 7 22 2 22 5 S 2 3 4 3 2 2 4 9 6 SR 91.76% 92. 31% 92. 31% 90.11% 91 .21 % 89.56% 90.66% 93.96% 93.41% SP 98. 82% 98 .25 % 97.67% 98 .20 % 98.81% 98.79% 97.63% 95.00% 96.59% TCR 5.5151 524 .439 024 3.644.0444445.3 529 414.9189193.4339 621 .97 826 12. 757576 999S S 163 163 165 160 156 156 163 168 169 N 19 19 17 22 26 26 19 14 13 N 22 9 22 9 22 9 22 9 22 9 22 9 22 7 22 5 22 5 S 2 2 2 2 2 2 4 6 6 SR 89.56% 89.56%... (text/plain), và ng li u email html Ng li u email v n b n tr n có s email dùng li u dung hu n luy n là :517 email non-spam, 528 email spam Ng ki m th g m 98 email spam, 100 email non-spam Ng li u email html có s email dùng email spam, s email dung hu n luy n là 141 email non-spam, 155 ki m th là 50 email spam, 50 email non- spam 5 .2. 2 .2 K t qu ki m th : Ng li u email v n b n tr n: • Ng li u h c :s email spam... :517, s email nonspam: 528 • Ng li u ki m th :s email spam :98, s email nonspam :100 Ng li u email html, s email ki m th :Spam =50, non-spam=50 60 S Công th c 5-5 Công th c 5-6 Công th c 5-7 96 94 96 N 2 4 2 N S 99 1 99 1 99 1 SR SP 97.96% 98.97% 95. 92% 98.95% 97.96% 98.97% TEXT TCR 32. 66667 19.6 32. 66667 S S N 32 18 24 26 23 27 N S HTML 50 0 50 0 50 0 SR 64.00% 48.00% 46.00% SP TCR 100.00% 2. 777778... 100.00% TCR 22 .33333 32. 333333 2 2. 62. 33333 32. 33333 32. 3333331.555556 999S S 7 8 8 7 6 7 8 5 5 N 7 6 6 7 8 7 6 9 9 N 57 57 57 57 57 57 57 57 57 S 0 0 0 0 0 0 0 0 0 SR 50.00% 57.14% 57.14% 50.00% 42. 86% 50.00% 57.14% 35.71% 35.71% SP 100.00% 100.00% 100.00%100.00% 100.00% 100.00% 100.00% 100.00% 100.00% TCR 22 .33333 32. 333333 2 1.75 22 .3333331.5555561.555556 ng 5 -2 K t qu ki m th phân l ai email b ng ph... so sánh v i các giá tr ng ng ( ã nói m c 4.3.1) phân lo i email spam hay non-spam, n u xác su t spam t ng h p c a email l n h n ng email ó là spam, ng c l i email ó là non-spam 50 ng t chúng tôi k t luân 5 .2 Th nghi m hi u qu phân lo i 5 .2. 1 Th nghi m v i kho ng li u pu: B i vì kho ng li u h c và ki m th là s , do ó chúng tôi thay cách l y token, iv ây chúng tôi xem token là các con s , và d u hi u... V cách ch n s token, hi u qu phân lo i khi ch n s token là 10, 15 hay 20 c ng không khác bi t l m 5 .2. 2 Th nghi m v i kho ng li u email ch : 5 .2. 2.1 K ch b n ki m th : Sau khi ã th nghi m v i kho ng li u s , chúng tôi ch n m t b ( λ , n, W) ki m th v i kho ng li u email ch Chúng tôi th nghi m v i b d li u λ = 9, s token là 15, tr ng s non-spam là 2 Ng li u h c và ki m th ây g m ng li u email là email. .. th c 5-7 (λ = 9 ) 53 v K t qu ki m th trên PU2: λ Công th c 5-5 Công th c 5-6 Công th c 5-7 10 15 20 10 15 20 10 15 20 1S S 7 8 9 7 8 8 8 9 5 N 7 6 5 7 6 6 6 5 9 N 57 57 57 57 57 57 57 57 57 S 0 0 0 0 0 0 0 0 0 SR 50.00% 57.14% 64 .29 % 50.00% 57.14% 57.14% 57.14% 64 .29 % 35.71% SP 100.00% 100.00% 100.00%100.00% 100.00% 100.00% 100.00% 100.00% 100.00% TCR 22 .333333 2. 8 22 .33333 32. 33333 32. 333333 2. 81.555556... 89.56% 92. 31% 92. 86% SP 98.79% 98.79% 98.80% 98.77% 98.73% 98.73% 97.60% 96.55% 96.57% TCR 0.09 023 30.09 023 30.090 323 0.0900990.089 921 0.089 921 0.045330.03 029 30.03 029 8 ng 5-3 K t qu ki m th phân l ai email b ng ph kho ng li u PU3 56 ng pháp phân l ai Naïve Bayesian trên Hình 5-6 L c so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th nghi m trên kho ng li u PU3 v i công th c 5-6 ( λ... token là các kho ng tr ng 5 .2. 1.1 K ch b n ki m th : Chúng tôi th nghi m nhân tr ng s non-spam W v i 1 và 2 V i m i W, chúng tôi th nghi m v i λ l n l t v i các giá tr 1, 9, và 999 ng ng v i m i giá tr λ và W chúng tôi th c hi n tính xác su t spam theo các công th c :Công th c 5-5 , Công th c 5-6 và Công th c 5-7 S token cl yl nl t là 10, 15, 20 Chúng tôi ki m tra v i các kho ng li u pu1, pu2, pu3 và puA . 5.5151 524 .439 024 3.644.044444 5.3 529 41 4.918919 3.4339 62 1.97 826 1 2. 757576 999SS 163 163 165 160 156 156 163 168 169 N 19 19 17 22 2 626 191413 N 22 9 22 9 22 9 22 9 22 9 22 9 22 7 22 5 22 5 S 22 22 2 2 4 6 6 SR. 15 14 14 1816191711 12 N 22 9 22 8 22 7 22 8 22 9 22 9 22 7 22 2 22 5 S 23 43 2 2 4 9 6 SR 91.76% 92. 31% 92. 31% 90.11% 91 .21 % 89.56% 90.66% 93.96% 93.41% SP 98. 82% 98 .25 % 97.67% 98 .20 % 98.81% 98.79% 97.63% 95.00% 96.59% TCR. thc 5-5 Công thc 5-6 Công thc 5-7 λ 10 15 20 101 520 101 520 1SS 169 168 168 167 169 165 165 1 72 170 N 13 14 14 1513171710 12 N 22 8 22 8 22 7 22 8 22 8 22 9 22 6 22 2 22 4 S 3343 3 2 5 9 7 SR 92. 86%