73 Chng 7 : THC HIN VÀ KIM TH PHÂN LOI EMAIL DA TRÊN PHNG PHÁP ADABOOST 74 7.1 Cài t b phân loi email da trên phng pháp AdaBoost: Chúng tôi tin hành cài t b phân loi email da trên thut toán AdaBoost vi ba cách Ø Cách 1 : cài t theo thut toán AdaBoost MH With Discrete Value Prediction Ø Cách 2: cài t theo thut toán AdaBoost MH With Real Value Prediction Sau khi thc hin, chúng tôi lu li T lut ã c chn phân loi cho các mu mi Chúng tôi xây dng mt cu trúc d liu lut nh sau : Struct rule { Token :chui //lu token 0 c :s thc //giá tr ca lut khi token không có trong //email c xét 1 c :s thc // giá tr ca lut khi token có trong email //c xét } 7.1.1 Tp hun luyn mu và tp nhãn : Tp hun luyn mu chính là các email spam và email non-spam c dung hun luyn, tp nhãn là Y={-1,+1}, ây chúng tôi qui nh -1 là spam và +1 là non-spam 75 7.1.2 Xây dng tp lut yu ban u : Vi mi token 8 w , nh ngha w ∈ x tng ng vi w có trong email x.nh ngha lut yu h nh sau: () hx = 0 c nu w x ∉ và 1 () hxc = nu w x ∈ Chúng tôi tin hành cài t th nghim thut toán AdaBoost vi hai cách khác nhau, do ó tng ng vi mi cách, cách ly giá tr 0 c và 1 c khác nhau, các giá tr 0 c , 1 c mà h(x) có th nhn c tính nhã nói các mc 6.3.2.1 và mc 6.3.2.2. S lng ca tp lut yu c dùng hun luyn theo nguyên tc là không hn ch, nh vy chúng ta có th ly tt c các token trong tp hc. Tuy nhiên, chúng tôi nhn thy ly ht tt c các token thì rt mt thi gian và tc hun luyn cng chm i, vì th chúng tôi ch chn ra mt s các token tho mãn mt tiêu chí nào ó xây dng lut yu. Mi lut yu c chn nh sau :chúng tôi duyt qua tt c các mu hc, tính s ln xut hin ca mi token, nhng token có s ln xut hin ln hn mt giá tr ngng nào ó (c qui nh ) sc la chn, vic la chn ngng quyt nh lut có c chn hay không tu thuc vào kho ng liu hc. Chúng tôi chia thành hai tp riêng, mt tp gm các token xut hin trong các email spam, tp kia gm các token xut hin trong email non-spam.Cách xây dng tp lut yu nh vy làm gim áng k s lut cn xét Khi hun luyn, chúng tôi s quyt nh s lng các lut yu cn chn, khi ó chúng tôi s chn tp lut yu bng cách ln lt chn mt token cha có trong tp c chn t tp các token spam, ri li chn mt token cha có trong tp c chn t tp các token non-spam cho n khi s ng yêu cu thc hin vic duyt các token và tìm kim mt token vi tc nhanh, tng t nh thc hin thut toán hun luyn Naïve Bayesian chúng tôi 8 Xem nh ngha token mc 5.1.1 76 cng xây dng bng bm tng t nh bng bm ã c s dng cách thc hin theo phng pháp Naïve Bayesian. 7.1.3 Th tc WeakLearner chn lut yu: Th tc WeakLearner c xây dng nhm tìm lut yu t h nh sau : chn lut yu t h bc chy t sao cho t Z nh nht, cách chn t Z và t α ã c cp các mc 6.3.2.1 và 6.3.2.2 7.1.4 Phân loi email : Khi nhn c mt email x, chúng tôi s tin hành so khp các lut t kho ng liu các lut c chn sau quá trình hun luyn , tó tính giá tr f(x), nu f(x) >0 (cùng du vi +1 ) chúng tôi cho email ó là non-spam, ngc li (cùng du vi -1 ) chúng tôi cho email ó là spam. 7.2 Th nghim hiu qu phân loi : 7.2.1 Th nghim vi kho ng liu pu: 7.2.1.1 Kch bn kim th: Vói mi phiên bn AdaBoost ã cài t, chúng tôi chn tp lut yu vi s lng là 2500 lut, nhng lut c xem là ng c viên nu s ln xut hin ca token ln hn hay bng 10 ln. Nu s lut yu ban u không 2500, chúng tôi s ly tt c s sn có.Chúng tôi th nghim vi T ln lt là 5, 10, 50, 100, 200 và 500. Chúng tôi ln lt kim th vi các pu, vi mi pu, chúng tôi cho hc t part 1-n part 9.i vi vic kim th chúng tôi kim th trên kho ng liu cha c hun luyn là part 10 ca mi pu 7.2.1.2 Kt qu kim th: Chúng tôi trình bày kt qu kim th vi T=500, v chi tit kt qu kim th, xem phn ph lc 77 v Kt qu thc hin kim th vi thut toán ADaBoost with real value predictions Ng liu email hc S email kim th S->SS->NN->NN- >S SR SP Spam Non- spam Spam Non-spam PU1 432 549 48 61 48 0 58 3100.00% 94.12% 432 549 432 0 549 0100.00%100.00% PU2 126 513 14 57 12 25 6 1 85.71% 92.31% 126 513 126 0 513 0100.00%100.00% PU3 1638 2079 182 231 176 6 216 15 96.70% 92.15% 1638 20791638 0 2079 0100.00%100.00% PUA 513 513 57 57 56 1 38 19 98.25% 74.67% 513 513 513 0 513 0100.00%100.00% ng 7-1 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán AdaBoost with real -value predictions v Kt qu thc hin kim th vi thut toán ADaBoost with discrete predictions Ng liu email hc S email ki m th S->SS->NN->NN- >S SR SP Spam Non- spam Spam Non-spam PU1 432 549 48 61 46 2 57 4 95.83% 92.00% 432 549 432 0 549 0100.00%100.00% PU2 126 513 14 57 13 1 57 0 92.86%100.00% 126 513 126 0 513 0100.00%100.00% PUA 513 513 57 57 53 4 45 12 92.98% 81.54% 513 513 513 513 513 0 513 0100.00%100.00% PU3 1638 2079 182 231 173 9 216 15 95.05% 92.02% 1638 20791624 14 2074 5 99.15% 99.69% ng 7-2 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán AdaBoost with discrete predictions Nhn xét : theo Schapire & Singer [14], hiu qu phân loi ca thut toán AdaBoost with real value predictions cao hn ca thut toán AdaBoost with discrete predictions, tuy nhiên ây ta thy u ó không rõ rt. Hiu qu phân loi ca c hai thut toán trên các kho ng liu là khá cao. Vi thut toán AdaBoost, li phân loi sai trên các kho ng liu ã hun luyn s ngày càng gim khi T ngày càng tng, tng ng vói các ch s 78 spam recall và spam precision ngày càng tng, di ây là biu th hin iu ó 0.00% 20.00% 40.00% 60.00% 80.00% 100.00% 120.00% 1 33 65 97 129 161 193 225 257 289 321 353 385 417 449 481 T % SR SP Hình 7-1 th biu din s bin thiên ca spam recall (SR) và spam precision (SP) theo T (thut tóan AdaBoost.MH with discrete predictions) 0.00% 20.00% 40.00% 60.00% 80.00% 100.00% 120.00% 1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481 T % SR SP Hình 7-2 th biu din s bin thiên ca spam recall (SR) và spam precision (SP) theo T (thut tóan AdaBoost MH with real value predictions ) 79 7.2.2 Th nghim vi kho ng liu email ch: 7.2.2.1 Kch bn kim th: Chúng tôi th nghim hai thut toán AdaBoost ã cài t vi T c chn ln lt là 5, 10, 50, 100, 200, và 500. 7.2.2.2 Kt qu kim th: Ng liu email vn bn trn, s email kim th : Spam =98, non- spam=100 Ng liu email html, s email kim th :Spam =50, non-spam=50 v Kt qu thc hin kim th vi thut toán ADaBoost with real value predictions Ng liu T=5 T=10 T=50 T=100 T=200 T=500 HTML SàS 48 48 49 49 49 49 SàN 2 2 1 1 1 1 NàN 49 49 49 49 49 49 NàS 1 1 1 1 1 1 SR 96.00% 96.00% 98.00% 98.00% 98.00% 98.00% SP 97.96% 97.96% 98.00% 98.00% 98.00% 98.00% TEXT SàS 84 93 98 98 98 98 SàN 14 5 0 0 0 0 NàN 98 97 98 99 99 99 NàS 2 3 2 1 1 1 SR 85.71% 94.90% 100.00% 100.00% 100.00% 100.00% SP 97.67% 96.88% 98.00% 98.99% 98.99% 98.99% ng 7-3 kt qu th nghim phân loi email vi ng liu email ch bng thut toán AdaBoost with real-value predictions v Kt qu thc hin kim th vi thut toán ADaBoost with discrete predictions Ng liu T=5 T=10 T=50 T=100 T=200 T=500 HTML SàS 48 49 50 50 50 50 SàN 2 1 0 0 0 0 NàN 49 49 49 49 49 49 NàS 1 1 1 1 1 1 SR 96.00% 98.00% 100.00% 100.00% 100.00% 100.00% SP 97.96% 98.00% 98.04% 98.04% 98.04% 98.04% 80 TEXT SàS 91 91 95 97 96 97 SàN 7 7 3 1 2 1 NàN 98 98 98 98 99 99 NàS 2 2 2 2 1 1 SR 92.86% 92.86% 96.94% 98.98% 97.96% 98.98% SP 97.85% 97.85% 97.94% 97.98% 98.97% 98.98% ng 7-4 Kt qu th nghim phân loi email vi ng liu email ch bng thut toán AdaBoost with discrete predictions Nhn xét : hiu qu phân loi trên ng liu email là ch ca thut toán AdaBoost khá tt, so vi phng pháp phân loi Naïve Bayesian thì ADaBoost phân loi email html tt hn, hiu qu phân loi trên email là n bn trn cng tng ng vi Naïve Bayesian. 7.3 u nhc m ca phng pháp phân loi AdaBoost: 7.3.1 u m : • Mt u im ca AdaBoost ging vi phng pháp phân loi Naïve Bayes là nó cho phép hc cp nht, ngha là khi mt email spam vt qua c b lc thì ngòi dung có thánh du email ó là spam và hun luyn li b lc • Hiu qu phân loi là khá cao • Vic lu tr tp lut ã qua hun luyn khá gn nh, trong khi ó vi phng pháp phân loi Naïve Bayes thì d liu sau khi hc là khá ln n. Vi phng pháp phân loi Naïve Bayesian, d liu hun luyn s phình to sau mi ln hun luyn cp nht thêm, iu này vi cách thc hin theo phng pháp AdaBoost là không áng k. 7.3.2 Khuyt m : • Cng ging nh các phng pháp máy hc ca phng pháp phân loi da trên thut toán AdaBoost chính là vic phi hun luyn cho nó, vic hun luyn hiu qu hay không còn phi ph thuc vào kho ng liu hun luyn ban u 81 • Khuyt m th hai là thi gian hun luyn, so vi Naïve Bayesian, hun luyn cùng mt kho ng liu thì phng pháp AdaBoost cn thi gian lâu hn rt nhiu, theo chúng tôi nhn thy thì s chênh lch y khá ln. 82 Chng 8 : XÂY DNG CHNG TRÌNH MAIL CLIENT TING VIT H TR PHÂN LOI EMAIL [...]... 126 5 13 14 57 11 3 56 1 78.57%91.67% 126 5 13 97 29 30 4 209 76.98 %31 .70% 5 13 5 13 57 57 53 4 45 12 92.98%81.54% 5 13 5 13 5 13 5 13 470 43 449 64 91.62%88.01% 1 638 2079 182 231 1 73 9 218 13 95.05% 93. 01% 1 638 20791557 81 2018 61 95.05%96. 23% f) T=5 SP Ng li uS email h c S email ki m th S->SS->NN->NN->SSR SpamNon-spamSpam Non-spam Spam PU1 432 549 48 61 39 9 56 581.25%88.64% 432 549 36 0 72 517 32 83. 33% 91.84%... 1 638 2079 182 231 157 25 218 138 6.26% 92 .35 % 1 638 20791419 219 2018 6186. 63% 95.88% 5 13 5 13 57 57 56 1 29 2898.25% 66.67% 5 13 5 13 510 3 437 7699.42% 87. 03% f) T=5 Ng li u PU1 email h c S email ki m th S->S S->NN->NN->SSR SP SpamNon-spamSpam Non-spam 432 549 48 61 44 4 53 891.67% 84.62% 432 549 38 8 44 4 93 5689.81% 87 .39 % 104 PU2 126 PU3 1 638 PUA 5 13 2 K t qu 5 13 14 126 2079 182 1 638 5 13 57 5 13 57 9 5 57... 99 .31 % PU2 126 5 13 14 126 PUA 5 13 57 5 13 5 13 1 638 PU3 5 13 5 13 2079 57 12 5 13 126 57 54 5 13 507 2 57 0 85.71%100.00% 0 5 13 0100.00%100.00% 45 12 94.74% 81.82% 6 505 3 8 98. 83% 98.45% 182 231 1 73 9 214 17 95.05% 91.05% 1 638 20791580 58 2 035 44 96.46% 97.29% d) T=50 Ng li u PU1 email h c S email ki m th S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam 432 549 48 61 46 2 54 7 95. 83% 86.79% PUA PU3 5 13 432 ... 182 231 174 8 214 17 95.60% 91.10% 1 638 20791592 46 2046 33 97.19% 97.97% 5 13 5 13 57 57 57 0 37 20100.00% 74. 03% 5 13 5 13 512 1 510 3 99.81% 99.42% e) T=10 Ng li u PU1 PU2 PU3 PUA email h c S email ki m th S->S S->NN->NN->SSR SP SpamNon-spamSpam Non-spam 432 549 48 61 45 3 56 5 93. 75% 90.00% 432 549 39 5 37 515 34 91.44% 92.07% 126 5 13 14 57 10 4 57 071. 43% 100.00% 126 5 13 102 24 502 1180.95% 90.27% 1 638 ... 100.00% 5 13 74 52 497 1658. 73% 82.22% 231 1 43 39 214 1778.57% 89 .38 % 2079 135 2 286 1994 8582.54% 94.08% 57 55 2 38 1996.49% 74 .32 % 5 13 495 18 412 10196.49% 83. 05% th c hi n v i thu t toán AdaBoost with discrete predictions a) T=500 Ng li u email h c S email ki m th S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam PU1 432 549 48 432 PU2 126 5 13 14 126 PUA 5 13 57 5 13 5 13 5 13 1 638 2079 46 549 432 57 13 5 13 126... 97.69% 98 .37 % 0 85.71%100.00% 5 13 5 13 126 57 5 13 126 57 56 0 5 13 1 44 0100.00%100.00% 13 98.25% 81.16% 5 13 PU2 5 13 5 13 5 13 495 18 488 25 96.49% 95.19% 1 638 2079 182 1 638 231 1 73 20791557 9 218 81 2018 13 95.05% 93. 01% 61 95.05% 96. 23% 126 e) T=10 Ng li u PU1 PU2 PUA PU3 email h c S email ki m th S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam 432 549 48 61 47 1 404 28 97.92%62.67% 432 549 432 0 504... 57 0 5 13 0 92.86%100.00% 0100.00%100.00% PU2 126 5 13 14 126 PUA 5 13 5 13 57 PU3 5 13 1 638 5 13 2079 5 13 182 1 638 57 45 53 3 SP 4 45 12 92.98% 81.54% 5 13 5 13 231 172 0 512 10 217 1100.00% 99.81% 14 94.51% 92.47% 20791596 42 2062 17 97.44% 98.95% c) T=100 Ng li u email h c S email ki m th S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam PU1 432 549 48 432 61 46 549 430 105 2 57 4 95. 83% 92.00% 2 546 3 99.54%... 2079 182 231 176 6 216 15 96.70% 92.15% 1 638 20791 638 0 2079 0100.00%100.00% 5 13 5 13 57 57 56 1 38 19 98.25% 74.67% 5 13 5 13 5 13 0 5 13 0100.00%100.00% b) T=200 Ng li u email h c S email ki m th S->S S->N N->N N->S SR SP Spam Non-spam Spam Non-spam PU1 432 549 48 432 PU2 126 5 13 14 61 48 549 432 57 12 0 58 3 100.00% 94.12% 0 549 0 100.00% 100.00% 2 57 0 85.71% 100.00% 126 PUA 1 638 5 13 2079 5 13 0 5 13 0 100.00%... 126 57 53 2 57 4 95. 83% 92.00% 0 549 0100.00%100.00% 1 57 0 92.86%100.00% 0 5 13 0100.00%100.00% 45 12 92.98% 81.54% 5 13 5 13 0 5 13 0100.00%100.00% 182 231 1 73 9 216 15 95.05% 92.02% 1 638 PU3 5 13 61 4 20791624 14 2074 5 99.15% 99.69% b) T=200 Ng li u PU1 email h c S email ki m th S->SS->NN->NN->SSR SpamNon-spamSpam Non-spam 432 549 48 61 58 3 93. 75% 93. 75% 432 549 432 0 549 0100.00%100.00% 57 13 5 13 126... 182 231 178 4 217 14 97.80% 92.71% 1 638 PU3 5 13 126 2079 1 634 4 2079 0 99.76% 100.00% 57 5 13 57 56 5 13 5 13 1 03 1 40 17 98.25% 76.71% 0 5 13 0 100.00% 100.00% c) T=100 Ng li u email h c S email ki m th S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam PU1 432 549 48 432 PU2 126 5 13 14 61 48 549 432 57 12 0 59 2 97.96% 96.00% 0 549 0100.00%100.00% 2 56 1 85.71% 92 .31 % 126 PUA 1 638 5 13 2079 5 13 0 5 13 0100.00%100.00% . liu email hc S email ki m th S->SS->NN->NN- >S SR SP Spam Non- spam Spam Non-spam PU1 432 549 48 61 46 2 57 4 95. 83% 92.00% 432 549 432 0 549 0100.00%100.00% PU2 126 5 13 14 57 13. 92.86%100.00% 126 5 13 126 0 5 13 0100.00%100.00% PUA 5 13 5 13 57 57 53 4 45 12 92.98% 81.54% 5 13 5 13 5 13 5 13 5 13 0 5 13 0100.00%100.00% PU3 1 638 2079 182 231 1 73 9 216 15 95.05% 92.02% 1 638 20791624 14. liu email hc S email kim th S->SS->NN->NN- >S SR SP Spam Non- spam Spam Non-spam PU1 432 549 48 61 48 0 58 31 00.00% 94.12% 432 549 432 0 549 0100.00%100.00% PU2 126 5 13 14 57 12