Tìm hiểu các hướng tiếp cận phân loại email và xây dựng phần mềm mail client hỗ trợ tiếng Việt - 3 pdf

73 Chng 7 : THC HIN VÀ KIM TH PHÂN LOI EMAIL DA TRÊN PHNG PHÁP ADABOOST 74 7.1 Cài t b phân loi email da trên phng pháp AdaBoost: Chúng tôi tin hành cài t b phân loi email da trên thut toán AdaBoost vi ba cách Ø Cách 1 : cài t theo thut toán AdaBoost MH With Discrete Value Prediction Ø Cách 2: cài t theo thut toán AdaBoost MH With Real Value Prediction Sau khi thc hin, chúng tôi lu li T lut ã c chn  phân loi cho các mu mi Chúng tôi xây dng mt cu trúc d liu lut nh sau : Struct rule { Token :chui //lu token 0 c :s thc //giá tr ca lut khi token không có trong //email c xét 1 c :s thc // giá tr ca lut khi token có trong email //c xét } 7.1.1 Tp hun luyn mu và tp nhãn : Tp hun luyn mu chính là các email spam và email non-spam c dung  hun luyn, tp nhãn là Y={-1,+1}, ây chúng tôi qui nh -1 là spam và +1 là non-spam 75 7.1.2 Xây dng tp lut yu ban u : Vi mi token 8 w , nh ngha w ∈ x tng ng vi w có trong email x.nh ngha lut yu h nh sau: () hx = 0 c nu w x ∉ và 1 () hxc = nu w x ∈ Chúng tôi tin hành cài t th nghim thut toán AdaBoost vi hai cách khác nhau, do ó tng ng vi mi cách, cách ly giá tr 0 c và 1 c khác nhau, các giá tr 0 c , 1 c mà h(x) có th nhn c tính nhã nói  các mc 6.3.2.1 và mc 6.3.2.2. S lng ca tp lut yu c dùng  hun luyn theo nguyên tc là không hn ch, nh vy chúng ta có th ly tt c các token trong tp hc. Tuy nhiên, chúng tôi nhn thy  ly ht tt c các token thì rt mt thi gian và tc  hun luyn cng chm i, vì th chúng tôi ch chn ra mt s các token tho mãn mt tiêu chí nào ó  xây dng lut yu. Mi lut yu c chn nh sau :chúng tôi duyt qua tt c các mu hc, tính s ln xut hin ca mi token, nhng token có s ln xut hin ln hn mt giá tr ngng nào ó (c qui nh ) sc la chn, vic la chn ngng  quyt nh lut có c chn hay không tu thuc vào kho ng liu hc. Chúng tôi chia thành hai tp riêng, mt tp gm các token xut hin trong các email spam, tp kia gm các token xut hin trong email non-spam.Cách xây dng tp lut yu nh vy làm gim áng k s lut cn xét Khi hun luyn, chúng tôi s quyt nh s lng các lut yu cn chn, khi ó chúng tôi s chn tp lut yu bng cách ln lt chn mt token cha có trong tp c chn t tp các token spam, ri li chn mt token cha có trong tp c chn t tp các token non-spam cho n khi  s ng yêu cu  thc hin vic duyt các token và tìm kim mt token vi tc  nhanh, tng t nh thc hin thut toán hun luyn Naïve Bayesian chúng tôi 8 Xem nh ngha token  mc 5.1.1 76 cng xây dng bng bm tng t nh bng bm ã c s dng  cách thc hin theo phng pháp Naïve Bayesian. 7.1.3 Th tc WeakLearner chn lut yu: Th tc WeakLearner c xây dng nhm tìm lut yu t h nh sau : chn lut yu t h  bc chy t sao cho t Z nh nht, cách chn t Z và t α ã c  cp  các mc 6.3.2.1 và 6.3.2.2 7.1.4 Phân loi email : Khi nhn c mt email x, chúng tôi s tin hành so khp các lut t kho ng liu các lut c chn sau quá trình hun luyn , tó tính giá tr f(x), nu f(x) >0 (cùng du vi +1 ) chúng tôi cho email ó là non-spam, ngc li (cùng du vi -1 ) chúng tôi cho email ó là spam. 7.2 Th nghim hiu qu phân loi : 7.2.1 Th nghim vi kho ng liu pu: 7.2.1.1 Kch bn kim th: Vói mi phiên bn AdaBoost ã cài t, chúng tôi chn tp lut yu vi s lng là 2500 lut, nhng lut c xem là ng c viên nu s ln xut hin ca token ln hn hay bng 10 ln. Nu s lut yu ban u không  2500, chúng tôi s ly tt c s sn có.Chúng tôi th nghim vi T ln lt là 5, 10, 50, 100, 200 và 500. Chúng tôi ln lt kim th vi các pu, vi mi pu, chúng tôi cho hc t part 1-n part 9.i vi vic kim th chúng tôi kim th trên kho ng liu cha c hun luyn là part 10 ca mi pu 7.2.1.2 Kt qu kim th: Chúng tôi trình bày kt qu kim th vi T=500, v chi tit kt qu kim th, xem phn ph lc 77 v Kt qu thc hin kim th vi thut toán ADaBoost with real value predictions Ng  liu  email hc S  email kim th S->SS->NN->NN- >S SR SP Spam Non- spam Spam Non-spam PU1 432 549 48 61 48 0 58 3100.00% 94.12% 432 549 432 0 549 0100.00%100.00% PU2 126 513 14 57 12 25 6 1 85.71% 92.31% 126 513 126 0 513 0100.00%100.00% PU3 1638 2079 182 231 176 6 216 15 96.70% 92.15% 1638 20791638 0 2079 0100.00%100.00% PUA 513 513 57 57 56 1 38 19 98.25% 74.67% 513 513 513 0 513 0100.00%100.00% ng 7-1 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán AdaBoost with real -value predictions v Kt qu thc hin kim th vi thut toán ADaBoost with discrete predictions Ng  liu  email hc S email ki m th S->SS->NN->NN- >S SR SP Spam Non- spam Spam Non-spam PU1 432 549 48 61 46 2 57 4 95.83% 92.00% 432 549 432 0 549 0100.00%100.00% PU2 126 513 14 57 13 1 57 0 92.86%100.00% 126 513 126 0 513 0100.00%100.00% PUA 513 513 57 57 53 4 45 12 92.98% 81.54% 513 513 513 513 513 0 513 0100.00%100.00% PU3 1638 2079 182 231 173 9 216 15 95.05% 92.02% 1638 20791624 14 2074 5 99.15% 99.69% ng 7-2 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán AdaBoost with discrete predictions Nhn xét : theo Schapire & Singer [14], hiu qu phân loi ca thut toán AdaBoost with real value predictions cao hn ca thut toán AdaBoost with discrete predictions, tuy nhiên ây ta thy u ó không rõ rt. Hiu qu phân loi ca c hai thut toán trên các kho ng liu là khá cao. Vi thut toán AdaBoost, li phân loi sai trên các kho ng liu ã hun luyn s ngày càng gim khi T ngày càng tng, tng ng vói các ch s 78 spam recall và spam precision ngày càng tng, di ây là biu  th hin iu ó 0.00% 20.00% 40.00% 60.00% 80.00% 100.00% 120.00% 1 33 65 97 129 161 193 225 257 289 321 353 385 417 449 481 T % SR SP Hình 7-1  th biu din s bin thiên ca spam recall (SR) và spam precision (SP) theo T (thut tóan AdaBoost.MH with discrete predictions) 0.00% 20.00% 40.00% 60.00% 80.00% 100.00% 120.00% 1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481 T % SR SP Hình 7-2  th biu din s bin thiên ca spam recall (SR) và spam precision (SP) theo T (thut tóan AdaBoost MH with real value predictions ) 79 7.2.2 Th nghim vi kho ng liu email ch: 7.2.2.1 Kch bn kim th: Chúng tôi th nghim hai thut toán AdaBoost ã cài t vi T c chn ln lt là 5, 10, 50, 100, 200, và 500. 7.2.2.2 Kt qu kim th: Ng liu email vn bn trn, s email kim th : Spam =98, non- spam=100 Ng liu email html, s email kim th :Spam =50, non-spam=50 v Kt qu thc hin kim th vi thut toán ADaBoost with real value predictions Ng liu T=5 T=10 T=50 T=100 T=200 T=500 HTML SàS 48 48 49 49 49 49 SàN 2 2 1 1 1 1 NàN 49 49 49 49 49 49 NàS 1 1 1 1 1 1 SR 96.00% 96.00% 98.00% 98.00% 98.00% 98.00% SP 97.96% 97.96% 98.00% 98.00% 98.00% 98.00% TEXT SàS 84 93 98 98 98 98 SàN 14 5 0 0 0 0 NàN 98 97 98 99 99 99 NàS 2 3 2 1 1 1 SR 85.71% 94.90% 100.00% 100.00% 100.00% 100.00% SP 97.67% 96.88% 98.00% 98.99% 98.99% 98.99% ng 7-3 kt qu th nghim phân loi email vi ng liu email ch bng thut toán AdaBoost with real-value predictions v Kt qu thc hin kim th vi thut toán ADaBoost with discrete predictions Ng liu T=5 T=10 T=50 T=100 T=200 T=500 HTML SàS 48 49 50 50 50 50 SàN 2 1 0 0 0 0 NàN 49 49 49 49 49 49 NàS 1 1 1 1 1 1 SR 96.00% 98.00% 100.00% 100.00% 100.00% 100.00% SP 97.96% 98.00% 98.04% 98.04% 98.04% 98.04% 80 TEXT SàS 91 91 95 97 96 97 SàN 7 7 3 1 2 1 NàN 98 98 98 98 99 99 NàS 2 2 2 2 1 1 SR 92.86% 92.86% 96.94% 98.98% 97.96% 98.98% SP 97.85% 97.85% 97.94% 97.98% 98.97% 98.98% ng 7-4 Kt qu th nghim phân loi email vi ng liu email ch bng thut toán AdaBoost with discrete predictions Nhn xét : hiu qu phân loi trên ng liu email là ch ca thut toán AdaBoost khá tt, so vi phng pháp phân loi Naïve Bayesian thì ADaBoost phân loi email html tt hn, hiu qu phân loi trên email là n bn trn cng tng ng vi Naïve Bayesian. 7.3 u  nhc m ca phng pháp phân loi AdaBoost: 7.3.1 u m : • Mt u im ca AdaBoost ging vi phng pháp phân loi Naïve Bayes là nó cho phép hc cp nht, ngha là khi mt email spam vt qua c b lc thì ngòi dung có thánh du email ó là spam và hun luyn li b lc • Hiu qu phân loi là khá cao • Vic lu tr tp lut ã qua hun luyn khá gn nh, trong khi ó vi phng pháp phân loi Naïve Bayes thì d liu sau khi hc là khá ln n. Vi phng pháp phân loi Naïve Bayesian, d liu hun luyn s phình to sau mi ln hun luyn cp nht thêm, iu này vi cách thc hin theo phng pháp AdaBoost là không áng k. 7.3.2 Khuyt m : • Cng ging nh các phng pháp máy hc ca phng pháp phân loi da trên thut toán AdaBoost chính là vic phi hun luyn cho nó, vic hun luyn hiu qu hay không còn phi ph thuc vào kho ng liu hun luyn ban u 81 • Khuyt m th hai là thi gian hun luyn, so vi Naïve Bayesian, hun luyn cùng mt kho ng liu thì phng pháp AdaBoost cn thi gian lâu hn rt nhiu, theo chúng tôi nhn thy thì s chênh lch y khá ln. 82 Chng 8 : XÂY DNG CHNG TRÌNH MAIL CLIENT TING VIT H TR PHÂN LOI EMAIL [...]... 126 5 13 14 57 11 3 56 1 78.57%91.67% 126 5 13 97 29 30 4 209 76.98 %31 .70% 5 13 5 13 57 57 53 4 45 12 92.98%81.54% 5 13 5 13 5 13 5 13 470 43 449 64 91.62%88.01% 1 638 2079 182 231 1 73 9 218 13 95.05% 93. 01% 1 638 20791557 81 2018 61 95.05%96. 23% f) T=5 SP Ng li uS email h c S email ki m th S->SS->NN->NN->SSR SpamNon-spamSpam Non-spam Spam PU1 432 549 48 61 39 9 56 581.25%88.64% 432 549 36 0 72 517 32 83. 33% 91.84%... 1 638 2079 182 231 157 25 218 138 6.26% 92 .35 % 1 638 20791419 219 2018 6186. 63% 95.88% 5 13 5 13 57 57 56 1 29 2898.25% 66.67% 5 13 5 13 510 3 437 7699.42% 87. 03% f) T=5 Ng li u PU1 email h c S email ki m th S->S S->NN->NN->SSR SP SpamNon-spamSpam Non-spam 432 549 48 61 44 4 53 891.67% 84.62% 432 549 38 8 44 4 93 5689.81% 87 .39 % 104 PU2 126 PU3 1 638 PUA 5 13 2 K t qu 5 13 14 126 2079 182 1 638 5 13 57 5 13 57 9 5 57... 99 .31 % PU2 126 5 13 14 126 PUA 5 13 57 5 13 5 13 1 638 PU3 5 13 5 13 2079 57 12 5 13 126 57 54 5 13 507 2 57 0 85.71%100.00% 0 5 13 0100.00%100.00% 45 12 94.74% 81.82% 6 505 3 8 98. 83% 98.45% 182 231 1 73 9 214 17 95.05% 91.05% 1 638 20791580 58 2 035 44 96.46% 97.29% d) T=50 Ng li u PU1 email h c S email ki m th S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam 432 549 48 61 46 2 54 7 95. 83% 86.79% PUA PU3 5 13 432 ... 182 231 174 8 214 17 95.60% 91.10% 1 638 20791592 46 2046 33 97.19% 97.97% 5 13 5 13 57 57 57 0 37 20100.00% 74. 03% 5 13 5 13 512 1 510 3 99.81% 99.42% e) T=10 Ng li u PU1 PU2 PU3 PUA email h c S email ki m th S->S S->NN->NN->SSR SP SpamNon-spamSpam Non-spam 432 549 48 61 45 3 56 5 93. 75% 90.00% 432 549 39 5 37 515 34 91.44% 92.07% 126 5 13 14 57 10 4 57 071. 43% 100.00% 126 5 13 102 24 502 1180.95% 90.27% 1 638 ... 100.00% 5 13 74 52 497 1658. 73% 82.22% 231 1 43 39 214 1778.57% 89 .38 % 2079 135 2 286 1994 8582.54% 94.08% 57 55 2 38 1996.49% 74 .32 % 5 13 495 18 412 10196.49% 83. 05% th c hi n v i thu t toán AdaBoost with discrete predictions a) T=500 Ng li u email h c S email ki m th S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam PU1 432 549 48 432 PU2 126 5 13 14 126 PUA 5 13 57 5 13 5 13 5 13 1 638 2079 46 549 432 57 13 5 13 126... 97.69% 98 .37 % 0 85.71%100.00% 5 13 5 13 126 57 5 13 126 57 56 0 5 13 1 44 0100.00%100.00% 13 98.25% 81.16% 5 13 PU2 5 13 5 13 5 13 495 18 488 25 96.49% 95.19% 1 638 2079 182 1 638 231 1 73 20791557 9 218 81 2018 13 95.05% 93. 01% 61 95.05% 96. 23% 126 e) T=10 Ng li u PU1 PU2 PUA PU3 email h c S email ki m th S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam 432 549 48 61 47 1 404 28 97.92%62.67% 432 549 432 0 504... 57 0 5 13 0 92.86%100.00% 0100.00%100.00% PU2 126 5 13 14 126 PUA 5 13 5 13 57 PU3 5 13 1 638 5 13 2079 5 13 182 1 638 57 45 53 3 SP 4 45 12 92.98% 81.54% 5 13 5 13 231 172 0 512 10 217 1100.00% 99.81% 14 94.51% 92.47% 20791596 42 2062 17 97.44% 98.95% c) T=100 Ng li u email h c S email ki m th S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam PU1 432 549 48 432 61 46 549 430 105 2 57 4 95. 83% 92.00% 2 546 3 99.54%... 2079 182 231 176 6 216 15 96.70% 92.15% 1 638 20791 638 0 2079 0100.00%100.00% 5 13 5 13 57 57 56 1 38 19 98.25% 74.67% 5 13 5 13 5 13 0 5 13 0100.00%100.00% b) T=200 Ng li u email h c S email ki m th S->S S->N N->N N->S SR SP Spam Non-spam Spam Non-spam PU1 432 549 48 432 PU2 126 5 13 14 61 48 549 432 57 12 0 58 3 100.00% 94.12% 0 549 0 100.00% 100.00% 2 57 0 85.71% 100.00% 126 PUA 1 638 5 13 2079 5 13 0 5 13 0 100.00%... 126 57 53 2 57 4 95. 83% 92.00% 0 549 0100.00%100.00% 1 57 0 92.86%100.00% 0 5 13 0100.00%100.00% 45 12 92.98% 81.54% 5 13 5 13 0 5 13 0100.00%100.00% 182 231 1 73 9 216 15 95.05% 92.02% 1 638 PU3 5 13 61 4 20791624 14 2074 5 99.15% 99.69% b) T=200 Ng li u PU1 email h c S email ki m th S->SS->NN->NN->SSR SpamNon-spamSpam Non-spam 432 549 48 61 58 3 93. 75% 93. 75% 432 549 432 0 549 0100.00%100.00% 57 13 5 13 126... 182 231 178 4 217 14 97.80% 92.71% 1 638 PU3 5 13 126 2079 1 634 4 2079 0 99.76% 100.00% 57 5 13 57 56 5 13 5 13 1 03 1 40 17 98.25% 76.71% 0 5 13 0 100.00% 100.00% c) T=100 Ng li u email h c S email ki m th S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam PU1 432 549 48 432 PU2 126 5 13 14 61 48 549 432 57 12 0 59 2 97.96% 96.00% 0 549 0100.00%100.00% 2 56 1 85.71% 92 .31 % 126 PUA 1 638 5 13 2079 5 13 0 5 13 0100.00%100.00% . liu  email hc S email ki m th S->SS->NN->NN- >S SR SP Spam Non- spam Spam Non-spam PU1 432 549 48 61 46 2 57 4 95. 83% 92.00% 432 549 432 0 549 0100.00%100.00% PU2 126 5 13 14 57 13. 92.86%100.00% 126 5 13 126 0 5 13 0100.00%100.00% PUA 5 13 5 13 57 57 53 4 45 12 92.98% 81.54% 5 13 5 13 5 13 5 13 5 13 0 5 13 0100.00%100.00% PU3 1 638 2079 182 231 1 73 9 216 15 95.05% 92.02% 1 638 20791624 14. liu  email hc S  email kim th S->SS->NN->NN- >S SR SP Spam Non- spam Spam Non-spam PU1 432 549 48 61 48 0 58 31 00.00% 94.12% 432 549 432 0 549 0100.00%100.00% PU2 126 5 13 14 57 12

Định dạng
Số trang	34
Dung lượng	624,33 KB