1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu các hướng tiếp cận phân loại email và xây dựng phần mềm mail client hỗ trợ tiếng Việt - 3 pdf

34 188 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 34
Dung lượng 624,33 KB

Nội dung

73 Chng 7 : THC HIN VÀ KIM TH PHÂN LOI EMAIL DA TRÊN PHNG PHÁP ADABOOST 74 7.1 Cài t b phân loi email da trên phng pháp AdaBoost: Chúng tôi tin hành cài t b phân loi email da trên thut toán AdaBoost vi ba cách Ø Cách 1 : cài t theo thut toán AdaBoost MH With Discrete Value Prediction Ø Cách 2: cài t theo thut toán AdaBoost MH With Real Value Prediction Sau khi thc hin, chúng tôi lu li T lut ã c chn  phân loi cho các mu mi Chúng tôi xây dng mt cu trúc d liu lut nh sau : Struct rule { Token :chui //lu token 0 c :s thc //giá tr ca lut khi token không có trong //email c xét 1 c :s thc // giá tr ca lut khi token có trong email //c xét } 7.1.1 Tp hun luyn mu và tp nhãn : Tp hun luyn mu chính là các email spam và email non-spam c dung  hun luyn, tp nhãn là Y={-1,+1}, ây chúng tôi qui nh -1 là spam và +1 là non-spam 75 7.1.2 Xây dng tp lut yu ban u : Vi mi token 8 w , nh ngha w ∈ x tng ng vi w có trong email x.nh ngha lut yu h nh sau: () hx = 0 c nu w x ∉ và 1 () hxc = nu w x ∈ Chúng tôi tin hành cài t th nghim thut toán AdaBoost vi hai cách khác nhau, do ó tng ng vi mi cách, cách ly giá tr 0 c và 1 c khác nhau, các giá tr 0 c , 1 c mà h(x) có th nhn c tính nhã nói  các mc 6.3.2.1 và mc 6.3.2.2. S lng ca tp lut yu c dùng  hun luyn theo nguyên tc là không hn ch, nh vy chúng ta có th ly tt c các token trong tp hc. Tuy nhiên, chúng tôi nhn thy  ly ht tt c các token thì rt mt thi gian và tc  hun luyn cng chm i, vì th chúng tôi ch chn ra mt s các token tho mãn mt tiêu chí nào ó  xây dng lut yu. Mi lut yu c chn nh sau :chúng tôi duyt qua tt c các mu hc, tính s ln xut hin ca mi token, nhng token có s ln xut hin ln hn mt giá tr ngng nào ó (c qui nh ) sc la chn, vic la chn ngng  quyt nh lut có c chn hay không tu thuc vào kho ng liu hc. Chúng tôi chia thành hai tp riêng, mt tp gm các token xut hin trong các email spam, tp kia gm các token xut hin trong email non-spam.Cách xây dng tp lut yu nh vy làm gim áng k s lut cn xét Khi hun luyn, chúng tôi s quyt nh s lng các lut yu cn chn, khi ó chúng tôi s chn tp lut yu bng cách ln lt chn mt token cha có trong tp c chn t tp các token spam, ri li chn mt token cha có trong tp c chn t tp các token non-spam cho n khi  s ng yêu cu  thc hin vic duyt các token và tìm kim mt token vi tc  nhanh, tng t nh thc hin thut toán hun luyn Naïve Bayesian chúng tôi 8 Xem nh ngha token  mc 5.1.1 76 cng xây dng bng bm tng t nh bng bm ã c s dng  cách thc hin theo phng pháp Naïve Bayesian. 7.1.3 Th tc WeakLearner chn lut yu: Th tc WeakLearner c xây dng nhm tìm lut yu t h nh sau : chn lut yu t h  bc chy t sao cho t Z nh nht, cách chn t Z và t α ã c  cp  các mc 6.3.2.1 và 6.3.2.2 7.1.4 Phân loi email : Khi nhn c mt email x, chúng tôi s tin hành so khp các lut t kho ng liu các lut c chn sau quá trình hun luyn , tó tính giá tr f(x), nu f(x) >0 (cùng du vi +1 ) chúng tôi cho email ó là non-spam, ngc li (cùng du vi -1 ) chúng tôi cho email ó là spam. 7.2 Th nghim hiu qu phân loi : 7.2.1 Th nghim vi kho ng liu pu: 7.2.1.1 Kch bn kim th: Vói mi phiên bn AdaBoost ã cài t, chúng tôi chn tp lut yu vi s lng là 2500 lut, nhng lut c xem là ng c viên nu s ln xut hin ca token ln hn hay bng 10 ln. Nu s lut yu ban u không  2500, chúng tôi s ly tt c s sn có.Chúng tôi th nghim vi T ln lt là 5, 10, 50, 100, 200 và 500. Chúng tôi ln lt kim th vi các pu, vi mi pu, chúng tôi cho hc t part 1-n part 9.i vi vic kim th chúng tôi kim th trên kho ng liu cha c hun luyn là part 10 ca mi pu 7.2.1.2 Kt qu kim th: Chúng tôi trình bày kt qu kim th vi T=500, v chi tit kt qu kim th, xem phn ph lc 77 v Kt qu thc hin kim th vi thut toán ADaBoost with real value predictions Ng  liu  email hc S  email kim th S->SS->NN->NN- >S SR SP Spam Non- spam Spam Non-spam PU1 432 549 48 61 48 0 58 3100.00% 94.12% 432 549 432 0 549 0100.00%100.00% PU2 126 513 14 57 12 25 6 1 85.71% 92.31% 126 513 126 0 513 0100.00%100.00% PU3 1638 2079 182 231 176 6 216 15 96.70% 92.15% 1638 20791638 0 2079 0100.00%100.00% PUA 513 513 57 57 56 1 38 19 98.25% 74.67% 513 513 513 0 513 0100.00%100.00% ng 7-1 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán AdaBoost with real -value predictions v Kt qu thc hin kim th vi thut toán ADaBoost with discrete predictions Ng  liu  email hc S email ki m th S->SS->NN->NN- >S SR SP Spam Non- spam Spam Non-spam PU1 432 549 48 61 46 2 57 4 95.83% 92.00% 432 549 432 0 549 0100.00%100.00% PU2 126 513 14 57 13 1 57 0 92.86%100.00% 126 513 126 0 513 0100.00%100.00% PUA 513 513 57 57 53 4 45 12 92.98% 81.54% 513 513 513 513 513 0 513 0100.00%100.00% PU3 1638 2079 182 231 173 9 216 15 95.05% 92.02% 1638 20791624 14 2074 5 99.15% 99.69% ng 7-2 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán AdaBoost with discrete predictions Nhn xét : theo Schapire & Singer [14], hiu qu phân loi ca thut toán AdaBoost with real value predictions cao hn ca thut toán AdaBoost with discrete predictions, tuy nhiên ây ta thy u ó không rõ rt. Hiu qu phân loi ca c hai thut toán trên các kho ng liu là khá cao. Vi thut toán AdaBoost, li phân loi sai trên các kho ng liu ã hun luyn s ngày càng gim khi T ngày càng tng, tng ng vói các ch s 78 spam recall và spam precision ngày càng tng, di ây là biu  th hin iu ó 0.00% 20.00% 40.00% 60.00% 80.00% 100.00% 120.00% 1 33 65 97 129 161 193 225 257 289 321 353 385 417 449 481 T % SR SP Hình 7-1  th biu din s bin thiên ca spam recall (SR) và spam precision (SP) theo T (thut tóan AdaBoost.MH with discrete predictions) 0.00% 20.00% 40.00% 60.00% 80.00% 100.00% 120.00% 1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481 T % SR SP Hình 7-2  th biu din s bin thiên ca spam recall (SR) và spam precision (SP) theo T (thut tóan AdaBoost MH with real value predictions ) 79 7.2.2 Th nghim vi kho ng liu email ch: 7.2.2.1 Kch bn kim th: Chúng tôi th nghim hai thut toán AdaBoost ã cài t vi T c chn ln lt là 5, 10, 50, 100, 200, và 500. 7.2.2.2 Kt qu kim th: Ng liu email vn bn trn, s email kim th : Spam =98, non- spam=100 Ng liu email html, s email kim th :Spam =50, non-spam=50 v Kt qu thc hin kim th vi thut toán ADaBoost with real value predictions Ng liu T=5 T=10 T=50 T=100 T=200 T=500 HTML SàS 48 48 49 49 49 49 SàN 2 2 1 1 1 1 NàN 49 49 49 49 49 49 NàS 1 1 1 1 1 1 SR 96.00% 96.00% 98.00% 98.00% 98.00% 98.00% SP 97.96% 97.96% 98.00% 98.00% 98.00% 98.00% TEXT SàS 84 93 98 98 98 98 SàN 14 5 0 0 0 0 NàN 98 97 98 99 99 99 NàS 2 3 2 1 1 1 SR 85.71% 94.90% 100.00% 100.00% 100.00% 100.00% SP 97.67% 96.88% 98.00% 98.99% 98.99% 98.99% ng 7-3 kt qu th nghim phân loi email vi ng liu email ch bng thut toán AdaBoost with real-value predictions v Kt qu thc hin kim th vi thut toán ADaBoost with discrete predictions Ng liu T=5 T=10 T=50 T=100 T=200 T=500 HTML SàS 48 49 50 50 50 50 SàN 2 1 0 0 0 0 NàN 49 49 49 49 49 49 NàS 1 1 1 1 1 1 SR 96.00% 98.00% 100.00% 100.00% 100.00% 100.00% SP 97.96% 98.00% 98.04% 98.04% 98.04% 98.04% 80 TEXT SàS 91 91 95 97 96 97 SàN 7 7 3 1 2 1 NàN 98 98 98 98 99 99 NàS 2 2 2 2 1 1 SR 92.86% 92.86% 96.94% 98.98% 97.96% 98.98% SP 97.85% 97.85% 97.94% 97.98% 98.97% 98.98% ng 7-4 Kt qu th nghim phân loi email vi ng liu email ch bng thut toán AdaBoost with discrete predictions Nhn xét : hiu qu phân loi trên ng liu email là ch ca thut toán AdaBoost khá tt, so vi phng pháp phân loi Naïve Bayesian thì ADaBoost phân loi email html tt hn, hiu qu phân loi trên email là n bn trn cng tng ng vi Naïve Bayesian. 7.3 u  nhc m ca phng pháp phân loi AdaBoost: 7.3.1 u m : • Mt u im ca AdaBoost ging vi phng pháp phân loi Naïve Bayes là nó cho phép hc cp nht, ngha là khi mt email spam vt qua c b lc thì ngòi dung có thánh du email ó là spam và hun luyn li b lc • Hiu qu phân loi là khá cao • Vic lu tr tp lut ã qua hun luyn khá gn nh, trong khi ó vi phng pháp phân loi Naïve Bayes thì d liu sau khi hc là khá ln n. Vi phng pháp phân loi Naïve Bayesian, d liu hun luyn s phình to sau mi ln hun luyn cp nht thêm, iu này vi cách thc hin theo phng pháp AdaBoost là không áng k. 7.3.2 Khuyt m : • Cng ging nh các phng pháp máy hc ca phng pháp phân loi da trên thut toán AdaBoost chính là vic phi hun luyn cho nó, vic hun luyn hiu qu hay không còn phi ph thuc vào kho ng liu hun luyn ban u 81 • Khuyt m th hai là thi gian hun luyn, so vi Naïve Bayesian, hun luyn cùng mt kho ng liu thì phng pháp AdaBoost cn thi gian lâu hn rt nhiu, theo chúng tôi nhn thy thì s chênh lch y khá ln. 82 Chng 8 : XÂY DNG CHNG TRÌNH MAIL CLIENT TING VIT H TR PHÂN LOI EMAIL [...]... 126 5 13 14 57 11 3 56 1 78.57%91.67% 126 5 13 97 29 30 4 209 76.98 %31 .70% 5 13 5 13 57 57 53 4 45 12 92.98%81.54% 5 13 5 13 5 13 5 13 470 43 449 64 91.62%88.01% 1 638 2079 182 231 1 73 9 218 13 95.05% 93. 01% 1 638 20791557 81 2018 61 95.05%96. 23% f) T=5 SP Ng li uS email h c S email ki m th S->SS->NN->NN->SSR SpamNon-spamSpam Non-spam Spam PU1 432 549 48 61 39 9 56 581.25%88.64% 432 549 36 0 72 517 32 83. 33% 91.84%... 1 638 2079 182 231 157 25 218 138 6.26% 92 .35 % 1 638 20791419 219 2018 6186. 63% 95.88% 5 13 5 13 57 57 56 1 29 2898.25% 66.67% 5 13 5 13 510 3 437 7699.42% 87. 03% f) T=5 Ng li u PU1 email h c S email ki m th S->S S->NN->NN->SSR SP SpamNon-spamSpam Non-spam 432 549 48 61 44 4 53 891.67% 84.62% 432 549 38 8 44 4 93 5689.81% 87 .39 % 104 PU2 126 PU3 1 638 PUA 5 13 2 K t qu 5 13 14 126 2079 182 1 638 5 13 57 5 13 57 9 5 57... 99 .31 % PU2 126 5 13 14 126 PUA 5 13 57 5 13 5 13 1 638 PU3 5 13 5 13 2079 57 12 5 13 126 57 54 5 13 507 2 57 0 85.71%100.00% 0 5 13 0100.00%100.00% 45 12 94.74% 81.82% 6 505 3 8 98. 83% 98.45% 182 231 1 73 9 214 17 95.05% 91.05% 1 638 20791580 58 2 035 44 96.46% 97.29% d) T=50 Ng li u PU1 email h c S email ki m th S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam 432 549 48 61 46 2 54 7 95. 83% 86.79% PUA PU3 5 13 432 ... 182 231 174 8 214 17 95.60% 91.10% 1 638 20791592 46 2046 33 97.19% 97.97% 5 13 5 13 57 57 57 0 37 20100.00% 74. 03% 5 13 5 13 512 1 510 3 99.81% 99.42% e) T=10 Ng li u PU1 PU2 PU3 PUA email h c S email ki m th S->S S->NN->NN->SSR SP SpamNon-spamSpam Non-spam 432 549 48 61 45 3 56 5 93. 75% 90.00% 432 549 39 5 37 515 34 91.44% 92.07% 126 5 13 14 57 10 4 57 071. 43% 100.00% 126 5 13 102 24 502 1180.95% 90.27% 1 638 ... 100.00% 5 13 74 52 497 1658. 73% 82.22% 231 1 43 39 214 1778.57% 89 .38 % 2079 135 2 286 1994 8582.54% 94.08% 57 55 2 38 1996.49% 74 .32 % 5 13 495 18 412 10196.49% 83. 05% th c hi n v i thu t toán AdaBoost with discrete predictions a) T=500 Ng li u email h c S email ki m th S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam PU1 432 549 48 432 PU2 126 5 13 14 126 PUA 5 13 57 5 13 5 13 5 13 1 638 2079 46 549 432 57 13 5 13 126... 97.69% 98 .37 % 0 85.71%100.00% 5 13 5 13 126 57 5 13 126 57 56 0 5 13 1 44 0100.00%100.00% 13 98.25% 81.16% 5 13 PU2 5 13 5 13 5 13 495 18 488 25 96.49% 95.19% 1 638 2079 182 1 638 231 1 73 20791557 9 218 81 2018 13 95.05% 93. 01% 61 95.05% 96. 23% 126 e) T=10 Ng li u PU1 PU2 PUA PU3 email h c S email ki m th S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam 432 549 48 61 47 1 404 28 97.92%62.67% 432 549 432 0 504... 57 0 5 13 0 92.86%100.00% 0100.00%100.00% PU2 126 5 13 14 126 PUA 5 13 5 13 57 PU3 5 13 1 638 5 13 2079 5 13 182 1 638 57 45 53 3 SP 4 45 12 92.98% 81.54% 5 13 5 13 231 172 0 512 10 217 1100.00% 99.81% 14 94.51% 92.47% 20791596 42 2062 17 97.44% 98.95% c) T=100 Ng li u email h c S email ki m th S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam PU1 432 549 48 432 61 46 549 430 105 2 57 4 95. 83% 92.00% 2 546 3 99.54%... 2079 182 231 176 6 216 15 96.70% 92.15% 1 638 20791 638 0 2079 0100.00%100.00% 5 13 5 13 57 57 56 1 38 19 98.25% 74.67% 5 13 5 13 5 13 0 5 13 0100.00%100.00% b) T=200 Ng li u email h c S email ki m th S->S S->N N->N N->S SR SP Spam Non-spam Spam Non-spam PU1 432 549 48 432 PU2 126 5 13 14 61 48 549 432 57 12 0 58 3 100.00% 94.12% 0 549 0 100.00% 100.00% 2 57 0 85.71% 100.00% 126 PUA 1 638 5 13 2079 5 13 0 5 13 0 100.00%... 126 57 53 2 57 4 95. 83% 92.00% 0 549 0100.00%100.00% 1 57 0 92.86%100.00% 0 5 13 0100.00%100.00% 45 12 92.98% 81.54% 5 13 5 13 0 5 13 0100.00%100.00% 182 231 1 73 9 216 15 95.05% 92.02% 1 638 PU3 5 13 61 4 20791624 14 2074 5 99.15% 99.69% b) T=200 Ng li u PU1 email h c S email ki m th S->SS->NN->NN->SSR SpamNon-spamSpam Non-spam 432 549 48 61 58 3 93. 75% 93. 75% 432 549 432 0 549 0100.00%100.00% 57 13 5 13 126... 182 231 178 4 217 14 97.80% 92.71% 1 638 PU3 5 13 126 2079 1 634 4 2079 0 99.76% 100.00% 57 5 13 57 56 5 13 5 13 1 03 1 40 17 98.25% 76.71% 0 5 13 0 100.00% 100.00% c) T=100 Ng li u email h c S email ki m th S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam PU1 432 549 48 432 PU2 126 5 13 14 61 48 549 432 57 12 0 59 2 97.96% 96.00% 0 549 0100.00%100.00% 2 56 1 85.71% 92 .31 % 126 PUA 1 638 5 13 2079 5 13 0 5 13 0100.00%100.00% . liu  email hc S email ki m th S->SS->NN->NN- >S SR SP Spam Non- spam Spam Non-spam PU1 432 549 48 61 46 2 57 4 95. 83% 92.00% 432 549 432 0 549 0100.00%100.00% PU2 126 5 13 14 57 13. 92.86%100.00% 126 5 13 126 0 5 13 0100.00%100.00% PUA 5 13 5 13 57 57 53 4 45 12 92.98% 81.54% 5 13 5 13 5 13 5 13 5 13 0 5 13 0100.00%100.00% PU3 1 638 2079 182 231 1 73 9 216 15 95.05% 92.02% 1 638 20791624 14. liu  email hc S  email kim th S->SS->NN->NN- >S SR SP Spam Non- spam Spam Non-spam PU1 432 549 48 61 48 0 58 31 00.00% 94.12% 432 549 432 0 549 0100.00%100.00% PU2 126 5 13 14 57 12

Ngày đăng: 12/08/2014, 10:20

HÌNH ẢNH LIÊN QUAN

Hình 7-2   th  bi u di n s   bi n thiên c a spam recall (SR) và spam precision (SP) theo T (thu t tóan AdaBoost MH with real value predictions ) - Tìm hiểu các hướng tiếp cận phân loại email và xây dựng phần mềm mail client hỗ trợ tiếng Việt - 3 pdf
Hình 7 2 th bi u di n s bi n thiên c a spam recall (SR) và spam precision (SP) theo T (thu t tóan AdaBoost MH with real value predictions ) (Trang 6)
Hình 8-1:S  màn hình c a ch ng trình - Tìm hiểu các hướng tiếp cận phân loại email và xây dựng phần mềm mail client hỗ trợ tiếng Việt - 3 pdf
Hình 8 1:S màn hình c a ch ng trình (Trang 13)
Hình 8-2 Màn hình chính c a ch ng trình Mail Client - Tìm hiểu các hướng tiếp cận phân loại email và xây dựng phần mềm mail client hỗ trợ tiếng Việt - 3 pdf
Hình 8 2 Màn hình chính c a ch ng trình Mail Client (Trang 14)
Hình 8-3  Màn hình " c email" - Tìm hiểu các hướng tiếp cận phân loại email và xây dựng phần mềm mail client hỗ trợ tiếng Việt - 3 pdf
Hình 8 3 Màn hình " c email" (Trang 17)
Hình 8-4  Màn hình g i  email - Tìm hiểu các hướng tiếp cận phân loại email và xây dựng phần mềm mail client hỗ trợ tiếng Việt - 3 pdf
Hình 8 4 Màn hình g i email (Trang 19)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w