7.2.1 Th穎 nghi羽m v噂i kho ng英 li羽u pu:
7.2.1.1 K鵜ch b違n ki吋m th穎:
Vói m厩i phiên b違n AdaBoost 8ã cài8員t, chúng tôi ch丑n t壱p lu壱t y院u v噂i s嘘 l逢嬰ng là 2500 lu壱t, nh英ng lu壱t 8逢嬰c xem là泳ng c穎 viên n院u s嘘 l亥n xu医t hi羽n c栄a token l噂n h挨n hay b茨ng 10 l亥n. N院u s嘘 lu壱t y院u ban 8亥u không 8栄 2500, chúng tôi s胤 l医y t医t c違 s嘘 s印n có.Chúng tôi th穎 nghi羽m v噂i T l亥n l逢嬰t là 5, 10, 50, 100, 200 và 500.
Chúng tôi l亥n l逢嬰t ki吋m th穎 v噂i các pu, v噂i m厩i pu, chúng tôi cho h丑c t瑛 part 1-"8院n part 9."A嘘i v噂i vi羽c ki吋m th穎 chúng tôi ki吋m th穎 trên kho ng英 li羽u ch逢a 8逢嬰c hu医n luy羽n là part 10 c栄a m厩i pu
7.2.1.2 K院t qu違 ki吋m th穎:
Chúng tôi trình bày k院t qu違 ki吋m th穎 v噂i T=500, v隠 chi ti院t k院t qu違 ki吋m th穎, xem ph亥n ph映 l映c
v K院t qu違 th詠c hi羽n ki吋m th穎 v噂i thu壱t toán ADaBoost with real value predictions
Ng英 li羽uU嘘 email h丑c S嘘 email ki吋m th穎S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam
PU1 432 549 48 61 48 0 58 3100.00% 94.12%
432 549 432 0 549 0100.00%100.00%
PU2 126 513 14 57 12 2 56 1 85.71% 92.31%
126 513 126 0 513 0100.00%100.00%
PU3 1638 2079 182 231 176 6 216 15 96.70% 92.15%
1638 20791638 0 2079 0100.00%100.00%
PUA 513 513 57 57 56 1 38 19 98.25% 74.67%
513 513 513 0 513 0100.00%100.00%
D違ng 7-1 K院t qu違 th穎 nghi羽m phân lo衣i email v噂i ng英 li羽u s嘘 PU b茨ng thu壱t toán AdaBoost with real -value predictions
v K院t qu違 th詠c hi羽n ki吋m th穎 v噂i thu壱t toán ADaBoost with discrete predictions
Ng英 li羽uU嘘 email h丑c S嘘 email ki吋m th穎S->SS->NN->NN->SSR SP SpamNon-spamSpam Non-spam
PU1 432 549 48 61 46 2 57 4 95.83% 92.00%
432 549 432 0 549 0100.00%100.00%
PU2 126 513 14 57 13 1 57 0 92.86% 100.00%
126 513 126 0 513 0100.00%100.00%
PUA 513 513 57 57 53 4 45 12 92.98% 81.54%
513 513 513 513 513 0 513 0100.00%100.00%
PU3 1638 2079 182 231 173 9 216 15 95.05% 92.02%
1638 20791624 14 2074 5 99.15% 99.69%
D違ng 7-2 K院t qu違 th穎 nghi羽m phân lo衣i email v噂i ng英 li羽u s嘘 PU b茨ng thu壱t toán AdaBoost with discrete predictions
Nh壱n xét : theo Schapire & Singer [14], hi羽u qu違 phân lo衣i c栄a thu壱t toán AdaBoost with real value predictions cao h挨n c栄a thu壱t toán AdaBoost with discrete predictions, tuy nhiờn荏"8õy ta th医y 8k隠u 8ú khụng rừ r羽t.
Hi羽u qu違 phân lo衣i c栄a c違 hai thu壱t toán trên các kho ng英 li羽u là khá cao.
V噂i thu壱t toán AdaBoost, l厩i phân lo衣i sai trên các kho ng英 li羽u 8ã hu医n luy羽n s胤 ngày càng gi違m khi T ngày càng t<ng, t逢挨ng泳ng vói các ch雨 s嘘
spam recall và spam precision ngày càng t<ng, d逢噂i 8ây là bi吋u 8欝 th吋 hi羽n 8i隠u 8ó
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
120.00%
1 33 65 97 129 161 193 225 257 289 321 353 385 417 449 481 T
%
SR SP
Hình 7-1 A欝 th鵜 bi吋u di宇n s詠 bi院n thiên c栄a spam recall (SR) và spam precision (SP) theo T (thu壱t tóan AdaBoost.MH with discrete predictions)
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
120.00%
1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481
T
%
SR SP
Hình 7-2 A欝 th鵜 bi吋u di宇n s詠 bi院n thiên c栄a spam recall (SR) và spam precision (SP) theo T (thu壱t tóan AdaBoost MH with real value predictions )
7.2.2 Th穎 nghi羽m v噂i kho ng英 li羽u email ch英:
7.2.2.1 K鵜ch b違n ki吋m th穎:
Chúng tôi th穎 nghi羽m hai thu壱t toán AdaBoost 8ã cài8員t v噂i T 8逢嬰c ch丑n l亥n l逢嬰t là 5, 10, 50, 100, 200, và 500.
7.2.2.2 K院t qu違 ki吋m th穎:
Ng英 li羽u email v<n b違n tr挨n, s嘘 email ki吋m th穎 : Spam =98, non- spam=100
Ng英 li羽u email html, s嘘 email ki吋m th穎:Spam =50, non-spam=50 v K院t qu違 th詠c hi羽n ki吋m th穎 v噂i thu壱t toán ADaBoost with real value
predictions
Ng英 li羽u T=5 T=10 T=50 T=100 T=200 T=500
HTML S S 48 48 49 49 49 49
S N 2 2 1 1 1 1
N N 49 49 49 49 49 49
N S 1 1 1 1 1 1
SR 96.00% 96.00% 98.00% 98.00% 98.00% 98.00%
SP 97.96% 97.96% 98.00% 98.00% 98.00% 98.00%
TEXT S S 84 93 98 98 98 98
S N 14 5 0 0 0 0
N N 98 97 98 99 99 99
N S 2 3 2 1 1 1
SR 85.71% 94.90% 100.00% 100.00% 100.00% 100.00%
SP 97.67% 96.88% 98.00% 98.99% 98.99% 98.99%
D違ng 7-3 k院t qu違 th穎 nghi羽m phân lo衣i email v噂i ng英 li羽u email ch英 b茨ng thu壱t toán AdaBoost with real-value predictions
v K院t qu違 th詠c hi羽n ki吋m th穎 v噂i thu壱t toán ADaBoost with discrete predictions
Ng英 li羽u T=5 T=10 T=50 T=100 T=200 T=500
HTML S S 48 49 50 50 50 50
S N 2 1 0 0 0 0
N N 49 49 49 49 49 49
N S 1 1 1 1 1 1
SR 96.00% 98.00% 100.00% 100.00% 100.00% 100.00%
SP 97.96% 98.00% 98.04% 98.04% 98.04% 98.04%