Th穎 nghi羽m v噂i kho ng英 li羽u pu

Một phần của tài liệu Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc (Trang 51 - 60)

5.2 Th穎 nghi羽m hi羽u qu違 phân lo衣i

5.2.1 Th穎 nghi羽m v噂i kho ng英 li羽u pu

B荏i vì kho ng英 li羽u h丑c và ki吋m th穎 là s嘘, do 8ó chúng tôi thay 8鰻i v隠 cách l医y token, 荏"8ây chúng tôi xem token là các con s嘘, và d医u hi羽u tách token là các kho違ng tr逸ng.

5.2.1.1 K鵜ch b違n ki吋m th穎 :

Chúng tôi th穎 nghi羽m nhân tr丑ng s嘘 non-spam W v噂i 1 và 2

V噂i m厩i W, chúng tôi th穎 nghi羽m v噂i λ l亥n l逢嬰t v噂i các giá tr鵜 1, 9, và 999

V逢挨ng泳ng v噂i m厩i giá tr鵜 λ và W chúng tôi th詠c hi羽n tính xác su医t spam theo các công th泳c :Công th泳c 5-5, Công th泳c 5-6 và Công th泳c 5-7

S嘘 token 8逢嬰c l医y l亥n l逢嬰t là 10, 15, 20

Chúng tôi ki吋m tra v噂i các kho ng英 li羽u pu1, pu2, pu3 và puA V逢挨ng泳ng v噂i m厩i kho ng英 li羽u trên chúng tôi cho h丑c t瑛 part1 8院n part 9, sau 8ó chúng tôi th穎 nghi羽m phân lo衣i trên part10, ch泳a nh英ng email ch逢a 8逢嬰c h丑c.

5.2.1.2 K院t qu違 th穎 nghi羽m v噂i kho ng英 li羽u pu :

K院t qu違 th詠c hi羽n: chúng tôi trình bày k院t qu違 th詠c hi羽n v噂i tr逢運ng h嬰p nhân tr丑ng s嘘 non-spam W=2, k院t qu違 chi ti院t v噂i W=1 xin xem ph亥n ph映 l映c.

v K院t qu違 ki吋m th穎 trên PU1:

Công th泳c 5-5 Công th泳c 5-6 Công th泳c 5-7

λ 10 15 20 10 15 20 10 15 20

1UsS 44 45 45 45 45 44 46 46 47

UsN 4 3 3 3 3 4 2 2 1

PsN 61 61 61 61 61 61 61 61 61

PsS 0 0 0 0 0 0 0 0 0

SR 91.67% 93.75% 93.75% 93.75% 93.75% 91.67% 95.83% 95.83% 97.92%

SP 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00%

TCR 12 16 16 16 16 12 24 24 48

9UsS 44 45 45 44 44 44 45 46 47

UsN 4 3 3 4 4 4 3 2 1

PsN 61 61 61 61 61 61 61 61 61

PsS 0 0 0 0 0 0 0 0 0

SR 91.67% 93.75% 93.75% 91.67% 91.67% 91.67% 93.75% 95.83% 97.92%

SP 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00%

TCR 12 16 16 12 12 12 16 24 48

999UsS 43 43 43 43 43 43 45 45 47

UsN 5 5 5 5 5 5 3 3 1

PsN 61 61 61 61 61 61 61 61 61

PsS 0 0 0 0 0 0 0 0 0

SR 89.58% 89.58% 89.58% 89.58% 89.58% 89.58% 93.75% 93.75% 97.92%

SP 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00%

TCR 9.6 9.6 9.6 9.6 9.6 9.6 16 16 48

D違ng 5-1 K院t qu違 ki吋m th穎 phân l丑ai email b茨ng ph逢挨ng pháp phân l丑ai Nạve Bayesian trên kho ng英 li羽u PU1

Hình 5-2 L逢嬰c 8欝 so sánh các ch雨 s嘘 spam recall (SR) và spam precision (SP) theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU1 v噂i công th泳c 5-7 (λ =9)

Hình 5-3 L逢嬰c 8欝 ch雨 s嘘 TCR theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU1 v噂i công th泳c 5-7 (λ =9)

v K院t qu違 ki吋m th穎 trên PU2:

Công th泳c 5-5 Công th泳c 5-6 Công th泳c 5-7

λ 10 15 20 10 15 20 10 15 20

1SsS 7 8 9 7 8 8 8 9 5

UsN 7 6 5 7 6 6 6 5 9

PsN 57 57 57 57 57 57 57 57 57

PsS 0 0 0 0 0 0 0 0 0

SR 50.00% 57.14% 64.29% 50.00% 57.14% 57.14% 57.14% 64.29% 35.71%

SP 100.00% 100.00% 100.00%100.00% 100.00% 100.00% 100.00% 100.00% 100.00%

TCR 22.333333 2.8 22.3333332.3333332.333333 2.81.555556

9SsS 7 8 8 7 8 8 8 8 5

UsN 7 6 6 7 5 6 6 6 9

PsN 57 57 57 57 57 57 57 57 57

PsS 0 0 0 0 0 0 0 0 0

SR 50.00% 57.14% 57.14% 50.00% 61.54% 57.14% 57.14% 57.14% 35.71%

SP 100.00% 100.00% 100.00%100.00% 100.00% 100.00% 100.00% 100.00% 100.00%

TCR 22.3333332.333333 2 2.62.3333332.3333332.3333331.555556

999SsS 7 8 8 7 6 7 8 5 5

UsN 7 6 6 7 8 7 6 9 9

PsN 57 57 57 57 57 57 57 57 57

PsS 0 0 0 0 0 0 0 0 0

SR 50.00% 57.14% 57.14% 50.00% 42.86% 50.00% 57.14% 35.71% 35.71%

SP 100.00% 100.00% 100.00%100.00% 100.00% 100.00% 100.00% 100.00% 100.00%

TCR 22.3333332.333333 2 1.75 22.3333331.5555561.555556

D違ng 5-2 K院t qu違 ki吋m th穎 phân l丑ai email b茨ng ph逢挨ng pháp phân l丑ai Nạve Bayesian trên kho ng liu PU2

Hình 5-4 L逢嬰c 8欝 so sánh các ch雨 s嘘 spam recall (SR) và spam precision (SP) theo s嘘 token th穎 nghim trên kho ng liu PU2 vi công thc 5-5 (λ =9)

Hình 5-5 L逢嬰c 8欝 ch雨 s嘘 TCR theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU2 v噂i công th泳c 5-5 (λ =9)

v K院t qu違 ki吋m th穎 trên PU3:

Công th泳c 5-5 Công th泳c 5-6 Công th泳c 5-7

λ 10 15 20 10 15 20 10 15 20

1SsS 169 168 168 167 169 165 165 172 170

UsN 13 14 14 15 13 17 17 10 12

PsN 228 228 227 228 228 229 226 222 224

PsS 3 3 4 3 3 2 5 9 7

SR 92.86% 92.31% 92.31% 91.76% 92.86% 90.66% 90.66% 94.51% 93.41%

SP 98.26% 98.25% 97.67% 98.24% 98.26% 98.80% 97.06% 95.03% 96.05%

TCR 11.37510.7058810.1111110.11111 11.3759.5789478.2727279.5789479.578947

9SsS 167 168 168 164 166 163 165 171 170

UsN 15 14 14 18 16 19 17 11 12

PsN 229 228 227 228 229 229 227 222 225

PsS 2 3 4 3 2 2 4 9 6

SR 91.76% 92.31% 92.31% 90.11% 91.21% 89.56% 90.66% 93.96% 93.41%

SP 98.82% 98.25% 97.67% 98.20% 98.81% 98.79% 97.63% 95.00% 96.59%

TCR 5.5151524.439024 3.644.0444445.3529414.9189193.4339621.9782612.757576

999SsS 163 163 165 160 156 156 163 168 169

UsN 19 19 17 22 26 26 19 14 13

PsN 229 229 229 229 229 229 227 225 225

PsS 2 2 2 2 2 2 4 6 6

SR 89.56% 89.56% 90.66% 87.91% 85.71% 85.71% 89.56% 92.31% 92.86%

SP 98.79% 98.79% 98.80% 98.77% 98.73% 98.73% 97.60% 96.55% 96.57%

TCR 0.0902330.0902330.0903230.0900990.0899210.089921 0.045330.0302930.030298

D違ng 5-3 K院t qu違 ki吋m th穎 phân l丑ai email b茨ng ph逢挨ng pháp phân l丑ai Nạve Bayesian trên kho ng英 li羽u PU3

Hình 5-6 L逢嬰c 8欝 so sánh các ch雨 s嘘 spam recall (SR) và spam precision (SP) theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU3 v噂i công th泳c 5-6 (λ =9)

Hình 5-7 L逢嬰c 8欝 ch雨 s嘘 TCR theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU3 v噂i công th泳c 5-6 (λ =9)

v M院t qu違 ki吋m th穎 trên PUA:

Công th泳c 5-5 Công th泳c 5-6 Công th泳c 5-7

λ 10 15 20 10 15 20 10 15 20

1UsS 46 46 46 43 42 41 50 48 46

UsN 11 11 11 14 15 16 7 9 11

PsN 57 56 57 57 57 57 56 56 57

PsS 0 1 0 0 0 0 1 1 0

SR 80.70% 80.70% 80.70% 75.44% 73.68% 71.93% 87.72% 84.21% 80.70%

SP 100.00% 97.87% 100.00% 100.00% 100.00% 100.00% 98.04% 97.96% 100.00%

TCR 5.181818 4.75 5.181818 4.071429 3.8 3.5625 7.125 5.7 5.181818

9UsS 46 46 45 42 41 38 49 46 45

UsN 11 11 12 15 16 19 8 11 12

PsN 57 56 57 57 57 57 56 55 57

PsS 0 1 0 0 0 0 1 2 0

SR 80.70% 80.70% 78.95% 73.68% 71.93% 66.67% 85.96% 80.70% 78.95%

SP 100.00% 97.87% 100.00% 100.00% 100.00% 100.00% 98.00% 95.83% 100.00%

TCR 5.181818 2.85 4.75 3.8 3.5625 3 3.352941 1.965517 4.75

999UsS 43 43 42 41 37 35 47 45 44

UsN 14 14 15 16 20 2 10 12 13

PsN 57 57 57 57 57 57 56 57 57

PsS 0 0 0 0 0 0 1 0 0

SR 75.44% 75.44% 73.68% 71.93% 64.91% 94.59% 82.46% 78.95% 77.19%

SP 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 97.92% 100.00% 100.00%

TCR 4.071429 4.071429 3.8 3.5625 2.85 18.5 0.056492 4.75 4.384615 D違ng 5-4 K院t qu違 ki吋m th穎 phân l丑ai email b茨ng ph逢挨ng pháp phân l丑ai Nạve Bayesian trên

kho ng英 li羽u PUA

Hình 5-8 L逢嬰c 8欝 so sánh các ch雨 s嘘 spam recall (SR) và spam precision (SP) theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PUA v噂i công th泳c 5-5 (λ =9)

Hình 5-9 L逢嬰c 8欝 ch雨 s嘘 TCR theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PUA v噂i công th泳c 5-5 (λ =9)

Nh壱n xét :k院t qu違 ki吋m th穎 trên các kho ng英 li羽u PU là khá t嘘t, hi羽u qu違 phân lo衣i gi英a các công th泳c là không quá khác bi羽t, v噂i cách ch丑n

λ =9và λ =1 hi羽u qu違 h挨n v噂i λ =999, theo chúng tôi thì kho ng英 li羽u không l噂n l逸m nên s穎 d映ng λ =999thì không hi羽u qu違 b茨ng. V隠 cách ch丑n s嘘 token, hi羽u qu違 phân lo衣i khi ch丑n s嘘 token là 10, 15 hay 20 c ng không khác bi羽t l逸m.

5.2.2 Th穎 nghi羽m v噂i kho ng英 li羽u email ch英 :

Một phần của tài liệu Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc (Trang 51 - 60)

Tải bản đầy đủ (PDF)

(106 trang)