5.2.2.1 K ch b n ki m th :
Sau khi ã th nghi m v i kho ng li u s , chúng tơi ch n m t b (λ , n, W) ki m th v i kho ng li u email ch .
Chúng tơi th nghi m v i b d li u λ = 9, s token là 15, tr ng s non-spam là 2.
Ng li u h c và ki m th ây g m ng li u email là email v n b n tr n (text/plain), và ng li u email html. Ng li u email v n b n tr n cĩ s email dùng hu n luy n là :517 email non-spam, 528 email spam. Ng li u dung ki m th g m 98 email spam, 100 email non-spam. Ng li u email html cĩ s email dùng hu n luy n là 141 email non-spam, 155 email spam, s email dung ki m th là 50 email spam, 50 email non- spam.
5.2.2.2 K t qu ki m th :
Ng li u email v n b n tr n:
• Ng li u h c :s email spam :517, s email non- spam:528
• Ng li u ki m th :s email spam :98, s email non- spam :100
ng 5-5 K t qu ki m th phân l ai email b ng ph ng pháp phân l ai Bayesian trên kho ng li u email ch
K t qu th c hi n v i ng li u email v n b n (text/plain) khá t t, các ch s spam recall, spam precision khá cao, tuy nhiên th c hi n v i kho ng li u email html thì ch s spam recall khơng c cao trong khi ch s spam precision v n t t. K t qu này m t ph n vì kho ng li u email html c a chúng tơi khơng c l n l m, s l ng email html dùng hu n luy n ng i ít. Email html cĩ c m là n i dung c a nĩ h u h t là các th html, nh ng th html này khơng cung c p c nhi u thơng tin trong vi c phân l ai, n i dung ch th t s t ng i ít, u này c ng nh
ng n k t qu th c hi n c a thu t tĩan Nạve Bayesian