Th ngh im vi kho ng li u email c h:

Một phần của tài liệu Tìm hiểu các phương pháp tiếp cận phân loại Email và xây dựng phần mềm Mail client hỗ trợ tiếng việt (Trang 60 - 61)

5.2.2.1 K ch b n ki m th :

Sau khi ã th nghi m v i kho ng li u s , chúng tơi ch n m t b (λ , n, W) ki m th v i kho ng li u email ch .

Chúng tơi th nghi m v i b d li u λ = 9, s token là 15, tr ng s non-spam là 2.

Ng li u h c và ki m th ây g m ng li u email là email v n b n tr n (text/plain), và ng li u email html. Ng li u email v n b n tr n cĩ s email dùng hu n luy n là :517 email non-spam, 528 email spam. Ng li u dung ki m th g m 98 email spam, 100 email non-spam. Ng li u email html cĩ s email dùng hu n luy n là 141 email non-spam, 155 email spam, s email dung ki m th là 50 email spam, 50 email non- spam.

5.2.2.2 K t qu ki m th :

Ng li u email v n b n tr n:

• Ng li u h c :s email spam :517, s email non- spam:528

• Ng li u ki m th :s email spam :98, s email non- spam :100

ng 5-5 K t qu ki m th phân l ai email b ng ph ng pháp phân l ai Bayesian trên kho ng li u email ch

K t qu th c hi n v i ng li u email v n b n (text/plain) khá t t, các ch s spam recall, spam precision khá cao, tuy nhiên th c hi n v i kho ng li u email html thì ch s spam recall khơng c cao trong khi ch s spam precision v n t t. K t qu này m t ph n vì kho ng li u email html c a chúng tơi khơng c l n l m, s l ng email html dùng hu n luy n ng i ít. Email html cĩ c m là n i dung c a nĩ h u h t là các th html, nh ng th html này khơng cung c p c nhi u thơng tin trong vi c phân l ai, n i dung ch th t s t ng i ít, u này c ng nh

ng n k t qu th c hi n c a thu t tĩan Nạve Bayesian

Một phần của tài liệu Tìm hiểu các phương pháp tiếp cận phân loại Email và xây dựng phần mềm Mail client hỗ trợ tiếng việt (Trang 60 - 61)

Tải bản đầy đủ (PDF)

(106 trang)