Vector thu ctín h:

Một phần của tài liệu Tài liệu Luận văn tốt nghiệp "Tìm hiểu các hướng tiếp cận phân loại email và xây dựng phần mềm mail client hỗ trợ tiếng Việt" docx (Trang 42 - 43)

Nh ã nĩi m c 4.3.1, ta chuy n m i m t email sang m t vector xr

=(x1,x2,..,xn) v i x1,x2,..,xn là giá tr các thu c tính

1

X ,X2,..,Xn trong khơng gian vector c tr ng Xr

. Các thu c tính cĩ th là m t token , nhĩm các token …Trong tr ng h p n gi n nh t, m i m t thu c tính c th hi n b i m t token n và t t c các thu c tính cĩ giá tr lu n lý (Boolean), nh v y Xi=1 n u email ch á token, tr ng

h p ng c l i Xi=0.

Chúng tơi ch n thu c tính là token n, nh ng thay vì giá tr c a các thu c tính là giá tr lu n lý (boolean), chúng tơi ch n là xác su t spam c a m i token. Xác su t spam c a m i token s cĩ giá tr trong an [0, 1].Xác su t cho ta nhi u thơng tin h n so v i giá tr lu n lý.Ví d : xét

token “$” xu t hi n trong email, n u ta s d ng giá tr lu n lý, ta khơng c s nghi ng email này là email spam, và n u email này khá dài thì càng khĩ k t lu n r ng nĩ là spam. Tuy nhiên s d ng xác su t, ta cĩ th bi t c kh n ng email ĩ là spam là bao nhiêu, i u này h p lý

n là ch s d ng hai giá tr 0 và 1.V i khơng gian vector c tr ng Xr

, chúng tơi ch n n là s các thu c tính c a Xr

th nghi m l n l t là 10, 15 và 20. Ch n n sao cho khơng l n quá, n u n l n cĩ kh n ng nh ng thu c tính khơng ph i là c tr ng, nh v y s làm “nhi u “ kh n ng phân lo i úng.Ng c l i n u ch n n quá nh , ta s khơng cĩ c s c n thi t các thu c tính.

Một phần của tài liệu Tài liệu Luận văn tốt nghiệp "Tìm hiểu các hướng tiếp cận phân loại email và xây dựng phần mềm mail client hỗ trợ tiếng Việt" docx (Trang 42 - 43)