Nh ã nĩi m c 4.3.1, ta chuy n m i m t email sang m t vector xr
=(x1,x2,..,xn) v i x1,x2,..,xn là giá tr các thu c tính
1
X ,X2,..,Xn trong khơng gian vector c tr ng Xr
. Các thu c tính cĩ th là m t token , nhĩm các token …Trong tr ng h p n gi n nh t, m i m t thu c tính c th hi n b i m t token n và t t c các thu c tính cĩ giá tr lu n lý (Boolean), nh v y Xi=1 n u email ch á token, tr ng
h p ng c l i Xi=0.
Chúng tơi ch n thu c tính là token n, nh ng thay vì giá tr c a các thu c tính là giá tr lu n lý (boolean), chúng tơi ch n là xác su t spam c a m i token. Xác su t spam c a m i token s cĩ giá tr trong an [0, 1].Xác su t cho ta nhi u thơng tin h n so v i giá tr lu n lý.Ví d : xét
token “$” xu t hi n trong email, n u ta s d ng giá tr lu n lý, ta khơng c s nghi ng email này là email spam, và n u email này khá dài thì càng khĩ k t lu n r ng nĩ là spam. Tuy nhiên s d ng xác su t, ta cĩ th bi t c kh n ng email ĩ là spam là bao nhiêu, i u này h p lý
n là ch s d ng hai giá tr 0 và 1.V i khơng gian vector c tr ng Xr
, chúng tơi ch n n là s các thu c tính c a Xr
th nghi m l n l t là 10, 15 và 20. Ch n n sao cho khơng l n quá, n u n l n cĩ kh n ng nh ng thu c tính khơng ph i là c tr ng, nh v y s làm “nhi u “ kh n ng phân lo i úng.Ng c l i n u ch n n quá nh , ta s khơng cĩ c s c n thi t các thu c tính.