Nh ã nói m c 4.3.1, ta chuy n m i m t email sang m t vector xr
=(x1,x2,..,xn) v i x1,x2,..,xn là giá tr các thu c tính
1
X ,X2,..,Xn trong không gian vector c tr ng Xr
. Các thu c tính có th là m t token , nhóm các token …Trong tr ng h p n gi n nh t, m i m t thu c tính c th hi n b i m t token n và t t c các thu c tính có giá tr lu n lý (Boolean), nh v y Xi=1 n u email ch á token, tr ng
h p ng c l i Xi=0.
Chúng tôi ch n thu c tính là token n, nh ng thay vì giá tr c a các thu c tính là giá tr lu n lý (boolean), chúng tôi ch n là xác su t spam c a m i token. Xác su t spam c a m i token s có giá tr trong an [0, 1].Xác su t cho ta nhi u thông tin h n so v i giá tr lu n lý.Ví d : xét
token “$” xu t hi n trong email, n u ta s d ng giá tr lu n lý, ta không c s nghi ng email này là email spam, và n u email này khá dài thì càng khó k t lu n r ng nó là spam. Tuy nhiên s d ng xác su t, ta có th bi t c kh n ng email ó là spam là bao nhiêu, i u này h p lý
n là ch s d ng hai giá tr 0 và 1.V i không gian vector c tr ng Xr
, chúng tôi ch n n là s các thu c tính c a Xr
th nghi m l n l t là 10, 15 và 20. Ch n n sao cho không l n quá, n u n l n có kh n ng nh ng thu c tính không ph i là c tr ng, nh v y s làm “nhi u “ kh n ng phân lo i úng.Ng c l i n u ch n n quá nh , ta s không có c s c n thi t các thu c tính.