Nh逢"8ã nĩi荏 m映c 4.3.1, ta chuy吋n m厩i m瓜t email sang m瓜t vector xr =(x1,x2,..,xn) v噂i x1,x2,..,xn là giá tr鵜 các thu瓜c tính
1
X ,X2,..,Xn trong khơng gian vector 8員c tr逢ng Xr
. Các thu瓜c tính cĩ th吋
là m瓜t token , nhĩm các token …Trong tr逢運ng h嬰p 8挨n gi違n nh医t, m厩i m瓜t thu瓜c tính 8逢嬰c th吋 hi羽n b荏i m瓜t token 8挨n và t医t c違 các thu瓜c tính cĩ giá tr鵜 lu壱n lý (Boolean), nh逢 v壱y Xi=1 n院u email ch逢á token, tr逢運ng h嬰p ng逢嬰c l衣i Xi=0.
Chúng tơi ch丑n thu瓜c tính là token 8挨n, nh逢ng thay vì giá tr鵜
c栄a các thu瓜c tính là giá tr鵜 lu壱n lý (boolean), chúng tơi ch丑n là xác su医t spam c栄a m厩i token. Xác su医t spam c栄a m厩i token s胤 cĩ giá tr鵜 trong 8丑an [0, 1].Xác su医t cho ta nhi隠u thơng tin h挨n so v噂i giá tr鵜 lu壱n lý.Ví d映 : xét
token “$” xu医t hi羽n trong email, n院u ta s穎 d映ng giá tr鵜 lu壱n lý, ta khơng
8栄 c挨 s荏"8吋 nghi ng運 email này là email spam, và n院u email này khá dài thì càng khĩ k院t lu壱n r茨ng nĩ là spam. Tuy nhiên s穎 d映ng xác su医t, ta cĩ th吋 bi院t 8逢嬰c kh違 n<ng email 8ĩ là spam là bao nhiêu,"8i隠u này h嬰p lý
j挨n là ch雨 s穎 d映ng hai giá tr鵜 0 và 1.V噂i khơng gian vector 8員c tr逢ng Xr
, chúng tơi ch丑n n là s嘘 các thu瓜c tính c栄a Xr
8吋 th穎 nghi羽m l亥n l逢嬰t là 10, 15 và 20. Ch丑n n sao cho khơng l噂n quá, n院u n l噂n cĩ kh違 n<ng nh英ng thu瓜c tính khơng ph違i là 8員c tr逢ng, nh逢 v壱y s胤 làm “nhi宇u “ kh違 n<ng phân lo衣i 8úng.Ng逢嬰c l衣i n院u ch丑n n quá nh臼, ta s胤 khơng cĩ 8逢嬰c s嘘
c亥n thi院t các thu瓜c tính.