Vector thu瓜c tín h:

Một phần của tài liệu Tìm hiểu các hướng tiếp cận phân loại EMAIL và xây dựng phần mềm mail client hỗ trợ tiếng việt (Trang 42 - 43)

Nh逢"8ã nói荏 m映c 4.3.1, ta chuy吋n m厩i m瓜t email sang m瓜t vector xr =(x1,x2,..,xn) v噂i x1,x2,..,xn là giá tr鵜 các thu瓜c tính

1

X ,X2,..,Xn trong không gian vector 8員c tr逢ng Xr

. Các thu瓜c tính có th吋

là m瓜t token , nhóm các token …Trong tr逢運ng h嬰p 8挨n gi違n nh医t, m厩i m瓜t thu瓜c tính 8逢嬰c th吋 hi羽n b荏i m瓜t token 8挨n và t医t c違 các thu瓜c tính có giá tr鵜 lu壱n lý (Boolean), nh逢 v壱y Xi=1 n院u email ch逢á token, tr逢運ng h嬰p ng逢嬰c l衣i Xi=0.

Chúng tôi ch丑n thu瓜c tính là token 8挨n, nh逢ng thay vì giá tr鵜

c栄a các thu瓜c tính là giá tr鵜 lu壱n lý (boolean), chúng tôi ch丑n là xác su医t spam c栄a m厩i token. Xác su医t spam c栄a m厩i token s胤 có giá tr鵜 trong 8丑an [0, 1].Xác su医t cho ta nhi隠u thông tin h挨n so v噂i giá tr鵜 lu壱n lý.Ví d映 : xét

token “$” xu医t hi羽n trong email, n院u ta s穎 d映ng giá tr鵜 lu壱n lý, ta không

8栄 c挨 s荏"8吋 nghi ng運 email này là email spam, và n院u email này khá dài thì càng khó k院t lu壱n r茨ng nó là spam. Tuy nhiên s穎 d映ng xác su医t, ta có th吋 bi院t 8逢嬰c kh違 n<ng email 8ó là spam là bao nhiêu,"8i隠u này h嬰p lý

j挨n là ch雨 s穎 d映ng hai giá tr鵜 0 và 1.V噂i không gian vector 8員c tr逢ng Xr

, chúng tôi ch丑n n là s嘘 các thu瓜c tính c栄a Xr

8吋 th穎 nghi羽m l亥n l逢嬰t là 10, 15 và 20. Ch丑n n sao cho không l噂n quá, n院u n l噂n có kh違 n<ng nh英ng thu瓜c tính không ph違i là 8員c tr逢ng, nh逢 v壱y s胤 làm “nhi宇u “ kh違 n<ng phân lo衣i 8úng.Ng逢嬰c l衣i n院u ch丑n n quá nh臼, ta s胤 không có 8逢嬰c s嘘

c亥n thi院t các thu瓜c tính.

Một phần của tài liệu Tìm hiểu các hướng tiếp cận phân loại EMAIL và xây dựng phần mềm mail client hỗ trợ tiếng việt (Trang 42 - 43)

Tải bản đầy đủ (PDF)

(106 trang)