Vector thu ctín h:

Một phần của tài liệu tìm hiểu các hướng tiếp cận phân loại và xây dựng phần mềm mail client hỗ trợ tiếng việt (Trang 42)

Nh ã nói m c 4.3.1, ta chuy n m i m t email sang m t vector xr

=(x1,x2,..,xn) v i x1,x2,..,xn là giá tr các thu c tính

1

X ,X2,..,Xn trong không gian vector c tr ng Xr

. Các thu c tính có th là m t token , nhóm các token …Trong tr ng h p n gi n nh t, m i m t thu c tính c th hi n b i m t token n và t t c các thu c tính có giá tr lu n lý (Boolean), nh v y Xi=1 n u email ch á token, tr ng

h p ng c l i Xi=0.

Chúng tôi ch n thu c tính là token n, nh ng thay vì giá tr c a các thu c tính là giá tr lu n lý (boolean), chúng tôi ch n là xác su t spam c a m i token. Xác su t spam c a m i token s có giá tr trong an [0, 1].Xác su t cho ta nhi u thông tin h n so v i giá tr lu n lý.Ví d : xét

token “$” xu t hi n trong email, n u ta s d ng giá tr lu n lý, ta không c s nghi ng email này là email spam, và n u email này khá dài thì càng khó k t lu n r ng nó là spam. Tuy nhiên s d ng xác su t, ta có th bi t c kh n ng email ó là spam là bao nhiêu, i u này h p lý

n là ch s d ng hai giá tr 0 và 1.V i không gian vector c tr ng Xr

, chúng tôi ch n n là s các thu c tính c a Xr

th nghi m l n l t là 10, 15 và 20. Ch n n sao cho không l n quá, n u n l n có kh n ng nh ng thu c tính không ph i là c tr ng, nh v y s làm “nhi u “ kh n ng phân lo i úng.Ng c l i n u ch n n quá nh , ta s không có c s c n thi t các thu c tính.

Một phần của tài liệu tìm hiểu các hướng tiếp cận phân loại và xây dựng phần mềm mail client hỗ trợ tiếng việt (Trang 42)

Tải bản đầy đủ (PDF)

(106 trang)