Phân l oi email da trên th ut toán Naïve Bayesian

Một phần của tài liệu Tìm hiểu các hướng tiếp cận phân loại EMAIL và xây dựng phần mềm mail client hỗ trợ tiếng việt (Trang 38 - 40)

Gi thi tm im temail c idi nb im t vector thu ctính

r

,x ,x

r

X1,X2,..,Xn t ng ngtrongkhông gian vector c tr ng X.Theo M Sahamietal [9]ta s d ngcác giá tr nh phân,Xi=1 n ucác c m c a Xi có trongemail,ng cl i Xi=0.

Tatính giá tr t ngh MI(X,C) (Mutual Information)mà m i m t idi nc a X thu cv lo iC nh sau: MI(X,C)=x∈{0,1 } P(X =x,C=c).log P(X =x,C=c) P(X =x)P(C=c)

c∈{spam,nonspam}

Côngth c4-5:côngth ctính t ngh MI

Sau óta ch ncác thu ctính cógiá tr MIcaonh t.Các xácsu t

P(X), P(C), P(X,C) c tínhd atrên d li uh c

D avàocông th c xácsu tBayes vàcông th cxác su t y ta có cxácsu tm temailv ivector ctr ng

x x thu c v lo i clà:

uur r

P(C=c|X =x)

= k∈{spam,nonspam

}

uur r

uur r

P(C=k).P(X =x|C=k)

V iClà eemail cxét, c∈{spam,nonspam

Côngth c4-6

}

38

uur

Th ct thì r tkhótính cxácsu t P(X |C) b i vìgiátr s ng c a các vector r tnhi u vànhi uvectorhi m khihayth mchí không xu thi n trongt pd li uhu nluy n.Nh ãnói,ph ng pháp Naïve Bayesian gi thi tr ng X1,X2,..,Xn lành ng bi nc cl p,do

óchúng tacó th tính cxác su t trên nh sau: P(C =c|X =x) = n = i=1 n k∈{spam,nonspam i=1

Côngth c4-7

V i P(Xi|C) và P(C) ctínhd atrên d li u h c,vi ctính này d avào t p hu nluy nban u.

∑ r r P(C=c).P(X =x|C=c) ∑ P(C=c).∏P(Xi ix |C=c) ∑ P(C=k).∏P(X i=xi|C=k) }

T xác su t này, ta so sánh v i m t giá tr ng ng t (trình bày m c ) mà ta cho là ng ng phân lo i email spam haykhông, n u xác suât nàyl n h n t,ta cho là email ó là spam, ng c l i ta xem email ó là non-spam.

Một phần của tài liệu Tìm hiểu các hướng tiếp cận phân loại EMAIL và xây dựng phần mềm mail client hỗ trợ tiếng việt (Trang 38 - 40)

Tải bản đầy đủ (DOCX)

(134 trang)
w