Gi thi tm im temail c idi nb im t vector thu ctính
r
,x ,x
r
X1,X2,..,Xn t ng ngtrongkhông gian vector c tr ng X.Theo M Sahamietal [9]ta s d ngcác giá tr nh phân,Xi=1 n ucác c m c a Xi có trongemail,ng cl i Xi=0.
Tatính giá tr t ngh MI(X,C) (Mutual Information)mà m i m t idi nc a X thu cv lo iC nh sau: MI(X,C)=x∈{0,1 } P(X =x,C=c).log P(X =x,C=c) P(X =x)P(C=c)
c∈{spam,non−spam}
Côngth c4-5:côngth ctính t ngh MI
Sau óta ch ncác thu ctính cógiá tr MIcaonh t.Các xácsu t
P(X), P(C), P(X,C) c tínhd atrên d li uh c
D avàocông th c xácsu tBayes vàcông th cxác su t y ta có cxácsu tm temailv ivector ctr ng
x x thu c v lo i clà:
uur r
P(C=c|X =x)
= k∈{spam,non−spam
}
uur r
uur r
P(C=k).P(X =x|C=k)
V iClà eemail cxét, c∈{spam,nonspam
Côngth c4-6
}
38
uur
Th ct thì r tkhótính cxácsu t P(X |C) b i vìgiátr s ng c a các vector r tnhi u vànhi uvectorhi m khihayth mchí không xu thi n trongt pd li uhu nluy n.Nh ãnói,ph ng pháp Naïve Bayesian gi thi tr ng X1,X2,..,Xn lành ng bi nc cl p,do
óchúng tacó th tính cxác su t trên nh sau: P(C =c|X =x) = n = i=1 n k∈{spam,non−spam i=1
Côngth c4-7
V i P(Xi|C) và P(C) ctínhd atrên d li u h c,vi ctính này d avào t p hu nluy nban u.
∑ r r P(C=c).P(X =x|C=c) ∑ P(C=c).∏P(Xi ix |C=c) ∑ P(C=k).∏P(X i=xi|C=k) }
T xác su t này, ta so sánh v i m t giá tr ng ng t (trình bày m c ) mà ta cho là ng ng phân lo i email spam haykhông, n u xác suât nàyl n h n t,ta cho là email ó là spam, ng c l i ta xem email ó là non-spam.