4.1.1.1 Kháini m phépth và bi nc :
Gieom t ngti ntrênm tm tph ng: ólàm tphépth
K t qu có th x y rakhi gieo ng ti n : “Xu t hi n m t s p” ho c “Xu thi nm tng a” “Xu thiênm ts p” - ólàm tbi nc “Xu thi nm tng a”- ólàm tbi nc 4.1.1.2 nhngh axác su t: Theo[8]cónh ng nhnghaxácsu tsau: D ng c n:
Xác su tc abi n c Alàm t s khôngâm,kýhi uP(A), bi uth kh
ngx yrabi nc Avà cxác nhnh sau:
m n
khiphépth th chi n
(Nh ngkh n ngho ccác bi nc s c p –n uchúng x yrathìsuy raAx yra–g ilành ngtr ngh pthu nl ichoA).
nhnghaxácsu ttheoph ngphápth ngkê:
Làm ilàml im tphépth nào ónl nmàcóml nbi nc Axu t hi nthìt s m/ng ilàt nsu tc abi nc A
Khi n thay i,t n su t m/n c ng thay i nh ng nó luôn dao ng quanhm t s c nh ó.S c nh y c g i là xácsu t c abi n c A theongh ath ngkê.Trênth ct khin l ntax px P(A)b im/n
34 4.1.2 Xác su t có u ki n,công th c xác su t y công th cxác su tBayes 4.1.2.1 Xácsu tcó uki n Theo ng H n[8]: Xác su t có u ki n c abi nc Av i u ki n bi n c B ã x y ra là
m t con s không âm, c ký hi u P(A/B) nó bi u th kh n ng x y ra
bi n c Atrongtìnhhu ngbi n c B ãx yra P(A|B) = P ( AB ) P(B) Côngth c4-1:côngth ctínhxácsu tcó uki n Suyra: P(A|B)×P(B)=P(B|A)×P(A)=P(AB) Côngth c4-2 4.1.2.2 Côngth cxácsu t y : Gi s B1,B2,B3,...,Bn là m tnhóm y các bi nc .Xét bi n c
B1,B2,B3,...,Bn x yra.
n i=1
Côngth c4-3:côngth cxácsu t y
Côngth ctrên cg ilàcôngth cxác su t y
4.1.2.3 Côngth cxácsu tBayes:
T cáccông th c:Côngth c4-1, Côngth c4-2và Côngth c4-3, tacó:
P
( AB k ) P(Bk).P(A/Bk)
P(A)
i=1
Côngth c4-4:côngth cxácsu tBayes
35
4.2 Ph ng phápphân lo i NaïveBayesian :
Phânlo iBayesianlàph ngphápphânlo is d ngtrith ccácxácsu t ãquahu nluy n.Ph ngphápnàythíchh pv inh ngl pbàitoán òih iph i d oánchínhxácl pc am uc nki m trad atrênnh ng thôngtint t phu n luy nban u[16].
TheoCharlesElkan[16]cho X1,...,Xn làcácthu ctínhv icácgiátr r ir c cdùng d oánm tl priêngbi tCchom tm u,t pcácl pmàm ucóth thu cv là C={c1,c2,...,cm }Chom tm uhu nluy nv igiátr cácthu ctính
ng ng là x1,...,xn,d oánm uthu cv l p c∈ C khi xácsu t
P(C=c|X1=x1∧X2=x2∧... ∧Xn =xn) cógiátr l nnh t.S d ngcôngth c xác su tBayestacó: P(C=c|X1=x1∧X2=x2∧...∧Xn= xn)= P ( X 1 = x 1 ∧ X2 = x 2 ∧ ... ∧ Xn = x n | C = c) P(X1=x1∧X2=x2∧... ∧Xn=xn ) P(C=c) P(A)= ∑P(Bi).P(A/Bi) P(Bk |A)= = n ∑P(Bi).P(A/Bi) .
Xácsu t P(C=c) ctínhd dàngt t pd li uhu nluy n.Xác su tP(X1=x1∧X2=x2∧... ∧Xn=xn) khôngthích
h p
dùngchovi cquy t nh l pc aCb ivìgiátr nàynh nhau iv im il pc. Nh v yc nc d
óan
l pc aClàd avàoxácsu t P(X1=x1∧X2=x2∧... ∧Xn =xn|C=c).Tuynhiên vi ctínhtoánxácsu tnàyr tph ct p[9].M tp ngpháp ngi nvà c
aras mnh tlàph ngphápphânlo iNaïveBayesian,theo ógi thi tr ng m i Xi cl pv icác Xj (i≠ j),nh v ytas có: =x ∧X =x =x = n i=1 ) Th tv y,s d ngcôngth cxácsu tBayestacó: P(X1=x1∧X2=x2∧...∧Xn =xn|C=c) =P(X1=x1|X2=x2∧...∧Xn =xn,C=c)P(X2 =x2∧... ∧Xn=xn|C=c) 36
B ngcách qui,vi tth as th haitrongtíchtrênnh sau:
P(X2 =x2∧... ∧Xn =xn|C=c)=
P(X2=x2|X3=x3∧...∧Xn =xn,C=c)P(X3=x3∧... ∧Xn=xn|C=c) vàc ti pt
c
nh v y.Ph ngphápphânlo iNaïveBayesiangi thi tr ng v im i Xi k tqu tác ng c anólà cl pv icác Xj khác,nh v ychúngtath anh nr ng: P(X1=x1|X2=x2∧... ∧Xn =xn,C=c)=P(X1=x1|C=c) vàt ngt nh v y i v i X2,..,Xn. Nh v yxácsu t P(X1=x1∧X2=x2∧... ∧Xn =xn|C =c) = n i ) P(X1 1 2 2∧...∧Xn n|C=c)= ∏P(Xi ix |C =c P(X1=x1|C=c P)(X2= x2|C=c ...)P X( n=xn|C=c = ∏P Xi(=xi|C =c )
M im tth as trongtíchtrêncóth ctínhd dàng t t phu nluy n ban u,nh v yph ngphápNaïveBayesiangi ms ph ct pc avi ctínhtoán giátr xácsu t P(X1=x1∧X2=x2∧... ∧Xn =xn|C=c)
4.3 Phânlo iemailb ng ph ng phápNaïve Bayesian:
âym im u màtaxét chínhlàm im temail,t pcácl pmà m i emailcóth thu cv là C={spam,non-spam}
Khitanh n cm temail,n uta khôngbi tm tthông tingìv nó, do ókhócó th quy t nhchính xácemailnàylàspamhaykhông .
N u nh tacó thêm c m hay thu ctính nào óc aemailthì ta cóth nângcao hi uqu nh n cemail làspam M temailcónhi u c
i mnh :tiêu , n idung,có ínhkèm t ptinhaykhông,…Tacó th d a vàocácthông tinnày nâng caohi uqu phân l aiemailspam. M tvíd
ngi n:n utabi t cr ng95 %emailhtmllàemailspam, vàta l i nh n cm temail html,nh v ycó th d a vàoxácsu tbi ttr c95% emailhtmllàemail spam tính c xácsu temailmà tanh n clà spam,n uxác su tnàyl n h nxác su temail ólànon-spam,có th k t
37
lu nr ngemail ólà spam,tuynhiênk tlu nnàykhông chínhxácl m Nh ng n u tacó cnhi u xácsu tbi ttr cnh v y,thì k tlu ns tr nên ángtinc yh n. có ccácxác su tbi ttr cnày,s d ng ph ng pháp NaïveBayesian hu n luy nt pm u (email)ban u,sau ós s d ngcác xácsu tnày ngd ngvàophân l ai m tm u(email) m i.
4.3.1Phân lo i email d atrênthu ttoán NaïveBayesian
Gi thi tm im temail c idi nb im t vector thu ctính
r
,x ,x
r
X1,X2,..,Xn t ng ngtrongkhông gian vector c tr ng X.Theo M Sahamietal [9]ta s d ngcác giá tr nh phân,Xi=1 n ucác c m c a Xi có trongemail,ng cl i Xi=0.
Tatính giá tr t ngh MI(X,C) (Mutual Information)mà m i m t idi nc a X thu cv lo iC nh sau: MI(X,C)=x∈{0,1 } P(X =x,C=c).log P(X =x,C=c) P(X =x)P(C=c)
c∈{spam,non−spam}
Côngth c4-5:côngth ctính t ngh MI
Sau óta ch ncác thu ctính cógiá tr MIcaonh t.Các xácsu t
P(X), P(C), P(X,C) c tínhd atrên d li uh c
D avàocông th c xácsu tBayes vàcông th cxác su t y ta có cxácsu tm temailv ivector ctr ng
x x thu c v lo i clà:
uur r
P(C=c|X =x)
= k∈{spam,non−spam
}
uur r
uur r
P(C=k).P(X =x|C=k)
V iClà eemail cxét, c∈{spam,nonspam
Côngth c4-6
}
38
uur
Th ct thì r tkhótính cxácsu t P(X |C) b i vìgiátr s ng c a các vector r tnhi u vànhi uvectorhi m khihayth mchí không xu thi n trongt pd li uhu nluy n.Nh ãnói,ph ng pháp Naïve Bayesian gi thi tr ng X1,X2,..,Xn lành ng bi nc cl p,do
óchúng tacó th tính cxác su t trên nh sau: P(C =c|X =x) = n = i=1 n k∈{spam,non−spam i=1
Côngth c4-7
V i P(Xi|C) và P(C) ctínhd atrên d li u h c,vi ctính này d avào t p hu nluy nban u.
∑ r r P(C=c).P(X =x|C=c) ∑ P(C=c).∏P(Xi ix |C=c) ∑ P(C=k).∏P(X i=xi|C=k) }
T xác su t này, ta so sánh v i m t giá tr ng ng t (trình bày m c ) mà ta cho là ng ng phân lo i email spam haykhông, n u xác suât nàyl n h n t,ta cho là email ó là spam, ng c l i ta xem email ó là non-spam.
4.3.2Ch n ng ngphânlo iemail :
Trongphânlo iemail, cóhai lo i sai l m :sai l mnh nm temail là spam m cdù th c t nó là non-spam (false positive) và sai l m th hai là nh n m t email là non-spam m c dù nó là spam (false negative). Rõ ràng là sail m th nh tlà nghiêm tr ng h n b ivì ng i s d ng có th ch p nh n m t email spam v t qua b l c nh ng không ch p nh n m t email h pl quan tr ngl ib b l cch nl i.
Gi s N→S và S→N t ng ng v i hai l i sai trên ây S d ng lu tquy t nh Bayes d a trên chi phí [9], ta gi s r ng l i N→S có chi phí g p λ l n l i S→N, chúng ta phân lo i m t email là spam d a vào tiêu chu nsau:
39 uur r P(C=spam)|X =x) P(C=non−spam|X =x) Côngth c4-8 uur r uur r
Mà P(C=spam|X =x)=1−P(C=non−spam|X =x)
Nên tacó:
uur r
P(C=spam|X =x)>t v i t= λ
λ+1 và λ = t
1−t
Nh v yng ngphân lo i cch nlàttùythu cvào giá tr λ
40
Ch ng 5 : TH C HI N VÀ KI M TH
PHÂN LO I EMAIL D A TRÊN PH NG
41
5.1 Cài tch ng trình phânlo i email d atrênph ngphápphân lo i Naïve Bayesian: phápphân lo i Naïve Bayesian:
5.1.1 Kháini m Token :
xemxétn idungemailchúngtôidùngkháini m“token”
Các“token”cóth xemnh làcáct c nxemxétmàtatáchrat n i dungc aemail.V icáckít ch ,kít s ,kít ‘$',kít g chngang‘-’,kí t g chd i‘_’,kít nháy n‘’’lành ngkít c ut othànhtoken.Còn nh ngkít cònl inh kho ngtr ng,kít ‘*’,kít ‘:’,… cxemlàkít
tácht hayphân cáchcáct .V inh ngt tách cmàg mtoànkís thìkhông cxemlàtoken(víd :“12345”).
“qvp0045”, “indira”,“mx-05”, “$7500”,“3d0725”, “platinum”. N utacóm tchu isau:“http://www.27meg.com/foo ”thìtas có cáctokent ng nglà:“http”,“www”,“27meg”, “com”,“foo”.
5.1.2 Vectorthu c tính :
Nh ãnói m c4.3.1,tachuy n m im temailsangm t
r
vector x =(x1,x2,..,xn)v i x1,x2,..,xn làgiátr cácthu ctính
r
X1,X2,..,Xn trong khônggianvector c tr ng X.Các thu ctính có th làm ttoken,nhóm cáctoken …Trong tr ng h p n gi nnh t,m i m t thu ctính cth hi n b im ttoken nvàt tc các thu ctính có giá tr lu nlý (Boolean),nh v y Xi=1n uemail ch átoken,tr ng h p ng cl i Xi=0.
Chúng tôich nthu c tínhlàtoken n,nh ng thayvì giátr c acácthu c tínhlà giátr lu nlý(boolean), chúngtôich nlàxác su t spam c am itoken.Xác su tspamc am itoken s có giátr trong an [0,1].Xác su tcho ta nhi uthôngtin h n sov igiá tr lu nlý.Víd :xét
42
token“$” xu thi n trongemail,n u tas d nggiá tr lu nlý, takhông c s nghi ng emailnàylàemail spam, vàn uemailnàykhádài thìcàngkhó k tlu nr ng nó làspam.Tuynhiên s d ngxácsu t, tacó th bi t ckh n ng email ólàspamlàbao nhiêu, i unàyh p lý
r
nlàch s d nghaigiá tr 0 và1.V ikhônggian vector ctr ng X, chúngtôi ch nnlàs cácthu ctínhc a X th nghi m l nl tlà10, 15và20. Ch nn saocho không l nquá,n unl n cókh n ngnh ng thu ctínhkhôngph i là c tr ng,nh v ys làm “nhi u “kh n ng phânlo i úng.Ng cl i n uch nnquánh ,tas khôngcó cs c nthi tcác thu ctính.
5.1.3Ch n ng ngphân lo i:
Chúng tôiti nhành th nghi mv igiátr λ l nl tlà1,9và 999,
nh v yng ngphânlo itxác nhm temaillàspam l nl tlà 0.5, 0.9, 0.999.
5.1.4Cáchth chi n :
Chúng tas b t u v ihai khong li uemail: khong li uemail spam vàkhong li uemailnon-spam. S l ng emailtrongm ikho ng li uban ukhôngh nch .N ukhong li ucàngl n thìhi uqu l c email s càngcao. T haikhong li unày,chúng tôi phân tíchvàduy t quat tc các tokenbaog mc ph ntiêu c aemail. iv inh ng emailhtml,chúng tôith chi nbóctách các th html l yn idunggi a các th .
Sau óta tính xác su tspamc am itoken ã cphântích, xác su tnàychínhlà xácsu tm t emailch ch a token ó vàlà emailspam.
Nh v ym uch t âylà taph i tínhra cxác su tspam c a m itoken.Theo Paulgraham [7], xácsu tspamc am itoken ctính d atrêns l nxu thi nc am itokentrongm ikhong li uh cban
u.Víd m ttoken wcó s l nxu thi ntrongkho ng li uspam làs,
43
trong khong li unon-spam làn,s email t ng c ngc ahaikho ng li u spam vànon-spam l nl t là NS và NN,th thìxácsu tspamc atoken w ctínhnh sau: s P(X =w,C=spam) = NS sn NS NN Côngth c5-1
Tuynhiên,vìs l nxu thi nc am ttokentrongm ikhong li uh ccókh n ngv tquákích th cc akho ng li uh c ó(t ng s email) do ó,trongcôngth ctrên, thay s
NS b ngMin(1, s NS )và n NN b ng Min(1, n NN ) +
Do óCôngth c5-1vi tl inh sau: P(X =w,C=spam) = Min(1, S NS S NS n NN ) côngth c5-2
Theocáchtrênthìchúngta ánhgiákh n ngspam c am ttoken xu thi ntrongm tkhong li uh c100l n 100emailkhácnhaulàb ng v ikh n ngspamc am ttokenxu thi ntrongm tkhong li uh c100 l nnh ngch trongm temail
Chúng tôi xu tm tcáchtínhxácsu tspamc atokenkhácnh sau: thayvìd avàos l nxu thi nc atokentrongt ngkhong li uh c, chúngtôid avàos emailch atokentrongt ngkhong li uh c.Công th ctínhnh sau: 44 P(X =w,C=spam) = nS NS nS NSn NN côngth c5-3 V i:
ü nS làs emailcóch atokentrongkhong li uemailspam ü nN là s email có ch a token trong kho ng li u email non-
spam
ü NS làt ngs emailc akhong li uh cspam