Mt vài khái n im xác s ut có liên quan

Một phần của tài liệu Tìm hiểu các hướng tiếp cận phân loại EMAIL và xây dựng phần mềm mail client hỗ trợ tiếng việt (Trang 34 - 134)

4.1.1.1 Kháini m phépth bi nc :

Gieom t ngti ntrênm tm tph ng: ólàm tphépth

K t qu có th x y rakhi gieo ng ti n : “Xu t hi n m t s p” ho c “Xu thi nm tng a” “Xu thiênm ts p” - ólàm tbi nc “Xu thi nm tng a”- ólàm tbi nc 4.1.1.2 nhngh axác su t: Theo[8]cónh ng nhnghaxácsu tsau: D ng c n:

Xác su tc abi n c Alàm t s khôngâm,kýhi uP(A), bi uth kh

ngx yrabi nc Avà cxác nhnh sau:

m n

khiphépth th chi n

(Nh ngkh n ngho ccác bi nc s c p –n uchúng x yrathìsuy raAx yra–g ilành ngtr ngh pthu nl ichoA).

nhnghaxácsu ttheoph ngphápth ngkê:

Làm ilàml im tphépth nào ónl nmàcóml nbi nc Axu t hi nthìt s m/ng ilàt nsu tc abi nc A

Khi n thay i,t n su t m/n c ng thay i nh ng nó luôn dao ng quanhm t s c nh ó.S c nh y c g i là xácsu t c abi n c A theongh ath ngkê.Trênth ct khin l ntax px P(A)b im/n

34 4.1.2 Xác su t u ki n,công th c xác su t y công th cxác su tBayes 4.1.2.1 Xácsu tcó uki n Theo ng H n[8]: Xác su t u ki n c abi nc Av i u ki n bi n c B ã x y ra

m t con s không âm, c hi u P(A/B) bi u th kh n ng x y ra

bi n c Atrongtìnhhu ngbi n c B ãx yra P(A|B) = P ( AB ) P(B) Côngth c4-1:côngth ctínhxácsu tcó uki n Suyra: P(A|BP(B)=P(B|AP(A)=P(AB) Côngth c4-2 4.1.2.2 Côngth cxácsu t y : Gi s B1,B2,B3,...,Bn là m tnhóm y các bi nc .Xét bi n c

B1,B2,B3,...,Bn x yra.

n i=1

Côngth c4-3:côngth cxácsu t y

Côngth ctrên cg ilàcôngth cxác su t y

4.1.2.3 Côngth cxácsu tBayes:

T cáccông th c:Côngth c4-1, Côngth c4-2và Côngth c4-3, tacó:

P

( AB k ) P(Bk).P(A/Bk)

P(A)

i=1

Côngth c4-4:côngth cxácsu tBayes

35

4.2 Ph ng phápphân lo i NaïveBayesian :

Phânlo iBayesianlàph ngphápphânlo is d ngtrith ccácxácsu t ãquahu nluy n.Ph ngphápnàythíchh pv inh ngl pbàitoán òih iph i d oánchínhxácl pc am uc nki m trad atrênnh ng thôngtint t phu n luy nban u[16].

TheoCharlesElkan[16]cho X1,...,Xn làcácthu ctínhv icácgiátr r ir c cdùng d oánm tl priêngbi tCchom tm u,t pcácl pmàm ucóth thu cv là C={c1,c2,...,cm }Chom tm uhu nluy nv igiátr cácthu ctính

ng ng là x1,...,xn,d oánm uthu cv l p c∈ C khi xácsu t

P(C=c|X1=x1∧X2=x2∧... ∧Xn =xn) cógiátr l nnh t.S d ngcôngth c xác su tBayestacó: P(C=c|X1=x1∧X2=x2∧...∧Xn= xn)= P ( X 1 = x 1 ∧ X2 = x 2 ∧ ... ∧ Xn = x n | C = c) P(X1=x1∧X2=x2∧... ∧Xn=xn ) P(C=c) P(A)= ∑P(Bi).P(A/Bi) P(Bk |A)= = nP(Bi).P(A/Bi) .

Xácsu t P(C=c) ctínhd dàngt t pd li uhu nluy n.Xác su tP(X1=x1∧X2=x2∧... ∧Xn=xn) khôngthích

h p

dùngchovi cquy t nh l pc aCb ivìgiátr nàynh nhau iv im il pc. Nh v yc nc d

óan

l pc aClàd avàoxácsu t P(X1=x1∧X2=x2∧... ∧Xn =xn|C=c).Tuynhiên vi ctínhtoánxácsu tnàyr tph ct p[9].M tp ngpháp ngi nvà c

aras mnh tlàph ngphápphânlo iNaïveBayesian,theo ógi thi tr ng m i Xi cl pv icác Xj (ij),nh v ytas có: =xX =x =x = n i=1 ) Th tv y,s d ngcôngth cxácsu tBayestacó: P(X1=x1∧X2=x2∧...∧Xn =xn|C=c) =P(X1=x1|X2=x2∧...∧Xn =xn,C=c)P(X2 =x2∧... ∧Xn=xn|C=c) 36

B ngcách qui,vi tth as th haitrongtíchtrênnh sau:

P(X2 =x2∧... ∧Xn =xn|C=c)=

P(X2=x2|X3=x3∧...∧Xn =xn,C=c)P(X3=x3∧... ∧Xn=xn|C=c) vàc ti pt

c

nh v y.Ph ngphápphânlo iNaïveBayesiangi thi tr ng v im i Xi k tqu tác ng c anólà cl pv icác Xj khác,nh v ychúngtath anh nr ng: P(X1=x1|X2=x2∧... ∧Xn =xn,C=c)=P(X1=x1|C=c) vàt ngt nh v y i v i X2,..,Xn. Nh v yxácsu t P(X1=x1∧X2=x2∧... ∧Xn =xn|C =c) = n i ) P(X1 1 2 2∧...∧Xn n|C=c)= ∏P(Xi ix |C =c P(X1=x1|C=c P)(X2= x2|C=c ...)P X( n=xn|C=c = ∏P Xi(=xi|C =c )

M im tth as trongtíchtrêncóth ctínhd dàng t t phu nluy n ban u,nh v yph ngphápNaïveBayesiangi ms ph ct pc avi ctínhtoán giátr xácsu t P(X1=x1∧X2=x2∧... ∧Xn =xn|C=c)

4.3 Phânlo iemailb ng ph ng phápNaïve Bayesian:

âym im u màtaxét chínhlàm im temail,t pcácl pmà m i emailcóth thu cv là C={spam,non-spam}

Khitanh n cm temail,n uta khôngbi tm tthông tingìv nó, do ókhócó th quy t nhchính xácemailnàylàspamhaykhông .

N u nh tacó thêm c m hay thu ctính nào óc aemailthì ta cóth nângcao hi uqu nh n cemail làspam M temailcónhi u c

i mnh :tiêu , n idung,có ínhkèm t ptinhaykhông,…Tacó th d a vàocácthông tinnày nâng caohi uqu phân l aiemailspam. M tvíd

ngi n:n utabi t cr ng95 %emailhtmllàemailspam, vàta l i nh n cm temail html,nh v ycó th d a vàoxácsu tbi ttr c95% emailhtmllàemail spam tính c xácsu temailmà tanh n clà spam,n uxác su tnàyl n h nxác su temail ólànon-spam,có th k t

37

lu nr ngemail ólà spam,tuynhiênk tlu nnàykhông chínhxácl m Nh ng n u tacó cnhi u xácsu tbi ttr cnh v y,thì k tlu ns tr nên ángtinc yh n. có ccácxác su tbi ttr cnày,s d ng ph ng pháp NaïveBayesian hu n luy nt pm u (email)ban u,sau ós s d ngcác xácsu tnày ngd ngvàophân l ai m tm u(email) m i.

4.3.1Phân lo i email d atrênthu ttoán NaïveBayesian

Gi thi tm im temail c idi nb im t vector thu ctính

r

,x ,x

r

X1,X2,..,Xn t ng ngtrongkhông gian vector c tr ng X.Theo M Sahamietal [9]ta s d ngcác giá tr nh phân,Xi=1 n ucác c m c a Xi có trongemail,ng cl i Xi=0.

Tatính giá tr t ngh MI(X,C) (Mutual Information)mà m i m t idi nc a X thu cv lo iC nh sau: MI(X,C)=x∈{0,1 } P(X =x,C=c).log P(X =x,C=c) P(X =x)P(C=c)

c∈{spam,nonspam}

Côngth c4-5:côngth ctính t ngh MI

Sau óta ch ncác thu ctính cógiá tr MIcaonh t.Các xácsu t

P(X), P(C), P(X,C) c tínhd atrên d li uh c

D avàocông th c xácsu tBayes vàcông th cxác su t y ta có cxácsu tm temailv ivector ctr ng

x x thu c v lo i clà:

uur r

P(C=c|X =x)

= k∈{spam,nonspam

}

uur r

uur r

P(C=k).P(X =x|C=k)

V iClà eemail cxét, c∈{spam,nonspam

Côngth c4-6

}

38

uur

Th ct thì r tkhótính cxácsu t P(X |C) b i vìgiátr s ng c a các vector r tnhi u vànhi uvectorhi m khihayth mchí không xu thi n trongt pd li uhu nluy n.Nh ãnói,ph ng pháp Naïve Bayesian gi thi tr ng X1,X2,..,Xn lành ng bi nc cl p,do

óchúng tacó th tính cxác su t trên nh sau: P(C =c|X =x) = n = i=1 n k∈{spam,nonspam i=1

Côngth c4-7

V i P(Xi|C) và P(C) ctínhd atrên d li u h c,vi ctính này d avào t p hu nluy nban u.

∑ r r P(C=c).P(X =x|C=c) ∑ P(C=c).∏P(Xi ix |C=c) ∑ P(C=k).∏P(X i=xi|C=k) }

T xác su t này, ta so sánh v i m t giá tr ng ng t (trình bày m c ) mà ta cho là ng ng phân lo i email spam haykhông, n u xác suât nàyl n h n t,ta cho là email ó là spam, ng c l i ta xem email ó là non-spam.

4.3.2Ch n ng ngphânlo iemail :

Trongphânlo iemail, cóhai lo i sai l m :sai l mnh nm temail là spam m cdù th c t nó là non-spam (false positive) và sai l m th hai là nh n m t email là non-spam m c dù nó là spam (false negative). Rõ ràng là sail m th nh tlà nghiêm tr ng h n b ivì ng i s d ng có th ch p nh n m t email spam v t qua b l c nh ng không ch p nh n m t email h pl quan tr ngl ib b l cch nl i.

Gi s N→S và S→N t ng ng v i hai l i sai trên ây S d ng lu tquy t nh Bayes d a trên chi phí [9], ta gi s r ng l i N→S có chi phí g p λ l n l i S→N, chúng ta phân lo i m t email là spam d a vào tiêu chu nsau:

39 uur r P(C=spam)|X =x) P(C=nonspam|X =x) Côngth c4-8 uur r uur r

P(C=spam|X =x)=1−P(C=nonspam|X =x)

Nên tacó:

uur r

P(C=spam|X =x)>t v i t= λ

λ+1 và λ = t

1−t

Nh v yng ngphân lo i cch nlàttùythu cvào giá tr λ

40

Ch ng 5 : TH C HI N KI M TH

PHÂN LO I EMAIL D A TRÊN PH NG

41

5.1 Cài tch ng trình phânlo i email d atrênph ngphápphân lo i Naïve Bayesian: phápphân lo i Naïve Bayesian:

5.1.1 Kháini m Token :

xemxétn idungemailchúngtôidùngkháini m“token”

Các“token”cóth xemnh làcáct c nxemxétmàtatáchrat n i dungc aemail.V icáckít ch ,kít s ,kít ‘$',kít g chngang‘-’,kí t g chd i‘_’,kít nháy n‘’’lành ngkít c ut othànhtoken.Còn nh ngkít cònl inh kho ngtr ng,kít ‘*’,kít ‘:’,… cxemlàkít

tácht hayphân cáchcáct .V inh ngt tách cmàg mtoànkís thìkhông cxemlàtoken(víd :“12345”).

“qvp0045”, “indira”,“mx-05”, “$7500”,“3d0725”, “platinum”. N utacóm tchu isau:“http://www.27meg.com/foo ”thìtas có cáctokent ng nglà:“http”,“www”,“27meg”, “com”,“foo”.

5.1.2 Vectorthu c tính :

Nh ãnói m c4.3.1,tachuy n m im temailsangm t

r

vector x =(x1,x2,..,xn)v i x1,x2,..,xn làgiátr cácthu ctính

r

X1,X2,..,Xn trong khônggianvector c tr ng X.Các thu ctính có th làm ttoken,nhóm cáctoken …Trong tr ng h p n gi nnh t,m i m t thu ctính cth hi n b im ttoken nvàt tc các thu ctính có giá tr lu nlý (Boolean),nh v y Xi=1n uemail ch átoken,tr ng h p ng cl i Xi=0.

Chúng tôich nthu c tínhlàtoken n,nh ng thayvì giátr c acácthu c tínhlà giátr lu nlý(boolean), chúngtôich nlàxác su t spam c am itoken.Xác su tspamc am itoken s có giátr trong an [0,1].Xác su tcho ta nhi uthôngtin h n sov igiá tr lu nlý.Víd :xét

42

token“$” xu thi n trongemail,n u tas d nggiá tr lu nlý, takhông c s nghi ng emailnàylàemail spam, vàn uemailnàykhádài thìcàngkhó k tlu nr ng nó làspam.Tuynhiên s d ngxácsu t, tacó th bi t ckh n ng email ólàspamlàbao nhiêu, i unàyh p lý

r

nlàch s d nghaigiá tr 0 và1.V ikhônggian vector ctr ng X, chúngtôi ch nnlàs cácthu ctínhc a X th nghi m l nl tlà10, 15và20. Ch nn saocho không l nquá,n unl n cókh n ngnh ng thu ctínhkhôngph i là c tr ng,nh v ys làm “nhi u “kh n ng phânlo i úng.Ng cl i n uch nnquánh ,tas khôngcó cs c nthi tcác thu ctính.

5.1.3Ch n ng ngphân lo i:

Chúng tôiti nhành th nghi mv igiátr λ l nl tlà1,9và 999,

nh v yng ngphânlo itxác nhm temaillàspam l nl tlà 0.5, 0.9, 0.999.

5.1.4Cáchth chi n :

Chúng tas b t u v ihai khong li uemail: khong li uemail spam vàkhong li uemailnon-spam. S l ng emailtrongm ikho ng li uban ukhôngh nch .N ukhong li ucàngl n thìhi uqu l c email s càngcao. T haikhong li unày,chúng tôi phân tíchvàduy t quat tc các tokenbaog mc ph ntiêu c aemail. iv inh ng emailhtml,chúng tôith chi nbóctách các th html l yn idunggi a các th .

Sau óta tính xác su tspamc am itoken ã cphântích, xác su tnàychínhlà xácsu tm t emailch ch a token ó vàlà emailspam.

Nh v ym uch t âylà taph i tínhra cxác su tspam c a m itoken.Theo Paulgraham [7], xácsu tspamc am itoken ctính d atrêns l nxu thi nc am itokentrongm ikhong li uh cban

u.Víd m ttoken wcó s l nxu thi ntrongkho ng li uspam làs,

43

trong khong li unon-spam làn,s email t ng c ngc ahaikho ng li u spam vànon-spam l nl t là NSNN,th thìxácsu tspamc atoken w ctínhnh sau: s P(X =w,C=spam) = NS sn NS NN Côngth c5-1

Tuynhiên,vìs l nxu thi nc am ttokentrongm ikhong li uh ccókh n ngv tquákích th cc akho ng li uh c ó(t ng s email) do ó,trongcôngth ctrên, thay s

NS b ngMin(1, s NS )và n NN b ng Min(1, n NN ) +

Do óCôngth c5-1vi tl inh sau: P(X =w,C=spam) = Min(1, S NS S NS n NN ) côngth c5-2

Theocáchtrênthìchúngta ánhgiákh n ngspam c am ttoken xu thi ntrongm tkhong li uh c100l n 100emailkhácnhaulàb ng v ikh n ngspamc am ttokenxu thi ntrongm tkhong li uh c100 l nnh ngch trongm temail

Chúng tôi xu tm tcáchtínhxácsu tspamc atokenkhácnh sau: thayvìd avàos l nxu thi nc atokentrongt ngkhong li uh c, chúngtôid avàos emailch atokentrongt ngkhong li uh c.Công th ctínhnh sau: 44 P(X =w,C=spam) = nS NS nS NSn NN côngth c5-3 V i:

ü nS làs emailcóch atokentrongkhong li uemailspam ü nN là s email có ch a token trong kho ng li u email non-

spam

ü NS làt ngs emailc akhong li uh cspam

Một phần của tài liệu Tìm hiểu các hướng tiếp cận phân loại EMAIL và xây dựng phần mềm mail client hỗ trợ tiếng việt (Trang 34 - 134)

Tải bản đầy đủ (DOCX)

(134 trang)
w