Phân lo衣i email b茨ng ph逢挨ng pháp Nạve Bayesian

Một phần của tài liệu Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc (Trang 37 - 42)

雲"8ây m厩i m磯u mà ta xét chính là m厩i m瓜t email, t壱p các l噂p mà m厩i email có th吋 thu瓜c v隠 làC={spam, non-spam}

Khi ta nh壱n 8逢嬰c m瓜t email, n院u ta không bi院t m瓜t thông tin gì v隠 nó, do 8ó khó có th吋 quy院t 8鵜nh chính xác email này là spam hay không .

N院u nh逢 ta có thêm 8員c 8k吋m hay thu瓜c tính nào 8ó c栄a email thì ta có th吋 nâng cao hi羽u qu違 nh壱n 8逢嬰c email là spam M瓜t email có nhi隠u 8員c 8i吋m nh逢 : tiêu 8隠, n瓜i dung, có 8ính kèm t壱p tin hay không,…Ta có th吋 d詠a vào các thông tin này 8吋 nâng cao hi羽u qu違 phân l丑ai email spam. M瓜t ví d映 8挨n gi違n : n院u ta bi院t 8逢嬰c r茨ng 95 % email html là email spam, và ta l衣i nh壱n 8逢嬰c m瓜t email html, nh逢 v壱y có th吋 d詠a vào xác su医t bi院t tr逢噂c 95%

email html là email spam 8吋 tính 8逢嬰c xác su医t email mà ta nh壱n 8逢嬰c là spam, n院u xác su医t này l噂n h挨n xác su医t email 8ó là non-spam, có th吋 k院t

lu壱n r茨ng email 8ó là spam, tuy nhiên k院t lu壱n này không chính xác l逸m Nh逢ng n院u ta có"8逢嬰c nhi隠u xác su医t bi院t tr逢噂c nh逢 v壱y, thì k院t lu壱n s胤 tr荏 nên 8áng tin c壱y h挨n. A吋 có 8逢嬰c các xác su医t bi院t tr逢噂c này, s穎 d映ng ph逢挨ng pháp Nạve Bayesian hu医n luy羽n t壱p m磯u (email) ban 8亥u, sau 8ĩ s胤 s穎 d映ng các xác su医t này泳ng d映ng vào phân l丑ai m瓜t m磯u (email) m噂i.

4.3.1 Phân lo衣i email d詠a trên thu壱t tốn Nạve Bayesian Gi違 thi院t m厩i m瓜t email 8逢嬰c 8衣i di羽n b荏i m瓜t vector thu瓜c tính 8員c tr逢ng xr=( ,x x1 2,...,xn)

v噂i x x1, 2,...,xn, là giá tr鵜 c栄a các thu瓜c tính X1,X2,..,Xn t逢挨ng泳ng trong không gian vector 8員c tr逢ng Xr

. Theo M Sahami et al [9] ta s穎 d映ng các giá tr鵜 nh鵜 phân,Xi=1 n院u các 8員c 8k吋m c栄a Xi có trong email, ng逢嬰c l衣i Xi=0.

Ta tính giá tr鵜 t逢挨ng h厩 MI (X,C) (Mutual Information) mà m厩i m瓜t 8衣i di羽n c栄a X thu瓜c v隠 lo衣i C nh逢 sau:

{ }0,1

( , )

( , ) ( , ).log

( ) ( )

x

P X x C c

MI X C P X x C c

P X x P C c

= =

= = =

= =

{ , }

cspam non spamCông th泳c 4-5 :công th泳c tính 8瓜 t逢挨ng h厩 MI

Sau 8ó ta ch丑n các thu瓜c tính có giá tr鵜 MI cao nh医t.Các xác su医t P(X), P(C), P(X,C)"8逢嬰c tính d詠a trên d英 li羽u h丑c

D詠a vào công th泳c xác su医t Bayes và công th泳c xác su医t 8亥y 8栄 ta có 8逢嬰c xác su医t m瓜t email v噂i vector 8員c tr逢ng xr

xr thu瓜c v隠 lo衣i c là:

{ , }

( ). ( | )

( | )

( ). ( | )

k spam non spam

P C c P X x C c P C c X x

P C k P X x C k

∈ −

= = =

= = =

= = =

uur r uur r

uur r

V噂i C là e email 8逢嬰c xét, c∈{spam nonspam, }

Công th泳c 4-6

Th詠c t院 thì r医t khó tính 8逢嬰c xác su医t P X C(uur| )

b荏i vì giá tr鵜 s嘘 n逢嬰ng c栄a các vector r医t nhi隠u và nhi隠u vector hi院m khi hay th壱m chí không xu医t hi羽n trong t壱p d英 li羽u hu医n luy羽n.Nh逢"8ã nói, ph逢挨ng pháp Nạve Bayesian gi違 thi院t r茨ng X1,X2,..,Xn là nh英ng bi院n c嘘"8瓜c l壱p, do 8ó chúng ta có th吋 tính 8逢嬰c xác su医t 荏 trên nh逢 sau:

{ }

i 1

, 1

( ). ( | )

( | )

( ). ( | )

n

i i

n

i i

k spam non spam i

P C c P X x C c P C c X x

P C k P X x C k

=

∈ − =

= = =

= = =

= = =

∑ ∏

Công th泳c 4-7

V噂i P X( i| )CP C( )8逢嬰c tính d詠a trên d英 li羽u h丑c, vi羽c tính này d詠a vào t壱p hu医n luy羽n ban 8亥u.

T瑛 xác su医t này, ta so sánh v噂i m瓜t giá tr鵜 ng逢叡ng t (trình bày 荏 m映c ) mà ta cho là ng逢叡ng 8吋 phân lo衣i email spam hay không, n院u xác suât này l噂n h挨n t, ta cho là email 8ó là spam, ng逢嬰c l衣i ta xem email 8ó là non-spam.

4.3.2 Ch丑n ng逢叡ng phân lo衣i email :

Trong phân lo衣i email, có hai lo衣i sai l亥m : sai l亥m nh壱n m瓜t email là spam m員c dù th詠c t院 nó là non-spam (false positive) và sai l亥m th泳 hai là nh壱n m瓜t email là non-spam m員c dự nú là spam (false negative). Rừ ràng là sai l亥m th泳 nh医t là nghiêm tr丑ng h挨n b荏i vì ng逢運i s穎 d映ng có th吋 ch医p nh壱n m瓜t email spam v逢嬰t qua b瓜 l丑c nh逢ng không ch医p nh壱n m瓜t email h嬰p l羽 quan tr丑ng l衣i b鵜 b瓜 l丑c ch員n l衣i.

Gi違 s穎 N→S và S→N t逢挨ng 泳ng v噂i hai l厩i sai trên 8ây S穎 d映ng lu壱t quy院t 8鵜nh Bayes d詠a trên chi phí [9], ta gi違 s穎 r茨ng l厩i N→S có chi phí g医p λ l亥n l厩i S→N, chúng ta phân lo衣i m瓜t email là spam d詠a vào tiêu chu育n sau:

( ) | )

( | )

P C spam X x

P C non= spam X= x

= − =

uur r uur r

Công th泳c 4-8

P C( =spam X|uur=xr) 1= −P C( =non spam X− |uur=xr) Nên ta có:

( | )

P C =spam Xuur =xr >t v噂i

t λ1

+ và 1

t λ = t

Nh逢 v壱y ng逢叡ng phân lo衣i 8逢嬰c ch丑n làt tùy thu瓜c vào giá tr鵜 λ

Ch 逢挨 ng 5 : TH C HI N VÀ KI M TH PHÂN LO I EMAIL D A TRÊN PH 姶愛 NG PHÁP PHÂN LO I NẠVE BAYESIAN

5.1 Cài 8員 t ch 逢挨 ng trình phân lo i email d a trên ph 逢挨 ng

Một phần của tài liệu Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc (Trang 37 - 42)

Tải bản đầy đủ (PDF)

(106 trang)