Ph逢挨ng pháp l詠a ch丑n lu壱t y院u

Một phần của tài liệu Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc (Trang 70 - 74)

6.3 永ng d映ng AdaBoost trong phân lo衣i email

6.3.2 Ph逢挨ng pháp l詠a ch丑n lu壱t y院u

雲 m厩i b逢噂c ch衣y t, lu壱t y院u 8逢嬰c l詠a ch丑n sao cho l厩i sai 8逢嬰c c詠c ti吋u, d詠a vào gi噂i h衣n trên c栄a l厩i sai, thay vì ch丑n ht sao cho l厩i hu医nluy羽n là nh臼 nh医t, ta ch丑n ht sao cho Ztlà nh臼 nh医t

V噂i m厩i t瑛 w,"8鵜nh ngh awx t逢挨ng 8逢挨ng v噂i w có trong v<n b違n x."A鵜nh ngh a lu壱t y院uh nh逢 sau:

( )

h x = c0 n院u w ∉ x và h x( ) = c1 n院u w ∈ x

Theo (Schapire &Singer )[14], có ba ph逢挨ng pháp l詠a ch丑n lu壱t y院u v噂i thu壱t toán AdaBoost MH nh逢 sau:

6.3.2.1 AdaBoost.MH with discrete predictions :

V噂i cách th詠c hi羽n này , cj(j∈{ }0,1 ) s胤 có giá tr鵜 +1 ho員c -1, v噂i m瓜t

lu壱tw ta có th吋 c詠c ti吋u giá tr鵜 Zt b茨ng cách sau : A員t X0 ={x w: ∉x} và X1={x w: ∈x}

V噂i giá tr鵜 phân ph嘘i hi羽n t衣i là Dt, ta có nh英ng giá tr鵜 t逢挨ng泳ng v噂i m厩i j∈{ }0,1 và v噂i m厩i b∈ − +{ 1, 1} nh逢 sau:

1

( )

m j

b t i j i

i

W D i x X y b

=

 

=∑  ∈ ∧ = 

Nh逢 v壱y Wbj là tr丑ng s嘘, 泳ng v噂i phân ph嘘i Dt c栄a m磯u hu医n luy羽n trong t壱p Xj(j∈{ }0,1 ) thu瓜c v隠 lo衣i b b( ∈ − +{ 1, 1} ).

Thi院t l壱p cj =sign W( +jWj)

A員t

{ }0,1| j j|

t j

r W+ W

= ∑ −

(Schapire &Singer, 1998 )[12] ch雨 ra r茨ng 8吋 c詠c ti吋u giá tr鵜 Zt, ta ch丑n

1 1 2ln 1

t t

t

r α =  +−r 

D磯n 8院n Zt = 1−r2

6.3.2.2 AdaBoost.MH with real -value predictions:

Khác v噂i thu壱t toán AdaBoost v瑛a trình bày,荏"8ây cj(j∈{ }0,1 ) có

giá tr鵜 th詠c ch泳 không nh逢 ph逢挨ng pháp v瑛a nói là cj(j∈{ }0,1 )có giá tri là +1 ho員c -1. A吋 c詠c ti吋u giá tr鵜 Zt, giá tr鵜 cj(j∈{ }0,1 ) v噂i m厩i lu壱t 8逢嬰c

tính nh逢 sau:

Theo (Schapire &Singer,1998) [12],Zt8衣t giá tr鵜 c詠c ti吋u n院u ch丑n 1ln

2

j

j j

c W

W

+

 

=  

  Thi院t l壱p α =t 1, suy ra

{ }0,1

2 j j

t j

W W+ −

Ζ = ∑

Nh逢 v壱y, lu壱t y院u ht "8逢嬰c ch丑n sao cho giá tr鵜 Zt=

{ }0,1

2 j j

j

W W+ −

∈∑ là

nh臼 nh医t, còn αt trong tr逢運ng h嬰p này là 1

Tuy nhiên, các giá tr鵜 W+j,Wj có th吋 r医t nh臼 hay b茨ng 0,"8i隠u này s胤 d磯n 8院n các giá tr鵜 cj(j∈{ }0,1 ) có giá tr鵜 r医t l噂n hay vô h衣n.Trong th詠c t院

nh英ng giá tr鵜 này có th吋 gây ra các v医n 8隠 ph泳c t衣p trong tính toán, gây tràn s嘘. Theo (Schapire &Singer)[14]8吋 gi噂i h衣n các giá tr鵜 cj(j∈{ }0,1 ) không

quá l噂n, cj(j∈{ }0,1) s胤"8逢嬰c tính nh逢 sau :

1ln 2

j

j j

c W

W ε

+ ε

 + 

=  + 

V噂i 1 ε =m

6.3.2.3 AdaBoost.MH with real -value predictions and abstainings Thu壱t toán AdaBoost v噂i giá tr鵜 d詠"8oán th詠c (AdaBoost.MH with real -value predictions) gán m瓜t giá tr鵜 bi吋u th鵜"8瓜 tin c壱y trong c違 hai tr逢運ng h嬰p lu壱t xu医t hi羽n hay không. Nh逢 v壱y nó ng亥m cho r茨ng m瓜t lu壱t không tho違 trong v<n b違n c ng ch泳a 8詠ng thông tin v隠 lo衣i c栄a v<n b違n 8ó.Ta có th吋 lo衣i b臼 gi違 thi院t này và ép lu壱t y院u không nh壱n giá tr鵜 gì khi lu壱t không tho違 v<n b違n."Ai隠u này 8逢嬰c th詠c hi羽n m瓜t cách 8挨n gi違n ch雨 b茨ng cách gán cho m厩i lu壱t y院u giá tr鵜"8瓜 tin c壱y là 0 n院u không tho違 v<n b違n.

V噂i m瓜t lu壱t h, thu壱t toán s胤 cho giá tr鵜 d詠"8oán c1 v噂i nh英ng v<n b違n (荏"8ây là email ) tho違 lu壱t h, v噂i các v<n b違n còn l衣i, giá tr鵜 d詠"8oán c0 s胤 có giá tr鵜 là 0.Do 8ó, lu壱th s胤 không có tác d映ng gì8院n vi羽c phân lo衣i n院u v<n b違n không th臼a.

Thi院t l壱p α =t 1 Xem

0 0

,

( )

i t i x X

W D i

= ∑ là tr丑ng s嘘 c栄a t医t c違 các v<n b違n không tho違 h Theo (Schapire &Singer, 1998 )[12].thì

0 { }

0,1

2 j j

t

j

Z W W W+ −

= + ∑

Nh逢 v壱y 荏 m厩i b逢噂c ch衣yt, lu壱t y院u 8逢嬰c ch丑n sao cho

0 { }

0,1

2 j j

t

j

Z W W W+ −

= + ∑ nh臼 nh医t M瓜t逢u 8i吋m c栄a ph逢挨ng pháp này so v噂i cách th詠c hi羽n tr逢噂c là c違i thi羽n t嘘c 8瓜 th詠c hi羽n, th詠c t院 t嘘c 8瓜 th詠c hi羽n c栄a ph逢挨ng pháp này nhanh h挨n 15% so v噂i ph逢挨ng pháp th詠c hi羽n theo thu壱t toán. AdaBoost.MH with real -value predictions.

Ch 逢挨 ng 7 : TH C HI N VÀ KI M TH PHÂN LO I EMAIL D A TRÊN PH 姶愛 NG PHÁP ADABOOST

7.1 Cài 8員 t b phân lo i email d a trên ph 逢挨 ng pháp

Một phần của tài liệu Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc (Trang 70 - 74)

Tải bản đầy đủ (PDF)

(106 trang)