V噂i m厩i token8 w ,8鵜nh ngh aw∈ x t逢挨ng 8逢挨ng v噂iw có trong email x.A鵜nh ngh a lu壱t y院u h nh逢 sau:
( )
h x = c0 n院u w ∉ xvà h x( ) = c1 n院u w ∈ x
Chúng tôi ti院n hành cài 8員t th穎 nghi羽m thu壱t toán AdaBoost v噂i hai cách khác nhau, do 8ó t逢挨ng泳ng v噂i m厩i cách, cách l医y giá tr鵜 c0 và c1 khác nhau, các giá tr鵜 c0, c1mà h(x) có th吋 nh壱n 8逢嬰c tính nh逢"8ã nói荏 các m映c 6.3.2.1 và m映c 6.3.2.2.
S嘘 l逢嬰ng c栄a t壱p lu壱t y院u 8逢嬰c dùng 8吋 hu医n luy羽n theo nguyên t逸c là không h衣n ch院, nh逢 v壱y chúng ta có th吋 l医y t医t c違 các token trong t壱p h丑c. Tuy nhiên, chúng tôi nh壱n th医y 8吋 l医y h院t t医t c違 các token thì r医t m医t th運i gian và t嘘c
8瓜 hu医n luy羽n c ng ch壱m 8i, vì th院 chúng tôi ch雨 ch丑n ra m瓜t s嘘 các token tho違
mãn m瓜t tiêu chí nào 8ó 8吋 xây d詠ng lu壱t y院u. M厩i lu壱t y院u 8逢嬰c ch丑n nh逢 sau :chúng tôi duy羽t qua t医t c違 các m磯u h丑c, tính s嘘 l亥n xu医t hi羽n c栄a m厩i token, nh英ng token có s嘘 l亥n xu医t hi羽n l噂n h挨n m瓜t giá tr鵜 ng逢叡ng nào 8ó (8逢嬰c qui
8鵜nh ) s胤"8逢嬰c l詠a ch丑n, vi羽c l詠a ch丑n ng逢叡ng 8吋 quy院t 8鵜nh lu壱t có 8逢嬰c ch丑n hay không tu thu瓜c vào kho ng英 li羽u h丑c. Chúng tôi chia thành hai t壱p riêng, m瓜t t壱p g欝m các token xu医t hi羽n trong các email spam, t壱p kia g欝m các token xu医t hi羽n trong email non-spam.Cách xây d詠ng t壱p lu壱t y院u nh逢 v壱y làm gi違m
8áng k吋 s嘘 lu壱t c亥n xét Khi hu医n luy羽n, chúng tôi s胤 quy院t 8鵜nh s嘘 l逢嬰ng các lu壱t y院u c亥n ch丑n, khi 8ó chúng tôi s胤 ch丑n t壱p lu壱t y院u b茨ng cách l亥n l逢嬰t ch丑n m瓜t token ch逢a có trong t壱p 8逢嬰c ch丑n t瑛 t壱p các token spam, r欝i l衣i ch丑n m瓜t token ch逢a có trong t壱p 8逢嬰c ch丑n t瑛 t壱p các token non-spam cho 8院n khi 8栄 s嘘 n逢嬰ng yêu c亥u
A吋 th詠c hi羽n vi羽c duy羽t các token và tìm ki院m m瓜t token v噂i t嘘c 8瓜
nhanh, t逢挨ng t詠 nh逢 th詠c hi羽n thu壱t toán hu医n luy羽n Naïve Bayesian chúng tôi
8
c ng xây d詠ng b違ng b<m t逢挨ng t詠 nh逢 b違ng b<m8ã8逢嬰c s穎 d映ng 荏 cách th詠c hi羽n theo ph逢挨ng pháp Naïve Bayesian.