Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 106 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
106
Dung lượng
1 MB
Nội dung
1
I HC QUC GIA TP. H CHÍ MINH
TRNG I HC KHOA HC T NHIÊN
KHOA CÔNG NGH THÔNG TIN
MÔN H THNG THÔNG TIN
LÊ NGUYN BÁ DUY –TRN MINH TRÍ
TÌM HIU CÁC HNG TIP CN PHÂN LOI
EMAIL VÀXÂY DNG PHN MM MAIL CLIENT
TR TING VIT
KHOÁ LUN C NHÂN TIN HC
TP. HCM, NM 2005
2
I HC QUC GIA TP. H CHÍ MINH
TRNG I HC KHOA HC T NHIÊN
KHOA CÔNG NGH THÔNG TIN
MÔN H THNG THÔNG TIN
LÊ NGUYN BÁ DUY -0112050
TRN MINH TRÍ -0112330
TÌM HIU CÁC HNG TIP CN PHÂN LOI
EMAIL VÀXÂY DNG PHN MM MAIL CLIENT
TR TING VIT
KHOÁ LUN C NHÂN TIN HC
GIÁO VIÊN HNG DN
THY LÊ C DUY NHÂN
NIÊN KHÓA 2001-2005
3
I CM N
Trc tiên, chúng tôi xin chân thành cm n thy Lê c Duy Nhân, ngi
ã hng dn chúng tôi thc hin tài này. Nh có s hng dn, ch bo tn tình
ca thy, chúng tôi ã hoàn thành khoá lun này.
Chúng con xin kính gi lòng bit n, kính trng ca chúng con n ông bà,
cha m vàcác ngi thân trong gia ình ã ht lòng nuôi chúng con n hc, luôn
luôn bên chúng con,ng viên giúp chúng con vt qua khó khn
Chúng em xin cm n tt c các thy cô trng i hc Khoa Hc T Nhiên,
c bit là các thy cô trong khoa Công Ngh Thông Tin ã ht lòng ging dy,
truyn t nhiu kin thc và kinh nghim quý báu cho chúng em. Chúng em cng
xin chân thành cm n khoa Công Ngh Thông Tin, b môn H Thng Thông Tin
ã to mi u kin thun li trong quá trình thc hin khoá lun ca chúng em.
Chúng tôi xin chân thành cm n bn bè trong lp cng nh các anh chi
trc ã giúp , óng góp ý kin cho chúng tôi.
Vi thi gian nghiên cu ngn, trong vòng 6 tháng và nng lc ca nhng
ngi làm tài, chc chn tài còn có nhiu thiu sót. Chúng tôi rt mong nhn
c nhng góp ý, nhn xét tài c hoàn thin hn.
Thành ph H Chí Minh
Tháng 7 nm 2005
Nhng ngi thc hin:
Lê Nguyn Bá Duy – Trn Minh Trí.
4
v Mc lc:
Chng 1 : MU 9
1.1 Gii thiu: 10
1. 2 Yêu c u bài t oán: 12
1.3 B cc khoá lun : 12
Chng 2 : TNG QUAN 14
2.1 Các cách thc con ngi x lý vi spam : 15
2.2 Các phng pháp tip cn: 16
2.2.1 Complaining to Spammers' ISPs : 16
2. 2.2 Ma il Bl ackl i sts /Whit el is ts: 16
2.2.3 Mail volume : 18
2. 2.4 Sign ature/ Checksum schemes: 19
2.2.5 Genetic Algorithms: 20
2.2.6 Ru le-Based (hay là Heuristic): 21
2.2.7 Challenge-Response: 22
2.2.8 Machine Learning ( Máy hc ): 23
2.3 Phng pháp la chn : 24
2.4 Các ch sánh giá hiu qu phân loi email : 24
2.4.1 Spam Recall và Spam Precision: 24
2.4.2 T l li Err (Error) và t l chính xác Acc(Accuracy) : 25
2.4.3 T l li gia trng WErr (Weighted Error ) và t l chính xác gia trng (Weighted
Accuracy): 25
2.4.4 T s chi phí tng hp TCR (Total Cost Ratio ): 26
Chng 3 : GII THIU CÁC KHO NG LIU DÙNG KIM TH
PHÂN LOI EMAIL 28
3.1 Kho ng liu PU (corpus PU ): 29
3.1.1 Vài nét v kho ng liu PU: 29
3.1.2 Mô t cu trúc kho ng liu PU: 30
3.2 Kho ng liu email ch: 31
Chng 4 : PHNG PHÁP PHÂN LOI NAÏVE BAYESIAN VÀ NG
DNG PHÂN LOI EMAIL 33
4.1 Mt vài khái nim xác sut có liên quan 34
4.1.1 nh ngha bin c, xác sut : 34
4.1.2 Xác sut có u kin, công thc xác sut y – công thc xác sut Bayes35
4.2 Phng pháp phân loi Naïve Bayesian : 36
4.3 Phân loi email bng phng pháp Naïve Bayesian : 37
4.3.1 Phân loi email da trên thut toán Naïve Bayesian 38
4.3.2 Chn ngng phân loi email : 39
Chng 5 : THC HIN VÀ KIM TH PHÂN LOI EMAIL DA
TRÊN PHNG PHÁP PHÂN LOI NAÏVE BAYESIAN 41
5.1 Cài t chng trình phân loi email da trên phng pháp phân loi Naïve
Bayesian: 42
5.1.1 Khái nim “Token” : 42
5.1.2 Vector thuc tính : 42
5.1.3 Chn ngng phân loi : 43
5.1.4 Cách thc hin :. 43
5
5.2 Th nghim hiu qu phân loi 51
5.2.1 Th nghim vi kho ng liu pu: 51
5.2.2 Th nghim vi kho ng liu email ch : 60
5.3 u – nhc m ca phng pháp phân loi Naïve Bayesian: 61
5.3.1 u m : 61
5.3.2 Khuyt m : 62
Chng 6 : PHNG PHÁP ADABOOST VÀ NG DNG PHÂN LOI
EMAIL 63
6.1 Thut toán AdaBoost : 64
6.2 AdaBoost trong phân loi vn bn nhiu lp : 65
Thut toán AdaBoost MH phân loi vn bn nhiu lp : 66
6.3 ng dng AdaBoost trong phân loi email: 66
6.3.1 Thut toán AdaBoost.MH trong trung hp phân loi nh phân 67
Gii hn li hun luyn sai : 68
6.3.2 Phng pháp la chn lut yu : 70
Chng 7 : THC HIN VÀ KIM TH PHÂN LOI EMAIL DA
TRÊN PHNG PHÁP ADABOOST 73
7.1 Cài t b phân loi email da trên phng pháp AdaBoost: 74
7.1.1 Tp hun luyn mu và tp nhãn : 74
7.1.2 Xây dng tp lut yu ban u : 75
7.1.3 Th tc WeakLearner chn lut yu: 76
7.1.4 Phân loi email : 76
7.2 Th nghim hiu qu phân loi : 76
7.2.1 Th nghim vi kho ng liu pu: 76
7.2.2 Th nghim vi kho ng liu email ch: 79
7.3 u – nhc m ca phng pháp phân loi AdaBoost: 80
7.3.1 u m : 80
7.3.2 Khuyt m : 80
Chng 8 : XÂY DNG CHNG TRÌNH MAILCLIENT TING VIT
H TR PHÂN LOI EMAIL 82
8.1 Chc nng: 83
8.2 Xây dng b lc email spam : 83
8.3 T chc d liu cho chng trình : 84
8.4 Giao d in ngi dùng : 85
8.4.1 S màn hình : 85
8.4.2 Mt s màn hình chính : 85
Chng 9 : TNG KT VÀ HNG PHÁT TRIN 94
9.1 Các vic ã thc hin c : 95
9.2 Hng ci tin, m rng : 95
9.2.1 V phân loi và lc email spam: 95
9.2.2 V chng trình Mail Client: 96
TÀI LIU THAM KHO 97
Ting Vit : 97
Ting Anh : 97
Ph lc 99
6
Ph lc 1 : Kt qu th nghim phân loi email bng phng pháp Bayesian
vi kho ng liu hc và kim th pu 99
Ph lc 2 : Kt qu th nghim phân loi email bng phng pháp
AdaBoost vi kho ng liu hc và kim th pu 103
1. Kt qu thc hin vi thut toán AdaBoost with real value predictions
103
2. Kt qu thc hin vi thut toán AdaBoost with discrete predictions 105
7
Danh mc các hình v:
Hình 3-1Email sau khi tách token và mã hoá (trong kho ng liu pu) 29
Hình 5-1Mô t cu trúc bng bm 48
Hình 5-2 Lc so sánh các ch s spam recall (SR) và spam precision (SP) theo
s token th nghim trên kho ng liu PU1 vi công thc 5-7 (
9
λ=
) 53
Hình 5-3 Lc ch s TCR theo s token th nghim trên kho ng liu PU1 vi
công thc 5-7 (
9
λ=
) 53
Hình 5-4 Lc so sánh các ch s spam recall (SR) và spam precision (SP) theo
s token th nghim trên kho ng liu PU2 vi công thc 5-5 (
9
λ=
) 55
Hình 5-5 Lc ch s TCR theo s token th nghim trên kho ng liu PU2
vi công thc 5-5 (
9
λ=
) 55
Hình 5-6 Lc so sánh các ch s spam recall (SR) và spam precision (SP) theo
s token th nghim trên kho ng liu PU3 vi công thc 5-6 (
9
λ=
) 57
Hình 5-7 Lc ch s TCR theo s token th nghim trên kho ng liu PU3 vi
công thc 5-6 (
9
λ=
) 57
Hình 5-8 Lc so sánh các ch s spam recall (SR) và spam precision (SP) theo
s token th nghim trên kho ng liu PUA vi công thc 5-5 (
9
λ=
) 59
Hình 5-9 Lc ch s TCR theo s token th nghim trên kho ng liu PUA
vi công thc 5-5 (
9
λ=
) 59
8
Danh mc các bng:
Bng 3-1Mô t cu trúc kho ng liu PU 31
Bng 5-1 Kt qu kim th phân lai email bng phng pháp phân lai Naïve
Bayesian trên kho ng liu PU1 52
Bng 5-2 Kt qu kim th phân lai email bng phng pháp phân lai Naïve
Bayesian trên kho ng liu PU2 54
Bng 5-3 Kt qu kim th phân lai email bng phng pháp phân lai Naïve
Bayesian trên kho ng liu PU3 56
Bng 5-4 Kt qu kim th phân lai email bng phng pháp phân lai Naïve
Bayesian trên kho ng liu PUA 58
Bng 5-5 Kt qu kim th phân lai email bng phng pháp phân lai Bayesian
trên kho ng liu email ch 61
Bng 7-1 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán
AdaBoost with real -value predictions 77
Bng 7-2 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán
AdaBoost with discrete predictions 77
Bng 7-3 kt qu th nghim phân loi email vi ng liu email ch bng thut
toán AdaBoost with real-value predictions 79
Bng 7-4 Kt qu th nghim phân loi email vi ng liu email ch bng thut
toán AdaBoost with discrete predictions 80
9
Chng 1 : MU
10
1.1 Gii thiu:
Thi i ngày nay là thi i bùng n thông tin, Internet ã tr nên quen
thuc và không th thiu i vi mi quc gia và xã hi. Liên lc qua Internet ã tr
nên ph bin, vàemail là mt phng tin liên lc có chi phí thp, nhanh chóng và
hiu qu nht trên Internet. Hng ngày mi ngi s dng email u nhn c mt
ng ln email, tuy nhiên không phi tt c cácemail mà ta nhn c u cha
thông tin mà ta quan tâm. Nhng email mà ta không mun nhn y là email Spam.
Ngc li, nhng email không phi là spam gi là non-spam – email hp lc
ngidùng chp nhn.
Spam chính là nhng email c phát tán mt cách rng rãi không theo bt
c mt yêu cu nào ca ngi nhn vi s lng ln (unsolicited bulk email
(UBE)), hay nhng email qung cáo c gi mà không có yêu cu ca ngi nhn
(unsolicited commercial email (UCE)) [1].
Nhiu ngi trong chúng ta ngh rng spam là mt vn mi, nhng thc
ra nó ã xut hin khá lâu – ít nht là t nm 1975. Vào lúc khi thy, ngi dùng
hu ht là các chuyên gia v máy tính, h có th gi hàng tá thm chí hàng trm
email n các nhóm tin (newsgroup) và spam hu nh ch liên quan n các email
gi n các nhóm tin Usenet, gây ra tình trng không th kim soát c các email
nhn. Sau ó các bin pháp trng tr v mt xã hi và hành chính ã có tác dng,
th phm ã b trng pht , công khai hay bí mt, nhng ngi này nhanh chóng
c a vào mt danh sách, và mt k thut lc spam sm nht xut hin ó là
”bad sender” – lc email ca nhng ngi gi c xem là xu.
WWW(World-Wide Web) ã mang th gii Internet n nhiu ngi, và h
qu ca nó là nhiu ngi không phi là chuyên gia trong th gii máy tính cng
c tip xúc nhiu vi Internet, nó cho phép truy cp n nhng thông tin và dch
v mà trc ây là không c phép. Ch trong vòng 2-3 nm chúng ta ã chng
kin s bùng n s ngi s dng Internet và tt nhiên là nhng c hi qung cáo
trên y. Và spam ã phát trin mt cách nhanh chóng tây, nhng k thut ngn
[...]... 2003, s l ng email 6951 31 ng email spam 2398 l, s Chỳng tụi ti n hnh x lý v phõn l ai email : l ai b nh ng email cú t p tin ớnh kốm, phõn lo i email html v email v n b n tr n (text/plain) S email spam l v n b n tr n sau khi ó x lý kh ang 600 email, email nonspam l v n b n tr n sau khi ó x lý l kho ng 2500 mail S email non-spam l email html sau khi ó x lý l g n 200 mail, s email spam l email html sau... m cú 1182 email Nh ng email h p l khụng cú n i dung v nh ng email RC s b lo i b , k t qu l cú 618 email h p l Nh ng email spam trong PU1 l email spam ng ó nh n c trong kho ng th i gian 22 thỏng cho n th i it o m 12-2003, bao g m nh ng email khụng ph i l email ti ng Anh v nh ng email gi ng nhau nh n trong m t ngy PU2 c ng t ng t nh PU1, i m khỏc nhau õy l nh ng email RC PU3 v PUA,nh ng email h p l... lo i c email l spam hay non-spam, t ú s cú bi n phỏp ng n ch n email spam, hi u qu phõn lo i email ph i kh quan, tuy nhiờn khụng th ỏnh i hi u qu phõn lo i email spam cao m b qua l i sai cho r ng email non- spam l spam, b i vỡ cựng v i vi c t ng kh n ng phõn lo i email spam thỡ kh n ng x y ra l i nh n nh m email non-spam thnh email spam c ng t ng theo Do ú yờu c u i v i m t h th ng phõn lo i email spam... khi ó x lý kho ng 1000 mail Sau ú chỳng tụi t o thnh hai kho ng li u email v n b n tr n (text/plain) v email html Vi c t o kho ng li u email v n b n tr n (text/plain) th c hi n b ng cỏch ch n ng u nhiờn cỏc email t kho ng li u sau khi ó qua x lý, s email spam dựng hu n luy n l 517, s l ng email spam non-spam l v n b n tr n (text/plain) s l dựng ki m th l 98 V i ng li u email ng dựng hu n luy n l 528,... xỏc nh ng email spam ny th c s nt ó khộo lộo che gi u i ph n header c a email ú c n ph i hi u bi t v header c a email th t s nt õu do cỏc spammer n i ngu n g c Do hi u rừ email spam ny õu 2.2.2 Mail Blacklists /Whitelists: ít ng: M t danh sỏch en (Blacklist) cỏc a ch email hay cỏc mỏy ch email (mail server) chuyờn dựng c a cỏc spammer s 16 c thi t l p v d a vo ú ta cú th ng n ch n nh n email spam... dựng hu n luy n l 528, s l ng ki m th l 100 t o kho ng li u email html, chỳng tụi c ng xõy d ng t V i ng li u email non-spam l html, chỳng tụi dựng 141 emailemaildựng ng t nh trờn hu n luy n, 50 ki m th Cũn ng li u emal spam l html, chỳng tụi dựng 205 email hu n luy n v 50 email ki m th 32 Ch ng 4 : PH NG PHP PHN LO I NAẽVE BAYESIAN V LO I EMAIL 33 NG D NG PHN 4.1 M t vi khỏi ni m xỏc su t cú liờn... i, ch gi l i m t email m thụi ch ny c ỏp d ng cho c email spam v email non-spam Theo [18], trong quỏ trỡnh t o kho ng li u PU, m t v n phỏt sinh ú l cú m t l xuyờn liờn l c v i ng ng l n email l c a nh ng ng i g i th ng i t o kho ng li u - nh ng email RC (Relative Correspondence), nh ng email ny c ng c lo i b 3.1.2 Mụ t c u trỳc kho ng li u PU: Nh ng email h p l trong PU1 l nh ng email h p l ng c trong... n i ny Vi c thi t l p danh sỏch cỏc a ch email en hay mỏy ch g i email ny s do m t nhúm tỡnh nguy n xỏc nh n M t s nh cung c p d ch v m ng ISP s dựng danh sỏch en ki u ny v t ng t ch i nh n email t nh ng mỏy ch hay email trong dỏnh sỏch ú Nh v y, nh ng email spam s c phõn lo i v ch n ngay t i mỏy ch nh n email c m: Ph ng phỏp ny b c u lo i c kho ng 50% [5] email spam Khuy t m c a ph ng phỏp ny l chỳng... i email cỏ nhõn thỡ nh ng k g i email qu ng cỏo ph i thi t l p nhi u k t n i h n ng email gi ng nhau g im ts u ny lm cho cỏc email qu ng cỏo ú d dng b phỏt hi n d a trờn vi c phõn tớch s l ng email M t h n ch c a b l c ny l t l ch p nh n phõn lo i sai FAR (false acceptance rate) c a nú cũn khỏ cao V i: 3 http://spamshield.conti.nu 18 FAR = nS N nS nS N : email spam m b l c nh n l non-spam nS email. .. t c cỏc kho ng li u PU, cỏc t p tin ớnh kốm, cỏc th HTML, cỏc tr ng khỏc trong header c a email (subject) Cỏc d u ch m cõu, cỏc kớ t u b lo i b (ngo i tr tr c bi t khỏc (!,$) c ng 30 ng tiờu c xem xột c Tờn EmailEmail h p l ban EmailEmailEmail T ng T l non- RC h p l h p l spam s spam:spam khỏc b cũn l i u email gi l i xúa Pu1 1182 564 618 481 1099 1.28 Pu2 6207 5628 579 142 721 4.01 Pu3 8824 6253 . mt h thng phân loi email và ngn chn email spam
ng nhiên là phân loi c email là spam hay non-spam, tó s có bin pháp
ngn chn email spam,. nng phân loi email spam thì kh nng
xy ra li nhn nhm email non-spam thành email spam cng tng theo. Do ó yêu
cu i vi mt h thng phân loi email