1. Trang chủ
  2. » Luận Văn - Báo Cáo

luận văn -thuật toán bayes và ứng dụng - luận văn, đồ án, đề tài tốt nghiệp

57 949 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 57
Dung lượng 3,58 MB

Nội dung

DAI HQC QUOC HA HA N I TRUIING DQ HQC CONG NGHE, THUAT TOAN BAYES VA IJ’NG DUNG KHOA LU TOT NGHIEP DAI HOC HE CHINH QUY Nganh : Cong Ngh e) Thong Tin DQ HQC QUOC HA HA N I TRU£1NG DQ HQC CONG NGHE, THUAT TOAN BAYES VA IJ’NG DUNG KHOA LU TOT NGHIEP DAI HOC HE CHINH QUY Nganh : Cong Ngh e) Thong Tin C:in b(o huiing dd n: ThS. Nguye’n Nam Hai C:in b(o dong hinting din: ThS. Dfi Hoii ng Ki“en Viet khoa 1ua) n khoa hoc la mot trong nhiing viec kho khan nhat ma em ph:ii hoén thanh tir trucrc de'n nay. Trong qua trinh thirc hie(n de tai em da gap rat nhiéu kho khan va bcr ngo. Néu khong co nhiing su giup do va Hi dong vie“n chan thanh cua nhiéu thay co ban be va gia gia dinh co lé em kho co the hoén thénh 1ua( n van my. Dau tién em xin gfri Hi cain on chan thanh den thay Nguyen Nam Hai va thay Do Hoang Kién da truc tiép huéing dan em hoén thanh 1ua)n van my. Nhcr co thay ma em dupc tie'p cm voi nguon tai lieu gia tri. cling nhir nhiirig gop y guy gin sau my. Ben canh su giup dci do, em co duoc cac thay bén Trung tain way tinh tao moi diéu kien em diroc tiép cfin voi he thong. Em biét on nhiing ngay thang dupe tain viéc be“n cac thay, em khong the“ mo que“n nhiing ngay thang tuyet voi do. Trong qua trinh gop nhiit nhiing kién thirc guy bau, ciic thay, co, by be la nhimg ngufii da ciing em sat cénh trong suot thoi gian em hoc tap va nghie“n ciii duoi in:ii truéing Dai hoc Cong nghé. Trong nhiing no luc do, khong the khong ké den cong lao to 1éin khong gi co the den dap cua cha me nhiing ngucri da sinh thénh, duéing duc con nén nguoi, luon nhac nhci, dong vién con hoén thénh tot nhiém vu. Nguye“n Van Huy Tom tat noi dung Thong ké (to:in hoc) la bo mon toén hoc rat quan trong va co nhiéu Eng dung to 1éin trong thuc té, gifip con ngufii rfit ra thong tin tu“ dii lieu quan sat, nham gi:ii quye't ciic bai toiin thuc té trong cuoc song. Trong khoa 1ua) n my trinh bay ve“ mot tiép cfin thong ke“ trong vie(c du doén sir kie)n dua vao 1y thuyet Bayes. Ly thuyet my noi ve viec tinh xac suat ciia su kien dira vao cac két qua thong ké cac sir kien trong qua khu. Sau viec tinh toiin Sau phan 1y thuyet chfing ta sé tim hieu ve bai to:in thuc té trong ngiinh cong nghe“ thong tin. Bai toiin ve vie(c loc thu rite tjr do( ng. Giai quyet bai my la su két hpp tu“ rat nhiéu phuong an nhu DNS Blacklist, kie“m na nguoi nhan, nguoi gin, dung bo loc Bayes, chan dia chi IP, Blacklist/Whitelist, Dung bo loc Bayes la phuong tin thong minh no gan gin véii nguoi dung bcri chinh ngucri dung da hua luyen no nhan bie't thu rac. Khoa 1ua)n my tap chung vao viéc tim hieu bo loc thu rac Bayesspam — ma n on mcr cai da)tt cho he thong email co ten la S SquuiirrrreellMMaaiill — rub n on m‹i dan dirpc dung cho he thong email cua truéing dai hoc Cong nghe - Coltech Mail. Ket qua cho thay bo loc co muc do hoat dong hieu quit la khac nhau tiiy thuoc viec ngucri dung huan luyen cho bo loc thong qua cac thu dien tu ma ho cho la thir rac nhung rio chung bo loc da dem lai hieu qua kha tot. Thuat toan Bayes va ting dung Thu)at toén Bayes va ring dpng Phq lqc A Cn sn dir li(u ciia b(o lpc 43 Téi lie(u thaw khd o 44 Thuat toan Bayes v:i ting dung Chuong 1 Giéi thi(u 1.1 T6ng quan Khoa hoc thong ke“ dong mot vat tro cuc quan Oong, mot vai tro khong the thie'u dupc trong bat cir cong sinh nghién ciiu khoa hoc, nhiit la khoa hoc thirc nghiem nhu y khoa, sinh hoc, nong nghiep, hoa hoc, va ngay ca xa hoi hoc. Thi nghiem dua vao cac phirong phiip thong ké hoc co the cung cap cho khoa hoc nhiing cau O:i Hi khach quan nhat cho nhimg van de kho khiin nhat. Khoa hoc thong ké la khoa hoc ve thu th)ap, phan tich, die“n giai va trinh bay cac dir 1i“eu de tir do tim ra ban chiit va tinh guy 1ua( t cua ciic hi(en tirpng kinh té, xa hoi - tu nhién. Khoa hoc thong ké dua vio 1y thuyet thong ké, mot loai torn hoc ring d g. Trong 1y thuye't thong ké, tinh chat ngau nhién va su khong chiic ch% co the lam mo hinh dua vao 1y thuyet xiic suat. Vi muc dich ciia khoa hoc thong ké la de tao ra thong tin "ding nhat" theo dir lieu co san, co nhie“u hoc gia nhin khoa thong ké nhu mot loai 1y thuyet quye't du) ih. i mo quan trong, cung cap cac thong tin thong ké trung thuc, khach quan, chinh xiic, diiy dii, ki.p tho trong viéc diinh gia, du biro tinh hinh, hoach dinh chién luoc, chinh such, xay dpng ké hoach phat trién kinh té - xa hoi v:i d:ip ring nhu ciiu thong tin thong ké ciia cac to chirc, ca nhfin. Trong so nhiing vai tro quan trong thi du bio tinh hinh la mot trong nhiing vat tro mang nhie“u y nghia, no co ca mot qu:i trinh hua luyen bén trong va co tinh xii 1y tu dong khi da duoc hua luyen. Hay noi kh:ic hon la khi da co tri thiic lay tir ciic dii lieu thong ke“ hay kinh nghiem ciia nguéii dung két hpp véii mot phuong phap hoc (huan 1uye“n) dua trén 1y thuyet thong ké ta sé co duoc mot duoc nhiing quyet dinh voi do chinh xac kha cao. thuc de“ tu no co the dira ra Phan tich thong ké la mot khau quan trong khong the thieu dirpc trong cac cong trinh nghién ciiu khoa hoc, nhat la khoa hoc thuc nghiem. Mot cong trinh nghién ciiu khoa hoc, cho du co ton ke" m va quan trong co mo, néu khong dupe phfin tich dung phirong phap gicr co cc hoi duoc xuat hieu trong cac tap san khoa hoc. Ngay nay, chi “ nhin qua tat ca cac trip san nghién emu khoa hoc trén the gioi, hau nhir bat cu bai biro y hoc mo ciing co phan “Statistical Analysis” (Phan tich thong ke“), noi run tae gin phai mo ta cfin than phuong phap phan tich, tinh toan nhu the mo, va giai thich ngan gon tai sao su dung nhiing phuong phap do de ham y “biro ke“” hay 1 Thuat toan Bayes va ting dung tiing trong luong khoa hoc cho nhirng phiit bie“u trong bai biro. Ciic tap san y hoc co uy tin cang cao yéu cau ve phfin tich thong ké cang néng. Khong co phan phiin tich thong ke“, bai biro khong the xem la mot “bai bao khoa hoc”. Khong co phfin tich thong ke“, cong trinh nghién c hu chua dope xem la hoan tat. Trong khoa hoc thong ké, co hai truéing ph:ii “canh nanh” song song voi nhau, do la triréing phai tiin so (frequentist school) va tru6ng phiii Bayes (Bayesian school). Phfin 1éin ciic phuong phiip thong ké dang str dijng ngay nay dupc phat trién tir trufing phiii tfin nay, tru6ng phai Bayes dang trén da “chinh phuc” khoa hoc bang mot suy right “moi” ve khoa hoc va suy luan khoa hoc. Phuong phap thong ké thuo( c truéing phai tiin so thiréing don gién hon ciic phuong phap thuo( c trufing phiii Bayes. Céi nguoi tiing vi von rang nhiing ai law thong ke“ theo trufing phai Bayes 1:i nhting thieu tai! De hieu su khiic biet cc bun giira hai truéing phiii my, co Ie" cfin phai noi doi qua vai dong ve triét 1y khoa hoc thong ké bang mot vi du ve“ nghién ciiu y khoa. De“ biet hai thu)at diéu tri co hieu qu:i giong nhau hay khong, nha nghién ciiu phai thu thap dir 1ie(u trong hai nhéim be“nh nhfin (mot nhom dupc diéu tri. bang phuong phiip A, va mot nhom duoc diéu tri. bang phuong ph:ip B). Truéng phiii tiin so da)t ciiu hot rang “néu hat thuat die“u tri. co hieu qu:i nhu nhau, x:ie suat run dir lieu quan sat 1:i bao nhie“u”, nhung truéing phiii Bayes hoi khiic: “Voi dli lieu quan siit dupc, xiic suiit rn:i thua) t diéu tri. A co hieu qu:i cao hon thu(at diéu tri B la bao nhiéu”. Tuy hai ciich hoi thoat diiu méii dpc qua thi chiing co gi khiic nhau, nhung suy right chung ta se thay do la so khac biet mang tinh triét 1y khoa hoc va y nghia ciia no rat quan trong. Doi voi nguoi bite st (hay nha khoa hoc noi chung), suy luan theo tru6ng phai Bayes la rat tu nhie“n, rat hpp véii thuc Ie. Trong y khoa tain sang, ngucri biic st ph:ii su dijng ket qua xét nghi e( m de phiin doiin bénh nhiin mac hay khong mac ung thir (ciing giong nhu trong nghién ciiu khoa hoc, chting ta phiii st dqng so lieu de suy 1ua)n ve khii uang ciia mot gin thiét). Thu a)t to:in Bayes va ring dpng 1.2 Can true Ciic phan co lai cua khoa 1ua)n co cau triic nhir sau: Chuong 2 trinh bay cc so 1y thuyet Bayes cue khiii niem, phirong phap duoc su dung trong khoa 1ua)n. Chuong 3 trinh bay 1y thuyet Bayes riling cao - Naive Bayes. Chuong my sé de cap den khiii nie“ m, uu diem va Eng dung phfin loai cua no tir do cé n cu nghién c6u xay dprig he thong phfin loai viin ban. Chuong 4 trinh bay chi tiét ve bo loc bao gore cac van de ve“ cc so tri thuc, viéc hut luyen cho bo loc, cach thuc lam viec va huéing c:ii tién trong viec loc thu riic. Chuong 5 trinh bay ket 1ua)n ve chirong trinh ting dqng bo loc BayesSpam cai dat trén he thong thir dien tir Squirrelmail. Chuong 2 Cn sit ly thuyét 2.1 Ph:it biéu d]nh ly Bayes Dinh 1y Bayes cho phép tinh xiic suat xiiy ra ciia mot sir kien ngau nhién A khi biet su kien lien quan B da x:iy ra. X:ie suat nay dirpc hie(u la P(A B) , va doc 1:i xiic suat ciia A ne'u co B . Dai luong n:iy dupc got xac suat co diéu kien hay xiic suat hiiu nghi e( m vi no duoc riit ra tir gin tri diroc cho cua B hoac phu thu(oc vao gia tri. do. Theo dinh li Bayes, xac suat xay ra A khi biet B se" phu thuoc vao 3 yéu to: > Xiic suat xay ra A cua rie“ng no, khong quan than den B. Ki hieu la P(A) va dpc la xac suat cua A. Day dupc got la xac suat bién duyén hay xiic suat tién nghiem, no la "tién nghiem" theo nghia rang no khong quan than den bat ky thong tin mo ve B. Xiic suat xay ra B khi biet A xay ra. Ki hie(u la P(B A) va doc la "xiic suat cua B néu co A . Dai luong my goi la kha uang ( likelihoods xay ra B khi biet A da x:iy ra. Chu y khong nham lan giita kha uang xay ra A khi biet B va xac suat xay ra A khi biet B. Khi biet ba dai luong my, xac suat cua A khi biet B cho boi cong thuc: Thuat toiin Bayes va ting dung 1 0 [...]... khoiing c:ich my 2 Thuat to:in Bayes va ring dung ( 1-1 2) ( 1-1 2a) Qua do ta co dupe ham quyet dinh tuyén tinh H a i 1 é i l6 Thuat to:in Bayes va ring dung p phfin blet voi phan phoi chua, x:ie suat tién nghiem dong nhat va covariance va viin con co mot cong thiic rat don gum cho xiic suat cua loi ciia phiin ( 1-1 3) ( 1- 13a) ( 1-1 3b) l6 Thu(at torn Bayes va ring d9ng binh phuong ciia kho:ing ciich Bhattacharyya,... phoi Gauss trtc /trpzig méu dupe cho béii cue cong thuc ( 1-1 0a) va ( 1-1 0b) chinh la inc lirpng hpp ly cvc dqi va no sé hoi tu ' mot gin thuc 14 Thua)t toiin Bayes va ting d;ing Hinh 7: The be ll -shapcJ surfacc of a two-dimensional normal disiribu‹ion An ct \ ipsis with equal probability density points is at.so shown Nhu co the’ nhin thay tit ( 1-1 0), cue be mii.t ciia mat do xiic suat dong nhat voi hpp... | in,) ( 1-1 1) biéu doi logarit ta dupe: ( 1-1 1a) l l ( 1-1 1b) Bang ciich sts d;ing nhiiog ham quyet dinh, ro rang phu thuoc Mahalanobis metric, ta co the xay dpng phén 1éip Bayes véri rim ro nho nhat, day la phén lép Hi uu Chis y rang cong thuc (I-llb) sir d;ing gin tri that ctia khoang ciich Mahalanobis, trong khi rrui truoc do chfing ta su d;ing me lupng cua khoiing c:ich my 2 Thuat to:in Bayes va... cong thuc Bayes: Luu y réng P(w,) va P(w,|x) la cac xac suat rcri rac, trai lai p(x|w,) va p(x) la cac gin tr] cua ham run.t do xac suat De y rang khi so s:inh ( 1-2 a) ta co gia tri chung la p(x) do do ta viét lai: if p(x|w;) P(w;) > p(x|w )P(w ) then x ÷ w; else x c w ( 1-4 ) Hay la: then x ÷ w; Trong “rig thuc ( 1-4 a) thi v(x) goi la else x c w so hpp 1y (likelihood ratio) ( 1-4 a) Thua)t toiin Bayes va... rejection néu < (G-1)/c, do do k C [(c-1)/c, 1] Thufit toiin Bayes va ting d;ing Thua)t toiin Bayes va ting d;ing Chting ta ’nnh boa khiii ni(em reject class su ding du lieu cork stoppers GU su réng mot reject threshold = 0.7 la ngitfing dupe quy dinh Tinh bie“n quyet dinh cho reject class la dii de xiic dinh ham phén 1crp voi cue xiic suat tién nghi(em P(in;) = 1- = 0.3, P(in ) = 1- = 0.7 Cum duéing... Thu(at toan Bayes va ting dung Chuong 3 3.1 Phan lép Naive Bayes DJnh nghia Naive Bayes classifier la mot thu(at ngii trong xu 1y so lieu thong ké Bayesian véii mot phan 1éip xiic suat dua nén cac mug dijng dinh 1y Bayes vcri gia dinh dpc lap bén viirig Mot thuat ngii mo ta chi tiét cho nhiing mo hinh xac suat sé la “mo hinh da)c trung khong phu thuoc” Trong thuat ngtt don gun, mot naive Bayes classifier... naive Bayes ma khong tin cr xac suat Bayesian hoac bring ciich str dung bat cir phuong phiip Bayesian Mac du thiét ke' ngay the va hinh nhu gia d)iiih don gi:in hon, naive Bayes classifiers thufing tain viec trong nhiéu tinh huong the gioi thuc phuc tap tot hon co the mong dpi Moi day, xem xét van de phan 1éip Bayesian da co the thay co mot so 1y thuyet giai thich cho tinh hieu quit cua naive Bayes. .. vi mat rruit: 0 if i —— j 1 if j « j (I -7 a) Trong truéing hpp my tit tat cii cue x:ie suat hau nghiem déu tiing ten mot, chfing ta cén phiii cue tiéu hoa: Thuat toan Bayes va ting dung Dieu my tuong dirong voi viec chfing ta cuc dai P(wi | x), 1ua)t quyet dinh Bayes cho riu ro cuc tie“u tuong Eng véii viec tong quat hoa van de: ( 1-7 c) Tém lai lu‹1t quyét dinh Bayes cho ii ro circ tiéu, khi sir phén... viln ban Naive Ki thu(at phan hoach ciia Naive Bayes dua trén cci scr dinh li Bayes va d)ac biet phu hpp cho cue triténg hpp phén loai co kich thucic dau vao la 16n Mac du Naive Bayes khii don gum nhung no co kha nding phan loai tot hon rat ohiéu phuong Thuat toiin Bayes va King d;ing phiip phfin hoach phuc tap khiic Véri moi loai van bun, thu(at to:in Naive Bayes tinh cho moi t:ii lieu d› sé dupe gén... 1éip Thuat toan Bayes va ting dung tuye'n tinh, da) c biet la trong khong gian nhiéu chie“u, va ta elm phai co mot tuong 1éin trip dir lieu hua 1uye(n (xem vi dq ciia f ukun‹i g‹i and Hayes, 1989) Thufit toiin Bayes va ting d;ing 2.4 Mién quyét d;inh Trong thuc te' ctia cue iltig d;ing nhfin ‹1i;ng u, don gum ta chi cén sit d;ing mot lufit quyet d)mh nhu c:ie ’rig thuc ( 1-2 a) va ( 1-7 c) klii do sé . lai hieu qua kha tot. Thuat toan Bayes va ting dung Thu)at toén Bayes va ring dpng Phq lqc A Cn sn dir li(u ciia b(o lpc 43 Téi lie(u thaw khd o 44 Thuat toan Bayes v:i ting dung Chuong 1 Giéi. school) va tru6ng phiii Bayes (Bayesian school). Phfin 1éin ciic phuong phiip thong ké dang str dijng ngay nay dupc phat trién tir trufing phiii tfin nay, tru6ng phai Bayes dang trén da “chinh. khiii niem, phirong phap duoc su dung trong khoa 1ua)n. Chuong 3 trinh bay 1y thuyet Bayes riling cao - Naive Bayes. Chuong my sé de cap den khiii nie“ m, uu diem va Eng dung phfin loai cua no

Ngày đăng: 06/10/2014, 14:57

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w