Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
823,28 KB
Nội dung
TIẾU LUẬN MÔN HỌC KHAI THÁC DỮ LIỆU: !"# $%&'()*$*+ &'(,$- !"# $%&'()&* +, /0 12+34 567 7 '-. 869:;<=>?:@ABCDBEF@GH3I'&JK 3LMNKK3O+FPQR3 DS%I@T3LD<UFNVI6WD2:4DH%X6';;J:; YD>DQ;< Z46A&36[34&3\X6L'&FRFPGL]3>'>E;F^ 1M3946AS4:NFP_^3H%F`KL'WD4LR :;YD>DQ;< abFP)UDJEEEBcIKL4I=V@DB)3X6 LS6'QF]BF))%dI@_&4e<4'3K4';4:NFYFU ;;<F]';A 869C;6Af %12+34 567 7 /01 g_&h #'# YD>DQ6K(&4V>DR6YD;Ti:^%C>%&jXk&<XB L&/ %"23 &jXk&<XB>;6^%A%4%6&2l&'3MF] >;%A%4%%C>%&jXk&<XBg&jXk&<XB>&BBmXLh3)DS%6^ 4RVD2U4DQ'464<;F&L&I@WD>;6^94BDSIK TI'4+Xg-00nhFPF&L&6^:4'4'@UB'B4:^%C>% 5:Boi&jXk&<XBVDQ'4I4:&'16C<WD<@F\; 6NAL'4:4'4';<FPpL&Lq:^%C>%&jXk&<XB)DBDS AFJ&';FX6>NDWDJAV%A%4%I4L'UDLM ]%I4&D k4'4'BcLR:;<U:^%C>%Boi&jXk&<XB;V2i@ UBoi:^%C>%;<1M3:4'4'rLR:;<@@ I@;;FsTi6&':^%C>%&jXk&<XB6iF2I&4 V>D;%C>%5: ,a GH D<lA# Không gian m trong đ A l sai Không gian m trong đ A l đng Không gian s kin ca A (không gian ca tt c cc gi tr c th xy ra ca A) YD>DQ6K(&4V>DR6YD;Ti:^%C>%&jXk&<XB L&* 456789:$;<4=7>?<@ABC$@DCE 994FG7GHIJ6KL7BMNFJEOPQ: BoH&)6^266;I@WD_&)6&2Dg%i D^;'I5)Y9<L&h 4I46U94BDS • (K&4I5Q%]%S4I@WD)Y9<L& • I6^Q%'_&IK&4I5 • (K&4BIIK&g@h6;4I@WD_&BI )Y9<L& • k@DlFN6^BI;)6^6TF^UI59< L&BI;< 4:YDl_&94BDS • Z4BDS:>;94BDS_&6^:@J6;IKWD&C6F@4 :@JI4Z4BDS:_&BIF]>;&<>;te _&IK&g@h6;L'F)>;FHu • Z4 BDS ]%>; 94 BDS _& & :@ J b 9< L& Z4 BDS ]% _&;F]IdDg3h • Z4BDS)FUDI>;94BDS_&6^:@J;'F)3:@Lq6^ :@JI49<L&(dDgvh3;F>;w94BDS_&3:@w o KT2 hg h3g hvg = • ^>Q%U94BDS o &BI;F]>;F^>Q%U94BDS@D94BDS_&B I>;&DFJ4LM]% (BI9<L&3 ,a GH D<lA# YD>DQ6K(&4V>DR6YD;Ti:^%C>%&jXk&<XB L&x (BIIK9<L&3 (K)KUI59<L&_&BI o (F) • Z4BDS)FUDIy7:@>;94BDS_&#FJk; gFP:@h • ^>Q%)FUDI o &:@;F]>;F^>Q%)FUDIFJ:@@D94 BDS_&FJ:q94BDS_&FJ; o KTF\z& 9RS74>T$@DCE: L'64<3H&MWD&C6F@F&L&D<@294 S{IK&D<@DF]{:^V>DDS>D<aD<@2 94S|FC<F]YD>;D<@)I59<L&SL@3:^V>D DS>D<aBcDS%LT:&FeDU94BDSLFUDI_&4 D<@I4&Dbq6L'IK&\>dk&<XBF&L&6^%A %4%294BDS_&6^@&L94BDSLFUDI_&@F) &L4:^@I4&DL':^V>DDS>D<a hg hghvg hvg = L'F) • ghZ4BDSLg6h_&@g%C>'Nh • gahZ4BDSLg6h_&WD&B4F]V>Da • gavhZ4BDSg)FUDIh_&WD&B4F]V>Da3@D:@ @g%C>'Nh>;FH • gvahZ4BDSg)FUDIh_&@g%C>'Nh>;FH3@DWD& B4F]V>Da 9U$;<4=7>?<@ABC$@DCE: k^%C>%&jXk&<XBF]4%iL'V>D6G:^V>D9 F]6K:qBI@]%V&44L\D^2;4;66iDmg9h)4 L\:SI}L'Q%VDN,+^Q%V>D_&4;66iDF]DS% b6^:^V>D6F]6K:|6^Q%44L\D^2g& > 3& 7 & h k^%C>%&jXk&<XBF]BoiFYF'44L\6iD3's%C>%' :^V>D6;< ,a GH D<lA# YD>DQ6K(&4V>DR6YD;Ti:^%C>%&jXk&<XB L&~ A%4%k&<XBTiFY%C>%4LM]%6;'4L\6i D)I5&'S>; +# 344L\D^2g& > 3& 7 & h6K4 LN4&) +# • &@>N:YDTbF\>dk&<XB +# • • g-h &Bc2&NoL':YDTg-h&;'V>DDS>D<g € hF] 2:q4F@6eBDS6G4L\6iD € 9DSL'V>DDS>D< ,24Ng& > 3& 7 & v € hI4&DpIIH&)Q%V>D DS>D<>,SFU>;4BJ>]4N;<:qBJ>]4Y CBJ4L\6iD,RQ<3H&e%9X69•4LM]%iY L'IK&_&)UD>eFY)F]>]F4Q< A%4%%C>%&jXk&<XB&LFA'44F\6;4 L\D^2_&)F^>Q%)FUDI'L\6iD)4I43F\ >;)4L\6iD_&2iFP'394BDS_&4I@]%& > 3& 7 & p>;I@ WD94BDS_&4D^2F^>Q%g& > 3& 7 & v € h•&<;':YDTg-h3& )KTBoi'%A%4%%C>%&jXk&<XB k • g7h k >;4L\6iD_&%C>%&jXk&<XB )6>N3%A%4%&jXk&<XB>;6^%A%4%6;L'F)4 Ng € h;g& v € hI4&DF]2&LeBJ_&HL'V>D DS>D< Q%]%42;<AT4D<@ D<@;<B&DF)BcF]BoiFY%C>%{LM]%6:q44% i4WD<EL':YDTg7h(4F\_&:^%C>%&jXk&<XBU FUDIF^>Q%>;JD3%C>%&jXk&<XB k ;<AFA%C>% +# +^L'VI4:V&%A%4%&jXk&<XB;4%A%4% I4>;IK&D<@IKeR6I@66;F]R;6^4 FAKWD&F@6eBJ_&4V>DI4&DI@]%L'4:^V >DDS>D< ,a GH D<lA# YD>DQ6K(&4V>DR6YD;Ti:^%C>%&jXk&<XB L&0 9VWXYIG744Z@: kB&DDS%6^:^-n2iDS>D<_&4I466iD >&<XB36G;<F]6K:|4D^2‚D>''I3X6%3D6<3; ƒ„FC<3&Boi%A%4%%C>%&jXk&<XB;V>DDS>D<{ :;<FY%C>%2iB&D Day Outlook Temp Humidity Wind PlayTennis D1 Sunny Hot High Weak No D2 Sunny Hot High Stron g No D3 Overcas t Hot High Weak Yes D4 Rain Mild High Weak Yes D5 Rain Cool Normal Weak Yes D6 Rain Cool Normal Stron g No D7 Overcas t Cool Normal Stron g Yes D8 Sunny Mild High Weak No D9 Sunny Cool Normal Weak Yes D10 Rain Mild Normal Weak Yes D11 Sunny Mild Normal Stron g Yes D12 Overcas t Mild High Stron g Yes D13 Overcas t Hot Normal Weak Yes D14 Rain Mild High Stron g No ,a GH D<lA# YD>DQ6K(&4V>DR6YD;Ti:^%C>%&jXk&<XB L& g‚D>''I•BD<3X6%XL&DLX•''>3D6<•3ƒ•BL'h 6i_&H&>;F'44L\6iDgXB's'h_&I46 6iD'2i6;<k@F…:YDTg7hFY%b]%<DeD N34L\6iD k F]':| k • •g‚D>''I•BD<v € hgX6%XL&DLX•''>v € h gD6<•v € hgƒ•BL'v € h g†h Y2 k &e2 94BDS{V>DDS>D<eD394BDS_&4 L\6iDl;F]2&LeBJ_&)WD&-n2iDS>D< g>&<XB•<XBh•0‡-n•.*n g>&<XB•'h•/‡-n•.†* A3H&)Y2494BDS)FUDI,2i3ƒ•BL'>; gƒ•BL'v>&<XB•<XBh•†‡0•.†† gƒ•BL'v>&<XB•'h•†‡/•.*. oi4294BDS;>]A'44L\D^2? >N3&2'4 k X':YDTg†hB&D g<XBhgBD<v<XBhg''>v<XBhgv<XBhgBL'v<XBh•. /† g'hgBD<v'hg''>v'hgv'hgBL'v'h•..7.* a'F)3%C>%&jXk&<XB44L\6iD'2i6 ;<&L>]94BDSF]{V>DDS>D<AV&3FY…]% I@WD3&)Y2'494BDS)FUDIFY)4L\6iD>;394BDS ;<>; 9[?J>5\78NFJEOPQ: 2F@MFY6;<3&FP2F]94BDS:qBJ>e4BI9<L& L…BJ4A^,2i3L'LM]%DL3&2 :qKT L'F)>;BJLM]%DS>D<6; 3; >;BJ>e6; ab%CBJ;<DS%6^>]JU94BDSL'UDLM]%3) F&L&4>]IKF4IYI >;LS=,2iI4L\_& >;..~;Q%V>DDS>D<_&&p)/LM]% ,a GH D<lA# [...]... thỏc d liu: Tỡm hiu v ng dung b phõn lp Naùve Bayes Trang 14 trong ú n l tng s ca cỏc v trớ t trong tt c cỏc b hun luyn m giỏ tr muc tiờu l vj, nk l s ln t wk c tỡm thy trong n v trớ, v l tng s cỏc t phõn bit (v cỏc du khỏc) c tỡm thy trong d liu hun luyn 2.3 Thuõt toan chi tiờt: Thut toỏn hun luyn v phõn lp vn bn Naùve Bayes c th hin nh sau: LEARN_NAẽVE _BAYES_ TEXT(Examples, V) Examples l tp hp nhng... vj P(vj) Textj mt ti liu c to bi vic kt hp tt c cỏc ti liu docsj n s t khỏc nhau trong Textj Vi mi t wk trong Vocabulary nk s ln t wk xut hin trong Textj P(wk|vj) CLASSIFY_NAẽVE _BAYES_ TEXT(Doc) Tr v giỏ tr ó phõn lp cho ti liu Doc ai l t c tỡm thy v trớ th i trong Doc positions tt c v tr cỏc t trong Doc cha cỏc t nm trong Vocabulary Return vNB, vi vNB = agrmax P(vj)* GVHD: PGS TS Phỳc Hc viờn:... chớnh on vn ting Anh vớ du trờn Trong trng hp ny, chỳng ta cú biu thc tớnh toỏn phõn lp Naùve Bayes nh sau: GVHD: PGS TS Phỳc Hc viờn: Nguyn Phng Anh Tiu lun mụn hc Khai thỏc d liu: Tỡm hiu v ng dung b phõn lp Naùve Bayes Trang 13 vNB = = Túm li, phõn lp Naùve Bayes vNB l phng phỏp phõn loi cc i húa xỏc sut ca t c tỡm thy trong vn bn, tựy thuc vo cỏc gi nh c lp ca Naùve Bayes Cỏc trng thỏi gi nh c lp... table tblVocabulary Bc 3: Cng trong phng thc Learn_Naùve _Bayes_ Text (Examples, V) ca lp NaùveBayes, chng trỡnh s tớnh cỏc xỏc sut P(vj) v P(wk|vj) vi vj l mi giỏ tr trong tp giỏ tr muc tiờu V, P(vj)= , vi tp |docsj| c load t c s d liu trong table tblExamples tng ng vi giỏ tr muc tiờu l vj Sau khi tớnh xong P(vj) s c lu vo c s d liu table tblTargetValue Sau ú, vi mi t trong tp Vocabulary, xỏc sut P(wk|vj)=... Vocabulary, xỏc sut P(wk|vj)= vi nk l s ln t wk xut hin trong tp ti liu vn bn docsj nm trong th muc giỏ tr muc tiờu vj, tt c cỏc t trong tp ti liu vn bn docsj cng s c thanh lc ging nh tp Vocabulary, v n l s t trong tp ti liu docsj P(wk|vj) cng s c lu vo c s d liu table tblVocabulary vi mi ct c thờm vo trong table l giỏ tr muc tiờu vj tng ng, mi dũng s l cỏc t trong tp Vocabulary vi giỏ tr l xỏc sut P(wk|vj)... s tng ng vi giỏ tr muc tiờu no trong tp giỏ tr muc tiờu V, gm 2 bc: Bc 1: trớch xut tt c cỏc t trong file vn bn Doc ng thi loi b nhng ký t khụng cn thit v lu vo wordDoc Cỏc t trong tp wordDoc khụng cn phi loi b stop word vỡ trong tp ny, ch nhng t nm trong tp GVHD: PGS TS Phỳc Hc viờn: Nguyn Phng Anh Tiu lun mụn hc Khai thỏc d liu: Tỡm hiu v ng dung b phõn lp Naùve Bayes Trang 19 Vocabulary (ó loi... phõn lp Naùve Bayes Trang 21 Chng 4: Kờt luõn B phõn lp vn bn Naùve Bayes l mt phng phỏp hc da trờn lý thuyt Bayes ó em li nhiu hu ớch trong ng dung thc tin Nú c gi v Naùve bi vỡ nú kt hp cht ch vi nhng gi nh n gin rng nhng giỏ tr ca thuc tớnh c lp tựy theo iu kin, da vo vic phõn lp nhng thc th Khi gi nh ny phự hp, b phõn lp Naùve Bayes tr thnh b phõn lp MAP Thm chớ nu gi nh ny khụng phự hp, trong nhiu... P(wk|vj), din t xỏc sut t ca mt vn bn trong lp vj l wk Nú cng tớnh trc giỏ tr xỏc sut P(vj) 1 Thu thp tt c t, du chm cõu v tt c cỏc du khỏc tn ti trong Examples Vocabulary tp hp tt c cỏc t khỏc nhau v nhng du cõu khỏc tn ti trong bt ky ti liu vn bn t tp Examples 2 Tớnh cỏc xỏc sut P(vj) v P(wk|vj) Vi mi giỏ tr vj trong V do o docsj tp con ca nhng ti liu vn bn trong Examples tng ng vi o o o o mi giỏ... phng phỏp phõn lp Naùve Bayes trong phõn loi vn bn bao gm 2 vn chớnh sau: Trc tiờn, ta phi tỡm cỏch th hin cỏc b vn bn hun luyn di dng mt tp cỏc thuc tớnh Tip theo, ta phi tớnh cỏc xỏc sut cn thit nm trong cụng thc phõn lp Naùve Bayes 2.1 Huõn luyờn d liờu: Hng tip cn ca chỳng ta th hin cỏc b vn bn hun luyn tng i n gin: cho mt ti liu vn bn ting Anh, chỳng ta xỏc nh v trớ mi t trong vn bn s cú mt thuc... b phõn lp Naùve Bayes Trang 15 Chng 3: Thiờt kờ v ci t chng trinh 3.1 Cõu trỳc ca chng trinh: S mi liờn h gia cỏc lp trong chng trỡnh: Hỡnh 1: S mi liờn h gia cỏc lp Qua s , ta cú th thy lp Naùve Bayes l lp chớnh liờn h gia lp giao din ngi dựng vi cỏc lp khỏc trong chng trỡnh Chc nng cu th ca cỏc lp nh sau: MainForm: cung cp tp d liu hun luyn v d liu phõn lp t ngi dựng cho lp NaùveBayes x lý, ng thi . L&/ %"23 &jXk&<XB>;6^%A%4%6&2l&'3MF] >;%A%4%%C>%&jXk&<XBg&jXk&<XB>&BBmXLh3)DS%6^ 4RVD2U4DQ'464<;F&L&I@WD>;6^94BDSIK TI'4+Xg-00nhFPF&L&6^:4'4'@UB'B4:^%C>% 5:Boi&jXk&<XBVDQ'4I4:&'16C<WD<@F; 6NAL'4:4'4';<FPpL&Lq:^%C>%&jXk&<XB)DBDS AFJ&';FX6>NDWDJAV%A%4%I4L'UDLM ]%I4&D k4'4'BcLR:;<U:^%C>%Boi&jXk&<XB;V2i@ UBoi:^%C>%;<1M3:4'4'rLR:;<@@ I@;;FsTi6&':^%C>%&jXk&<XB6iF2I&4 V>D;%C>%5: ,a GH D<lA# Không gian m trong đ A l sai Không gian m trong đ A l đng Không gian s kin ca A (không gian ca tt c cc gi tr c