Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 132 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
132
Dung lượng
1,68 MB
Nội dung
TRNG I HC KHOA HC T NHIÊN KHOA CÔNG NGH THÔNG TIN B MÔN H THNG THÔNG TIN SINH VIÊN THC HIN NGUYN TRN THIÊN THANH - TRN KHI HOÀNG TÌM HIU CÁC HNG TIP CN BÀI TOÁN PHÂN LOI VN BN VÀ XÂY DNG PHN MM PHÂN LOI TIN TC BÁO IN T KHÓA LUN C NHÂN TIN HC Tp.HCM, 2005 TRNG I HC KHOA HC T NHIÊN KHOA CÔNG NGH THÔNG TIN B MÔN H THNG THÔNG TIN SINH VIÊN THC HIN ̇ NGUYN TRN THIÊN THANH - 0112243 ̇ TRN KHI HOÀNG - 0112305 TÌM HIU CÁC HNG TIP CN BÀI TOÁN PHÂN LOI VN BN VÀ XÂY DNG PHN MM PHÂN LOI TIN TC BÁO IN T KHÓA LUN C NHÂN TIN HC GIÁO VIÊN HNG DN C nhân : NGUYN VIT THÀNH Thc s : NGUYN THANH HÙNG Niên khóa 2001-2005 i LI CM N Chúng em xin gi li cm n chân thành và sâu sc nht đn thy Nguyn Vit Thành và thy Nguyn Thanh Hùng đã tn ty hng dn, đng viên, giúp đ chúng em trong sut thi gian thc hin đ tài. Chúng em xin chân thành cm n quý Thy Cô trong Khoa Công Ngh Thông Tin truyn đt kin thc quý báu cho chúng em trong nhng nm hc va qua. Chúng con xin nói lên lòng bit n đi vi Ông Bà, Cha M luôn là ngun chm sóc, đng viên trên mi bc đng hc vn ca chúng con. Xin chân thành cám n các anh ch và bn bè đã ng h, giúp đ và đng viên chúng em trong thi gian hc tp và nghiên cu. Mc dù chúng em đã c gng hoàn thành lun vn trong phm vi và kh nng cho phép nhng chc chn s không tránh khi nhng thiu sót. Chúng em kính mong nhn đc s cm thông và tn tình ch bo ca quý Thy Cô và các bn. Sinh viên thc hin, Nguyn Trn Thiên Thanh & Trn Khi Hoàng 07/2005 ii LI NÓI U Trong nhng nm gn đây, s phát trin vt bc ca công ngh thông tin đã làm tng s lng giao dch thông tin trên mng Internet mt cách đáng k đc bit là th vin đin t, tin tc đin t Do đó mà s lng vn bn xut hin trên mng Internet cng tng theo vi mt tc đ chóng mt. Theo s lng thng kê t Broder et al (2003), lng thông tin đó li tng gp đôi sau t 9 đn 12 tháng, và tc đ thay đi thông tin là cc k nhanh chóng. Vi lng thông tin đ s nh vy, mt yêu cu ln đt ra đi vi chúng ta là làm sao t chc và tìm kim thông tin có hiu qu nht. Phân loi thông tin là mt trong nhng gii pháp hp lý cho yêu cu trên. Nhng mt thc t là khi lng thông tin quá ln, vic phân loi d li u th công là điu không tng. Hng gii quyt là mt chng trình máy tính t đng phân loi các thông tin trên. Chúng em đã tp trung thc hin đ tài “Tìm hiu các hng tip cn cho bài toán phân loi vn bn và xây dng ng dng phân loi tin tc báo đin t” nhm tìm hiu và th nghim các phng pháp phân loi vn bn áp dng trên ting Vit. thc hin vic phân lo i, điu bt buc đi vi ting Vit đó là vic tách t. Trong lun vn này, chúng em cng tìm hiu mt s cách tách t ting Vit và th nghim mt phng pháp tách t mi thích hp cho vic phân loi mà không dùng bt k t đin hoc tp ng liu nào. Cui cùng, chúng em xây dng phn mm phân loi vn bn tích hp vào trang web “Toà son báo đ in t” (Lun vn khoá 2000 - Hoàng Minh Ngc Hi (0012545), Nguyn Duy Hip (0012038)) nhm phc v cho vic phân loi tin tc báo đin t. Hin nay, trang web ca khoa chúng ta vn cha thc hin đc vic phân loi t đng các tin tc ly v, do đó gây ra rt nhiu lãng phí v thi gian và công sc ca nhà qun tr cng nh làm gii hn vic thu thp tin tc t nhiu ngun khác nhau. ng dng phân loi tin tc báo đin t tích hp vi vic ly tin tc t đng ca chúng em hy vng s đem đn mt cách qun tr mi, nhanh chóng và hiu qu hn cách ly tin truyn thng. Ngoài ra, trong điu kin cn cp nht thông tin mt iii cách nhanh chóng nh hin nay, phn mm phân loi vn bn t đng ca chúng em còn có kh nng ng dng cho nhiu loi trang báo đin t ting Vit khác. Ni dung ca lun vn đc trình bày bao gm 8 chng; trong đó, 3 chng đu trình bày các hng tip cn cho phân loi vn bn và tách t ting Vit hin nay; 2 chng tip theo trình bày hng tip cn ca lun v n đi vi phân loi vn bn và tách t ting Vit; 3 chng cui trình bày h thng th nghim vn bn, ng dng vào phân loi tin tc bán t đng, và cui cùng là đánh giá, kt lun quá trình nghiên cu ca lun vn. Ü Chng 1. Tng quan: gii thiu s lc v các phng pháp phân loi vn bn và các hng tip cn cho vic tách t ti ng Vit; đng thi xác đnh mc tiêu ca đ tài. Ü Chng 2. Mt s phng pháp phân loi vn bn: gii thiu tóm tt mt s phng pháp phân loi vn bn dành cho ting Anh. Ü Chng 3. Phng pháp tách t ting Vit hin nay: trình bày tóm tt mt s phng pháp tách t ting Vit hin nay, u đim và hn ch ca các ph ng pháp đó. Ü Chng 4. Phng Tách t Ting Vit không da trên tp ng liu đánh du (annotated corpus) hay t đin (lexicon) – Mt thách thc: trình bày phng pháp tách t ting Vit mi ch da vào vic thng kê t Internet thông qua Google mà không cn bt k t đin hay tp ng liu nào. Ü Chng 5. Bài toán phân loi tin tc báo đin t: trình bày hng tip c n cho bài toán phân loi tin tc báo đin t. Ü Chng 6. H thng th nghim phân loi vn bn: gii thiu v h thng th nghim các phng pháp tách t và phân loi vn bn do chúng em xây dng. Ngoài ra, trong chng 6, chúng em trình bày v d liu dùng đ th nghim và các kt qu th nghim thu đc. Ü Chng 7. ng dng phân loi tin tc báo đi n t bán t đng: gii thiu ng dng phân loi tin tc báo đin t do chúng em xây dng tích hp iv trên trang web do lun vn “Tòa son báo đin t” khóa 2000 xây dng ca sinh viên Hoàng Minh Ngc Hi (0012545), Nguyn Duy Hip (0012038) Ü Chng 8. Tng kt: là chng cui cùng ca đ tài, tóm li các vn đ đã gii quyt và nêu mt s hng phát trin trong tng lai. v MC LC Chng 1. TNG QUAN 2 1.1. t vn đ 2 1.2. Các phng pháp phân loi vn bn 2 1.3. Tách t Ting Vit – Mt thách thc thú v 3 1.4. Mc tiêu ca lun vn 5 1.4.1. Phn tìm hiu các thut toán phân loi vn bn 5 1.4.2. Phn tách t ting Vit 5 1.4.3. Phn mm phân loi tin tc báo đin t bán t đng 5 1.4.4. óng góp ca lun vn 6 Chng 2. CÁC PHNG PHÁP PHÂN LOI VN BN TING ANH 8 2.1. Bi cnh các phng pháp phân loi vn bn hin nay 8 2.2. Các phng pháp phân loi vn bn ting Anh hin hành 8 2.2.1. Biu din vn bn 8 2.2.2. Support vector Machine(SVM) 10 2.2.3. K–Nearest Neighbor (kNN) 12 2.2.4. Naïve Bayes (NB) 13 2.2.5. Neural Network (NNet) 15 2.2.6. Linear Least Square Fit (LLSF) 17 2.2.7. Centroid- based vector 18 2.3. Kt lun 19 Chng 3. CÁC PHNG PHÁP TÁCH T TING VIT HIN NAY 22 3.1. Ti sao tách t ting Vit là mt thách thc? 22 3.1.1. So sánh gia ting Vit và ting Anh 22 3.1.2. Nhn xét 23 3.2. Bi cnh các phng pháp tách t hin nay 23 3.2.1. Bi cnh chung 23 3.2.2. Các hng tip cn da trên t (Word-based approaches) 24 3.2.3. Các hng tip cn da trên ký t (Character-based approaches) 26 3.3. Mt s phng pháp tách t ting Vit hin nay 28 3.3.1. Phng pháp Maximum Matching: forward/backward 28 vi 3.3.2. Phng pháp gii thut hc ci bin ( TBL) 30 3.3.3. Mô hình tách t bng WFST và mng Neural 31 3.3.4. Phng pháp quy hoch đng (dynamic programming) 34 3.3.5. Phng pháp tách t ting Vit da trên thng kê t Internet và thut toán di truyn (Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese - IGATEC) 34 3.4. So sánh các phng pháp tách t Ting Vit hin nay 37 3.5. Kt lun 37 Chng 4. TÁCH T TING VIT KHÔNG DA TRÊN TP NG LIU ÁNH DU (ANNOTATED CORPUS) HAY T IN (LEXICON) – MT THÁCH THC 40 4.1. Gii thiu 40 4.2. Các nghiên cu v thng kê da trên Internet 40 4.2.1. Gii thiu 40 4.2.2. Mt s công trình nghiên cu v thng kê da trên Internet 41 4.2.3. Nhn xét 43 4.3. Các phng pháp tính đ liên quan gia các t da trên thng kê 43 4.3.1. Thông tin tng h và t-score dùng trong ting Anh 44 4.3.2. Mt s ci tin trong cách tính đ liên quan ng dng trong tách t ting Hoa và ting Vit 46 4.3.3. Nhn xét v các cách tính đ liên quan khi áp dng cho ting Vit 48 4.4. Tin x lý (Pre-processing) 49 4.4.1. X lý vn bn đu vào 49 4.4.2. Tách ng & tách stopwords 50 4.5. Hng tip cn tách t da trên thng kê t Internet và thut toán di truyn (Internet and Genetic Algorithm - based ) 51 4.5.1. Công c trích xut thông tin t Google 51 4.5.2. Công c tách t dùng thut toán di truyn (Genetic Algorithm – GA) 53 4.6. Kt lun 61 Chng 5. BÀI TOÁN PHÂN LOI TIN TC IN T 63 5.1. Lý do chn phng pháp Naïve Bayes 63 5.2. Thut toán Naïve Bayes 64 5.2.1. Công thc xác sut đy đ Bayes 64 vii 5.2.2. Tính đc lp có điu kin (Conditional Independence) 65 5.2.3. Ngun gc thut toán Naïve Bayes 65 5.2.4. Phng pháp Naïve Bayes trong phân loi vn bn 66 5.2.5. Hai mô hình s kin trong phân loi vn bn bng phng pháp Naïve Bayes 68 5.3. Bài toán phân loi tin tc đin t ting Vit 70 5.3.1. Quy c 70 5.3.2. Công thc phân loi vn bn trong IGATEC [H. Nguyen et al, 2005] 71 5.3.3. Công thc Naïve Bayes trong bài toán phân loi tin tc đin t ting Vit s dng thng kê t Google 72 5.4. Kt lun 74 Chng 6. H THNG TH NGHIM PHÂN LOI VN BN 76 6.1. Gii thiu h thng th nghim Vikass 76 6.1.1. Chc nng h thng Vikass 76 6.1.2. T chc và x lý d liu 76 6.1.3. Mt s màn hình ca h thng Vikass 79 6.2. Th nghim các cách trích xut thông tin 82 6.2.1. Các phng pháp th nghim 82 6.2.2. Nhn xét 84 6.3. D liu th nghim 84 6.3.1. Ngun d liu 84 6.3.2. S lng d liu th nghim 84 6.3.3. Nhn xét 86 6.4. Th nghim các công thc tính đ tng h MI 87 6.4.1. Các phng pháp th nghim 87 6.4.2. Kt qu 87 6.4.3. Nhn xét 88 6.5. Th nghim phân loi tin tc đin t 89 6.5.1. Thc đo kt qu phân loi vn bn 89 6.5.2. Các phng pháp th nghim 91 6.5.3. Kt qu 91 6.5.4. Nhn xét 96 viii Chng 7. NG DNG PHÂN LOI TIN TC IN T T NG 99 7.1. Gii thiu tòa son báo đin t 99 7.2. Tính cn thit ca phân loi tin tc t đng 99 7.3. Phân tích hin trng 100 7.3.1. Mô hình DFD quan nim cp 2 hin hành cho ô x lý Nhn bài và Tr bài 100 7.3.2. Phê phán hin trng 103 7.3.3. Mô hình DFD quan nim cp 2 mi cho ô x lý Nhn bài và Tr bài 104 7.4. Trin khai DLL 105 7.5. Chng trình cài đt “Tòa son báo đin t” đã tích hp module phân loi tin tc 106 7.6. Kt qu 110 Chng 8. TNG KT 112 8.1. Kt qu đt đc 112 8.1.1. V mt lý thuyt 112 8.1.2. V mt thc nghim 113 8.2. Hn ch và hng phát trin 113 8.3. Kt lun 114 [...]... phộp ĩ Pr( wi | C j ) 1 TF ( wi , C j ) cl ng Laplace [Napnik, 1982] : TF ( w , C j ) F w F Ngoi ra cũn cú cỏc ph ng phỏp NB khỏc cú th k ra nh sau ML Naive Bayes, MAP Naive Bayes, Expected Naive Bayes, Bayesian Naive Bayes [Jason, 2001] Naive Bayes l m t cụng c r t hi u qu trong m t s tr ng h p K t qu cú th r t t i n u d li u hu n luy n nghốo nn v cỏc tham s d oỏn (nh khụng gian c tr ng) cú ch t l... ra phỏn oỏn ch 2.2.4.2 Cụng th c chớnh M c ớch chớnh l tớnh c xỏc su t Pr(Cj, d ) , xỏc su t trong l p Cj Theo lu t Bayes, v n b n d s v nb n d n m c gỏn vo l p Cj no cú xỏc su t tớnh Pr(Cj, d ) [Joachims, 1997] Pr(Cj , d ) cao nh t Cụng th c sau dựng d Pr(C j ) Pr( wi | C j ) i 1 H BAYES (d ) arg max d Cj C Pr(C ) C C Pr( wi | C ) i 1 Pr( w | C j )TF ( w,d ) Pr(Cj ) w F arg max Pr( w | C )TF ( w,d... ng ng trờn hai b d li u Reuter v Oshumed l k = 45 [Joachims, 1997] 2.2.4 Naùve Bayes (NB) NB l ph ng phỏp phõn lo i d a vo xỏc su t c s d ng r ng rói trong l nh v c mỏy h c [Mitchell, 1996] [Joachims, 1997] [Jason, 2001] c s d ng l n u tiờn trong l nh v c phõn lo i b i Maron vo n m 1961 [Maron, 1961] sau ú tr nờn ph bi n dựng trong nhi u l nh v c nh trong cỏc cụng c tỡm ki m [Rijsbergen et al, 1970],... hi n vi c c nhi u c i ti n c a h Vi t dựng trong phõn lo i v n b n theo ph ng h m i, t cỏch cụng th c ng ti p c n tỏch t ti ng ng phỏp d a trờn th ng kờ Internet i v i tỏch t ti ng Vi t, chỳng em t c phõn ngh thờm m t cụng th c tớnh toỏn ú th c hi n th nghi m tớnh hi u qu c a cỏch tớnh ny so v i nh ng cụng trỡnh khỏc Trong quỏ trỡnh xõy d ng thu t toỏn di truy n dựng trong tỏch t , chỳng em ó c i ti... chỳng em c i ti n cụng th c tớnh trong h ti p c n Naùve Bayes phự h p v i ph ng phỏp tớnh d a trờn th ng kờ t Google 6 ng Ch ng 2 CC PH NG PHP PHN LO I V N B N TI NG ANH B i c nh cỏc ph Cỏc ph ng phỏp phõn lo i v n b n hi n nay ng phỏp phõn lo i v n b n ti ng Anh hi n hnh Bi u di n v n b n Support vector Machine (SVM) KNearest Neighbor (kNN) Naùve Bayes (NB) Neural Network (NNet) Linear Least Square Fit... a cỏc ph ng a ra m t s so ng phỏp: Support Vector Machine (Joachims, 1998), k- Nearest Neighbor (Yang, 1994), Linear Least Squares Fit (Yang and Chute, 1994) Neural Network (Wiener et al, 1995), Naùve Bayes (Baker and Mccallum, 2000), Centroid-based (Shankar and Karypis, 1998) Sau ú, chỳng em s ch n v ỏp d ng m t ph tin t c bỏo i n t ti ng Vi t ch p nh n phộp c a m t lu n v n h c, phự h p v i m c v... ti n b c Trong lu n v n ny, chỳng em c g ng tỡm hi u, c i ti n, ci m t ph ng phỏp tỏch t ti ng Vi t theo h ch p nh n phõn t, th nghi m ng ti p c n IGATEC, cú chớnh xỏc c, v i u quan tr ng l khụng c n dựng t p ng li u (corpus) nh ranh gi i t Sau ú, chỳng em s ci t, th nghi m chớnh xỏc c a ph ng phỏp tỏch t ny trong khớa c nh phõn lo i v n b n 1.4.3 Ph n m m phõn lo i tin t c bỏo i n t bỏn t 5 ng th... Hỡnh 6 4 Mn hỡnh trớch xu t t Google 80 Hỡnh 6 5 Mn hỡnh phõn lo i tin t c i n t 81 Hỡnh 6 6 Cõy ch Hỡnh 6 7 Bi u 86 so sỏnh k t qu cỏc cụng th c tớnh Hỡnh 6 8 Cỏc thụng s dựng tớnh thu v , t ng h MI 88 chớnh xỏc 89 Hỡnh 6 9 Bi u F1 cho c p 1 94 Hỡnh 6 10 Bi u F1 cho c p 2 96 ix Hỡnh 7 1.Mụ hỡnh DFD hi n hnh 100 Hỡnh 7 2 Mụ hỡnh DFD... phỏp phõn lo i thụng d ng hi n nay l: Support Vector Machine [Joachims, 1998], k-Nearest Neighbor [Yang, 1994], Linear Least Squares Fit [Yang and Chute, 1994] Neural Network [Wiener et al, 1995], Naùve Bayes [Baker and Mccallum, 2000], Centroidbased [Shankar and Karypis, 1998] Cỏc ph 2 ng phỏp trờn u d a vo xỏc su t th ng kờ ho c thụng tin v tr ng s c a t trong v n b n Chi ti t v ý t ng v cụng th c tớnh... ng c ỏp d ng thnh cụng trờn ngụn ng ny : mụ hỡnh h i quy [Fuhr et al,1991], phõn lo i d a trờn lỏng gi ng g n nh t (k-nearest neighbors) [Dasarathy, 1991], ph cõy quy t ng phỏp d a trờn xỏc su t Naùve Bayes [Joachims, 1997], nh [Fuhr et al,1991], h c lu t quy n p [William & Yoram, 1996], m ng n ron (neural network)[Wiener et al, 1995], h c tr c tuy n[William & Yoram, 1996], v mỏy vector h tr (SVM-support . toán Naïve Bayes 65 5.2.4. Phng pháp Naïve Bayes trong phân loi vn bn 66 5.2.5. Hai mô hình s kin trong phân loi vn bn bng phng pháp Naïve Bayes 68 5.3. Bài toán phân loi tin. dng vào phân loi tin tc bán t đng, và cui cùng là đánh giá, kt lun quá trình nghiên cu ca lun vn. Ü Chng 1. Tng quan: gii thiu s lc v các phng pháp phân loi vn bn và. bài toán phân loi tin tc báo đin t. Ü Chng 6. H thng th nghim phân loi vn bn: gii thiu v h thng th nghim các phng pháp tách t và phân loi vn bn do chúng em xây dng.