Đang tải... (xem toàn văn)
Tài liệu tham khảo công nghệ thông tin Xây dựng hệ thống tìm kiếm thông tin tiếng việt dựa trên các chỉ mục là các từ ghép
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghépNguyn Th Thanh Hà - 0112215 1 Nguyn Trung Hiu - 0112216I CM NChúng em xin gi li cm n chân thành nht n thy H Bo Quc, ngi ãn tình hng dn, giúp chúng em trong sut thi gian thc hin lun vn này.Chúng con cm n Cha, M và gia ình, nhng ngi ã dy d, khuyn khích,ng viên chúng con trong nhng lúc khó khn, to mi u kin cho chúng connghiên cu hc tp.Chúng em cm n các thy, cô trong khoa Công Ngh Thông Tin ã dìu dt,ging dy chúng em, giúp chúng em có nhng kin thc quý báu trong nhng nm hcqua.m n ch Lê Thúy Ngc và các bn ã tn tình óng góp ý kin cho lun vna chúng tôi.c dù rt c gng nhng lun vn ca chúng em không tránh khi sai sót,mong nhn c s thông cm và góp ý ca thy cô và các bn.Tháng 7 nm 2005Sinh viênNguyn Th Thanh Hà – Nguyn Trung Hiu Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghépNguyn Th Thanh Hà - 0112215 2 Nguyn Trung Hiu - 0112216NHN XÉT CA GIÁO VIÊN HNG DN…………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………… ……………………………………………………………………………………Ngày…… tháng……nm 2005Ký tên Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghépNguyn Th Thanh Hà - 0112215 3 Nguyn Trung Hiu - 0112216NHN XÉT CA GIÁO VIÊN PHN BIN…………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………… ……………………………………………………………………………………Ngày…… tháng……nm 2005 Ký tên Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghépNguyn Th Thanh Hà - 0112215 4 Nguyn Trung Hiu - 0112216C LCDANH SÁCH CÁC BNG .8DANH SÁCH CÁC HÌNH V 8Phn 1 : TÌM HIU LÝ THUYT 11Chng 1: TNG QUAN V TÌM KIM THÔNG TIN .111. Gii thiu v tìm kim thông tin 111.1 Khái nim v tìm kim thông tin 111.2 Mt s vn trong vic tìm kim thông tin: .112. H tìm kim thông tin – IRS 123. Các thành phn ca mt h tìm kim thông tin [1.1] 134. So sánh IRS vi các h thng thông tin khác .144.1 H qun tr c s d liu (DBMS) 154.2 H qun lý thông tin (IMS) 154.3 H h tr ra quyt nh (DSS) 164.4 H tr li câu hi (QAS) 164.5 So sánh IRS vi các h thng thông tin khác 17Chng 2: XÂY DNG MT H THNG TÌM KIM THÔNG TIN 181. Kin trúc ca h tìm kim thông tin. [1.3] 182. Mt s mô hình xây dng mt h tìm kim thông tin [1.2] 192.1 Mô hình không gian vector 192.2 Tìm kim Boolean .212.3 Tìm kim Boolean m rng .222.4 M rng trong vic thêm vào trng s ca câu hi .232.4.1 M rng cho s t tu ý 232.4.2 Thêm toán t tng 242.5 Mô hình xác sut 242.6 ánh giá chung v các mô hình .253. Các bc xây dng mt h tìm kim thông tin. [3.2] .253.1 Tách t tng cho tp các tài liu 253.2 Lp ch mc cho tài liu .253.3 Tìm kim .263.4 Sp xp các tài liu tr v (Ranking) 264. Nhng khó khn trong vic xây dng mt h thng tìm kim thông tin tingVit .264.1 Khó khn trong vic tách t ting Vit .274.2 Vn bng mã ting Vit .27 Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghépNguyn Th Thanh Hà - 0112215 5 Nguyn Trung Hiu - 01122164.3 Các khó khn khác .27Chng 3: TÁCH T TNG 291. Tách t trong Ting Anh .292. Tách t trong Ting Vit .292.1 Mt sc m chính v t ting Vit [2.2] 292.1.1 Ting .292.1.2 T .302.2 Tách t tng ting Vit .303. Các phng pháp tách t ting Vit .303.1 fnTBL (Fast Transformation-based learning) [3.1] .303.1.1 Mô t .303.1.2 Áp dng tách t ting Vit .313.2 Longest Matching [1.4] 373.3 Kt hp gia fnTBL và Longest Matching .37Chng 4: LP CH MC 381. Khái quát v h thng lp ch mc .382. Phng pháp lp ch mc [1.1] 382.1 Xác nh các t ch mc .382.2 Các phng pháp tính trng s ca t 402.2.1 Tn s tài liu nghch o 402.2.2 nhiu tín hiu (The Signal – Noise Ratio) 402.2.3 Giá tr phân bit t (The Term Discrimination Value) .422.3 Lp ch mc tng cho tài liu ting Anh 433. Lp ch mc cho tài liu ting Vit 454. Tp tin nghch o tài liu .464.1 Phân bit gia tp tin nghch o và tp tin trc tip 464.2 Ti sao s dng tp tin nghch o lp ch mc .47Phn 2 : PHÂN TÍCH VÀ THIT K 49Chng 5: PHÂN TÍCH .491. S UseCase h thng 492. S Lp 512.1 S các lp th hin 512.2 S các lp x lý 523. Tách t 533.1 S UseCase .533.2 S Tun t 53 Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghépNguyn Th Thanh Hà - 0112215 6 Nguyn Trung Hiu - 01122163.3 S Cng tác .543.4 S Lp 544. Lp ch mc .554.1 S UseCase .554.2 S Tun t 564.2.1 To mi ch mc .564.2.2 Cp nht ch mc .574.3 S Cng tác .584.3.1 To mi ch mc .584.3.2 Cp nht ch mc .594.4 S Lp 605. Tìm kim .615.1 S UseCase .615.2 S Tun t 615.3 S Cng tác .625.4 S Lp 63Chng 6: THIT K VÀ CÀI T 641. Cu trúc lu tr d liu 641.1 Tp tin lu ni dung tài liu .641.1.1 Cu trúc DTD / XSD .641.1.2 Tài liu XML 661.2 Tp tin sau khi tách t tài liu 671.2.1 Cu trúc DTD / XSD .671.2.2 Tài liu XML 681.3 Tp tin cha các t không th hin ni dung ca vn bn (stop list) .701.3.1 Cu trúc DTD / XSD .701.3.2 Tài liu XML 711.4 Tp tin ch mc o ( Inverted ) .711.4.1 Cu trúc DTD / XSD .711.4.2 Tài liu XML 731.5 Tp tin sau khi tách t câu hi 741.5.1 Cu trúc DTD / XSD .741.5.2 Tài liu XML 751.6 Tp tin cha các t ca câu hi sau khi loi b các t trong danh sáchStopList .761.6.1 Cu trúc DTD / XSD .761.6.2 Tài liu XML 771.7 Tp tin cha các t trong câu hi và các tài liu liên quan 771.7.1 Cu trúc DTD / XSD .77 Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghépNguyn Th Thanh Hà - 0112215 7 Nguyn Trung Hiu - 01122161.7.2 Tài liu XML 791.8 Tp tin cha tng quan gia câu hi và các tài liu .801.8.1 Cu trúc DTD / XSD .801.8.2 Tài liu XML 822. Chi tit các lp i tng 832.1 Các lp trong quá trình tách t .832.1.1 S các lp 832.1.2 Lp tách t ghép 832.1.3 Lp tách t 862.1.4 Lp giao din tách t .892.2 Các lp trong quá trình lp ch mc .912.2.1 S các lp .912.2.2 Lp lp ch mc .922.2.3 Lp giao din to mi ch mc 942.2.4 Lp giao din cp nht ch mc .962.3 Các lp trong quá trình tìm kim 982.3.1 S các lp .982.3.2 Lp tìm kim .992.3.3 Lp giao din tìm kim .1053. Mt s màn hình giao din khác 1093.1 Màn hình chính ca chng trình .1093.2 Màn hình tìm kim nhiu câu hi .1103.3 Màn hình tìm kim chính ( giao din Web) 1123.4 Màn hình tr v các tài liu tìm c ( giao din Web) 1133.5 Màn hình chi tit ca mt tài liu ( giao din Web) 114Phn 3 : TNG KT 1151. Chng trình th nghim .1152. ánh giá kt qut c .1153. Hng phát trin 116TÀI LIU THAM KHO .1171. Sách .1172. Lun vn 1173. Website .117 Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghépNguyn Th Thanh Hà - 0112215 8 Nguyn Trung Hiu - 0112216DANH SÁCH CÁC BNGng 1-1 So sánh IRS vi các h thng thông tin khác 17ng 4-1 Cách tp tin nghch o lu tr .47ng 4-2 Cách tp tin trc tip lu tr .47ng 4-3 Thêm mt tài liu mi vào tp tin nghch o .48ng 5-1 Danh sách các Actor .50ng 5-2 Danh sách các UseCase 50 DANH SÁCH CÁC HÌNH VHình 1-1 Môi trng ca h tìm kim thông tin .13Hình 1-2 Tng quan v chc nng ca mt h tìm kim thông tin 14Hình 2-1 H tìm kim thông tin tiêu biu .18Hình 3-1 Quá trình hc 35Hình 3-2 Giai n xác nh t cho tài liu mi .36Hình 4-1 Các tc sp theo th t 39Hình 4-2 Quá trình chn t làm ch mc 45Hình 5-1 S Use-case ca h thng .49Hình 5-2 S các lp th hin .51Hình 5-3 S các lp x lý .52Hình 5-4 S Use-case tách t 53Hình 5-5 S tun t tách t .53Hình 5-6 S cng tác tách t .54Hình 5-7 S lp tách t .54Hình 5-8 S use-case lp ch mc .55Hình 5-9 S tun t to mi ch mc 56Hình 5-10 S tun t cp nht ch mc 57Hình 5-11 S cng tác to mi ch mc 58Hình 5-12 S cng tác cp nht ch mc .59Hình 5-13 S lp lp ch mc .60Hình 5-14 S use-case tìm kim .61Hình 5-15 S tun t tìm kim 61Hình 5-16 S cng tác tìm kim .62Hình 5-17 S lp tìm kim .63Hình 6-1 S lp tách t .83Hình 6-2 Lp tách t ghép .83 Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghépNguyn Th Thanh Hà - 0112215 9 Nguyn Trung Hiu - 0112216Hình 6-3 Lp tách t .86Hình 6-4 Lp giao din tách t 89Hình 6-5 Màn hình tách t .89Hình 6-6 Màn hình chi tit tách t .90Hình 6-7 S lp lp ch mc .91Hình 6-8 Lp lp ch mc 92Hình 6-9 Lp giao din to mi ch mc 94Hình 6-10 Màn hình to mi ch mc 95Hình 6-11 Lp Màn hình cp nht ch mc 96Hình 6-12 Màn hình cp nht ch mc .97Hình 6-13 S lp tìm kim .98Hình 6-14 Lp x lý tìm kim .99Hình 6-15 Lp giao din tìm kim .105Hình 6-16 Màn hình tìm kim .106Hình 6-17 Xem t khóa câu hi .106Hình 6-18 Xem t khóa tài liu .107Hình 6-19 Màn hình chính .109Hình 6-20 Màn hình tìm kim nhiu câu hi 110Hình 6-21 Giao din tìm kim trên Web 112Hình 6-22 Giao din các tài liu tr v sau khi tìm kim 113Hình 6-23 Giao din chi tit ni dung ca tài liu 114 Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghépNguyn Th Thanh Hà - 0112215 10 Nguyn Trung Hiu - 0112216UTrong thi i bùng n thông tin nh hin nay, thông tin c lu tr trên máytính ngày càng nhiu do ó vic tìm kim thông tin chính xác là nhu cu thit yu ii mi ngi trong mi lnh vc. Internet hin nay ã tr thành mt kho t liu khng mà vic tìm kim thông tin trên kho t liu này cn phi c h tr bi các công ctìm kim (search engine) tt. Các h thng tìm kim thông tin thông dng nh Google,Yahoo Search ã áp ng c phn nào nhu cu ó ca mi ngi. Tuy nhiên, các hthng này c xây dng x lý và tìm kim các vn bn ting Châu Âu, chúng chatht s phù hp cho các vn bn ting Vit. Do ó nhu cu phi có mt công c tìmkim “hiu” và x lý tt các vn bn tíng Vit.Các h tìm kim thông tin u phi thc hin giai n lp ch mc (indexing)cho vn bn trích các t ch mc (index term) biu din tt nht ni dung ca vnn. Giai n này ph thuc vào ngôn ng ca vn bn và phng pháp x lý tngngôn ngó. Hin nay cha có nhiu h thng tìm kim thông tin trên kho tài liuting Vit có khai thác các c trng ca ting Vit cho vic lp ch mc.Vì vy mc tiêu ca lun vn này nhm xây dng mt h thng tìm kim thôngtin bng ting Vit có s dng các kt qu ca x lý ngôn ng t nhiên tng xácnh c các ch mc là các t (word) hay t ghép (compound word) ca ting Vit. [...].. .Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Ph n 1 : TÌM HI U LÝ THUY T Ch ng 1: NG QUAN V TÌM KI M THÔNG TIN 1 Gi i thi u v tìm ki m thông tin 1.1 Khái ni m v tìm ki m thông tin Tìm ki m thông tin là tìm ki m trong m t t p tài li u ng l y ra các thông tin mà i tìm ki m quan tâm 1.2 ts v n trong vi c tìm ki m thông tin: t nh ng n m 40, các v n trong... u v thông tin, xác nh và tìm t các t p tin nh ng thông tin phù h p v i nh ng yêu c u v thông tin Vi c truy tìm nh ng thông tin thông tin c l u tr và các yêu c u, các thu c tính i v i thông tin c thù ph thu c vào s t ng t gi a các c ánh giá b ng cách so sánh các giá tr c a c l u tr và các yêu c u v thông tin. ” Kowalski (1997) : “H th ng truy tìm thông tin là m t h th ng có kh n ng l u tr , truy tìm. .. trích ra các tài li u có liên quan trong toàn b t p d li u Tuy nhiên v n lúc này là làm sao xác nh c tài li u nào liên quan t h th ng tìm ki m thông tin t ng là truy l c n câu h i M c ích c a c t t c các tài li u có liên quan n yêu c u 2 tìm ki m thông tin – IRS Sau ây là nh ngh a v h th ng tìm ki m thông tin c a m t s tác gi : [2.1] Salton (1989): “H th ng tìm ki m thông tin x lý các t p tin l u tr... t ghép Ch ng 2: XÂY D NG M T H TH NG TÌM KI M THÔNG TIN 1 Ki n trúc c a h tìm ki m thông tin [1.3] t h th ng thông tin tiêu bi u nh sau: Hình 2-1 H tìm ki m thông tin tiêu bi u th ng tìm ki m thông tin g m có 3 b ph n chính : b ph n phân tích v n n, b ph n l p ch m c, b ph n so kh p và s p x p các tài li u tr v Nguy n Th Thanh Hà - 0112215 18 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông. .. qu n tr c s d li u (DBMS), h qu n lý thông tin (MIS), h h tr ra quy t nh (DSS), h tr l i câu h i (QAS) và h tìm ki m thông tin (IR) Nguy n Th Thanh Hà - 0112215 14 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép 4.1 qu n tr c s d li u (DBMS) t c h th ng thông tin t tr (g i là ng nào c ng d a trên m t t p các m c cl u s d li u) c n thi t cho... t b i c vì các câu h i và các t p xác nh c m i liên h gi a các câu h i và các t p tài c trung gian Nguy n Th Thanh Hà - 0112215 13 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin Tr c h t chuy n i các câu h i thành các t riêng bi t bi u hi n cho n i dung c a câu h i g i là ngôn ng... ng nh v n là ch ng ng i l n nh ý ngh a có th s d ng r ng rãi h th ng này Nguy n Th Thanh Hà - 0112215 16 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép 4.5 So sánh IRS v i các h th ng thông tin khác IRS i dung Tìm ki m trong các tài li u DBMS QAS MIS Các ph n t Các s ki n có ki u d li u ã c rõ ràng nh ngh a Gi ng DBMS nh ng h tr Các v n b... khi tìm ki m ta xác nh c các tài li u liên quan Nguy n Th Thanh Hà - 0112215 21 n t1 là { d1, d3, d5} và các tài li u liên Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép quan n t2 là {d3, d5, d7} Nh v y v i phép and, các tài li u th a yêu c u c a ng dùng là {d3, d5} Ph ng pháp này có m t s khuy t Ø Các tài li u tr v không Ø Câu h i tìm ki... t c v n b n nào N u tìm cách tr v các tài li u có ch a nh ng t này s thu c k t qu vô ích, không n thi t Do ó, chúng ta c n tìm cách lo i b các t này tr Nguy n Th Thanh Hà - 0112215 28 c khi tìm ki m Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Ch Tr ng 3: TÁCH T c khi l p ch m c là giai tách t Nh ng c vì ti ng Vi t là ngôn ng i v i ti... nhiên Các ph n t li u ng b ng Các s ki n thêm nh ng rõ ràng và các th t c( Tính ki n th c ng quát ng, tính trung bình, phép chi u…) Các câu truy lý Các câu truy Các câu truy n không n có c u n không chính xác gi i h n trúc ng 1-1 So sánh IRS v i các h th ng thông tin khác Nguy n Th Thanh Hà - 0112215 17 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các . : TÌM HIU LÝ THUYTChng 1: NG QUAN V TÌM KIM THÔNG TIN1 . Gii thiu v tìm kim thông tin1 .1 Khái nim v tìm kim thông tinTìm kim thông tin là. và tìm t các tp tin nhng thông tin phù hp vi nhng yêu cu v thông tin. Vic truy tìm nhng thông tin c thù ph thuc vào s tng t gia cácthông