Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 133 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
133
Dung lượng
2,27 MB
Nội dung
H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa M CL C M C L C M U Ch ng 1: T NG QUAN 1.1 Gi i thi u mơ hình tìm ki m thơng tin (Information Retrieval): 1.2 H th ng tìm ki m thơng tin xun ngơn ng (CLIR): .9 1.2.1 Khái ni m: 1.2.2 Các v n đ c a CLIR: 10 1.3 Các h ng ti p c n: 11 1.3.1 D ch máy (Machine Translation for Text Translation): 11 1.3.2 D a t n đa ng (Multilingual Thesauri): 14 1.3.3 D a ng li u (Corpus-based techniques): 22 1.4 M t s cơng trình nghiên c u n c: 30 1.4.1 Vi t Nam: 30 1.4.2 Trên th gi i: 31 1.5 K t lu n: 32 Ch ng 2: C S LÝ THUY T 35 2.1 Gi i thi u v MRD (Machine Readable Dictionary) .35 2.1.1 S l c l ch s phát tri n MRD th gi i: 35 2.1.2 Vai trò c u trúc c a MRD: 39 2.1.3 Khai thác tài nguyên t n: .41 2.1.4 Xây d ng t n t đ ng: 42 2.1.5 C u trúc v mô vi mô c a t n MRD: 43 2.1.6 M t s t n MRD: 43 2.2 Các ph ng pháp tách t : 51 2.2.1 Mơ hình WFST: 51 2.2.2 Mơ hình MMSEG: 57 2.3 Các ph ng pháp kh nh p nh ng: 64 2.3.1 Gi i thi u: 64 2.3.2 Kh nh p nh ng: 65 2.4 K t lu n: 70 Ch ng 3: PHÂN TÍCH THI T K 72 3.1 T ng quan h th ng: 72 3.1.1 Phát bi u toán: 72 3.1.2 Mơ hình h th ng: 72 3.1.3 Phát sinh qu n lý: 73 3.2 Phân tích – thi t k h th ng: 76 3.2.1 Mơ hình Usecase: 76 3.2.2 c t usecase: .77 3.2.3 S đ tu n t : 78 3.2.4 Thi t k l p: 81 3.2.5 Thi t k giao di n: 94 GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa 3.3 Xây d ng h th ng: 97 3.3.1 T ch c MRD: .97 3.3.2 Ph ng pháp tìm ki m d a MRD: 106 3.3.3 Tìm ki m tài li u b ng cơng c tìm ki m: .110 CH NG 4: CÀI T VÀ TH NGHI M 112 4.1 Cài đ t: .112 4.1.1 Ti n x lý: 112 4.1.2 C u trúc d li u: 112 4.1.3 D ch t t n: 113 4.1.4 Kh nh p nh ng : 113 4.1.5 Tìm ki m: .116 4.2 Th nghi m: 117 4.2.1 Module d ch kh nh p nh ng: 117 4.2.2 Ch ng trình demo web: 117 4.3 ánh giá : 119 4.3.1 Module d ch kh nh p nh ng: 119 4.3.2 Ch ng trình tìm ki m Web: 120 Ch ng 5: K T LU N H NG PHÁT TRI N 122 5.1 K t lu n: 122 5.2 Hu ng phát tri n: .122 5.2.1 i v i t n ng li u: 122 5.2.2 i v i IR Engine: .123 5.2.3 M r ng ngơn ng tìm ki m cho h th ng: 124 PH L C 125 TÀI LI U THAM KH O 132 GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa M U V i s phát tri n nhanh chóng c a cơng ngh tin h c, kh i l ng thông tin đ cl u tr máy tính ngày nhi u Vì v y c n có h th ng tìm ki m thông tin (Information Retrieval) cho phép ng i dùng tìm ki m m t cách xác nhanh nh t thông tin mà h c n kho t li u kh ng l H n n a, xu th tồn c u hóa nh hi n nay, r t nhi u t ch c, cơng ty qu c t hình thành, l i xu t hi n m t nhu c u m i vi c tìm ki m thơng tin tìm ki m thơng tin đa ng đ ng i dùng có th khai thác m t cách hi u qu nh t kho tài li u đa ng mà h có M t ví d c th v kho t li u đa ng Internet Các trang Web b ng nhi u ngôn ng khác xu t hi n ngày nhi u, cơng c tìm ki m đ n ng (search engine) ch có th tr v tài li u đ c vi t ngôn ng v i ngôn ng c a câu truy v n (query) Do v n đ đ t li u có th xây d ng m t h tìm ki m thông tin mà thông tin tr v t t c tài li u ngôn ng khác kho t li u có liên quan đ n câu truy v n (không ph thu c vào ngơn ng c a câu truy v n) ây toán đ t cho vi c nghiên c u h tìm ki m đa ng / xuyên ng (multilanguage IR/ cross language IR) M c tiêu c a h th ng tìm ki m xuyên ng cung c p cơng c cho ng có th mơ t nhu c u tìm ki m thơng tin (th i dùng đ ngơn ng mà di n đ t gi i nh t ng ti ng m đ ), h th ng s ph i tr v t t c tài li u t t c ngơn ng có kho t li u tìm ki m có liên quan đ n nhu c u thông tin c a ng i dùng Trên nhu c u chung c a h u h t ngôn ng ti ng Vi t c a c ng không ph i ngo i l Khác v i ngôn ng khác, ti ng Vi t có nhi u đ c m riêng bi t r t khó x lý b ng máy tính, nên đ tài nghiên c u hay ch ng trình ng d ng liên quan đ n h th ng tìm ki m b ng ti ng Vi t r t Mà nhu c u tìm ki m tài li u kho tàng ki n th c c a th gi i c a ng i Vi t r t l n V i mong mu n phát tri n nhi u h n n a h th ng tìm ki m xun ngơn ng b ng ti ng Vi t, xây d ng “H th ng tìm ki m thơng tin xun ngơn ng Vi t – GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa Anh – Hoa” cho phép ng i dùng nh p câu truy v n b ng ti ng Vi t tr v tài li u có liên quan b ng ti ng Vi t, ti ng Anh ti ng Hoa Trong lu n v n l a ch n ti ng Anh ti ng Hoa hai đ i di n tiêu bi u cho hai lo i hình ngơn ng bi n hình đ n l p T cho th y r ng h th ng tìm ki m thơng tin xuyên ng có th th c thi hai lo i hình ngơn ng khác B c c c a lu n v n g m ch • Ch ng sau: ng – T NG QUAN : gi i thi u t ng quan v h th ng tìm ki m (IR), h th ng tìm ki m thông tin xuyên ngôn ng (CLIR), h ng ti p c n v n đ c n gi i quy t c a h th ng • ph Ch ng – C S LÝ THUY T: trình bày c s lý thuy t ng pháp nghiên c u lu n v n • Ch ng – PHÂN TÍCH VÀ THI T K : phân tích thi t k h • Ch ng – CÀI • Ch ng – K T LU N H th ng qu đ t đ • T VÀ KI M TRA: cài đ t, ki m th ch ng trình NG PHÁT TRI N: trình bày k t c, đánh giá v h th ng h ng phát tri n t ng lai Ph n TÀI LI U THAM KH O PH L C: trình bày thơng tin có liên quan đ c s d ng lu n v n GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa Ch Trong ch ng 1: T NG QUAN ng này, chúng tơi s trình bày khái qt v h th ng tìm ki m (Information Retrieval), h th ng tìm ki m thơng tin xun ngơn ng (Cross-Language Information Retrieval) m t s kh o sát v tình hình nghiên c u ngồi n c Cu i ch ng s rút k t lu n chung l a ch n h ng ti p c n cho h th ng c a N i dung trình bày bao g m: X Gi i thi u mơ hình tìm ki m thơng tin X H th ng tìm ki m thơng tin xun ngơn ng X M t s cơng trình nghiên c u n c X K t lu n 1.1 Gi i thi u mơ hình tìm ki m thơng tin (Information Retrieval): H th ng tìm ki m thơng tin xun ng (Cross Language Information Retrieval CLIR) có liên h r t m t thi t v i h th ng tìm ki m thơng tin (Information Retrieval IR) c ng có r t nhi u đ c tr ng c a h th ng (IR) Qui trình c a h th ng tìm ki m thơng tin nh sau: • Ng i dùng mu n xem nh ng tài li u liên quan đ n m t ch đ • Ng i dùng cung c p m t mô t v ch đ d • T câu truy v n h th ng s l c nh ng c m t ch m c • Nh ng c m t ch m c s đ c a tài li u đ • ng c x lý tr i d ng câu truy v n c so kh p v i nh ng c m t ch m c c Nh ng tài li u có m c đ liên quan cao nh t s đ c tr v cho i dùng GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa M c đích c a IR hi n th cho ng i dùng m t t p thông tin th a mãn nhu c u c a h Chúng ta đ nh ngh a xác cho thơng tin c n thi t “câu truy v n”(query), thông tin đ c ch n “tài li u” (documents) M i cách ti p c n IR bao g m thành ph n chính: m t k thu t đ bi u di n thông tin (câu truy v n, tài ng pháp so sánh cách bi u di n M c đích đ t đ ng li u), hai ph qui trình ki m tra tài li u b ng cách tính tốn đ t ng quan gi a câu truy v n tài li u Qui trình t đ ng thành cơng tr v k t qu gi ng v i k t qu đ c ng Có m t v n đ th i t o so sánh câu truy v n v i tài li u ng x y đ i v i h th ng tìm ki m nh ng t mà ng đ a câu truy v n th h tìm ki m Tr i dùng ng khác xa nh ng t t p tài li u ch a thông tin mà ng h p nh th g i “paraphrase problem” (v n đ v di n gi i) gi i quy t v n đ h th ng t o hàm bi u di n x lý câu truy v n tài li u m t cách khác đ đ t đ n m t đ t ng thích [0,1] X lý c a ng j Không gian câu truy v n Q Câu truy v n Hàm bi u di n câu truy v n i Tài li u Hàm bi u di n tài li u q Bi u di n Không gian tài li u D d Bi u di n Không gian bi u di n R c Hàm so sánh [0,1] GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa Hình 1.1: Mơ hình h th ng tìm ki m thơng tin G i mi n xác đ nh c a hàm bi u di n câu truy v n q Q, t p h p câu truy v n có th có; mi n giá tr c a R, không gian th ng nh t bi u di n thông tin G i mi n xác đ nh c a hàm bi u di n tài li u d D, t p h p tài li u; mi n giá tr c a R2 Mi n xác đ nh c a hàm so sánh c R x R mi n giá tr c a [0,1], t p s th c t đ n Trong m t h th ng tìm ki m lí t ng: c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D, j: Q x D > [0,1] bi u di n vi c x lý c a ng thông tin, đ i dùng gi a m i quan h c a c tính d a m t tiêu chu n (ví d : s gi ng v n i dung hay s gi ng v ki u …) Hình 1.1 minh h a m i quan h Có hai ki u h th ng tìm ki m: tìm ki m d a so kh p xác d a s p x p Mơ hình có th mơ t c cách ti p c n Trong h th ng tìm ki m d a so kh p xác, mi n giá tr c a c đ c gi i h n t đ n 1, đ sang nh phân đ quy t đ nh li u tài li u có th a bi u th c bool đ câu truy v n hay không? Các IR d a so kh p xác th li u không s p x p th a câu truy v n c a ng c chuy n c xác đ nh b i ng cung c p tài i dùng, h u h t h th ng tìm ki m hi n đ u dùng cách Cách ho t đ ng chi ti t c a h th ng s đ c mô t ph n sau i v i h th ng IR d a s p x p, tài li u s đ c s p x p theo th t gi m d n v m c đ liên quan Có lo i h th ng tìm ki m d a s p x p: “ranked Boolean”, “probabilistic” “similarity based” Trong cách mi n giá tr c a c [0,1], nhiên chúng khác cách tính “giá tr tr ng thái tìm ki m” (“retrieval status value”): • Trong h th ng d a “ranked Boolean” giá tr m c đ mà thông tin th a mãn bi u th c bool đ GVHD: TS H B o Qu c TS inh i n c ch b i thơng tin cịn l i Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa • Trong h th ng d a “probabilistic” , khái ni m h i khác m t chút, giá tr xác su t mà thơng tin có liên quan đ n m t câu truy v n R t nhi u h th ng tìm ki m d a xác su t đ v nđ • c thi t k đ ch p nh n câu truy c di n t b ng ngôn ng t nhiên h n m t bi u th c bool Trong h th ng tìm ki m d a s gi ng nhau, giá tr tr ng thái tìm ki m đ c tính b ng cách tính m c đ gi ng c a n i dung thơng tin Trong h th ng tìm ki m d a so kh p xác, vi c đánh giá h th ng ch y u d a vi c đánh giá m c đ liên quan Gi s j giá tr nh phân đ tr c cho c Nói cách khác, ta gi s r ng tài li u ho c có ho c khơng có liên quan đ n câu truy v n, đ liên quan gi a tài li u câu truy v n ng i xác đ nh xác Theo gi đ nh này, tính hi u qu c a h th ng tìm ki m d a so kh p xác đ c đánh giá d a đ i l (precision) “đ bao ph ” (recall) xác t l tài li u đ tài li u th c s liên quan đ n thơng tin mà ng li u có liên quan đ ng th ng kê “đ xác” c ch n, i dùng c n, đ bao ph t l tài c s p x p xác theo đ liên quan b i h th ng tìm ki m Nói cách khác, đ xác b ng tr t l c nh báo sai, đ bao ph đo m c đ hồn ch nh c a vi c tìm ki m B ng 1.1 minh h a cho m i quan h Actually is Selected as Relevant Not relevant Relevant Found False alarm Not Relevant Missed Pr ecision = Re call = GVHD: TS H B o Qu c TS inh i n Found Found + False alarm Found Found + Missed Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa B ng 1.1: Tính đ hi u qu c a h th ng tìm ki m thơng tin Vi c đánh giá tính hi u qu c a h th ng tìm ki m d a s p x p ph c t p h n M t cách tính đ hi u qu ph bi n cho h th ng “đ xác trung bình” Nó đ c tính b ng cách ch n m t t p l n h n tài li u bao ph gi a Ph ng pháp th 5, 7, 11 m theo đ bao ph trình s đ ng đ đ u danh sách có giá tr c s d ng ph xác sau s đ c l p l i cho t ng câu truy v n, t ng pháp tính d a c tính cho t ng t p m t Qui ng ng m i đ xác trung bình s cho m t đ bao ph M i giá tr trung bình c a nh ng s sau s đ tốn ghi nh n nh m t đ c tr ng c a h th ng c tính xác trung bình l n t t, vi c so sánh ch th c s có ý ngh a s d ng m t t p tài li u câu truy v n Tuy nhiên đ xác trung bình c ng làm gi m m c đ thay đ i c a câu truy v n có đ c tính khác (ví d nh s l liên quan khác nhau) H n th n a, tài li u có liên quan th danh sách s p x p nên thơng th ng tài li u có đ u ng t p trung ng đ xác s gi m m i t p tài li u đ cm r ng đ t ng đ bao ph 1.2 H th ng tìm ki m thơng tin xuyên ngôn ng (CLIR): 1.2.1 Khái ni m: H th ng tìm ki m thơng tin xun ngơn ng (CLIR) h th ng tìm ki m (IR) cho phép ng i dùng nh p câu truy v n b ng m t ngơn ng đ tìm ki m tài li u m t ngôn ng khác it ng s d ng h th ng tìm ki m thơng tin xun ng (CLIR) là: • Nh ng ng i có kh n ng đ c tài li u ti ng n c ngoài, nh ng g p khó kh n t o câu truy v n b ng ngơn ng • Nh ng ng i g p khó kh n đ c/ tìm ki m tài li u ti ng n nh ng l i c n m t s l ng gi i h n tài li u đ c c tìm ki m b ng CLIR đ s d ng h th ng d ch máy (MT), thay ph i d ch tồn b t p h p tài li u GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa • Nh ng ng i bi t t khóa ho c c m t ti ng n c ngoài, mu n đ c tài li u có liên quan v i nh ng t khóa ho c c m t b ng ngơn ng b nx 1.2.2 Các v n đ c a CLIR: Vì câu truy v n ng i dùng nh p vào tài li u đ c tìm ki m hai ngôn ng khác nên CLIR c n ph i có qui trình chuy n ng v i qui trình tìm ki m theo cách tìm ki m truy n th ng c a h đ n ng Các h tìm ki m đ n ng hi n th c hi n r t t t qui trình tìm ki m đ n ng Và v n đ c n quan tâm làm th đ qui trình chuy n ng có th đ c th c hi n t t nh t Chính qui trình chuy n ng làm phát sinh r t nhi u v n đ CLIR V n đ đ u tiên bi t đ c m t t ngôn ng đ ngôn ng khác? V n đ th hai quy t đ nh đ l i? V n đ th ba xác đ nh đ d ch có nhi u b n d ch đ c vi t nh th c cách d ch s đ c gi c t m quan tr ng khác gi a b n c gi l i Hai v n đ đ u tiên, đ d ch đ lo i b b t b n d ch, hai v n đ c a h th ng d ch máy H th ng CLIR có th lo i b m t vài cách d ch gi l i m t s khác b ng cách kh nh p nh ng Tuy nhiên, vi c gi l i m t s cách d ch nh p nh ng giúp cho h th ng tìm ki m gia t ng đ bao ph c a V n đ th ba c a CLIR có liên quan đ n cách x lý b n d ch t ng đ ng, u giúp phân bi t CLIR v i d ch máy tìm ki m thơng tin đ n ng Gi s r ng câu truy v n ban đ u có hai t phân bi t N u t đ u tiên có th đ nhi u cách khác nhau, n u t th hai ch có th đ c d ch sang c d ch sang m t cách nh t, h th ng tìm ki m s khơng t ng tr ng s cho t đ u tiên, b i có nhi u l a ch n d ch i u minh h a cho v n đ tính tr ng s c a cách d ch, đ c bi t đ i v i h th ng CLIR M t tài li u ch a m t cách d ch c a m i t câu truy GVHD: TS H B o Qu c TS inh i n 10 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 ... Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa M U V i s phát tri n nhanh chóng c a cơng ngh tin h c, kh i l ng thông tin. .. đ mà thông tin th a mãn bi u th c bool đ GVHD: TS H B o Qu c TS inh i n c ch b i thông tin l i Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn... t Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa ¬ Khuy t m: Hi u qu d ch gi i h n 1.3.2 D a t n đa ng (Multilingual Thesauri):