Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 133 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
133
Dung lượng
2,27 MB
Nội dung
H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa M CL C M C L C M U Ch ng 1: T NG QUAN 1.1 Gi i thi u mơ hình tìm ki m thơng tin (Information Retrieval): 1.2 H th ng tìm ki m thơng tin xun ngơn ng (CLIR): .9 1.2.1 Khái ni m: 1.2.2 Các v n đ c a CLIR: 10 1.3 Các h ng ti p c n: 11 1.3.1 D ch máy (Machine Translation for Text Translation): 11 1.3.2 D a t n đa ng (Multilingual Thesauri): 14 1.3.3 D a ng li u (Corpus-based techniques): 22 1.4 M t s cơng trình nghiên c u n c: 30 1.4.1 Vi t Nam: 30 1.4.2 Trên th gi i: 31 1.5 K t lu n: 32 Ch ng 2: C S LÝ THUY T 35 2.1 Gi i thi u v MRD (Machine Readable Dictionary) .35 2.1.1 S l c l ch s phát tri n MRD th gi i: 35 2.1.2 Vai trò c u trúc c a MRD: 39 2.1.3 Khai thác tài nguyên t n: .41 2.1.4 Xây d ng t n t đ ng: 42 2.1.5 C u trúc v mô vi mô c a t n MRD: 43 2.1.6 M t s t n MRD: 43 2.2 Các ph ng pháp tách t : 51 2.2.1 Mơ hình WFST: 51 2.2.2 Mơ hình MMSEG: 57 2.3 Các ph ng pháp kh nh p nh ng: 64 2.3.1 Gi i thi u: 64 2.3.2 Kh nh p nh ng: 65 2.4 K t lu n: 70 Ch ng 3: PHÂN TÍCH THI T K 72 3.1 T ng quan h th ng: 72 3.1.1 Phát bi u toán: 72 3.1.2 Mơ hình h th ng: 72 3.1.3 Phát sinh qu n lý: 73 3.2 Phân tích – thi t k h th ng: 76 3.2.1 Mơ hình Usecase: 76 3.2.2 c t usecase: .77 3.2.3 S đ tu n t : 78 3.2.4 Thi t k l p: 81 3.2.5 Thi t k giao di n: 94 GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa 3.3 Xây d ng h th ng: 97 3.3.1 T ch c MRD: .97 3.3.2 Ph ng pháp tìm ki m d a MRD: 106 3.3.3 Tìm ki m tài li u b ng cơng c tìm ki m: .110 CH NG 4: CÀI T VÀ TH NGHI M 112 4.1 Cài đ t: .112 4.1.1 Ti n x lý: 112 4.1.2 C u trúc d li u: 112 4.1.3 D ch t t n: 113 4.1.4 Kh nh p nh ng : 113 4.1.5 Tìm ki m: .116 4.2 Th nghi m: 117 4.2.1 Module d ch kh nh p nh ng: 117 4.2.2 Ch ng trình demo web: 117 4.3 ánh giá : 119 4.3.1 Module d ch kh nh p nh ng: 119 4.3.2 Ch ng trình tìm ki m Web: 120 Ch ng 5: K T LU N H NG PHÁT TRI N 122 5.1 K t lu n: 122 5.2 Hu ng phát tri n: .122 5.2.1 i v i t n ng li u: 122 5.2.2 i v i IR Engine: .123 5.2.3 M r ng ngơn ng tìm ki m cho h th ng: 124 PH L C 125 TÀI LI U THAM KH O 132 GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa M U V i s phát tri n nhanh chóng c a cơng ngh tin h c, kh i l ng thông tin đ cl u tr máy tính ngày nhi u Vì v y c n có h th ng tìm ki m thông tin (Information Retrieval) cho phép ng i dùng tìm ki m m t cách xác nhanh nh t thông tin mà h c n kho t li u kh ng l H n n a, xu th tồn c u hóa nh hi n nay, r t nhi u t ch c, cơng ty qu c t hình thành, l i xu t hi n m t nhu c u m i vi c tìm ki m thơng tin tìm ki m thơng tin đa ng đ ng i dùng có th khai thác m t cách hi u qu nh t kho tài li u đa ng mà h có M t ví d c th v kho t li u đa ng Internet Các trang Web b ng nhi u ngôn ng khác xu t hi n ngày nhi u, cơng c tìm ki m đ n ng (search engine) ch có th tr v tài li u đ c vi t ngôn ng v i ngôn ng c a câu truy v n (query) Do v n đ đ t li u có th xây d ng m t h tìm ki m thông tin mà thông tin tr v t t c tài li u ngôn ng khác kho t li u có liên quan đ n câu truy v n (không ph thu c vào ngơn ng c a câu truy v n) ây toán đ t cho vi c nghiên c u h tìm ki m đa ng / xuyên ng (multilanguage IR/ cross language IR) M c tiêu c a h th ng tìm ki m xuyên ng cung c p cơng c cho ng có th mơ t nhu c u tìm ki m thơng tin (th i dùng đ ngơn ng mà di n đ t gi i nh t ng ti ng m đ ), h th ng s ph i tr v t t c tài li u t t c ngơn ng có kho t li u tìm ki m có liên quan đ n nhu c u thông tin c a ng i dùng Trên nhu c u chung c a h u h t ngôn ng ti ng Vi t c a c ng không ph i ngo i l Khác v i ngôn ng khác, ti ng Vi t có nhi u đ c m riêng bi t r t khó x lý b ng máy tính, nên đ tài nghiên c u hay ch ng trình ng d ng liên quan đ n h th ng tìm ki m b ng ti ng Vi t r t Mà nhu c u tìm ki m tài li u kho tàng ki n th c c a th gi i c a ng i Vi t r t l n V i mong mu n phát tri n nhi u h n n a h th ng tìm ki m xun ngơn ng b ng ti ng Vi t, xây d ng “H th ng tìm ki m thơng tin xun ngơn ng Vi t – GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa Anh – Hoa” cho phép ng i dùng nh p câu truy v n b ng ti ng Vi t tr v tài li u có liên quan b ng ti ng Vi t, ti ng Anh ti ng Hoa Trong lu n v n l a ch n ti ng Anh ti ng Hoa hai đ i di n tiêu bi u cho hai lo i hình ngơn ng bi n hình đ n l p T cho th y r ng h th ng tìm ki m thơng tin xuyên ng có th th c thi hai lo i hình ngơn ng khác B c c c a lu n v n g m ch • Ch ng sau: ng – T NG QUAN : gi i thi u t ng quan v h th ng tìm ki m (IR), h th ng tìm ki m thông tin xuyên ngôn ng (CLIR), h ng ti p c n v n đ c n gi i quy t c a h th ng • ph Ch ng – C S LÝ THUY T: trình bày c s lý thuy t ng pháp nghiên c u lu n v n • Ch ng – PHÂN TÍCH VÀ THI T K : phân tích thi t k h • Ch ng – CÀI • Ch ng – K T LU N H th ng qu đ t đ • T VÀ KI M TRA: cài đ t, ki m th ch ng trình NG PHÁT TRI N: trình bày k t c, đánh giá v h th ng h ng phát tri n t ng lai Ph n TÀI LI U THAM KH O PH L C: trình bày thơng tin có liên quan đ c s d ng lu n v n GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa Ch Trong ch ng 1: T NG QUAN ng này, chúng tơi s trình bày khái qt v h th ng tìm ki m (Information Retrieval), h th ng tìm ki m thơng tin xun ngơn ng (Cross-Language Information Retrieval) m t s kh o sát v tình hình nghiên c u ngồi n c Cu i ch ng s rút k t lu n chung l a ch n h ng ti p c n cho h th ng c a N i dung trình bày bao g m: Gi i thi u mơ hình tìm ki m thơng tin H th ng tìm ki m thơng tin xun ngơn ng M t s cơng trình nghiên c u n c K t lu n 1.1 Gi i thi u mơ hình tìm ki m thơng tin (Information Retrieval): H th ng tìm ki m thơng tin xuyên ng (Cross Language Information Retrieval CLIR) có liên h r t m t thi t v i h th ng tìm ki m thơng tin (Information Retrieval IR) c ng có r t nhi u đ c tr ng c a h th ng (IR) Qui trình c a h th ng tìm ki m thơng tin nh sau: • Ng i dùng mu n xem nh ng tài li u liên quan đ n m t ch đ • Ng i dùng cung c p m t mơ t v ch đ d • T câu truy v n h th ng s l c nh ng c m t ch m c • Nh ng c m t ch m c s đ c a tài li u đ • ng c x lý tr i d ng câu truy v n c so kh p v i nh ng c m t ch m c c Nh ng tài li u có m c đ liên quan cao nh t s đ c tr v cho i dùng GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa M c đích c a IR hi n th cho ng i dùng m t t p thông tin th a mãn nhu c u c a h Chúng ta đ nh ngh a xác cho thông tin c n thi t “câu truy v n”(query), thông tin đ c ch n “tài li u” (documents) M i cách ti p c n IR bao g m thành ph n chính: m t k thu t đ bi u di n thông tin (câu truy v n, tài ng pháp so sánh cách bi u di n M c đích đ t đ ng li u), hai ph qui trình ki m tra tài li u b ng cách tính tốn đ t ng quan gi a câu truy v n tài li u Qui trình t đ ng thành cơng tr v k t qu gi ng v i k t qu đ c ng Có m t v n đ th i t o so sánh câu truy v n v i tài li u ng x y đ i v i h th ng tìm ki m nh ng t mà ng đ a câu truy v n th h tìm ki m Tr i dùng ng khác xa nh ng t t p tài li u ch a thông tin mà ng h p nh th g i “paraphrase problem” (v n đ v di n gi i) gi i quy t v n đ h th ng t o hàm bi u di n x lý câu truy v n tài li u m t cách khác đ đ t đ n m t đ t ng thích [0,1] X lý c a ng j Không gian câu truy v n Q Câu truy v n Hàm bi u di n câu truy v n i Tài li u Hàm bi u di n tài li u q Bi u di n Không gian tài li u D d Bi u di n Không gian bi u di n R c Hàm so sánh [0,1] GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa Hình 1.1: Mơ hình h th ng tìm ki m thơng tin G i mi n xác đ nh c a hàm bi u di n câu truy v n q Q, t p h p câu truy v n có th có; mi n giá tr c a R, khơng gian th ng nh t bi u di n thông tin G i mi n xác đ nh c a hàm bi u di n tài li u d D, t p h p tài li u; mi n giá tr c a R2 Mi n xác đ nh c a hàm so sánh c R x R mi n giá tr c a [0,1], t p s th c t đ n Trong m t h th ng tìm ki m lí t ng: c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D, j: Q x D > [0,1] bi u di n vi c x lý c a ng thông tin, đ i dùng gi a m i quan h c a c tính d a m t tiêu chu n (ví d : s gi ng v n i dung hay s gi ng v ki u …) Hình 1.1 minh h a m i quan h Có hai ki u h th ng tìm ki m: tìm ki m d a so kh p xác d a s p x p Mơ hình có th mơ t c cách ti p c n Trong h th ng tìm ki m d a so kh p xác, mi n giá tr c a c đ c gi i h n t đ n 1, đ sang nh phân đ quy t đ nh li u tài li u có th a bi u th c bool đ câu truy v n hay không? Các IR d a so kh p xác th li u khơng s p x p th a câu truy v n c a ng c chuy n c xác đ nh b i ng cung c p tài i dùng, h u h t h th ng tìm ki m hi n đ u dùng cách Cách ho t đ ng chi ti t c a h th ng s đ c mô t ph n sau i v i h th ng IR d a s p x p, tài li u s đ c s p x p theo th t gi m d n v m c đ liên quan Có lo i h th ng tìm ki m d a s p x p: “ranked Boolean”, “probabilistic” “similarity based” Trong cách mi n giá tr c a c [0,1], nhiên chúng khác cách tính “giá tr tr ng thái tìm ki m” (“retrieval status value”): • Trong h th ng d a “ranked Boolean” giá tr m c đ mà thông tin th a mãn bi u th c bool đ GVHD: TS H B o Qu c TS inh i n c ch b i thơng tin cịn l i Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa • Trong h th ng d a “probabilistic” , khái ni m h i khác m t chút, giá tr xác su t mà thơng tin có liên quan đ n m t câu truy v n R t nhi u h th ng tìm ki m d a xác su t đ v nđ • c thi t k đ ch p nh n câu truy c di n t b ng ngôn ng t nhiên h n m t bi u th c bool Trong h th ng tìm ki m d a s gi ng nhau, giá tr tr ng thái tìm ki m đ c tính b ng cách tính m c đ gi ng c a n i dung thông tin Trong h th ng tìm ki m d a so kh p xác, vi c đánh giá h th ng ch y u d a vi c đánh giá m c đ liên quan Gi s j giá tr nh phân đ tr c cho c Nói cách khác, ta gi s r ng tài li u ho c có ho c khơng có liên quan đ n câu truy v n, đ liên quan gi a tài li u câu truy v n ng i xác đ nh xác Theo gi đ nh này, tính hi u qu c a h th ng tìm ki m d a so kh p xác đ c đánh giá d a đ i l (precision) “đ bao ph ” (recall) xác t l tài li u đ tài li u th c s liên quan đ n thông tin mà ng li u có liên quan đ ng th ng kê “đ xác” c ch n, i dùng c n, đ bao ph t l tài c s p x p xác theo đ liên quan b i h th ng tìm ki m Nói cách khác, đ xác b ng tr t l c nh báo sai, đ bao ph đo m c đ hoàn ch nh c a vi c tìm ki m B ng 1.1 minh h a cho m i quan h Actually is Selected as Relevant Not relevant Relevant Found False alarm Not Relevant Missed Pr ecision = Re call = GVHD: TS H B o Qu c TS inh i n Found Found + False alarm Found Found + Missed Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa B ng 1.1: Tính đ hi u qu c a h th ng tìm ki m thơng tin Vi c đánh giá tính hi u qu c a h th ng tìm ki m d a s p x p ph c t p h n M t cách tính đ hi u qu ph bi n cho h th ng “đ xác trung bình” Nó đ c tính b ng cách ch n m t t p l n h n tài li u bao ph gi a Ph ng pháp th 5, 7, 11 m theo đ bao ph trình s đ ng đ đ u danh sách có giá tr c s d ng ph xác sau s đ c l p l i cho t ng câu truy v n, t ng pháp tính d a c tính cho t ng t p m t Qui ng ng m i đ xác trung bình s cho m t đ bao ph M i giá tr trung bình c a nh ng s sau s đ tốn ghi nh n nh m t đ c tr ng c a h th ng c tính xác trung bình l n t t, vi c so sánh ch th c s có ý ngh a s d ng m t t p tài li u câu truy v n Tuy nhiên đ xác trung bình c ng làm gi m m c đ thay đ i c a câu truy v n có đ c tính khác (ví d nh s l liên quan khác nhau) H n th n a, tài li u có liên quan th danh sách s p x p nên thông th ng tài li u có đ u ng t p trung ng đ xác s gi m m i t p tài li u đ cm r ng đ t ng đ bao ph 1.2 H th ng tìm ki m thơng tin xun ngơn ng (CLIR): 1.2.1 Khái ni m: H th ng tìm ki m thông tin xuyên ngôn ng (CLIR) h th ng tìm ki m (IR) cho phép ng i dùng nh p câu truy v n b ng m t ngôn ng đ tìm ki m tài li u m t ngôn ng khác it ng s d ng h th ng tìm ki m thơng tin xun ng (CLIR) là: • Nh ng ng i có kh n ng đ c tài li u ti ng n c ngồi, nh ng g p khó kh n t o câu truy v n b ng ngôn ng • Nh ng ng i g p khó kh n đ c/ tìm ki m tài li u ti ng n nh ng l i c n m t s l ng gi i h n tài li u đ c c tìm ki m b ng CLIR đ s d ng h th ng d ch máy (MT), thay ph i d ch toàn b t p h p tài li u GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa • Nh ng ng i bi t t khóa ho c c m t ti ng n c ngoài, mu n đ c tài li u có liên quan v i nh ng t khóa ho c c m t b ng ngơn ng b nx 1.2.2 Các v n đ c a CLIR: Vì câu truy v n ng i dùng nh p vào tài li u đ c tìm ki m hai ngơn ng khác nên CLIR c n ph i có qui trình chuy n ng v i qui trình tìm ki m theo cách tìm ki m truy n th ng c a h đ n ng Các h tìm ki m đ n ng hi n th c hi n r t t t qui trình tìm ki m đ n ng Và v n đ c n quan tâm làm th đ qui trình chuy n ng có th đ c th c hi n t t nh t Chính qui trình chuy n ng làm phát sinh r t nhi u v n đ CLIR V n đ đ u tiên bi t đ c m t t ngôn ng đ ngôn ng khác? V n đ th hai quy t đ nh đ l i? V n đ th ba xác đ nh đ d ch có nhi u b n d ch đ c vi t nh th c cách d ch s đ c gi c t m quan tr ng khác gi a b n c gi l i Hai v n đ đ u tiên, đ d ch đ lo i b b t b n d ch, hai v n đ c a h th ng d ch máy H th ng CLIR có th lo i b m t vài cách d ch gi l i m t s khác b ng cách kh nh p nh ng Tuy nhiên, vi c gi l i m t s cách d ch nh p nh ng giúp cho h th ng tìm ki m gia t ng đ bao ph c a V n đ th ba c a CLIR có liên quan đ n cách x lý b n d ch t ng đ ng, u giúp phân bi t CLIR v i d ch máy tìm ki m thơng tin đ n ng Gi s r ng câu truy v n ban đ u có hai t phân bi t N u t đ u tiên có th đ nhi u cách khác nhau, n u t th hai ch có th đ c d ch sang c d ch sang m t cách nh t, h th ng tìm ki m s khơng t ng tr ng s cho t đ u tiên, b i có nhi u l a ch n d ch i u minh h a cho v n đ tính tr ng s c a cách d ch, đ c bi t đ i v i h th ng CLIR M t tài li u ch a m t cách d ch c a m i t câu truy GVHD: TS H B o Qu c TS inh i n 10 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa Hình 4.3 Màn hình k t qu 1: Tài li u ti ng Vi t 2: Tài li u ti ng Anh 3: Tài li u ti ng Hoa 4.3 ánh giá : 4.3.1 Module d ch kh nh p nh ng: Chúng th c hi n vi c d ch kh nh p nh ng 100 câu ti ng Vi t bao g m 40 câu l nh v c tin h c 60 câu l nh v c khác K t qu c a chuy n ng kh nh p nh ng ti ng Anh đ GVHD: TS H B o Qu c TS inh i n 119 c trình bày b ng 4.1 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa Song ng Kh nh p nh ng úng (câu) n ng T l úng (câu) T l L nh v c Tin h c 36 90% 31 77,5% Các l nh v c khác 50 83,33% 40 66,67% B ng 4.1: K t qu d ch kh nh p nh ng ti ng Anh T k t qu th ng kê c a b ng 4.1 ta d dàng nh n th y vi c kh nh p nh ng d a ng li u song ng cho đ xác cao, đ c bi t l nh v c tin h c K t qu h p lý ng li u song ng dùng đ kh nh p nh ng thu c v l nh v c tin h c Tuy nhiên, k t qu đ i v i l nh v c khác c ng cao, nguyên nhân đ i v i l nh v c khác s nh p nh ng c a b n d ch c ng không nhi u, th ng b n d ch đ u tiên t n b n d ch ph bi n nên cho k t qu d ch xác K t qu chuy n ng kh nh p nh ng ti ng Hoa: Song ng Kh nh p nh ng úng (câu) n ng T l úng (câu) T l L nh v c Tin h c 25 62,5% Các l nh v c khác 39 65% B ng 4.2: K t qu d ch kh nh p nh ng ti ng Hoa Riêng đ i v i ti ng Hoa, v n ch a xây d ng đ c ng li u song ng nên ch có th kh nh p nh ng d a ng li u đ n ng Tuy nhiên, ng li u đ n ng mà ch ng trình s d ng khơng thu c m t l nh v c chuyên nên k t qu kh nh p nh ng ch a cao Trong t ng lai, s phát tri n hồn thi n h n n a đ xác c a qui trình kh nh p nh ng ti ng Hoa 4.3.2 Ch ng trình tìm ki m Web: GVHD: TS H B o Qu c TS inh i n 120 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa i v i ch ng trình tìm ki m web, đ hi u qu cao, ch tr v tài li u ti ng Anh ti ng Hoa t ng đ tr c ti p b ng ti ng Anh ti ng Hoa Google ng v i ng ng trình có th i dùng tìm ki m ây m t k t qu đáng khích l Tuy nhiên, t c đ tìm ki m c a ch ng trình l i ph thu c nhi u vào tính n đ nh c ađ ng c a đ ng truy n m ng V i ch t l ng m ng t t th i gian ch ng trình download tài li u ch m t kho ng 10s, th i gian t i đa đ l y tài li u 60s N u th i gian l y tài li u v t Google l n h n 60s ch đ c k t qu Khuy t m hi n v n ch a đ GVHD: TS H B o Qu c TS inh i n 121 ng trình s khơng hi n c kh c ph c Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa Ch 5.1 ng 5: K T LU N H NG PHÁT TRI N K t lu n: H th ng tìm ki m xuyên ng Vi t – Anh – Hoa h th ng tìm ki m xuyên ng đ u tiên Vi t Nam M c dù v n m t s h n ch nh ng h th ng đ t đ cm ts thành công nh t đ nh H th ng cho th y vi c tìm ki m xuyên ng b ng ti ng Vi t khác ngơn ng khác nh ng hồn tồn có th th c hi n đ c Ngồi m c đích minh h a cho hai lo i hình ngơn ng tiêu bi u, vi c l a ch n ti ng Anh ti ng Hoa cho h th ng mang nhi u ý ngh a khác Ti ng Anh m t ngôn ng qu c t ph bi n thông d ng, đ i v i ti ng Hoa, ngơn ng có s l nói nhi u nh t th gi i; thông qua h th ng ng ng ng i i dùng có th ti p c n v i kho thông tin kh ng l th gi i Nh ng thành công mà h th ng đ t đ c nh may m n k th a k t qu t [16] Vi c s d ng cơng c tách t đ t đ xác đ n 98% m t kh i đ u t t cho h th ng M t khác m c a h th ng kh nh p nh ng b n d ch, mà qui trình địi h i ph i có ng li u N u khơng có kho ng li u ch c ch n vi c kh nh p nh ng s khơng đ t đ c đ xác cao Và ng li u song ng t [11] l i m t đóng góp vơ quan tr ng cho h th ng Trong th i gian s p t i s ti p t c phát tri n nâng cao tính hi u qu c a h th ng 5.2 Hu ng phát tri n: i v i t n ng li u: 5.2.1 MRD Vi t – Anh mà xây d ng có c u trúc đ y đ (g m c tr ng l nh v c, tham chi u đ ng ngh a) nhiên s l ng m c t h n ch đ c bi t t ghép thu t ng chuyên ngành M t MRD đ y đ h n s giúp cho giai đo n chuy n ng đ t đ xác cao h n Tuy nhiên, vi c m r ng t n địi h i th i gian cơng s c l n GVHD: TS H B o Qu c TS inh i n 122 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngôn ng Vi t – Anh – Hoa MRD Anh – Hoa có c u trúc đ n gi n Vi c b sung thêm nh ng tr ng nh l nh v c, đ ng ngh a kh thi d a vào ng li u song song Ng li u ngu n tài nguyên vô quí hi m Nh ng ng li u mà dùng hi n ng li u song ng Vi t – Anh (v l nh v c tin h c) ng li u đ n ng ti ng Hoa (thu th p t báo ti ng Hoa) Trong t s c g ng b sung m t s ng li u ng lai, l nh v c khác đ vi c kh nh p nh ng đ t hi u qu cao h n 5.2.2 i v i IR Engine: Trong lu n v n s d ng Google nh m t IR Engine Ngoài Google hi n cịn có r t nhi u cơng c m nh khác có kh n ng tìm ki m Internet t ng tính hi u qu c a vi c tìm ki m, hồn tồn có th g i th c thi search engine khác Trên th c t h th ng tìm ki m có IR Engine riêng bi t đ làm cơng vi c tìm ki m c th Ch ng h n, h th ng tìm ki m xuyên ng mà chúng tơi xây d ng có th dùng ba IR Engine khác (VIR Engine, EIR Engine CIR Engine) đ tìm ki m thơng tin c n tìm cho ba lo i ngôn ng Vi t – Anh – Hoa Nh v y h ng phát tri n t ng lai xây d ng IR Engine chuyên bi t cho t ng ngôn ng giúp t ng đ xác tìm ki m thơng tin Lúc h th ng có th đ GVHD: TS H B o Qu c TS inh i n c xây d ng theo mơ hình sau: 123 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa Ng i dùng Câu truy v n b ng ti ng Vi t Các t n Các tài li u có liên quan đ n câu truy v n b ng ba ngôn ng Vi t - Anh - Hoa B d ch B kh nh p nh ng Ng li u Câu truy v n ti ng Anh EIR Engine Câu truy v n ti ng Hoa CIR Engine VIR Engine Hình 5.1 Mơ hình c a h th ng truy xu t xuyên ng Vi t – Anh – Hoa (dùng ba IR Engine) Trong IR Engine có th dùng k thu t local feedback đ m r ng câu truy v n, làm phong phú h n tài li u tìm ki m 5.2.3 M r ng ngơn ng tìm ki m cho h th ng: V i gi thuy t ngu n tài nguyên t n ng li u c a m t ngôn ng khác (ch ng h n nh ti ng Pháp) đ y đ h th ng c a chúng tơi hồn tồn có th tìm ki m tài li u có liên quan đ n câu truy v n ngơn ng Vi c b sung ngôn ng khác cho h th ng ch v n đ th i gian GVHD: TS H B o Qu c TS inh i n 124 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa PH L C DANH SÁCH CÁC PH T TI NG ANH: H U T D N XU T Stt H ut Ngh a ti ng Vi t ability kh _n ng ~ able có_th ~ đ readability (kh _n ng đ c) c; kh _~ ably Ghi chú, Ví d readable (có_th đ c đ c), transferrable (kh _chuy n) có_th ~ đ c; interchangeably (có_th hoán_đ i kh _~ đ c), transferrably (kh _chuy n) al (thu c v ) ~ national (qu c_gia) ance s ~ assistance (s tr _giúp) ant ~ assistant (tr _giúp) ate Làm cho ~ fascinate (làm cho ch t) ation s ~ decoration (s -trang_trí) cation s ~ application (s -áp_d ng) 10 ed* (đã đ 11 ee ng 12 en Làm b ng ~ golden (làm b ng vàng) 13 en Làm cho ~ shorten (làm cho ng n) 14 ence s ~ dependence (s -ph _thu c) 15 ent ~ referent (tham_kh o) 16 er* ng 17 ese ti ng/ng 18 ful ~đ y handful (n m_tay đ y), cupful 19 hood th i_k ~ childhood (th i_k niên_thi u) 20 ial (thu c v ) ~ sentential (thu c v câu) 21 ian ng technician (k _thu t_viên) 22 ibility kh _n ng ~ 23 ible có_th ~ đ c/b)~ i/v t đ c i/máy ~ ibly i~ i ~, ~_viên có_th ~ đ GVHD: TS H B o Qu c TS inh i n interviewee (ng iđ c ph ng_v n) printer (th _in, máy_in) Japanese (ti ng_Nh t), Vietnamese comprehensibility (kh _n ng hi u) c; kh _~ 24 closed-door (c a b đóng) visible (có_th nhìn th y đ c), visible (kh _ki n) c; visibly (có_th nhìn th y đ 125 c), Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa kh _~ visible (kh _ki n) 25 ic (có tính) ~ graphic (đ _ho ) 26 ing* (đang) ~ running car (xe_h i ch y) 27 ion s ~ action (hành_đ ng) 28 ise/ize ~_hóa normalise/-ize (bình_th 29 ism ch _ngh a ~ socialism (ch _ngh a xã_h i) 30 ist ng scientist (nhà_khoa_h c) 31 ity s ~ activity (s -ho t_đ ng) 32 ive ~ active (tích_c c) 33 less khơng có ~; b t_~, careless (b t_c n, khơng c n_th n) i ~, nhà_~ ng_hố) vơ_~ 34 let ~ nh booklet (cu n-sách nh ) 35 like gi ng nh ~ humanlike (gi ng nh ng 36 ly (m t cách) ~ strongly (m t cách m nh_m ) 37 Ment s ~ replacement (s -thay_th ) 38 ness s ~ brightness (s -chói_sáng) 39 Logy (ngành)_~_h c etymology (ngành_t _nguyên_h c) 40 or ng editor (ng i/máy_~ i) i_hi u_đính), generator (máy_phát) 41 st,nd,rd,t th ~ 31st, 32nd, 33rd ,34th (th 31,32,32,34) h 42 tion s ~ evolution (s -ti n_tri n) 43 Tive ~ talkative (hay nói) 44 Y có ~ cloudy, rocky (có mây, có đá) L u ý: • D u ~ đ đ i di n cho thân t • Các h u t đánh d u * nh ng h u t b trùng v i h u t c a bi n cách TI N T D N XU T Stt Ti n t Ngh a ti ng Vi t Ghi chú, Ví d Anti ch ng ~, kháng_~ Auto ~ t _đ ng GVHD: TS H B o Qu c TS inh i n antivirus (ch ng virút), antibody (kháng_th ) autocar (xe_h i t _đ ng) 126 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa Bi Centi Co Counter Hai ~, l ng_~ Xen-ti_~ đ ng_~ trái ng c v i ~ 10 11 12 13 De Dis Former Giga Hexa Hyper in, il, im, ir (*) kh _~, gi i_~ kh _ c u_~ gi_ga_~ sáu ~, l c_~ siêu_~ không ~, b t_~, vô_~ 14 15 16 17 18 19 20 21 22 23 24 25 Inter Kilo Macro Mega Meta Micro Mid Milli Mis Mono Multi Nano ~ l n nhau, liên_~ kí_lơ_~ ~ v mơ mê_ga_~ siêu ~ vi_~ gi a ~, trung ~ mi_li ~ ~ sai, ~ l m đ n_~ đa_~ na_nô ~ bicenter (l ng_tâm) centimeter (xen_ti_mét) co-author (đ ng_tác_gi ) counterclockwise (ng c chi u kim đ ng_h ) decode (gi i_mã) discharge (kh _tích_đi n) former-president (c u_t ng_th ng) gigabyte (gi_ga_byte) hexagon (l c_giác) hypertext (siêu_v n b n) illiterate (không bi t ch ), impatient (không kiên_nh n), irregular (b t_quy_t c) interconnection (k t_n i l n nhau) kilogram (kí_lơ_gam) macro-economy (kinh_t v _mơ) megawatt (mê_ga_ốt) metavariable (siêu_bi n) micro-instruction (vi_l nh) midterm (gi a k , trung_h n) millimeter (mi_li_mét) mismatch (không trùng nhau) monotone (đ n_đi u) multi-media (đa_ph ng_ti n) nanofarad (na_nô_fara) 26 27 28 29 30 31 32 33 34 Non Oct Over Pent Photo Pico Post Pre Pseudo không ~, phi ~ tám ~, bát_~ quá_~ n m ~, ng _~ quang_~ pi_cô_~ h u_~, sau ~ ti n_~ ~_gi non-profit (không l i_nhu n) octal (bát_phân) overload (quá_t i) pentagon (ng _giác) photo-electronic (quang_đi n_t ) picofarad (pi_cô_farad) post-graduate (sau đ i_h c) pre-process (ti n_x _lý) pseudo-code (mã_gi ) GVHD: TS H B o Qu c TS inh i n 127 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa 35 36 37 38 39 40 41 42 43 44 45 46 47 48 Quad Re Self Semi Stereo Sub Super Tele Tera Tri Ultra Un Under Vice b n ~, t ~ ~ l i, tái_~ t _~ bán_~ ~n i ~_con, ~ ph siêu_~ ~ t xa, vi n ~ tê_ra_~ ba ~, tam_~ c c_~ khơng ~ d i ~,h ~, ~th p phó ~ quadruple (b b n) re-calculate (tính_tốn l i) self-educate (t _h c) semi-conductor (bán_d n) stereo-image (hình_ nh_n i) subprogram (ch ng_trình_con) super-conductor (siêu_d n) tele-meter (đo_l ng t xa) terabyte (tê_ra_byte) triangle (tam_giác), tripod (ba c c) ultraviolet (c c_tím) unhappy (khơng h nh_phúc) under-estimate (đánh_giá th p) vice-director (phó_giám_đ c) : “in-” bi n th thành “il-” đ ng tr c “l”; thành “im-” đ ng tr c “b”, “m” hay “p” thành “ir-” đ ng tr c “r” L u ý: d u g ch d i (“_”) đ n i hình v m t t c a ti ng Vi t (*) DANH SÁCH CÁC PHÓ T TI NG VI T: DANH T CH LO I (KHÔNG PH I NG V T ) Stt Lo i t Ví d Ghi Ang V n Bài th , di n v n, b n tuyên ngôn, tài li u, ti u thuy t b t n, máy, hoa, b c tranh, th , t Bàn, gh , đ u, thuy n; khuy t m, tâm tr ng chi m đa s cho danh t c th c ng nh tr u t ng n n, đèn, roi, bút, súng, đàn, t m v t có hình tr , dài c n phịng, nhà ng, vách, nh 10 chi c Bàn, gh , thuy n, ch s l loi 11 Dao, thuy n, sông, đa s đ v t GVHD: TS H B o Qu c TS inh i n 128 c dùng ch đ ng Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa 12 c n gió, 13 cu n Sách, t p, v , ti u thuy t 14 đố Hoa 15 hịn đ n, bi, núi 16 kh u súng, đ i bác 17 Bùa, th , phi u, đ n 18 Gió 19 k ch, 20 Quà, n , 21 n n V n hoá, đ c l p, khoa h c, 22 Nhà 23 ng n c , núi, 24 Nhà, đ n, m , (sao) 25 t 26 qu Bom, núi, 27 quy n Sách, v 28 t m có d ng trịn có d ng d p gi ng ch danh t tr u t ng ch cơng trình xây d ng ng, truy n, sách có hình trịn (gi ng trái cây) nh, tranh, b ng, bìa 29 t n tu ng, k ch 30 Nhà, lâu đài 31 g 32 th a ru ng, đ t 33 sao, vua 34 v k ch, tu ng DANH T s v t đóng thành quy n ch cơng trình xây d ng m, ki m CH LO I (NG I/CON V T) Stt Lo i t Ví d anh Sinh viên, cán b bà ch nhi m, v bác th , phu xe ch Giáo viên, nhà báo b c v nhân, anh hùng Tí, T u c u h c trò, trai Gián p, m mìn GVHD: TS H B o Qu c TS inh i n Ghi tr ng Khinh 129 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa Trâu, bò, gà ch dùng cho v t 10 cô d 11 chàng thi s , v n nhân 12 Liên l c, tài x 13 đ ng Anh hùng, thánh th n 14 em h c sinh, nhi đ ng 15 lão qu n gia, tri huy n 16 m v n ch khinh khinh công chúa, tiên i ng tr ng àn bà, v 17 nàng 18 ng c s , y tá v n ch ng Giáo viên, th n 19 tay th u khốn, nhà bn khinh 20 tên s quan đ ch, ngu binh khinh 21 th ng qu s , m t thám khinh 22 v ph lão, ch t ch tr ng 23 viên s quan, đ i uý 24 DANH T CH N V QUY Stt T Ti ng Anh C Ví d Ghi cân pound th t chai bottle r chuy n time tàu, hàng c c clot dãy Row, line Nhà dùng v i danh t t p h p đàn herd Gà dùng v i danh t t p h p đoàn herd, ng đo n section, V n gi c sleep,slunker ng 10 gi t drop n 11 gói pack thu c 12 h t grain, drop cát, g o 13 hàng Row, line Cây GVHD: TS H B o Qu c TS inh i n u đ n v lâm th i i dùng v i danh t t p h p đ n v lâm th i c dùng v i danh t t p h p 130 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa 14 h t grain 15 hịn Ball, piece 16 lít litter r 17 lon jar, pot, can g o 18 mi ng piece th t 19 s i string, thread dây, ch 20 t n Ton s t, vàng 21 thìa spoon Canh c metter v i 23 thúng basket g o 24 thùng barrel, cask r 25 t sheet gi y 26 tr n battle M a 27 xâu thread, string Cá 22 th GVHD: TS H B o Qu c TS inh i n g o u u đ n v lâm th i 131 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa TÀI LI U THAM KH O [1] Lisa Ballesteros, W.Bruce Croft “Statistical Methods for Cross-Language Information Retrieval ” Computer Science Department – University of Massachusetts [2] Christian Fluhr, Dominique Schmit, Philippe Ortet, Faza Elkateb, Karine Gurtner, Khaled Radwan “Distributed Cross-Lingual Informtion retrieval” DIST/SMTI CEASaclay France [3 ] Mark W Davis and Ted E Dunning, March 1995 Query translation using an evolutionary programming for multi-lingual information retrieval In proceeding the Fourth Annual Conference on Evolutionary Programming [4] Michael L Littman, Susan T Dumais, Thomas K Landauer, “Automatic CrossLanguage Information Retrieval using Latent Semantic Indexing”, Computer Science Department, Brown University [5] Lisa Ballesteros, W Bruce Croft, Resolving Ambiguity for Cross-language Retrieval, 1997 [6] Lisa Ballesteros, W Bruce Croft, Phrase Translation and Query Expansion Techniques for Cross-Language Information Retrieval, 1997 [7 ] Yamabana Kiyoshi, Muraki Kazunori, Doi Shinichi, Kamei Shin-ichiro “A language conversion front-end for Cross-language Information Retrieval ” [8] Atsushi Fuiji and Tetsuya Ishikawa 9.2002 “Japanise/English Cross-Language Information Retrieval: Exploration of Query Translation and Translisteration” [9] J.S.Chang, Y.C.Lin, Y.K.Su (1995) “Automatic Construction of a Chinese Electronic Dictionary” Proceedings of Workshop of ACL-1995, pp.107-120 [10] Hoàng Phê (1998), T n ti ng Vi t, Trung tâm t n h c, NXB N ng GVHD: TS H B o Qu c TS inh i n 132 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa [11] inh i n (2004), “M t s v n đ vi c xây d ng t n ti ng Vi t n t ”, T p san Khoa h c Xã h i Nhân v n – H Khoa h c Xã h i & Nhân v n TP HCM, 2004 (27), trang 37 – 46 [12] George Miller (2000): Introduction to WordNet, http://www.cogsci.princeto.edu/~vn/.Prenceton [13] Dien Dinh, Kiem Hoang, Toan Nguyen Van (2001), “Vietnamese Word Segmentation”, Proceedings of NLPPRS’01 (The 6th Natural Language Processing Pacific Rim Symposium), Tokyo, Japan, 11/2001, pg 749-756 [14] Tsai, C H (1996), MMSEG: A word identification system for Mandarin Chinese text based on two variations of the maximum matching algorithm, Unpublished manuscript, University of Illinois at Urbana-Champaign [15] Mark W Davis William C.Ogden , 1997 “Implementing Cross-Language Text Retrieval Systems for Large-scale Text Collections and the World Wide Web” Computing Research Laboratory – New Mexico State Univeristy [16] inh i n (2005) “Xây d ng khai thác kho ng li u song ng Anh – Vi t” Lu n án ti n s ngôn ng h c, Tr [17] Lê Thuý Ng c, ng đ i h c Khoa h c Xã h i Nhân v n M Nhung, Tìm hi u v Search Engine xây d ng ng d ng minh ho cho Search Engine ti ng Vi t, Lu n v n c nhân tin h c, GVHD: Nguy n Th Di m Tiên GVHD: TS H B o Qu c TS inh i n 133 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 ... Vi t – Anh – Hoa Anh – Hoa? ?? cho phép ng i dùng nh p câu truy v n b ng ti ng Vi t tr v tài li u có liên quan b ng ti ng Vi t, ti ng Anh ti ng Hoa Trong lu n v n l a ch n ti ng Anh ti ng Hoa hai... viên d ch cho m i ng danh t ti ng Hà Lan đ c t o b ng cách so sánh t n s c a m i c m ti ng Anh xu t hi n m t c p câu ti ng Anh ch a ng danh t , v i t n s mà m i t ti ng Anh xu t hi n toàn t p... 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa C u trúc v mô t n ti ng Anh EDIC: 2.1.6.1.1 C u trúc v mô danh sách m c t ti ng Anh EDic Tiêu chí l a ch n m c t t n EDic bao g m t