1. Trang chủ
  2. » Công Nghệ Thông Tin

HeThongTimKiemThongTinXuyenNgonNguViet anh hoa

133 22 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 133
Dung lượng 2,27 MB

Nội dung

H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa M CL C M C L C M U Ch ng 1: T NG QUAN 1.1 Gi i thi u mơ hình tìm ki m thơng tin (Information Retrieval): 1.2 H th ng tìm ki m thơng tin xun ngơn ng (CLIR): .9 1.2.1 Khái ni m: 1.2.2 Các v n đ c a CLIR: 10 1.3 Các h ng ti p c n: 11 1.3.1 D ch máy (Machine Translation for Text Translation): 11 1.3.2 D a t n đa ng (Multilingual Thesauri): 14 1.3.3 D a ng li u (Corpus-based techniques): 22 1.4 M t s cơng trình nghiên c u n c: 30 1.4.1 Vi t Nam: 30 1.4.2 Trên th gi i: 31 1.5 K t lu n: 32 Ch ng 2: C S LÝ THUY T 35 2.1 Gi i thi u v MRD (Machine Readable Dictionary) .35 2.1.1 S l c l ch s phát tri n MRD th gi i: 35 2.1.2 Vai trò c u trúc c a MRD: 39 2.1.3 Khai thác tài nguyên t n: .41 2.1.4 Xây d ng t n t đ ng: 42 2.1.5 C u trúc v mô vi mô c a t n MRD: 43 2.1.6 M t s t n MRD: 43 2.2 Các ph ng pháp tách t : 51 2.2.1 Mơ hình WFST: 51 2.2.2 Mơ hình MMSEG: 57 2.3 Các ph ng pháp kh nh p nh ng: 64 2.3.1 Gi i thi u: 64 2.3.2 Kh nh p nh ng: 65 2.4 K t lu n: 70 Ch ng 3: PHÂN TÍCH THI T K 72 3.1 T ng quan h th ng: 72 3.1.1 Phát bi u toán: 72 3.1.2 Mơ hình h th ng: 72 3.1.3 Phát sinh qu n lý: 73 3.2 Phân tích – thi t k h th ng: 76 3.2.1 Mơ hình Usecase: 76 3.2.2 c t usecase: .77 3.2.3 S đ tu n t : 78 3.2.4 Thi t k l p: 81 3.2.5 Thi t k giao di n: 94 GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa 3.3 Xây d ng h th ng: 97 3.3.1 T ch c MRD: .97 3.3.2 Ph ng pháp tìm ki m d a MRD: 106 3.3.3 Tìm ki m tài li u b ng cơng c tìm ki m: .110 CH NG 4: CÀI T VÀ TH NGHI M 112 4.1 Cài đ t: .112 4.1.1 Ti n x lý: 112 4.1.2 C u trúc d li u: 112 4.1.3 D ch t t n: 113 4.1.4 Kh nh p nh ng : 113 4.1.5 Tìm ki m: .116 4.2 Th nghi m: 117 4.2.1 Module d ch kh nh p nh ng: 117 4.2.2 Ch ng trình demo web: 117 4.3 ánh giá : 119 4.3.1 Module d ch kh nh p nh ng: 119 4.3.2 Ch ng trình tìm ki m Web: 120 Ch ng 5: K T LU N H NG PHÁT TRI N 122 5.1 K t lu n: 122 5.2 Hu ng phát tri n: .122 5.2.1 i v i t n ng li u: 122 5.2.2 i v i IR Engine: .123 5.2.3 M r ng ngơn ng tìm ki m cho h th ng: 124 PH L C 125 TÀI LI U THAM KH O 132 GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa M U V i s phát tri n nhanh chóng c a cơng ngh tin h c, kh i l ng thông tin đ cl u tr máy tính ngày nhi u Vì v y c n có h th ng tìm ki m thông tin (Information Retrieval) cho phép ng i dùng tìm ki m m t cách xác nhanh nh t thông tin mà h c n kho t li u kh ng l H n n a, xu th tồn c u hóa nh hi n nay, r t nhi u t ch c, cơng ty qu c t hình thành, l i xu t hi n m t nhu c u m i vi c tìm ki m thơng tin tìm ki m thơng tin đa ng đ ng i dùng có th khai thác m t cách hi u qu nh t kho tài li u đa ng mà h có M t ví d c th v kho t li u đa ng Internet Các trang Web b ng nhi u ngôn ng khác xu t hi n ngày nhi u, cơng c tìm ki m đ n ng (search engine) ch có th tr v tài li u đ c vi t ngôn ng v i ngôn ng c a câu truy v n (query) Do v n đ đ t li u có th xây d ng m t h tìm ki m thông tin mà thông tin tr v t t c tài li u ngôn ng khác kho t li u có liên quan đ n câu truy v n (không ph thu c vào ngơn ng c a câu truy v n) ây toán đ t cho vi c nghiên c u h tìm ki m đa ng / xuyên ng (multilanguage IR/ cross language IR) M c tiêu c a h th ng tìm ki m xuyên ng cung c p cơng c cho ng có th mơ t nhu c u tìm ki m thơng tin (th i dùng đ ngơn ng mà di n đ t gi i nh t ng ti ng m đ ), h th ng s ph i tr v t t c tài li u t t c ngơn ng có kho t li u tìm ki m có liên quan đ n nhu c u thông tin c a ng i dùng Trên nhu c u chung c a h u h t ngôn ng ti ng Vi t c a c ng không ph i ngo i l Khác v i ngôn ng khác, ti ng Vi t có nhi u đ c m riêng bi t r t khó x lý b ng máy tính, nên đ tài nghiên c u hay ch ng trình ng d ng liên quan đ n h th ng tìm ki m b ng ti ng Vi t r t Mà nhu c u tìm ki m tài li u kho tàng ki n th c c a th gi i c a ng i Vi t r t l n V i mong mu n phát tri n nhi u h n n a h th ng tìm ki m xun ngơn ng b ng ti ng Vi t, xây d ng “H th ng tìm ki m thơng tin xun ngơn ng Vi t – GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa Anh – Hoa” cho phép ng i dùng nh p câu truy v n b ng ti ng Vi t tr v tài li u có liên quan b ng ti ng Vi t, ti ng Anh ti ng Hoa Trong lu n v n l a ch n ti ng Anh ti ng Hoa hai đ i di n tiêu bi u cho hai lo i hình ngơn ng bi n hình đ n l p T cho th y r ng h th ng tìm ki m thơng tin xuyên ng có th th c thi hai lo i hình ngơn ng khác B c c c a lu n v n g m ch • Ch ng sau: ng – T NG QUAN : gi i thi u t ng quan v h th ng tìm ki m (IR), h th ng tìm ki m thông tin xuyên ngôn ng (CLIR), h ng ti p c n v n đ c n gi i quy t c a h th ng • ph Ch ng – C S LÝ THUY T: trình bày c s lý thuy t ng pháp nghiên c u lu n v n • Ch ng – PHÂN TÍCH VÀ THI T K : phân tích thi t k h • Ch ng – CÀI • Ch ng – K T LU N H th ng qu đ t đ • T VÀ KI M TRA: cài đ t, ki m th ch ng trình NG PHÁT TRI N: trình bày k t c, đánh giá v h th ng h ng phát tri n t ng lai Ph n TÀI LI U THAM KH O PH L C: trình bày thơng tin có liên quan đ c s d ng lu n v n GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa Ch Trong ch ng 1: T NG QUAN ng này, chúng tơi s trình bày khái qt v h th ng tìm ki m (Information Retrieval), h th ng tìm ki m thơng tin xun ngơn ng (Cross-Language Information Retrieval) m t s kh o sát v tình hình nghiên c u ngồi n c Cu i ch ng s rút k t lu n chung l a ch n h ng ti p c n cho h th ng c a N i dung trình bày bao g m: Gi i thi u mơ hình tìm ki m thơng tin H th ng tìm ki m thơng tin xun ngơn ng M t s cơng trình nghiên c u n c K t lu n 1.1 Gi i thi u mơ hình tìm ki m thơng tin (Information Retrieval): H th ng tìm ki m thơng tin xuyên ng (Cross Language Information Retrieval CLIR) có liên h r t m t thi t v i h th ng tìm ki m thơng tin (Information Retrieval IR) c ng có r t nhi u đ c tr ng c a h th ng (IR) Qui trình c a h th ng tìm ki m thơng tin nh sau: • Ng i dùng mu n xem nh ng tài li u liên quan đ n m t ch đ • Ng i dùng cung c p m t mơ t v ch đ d • T câu truy v n h th ng s l c nh ng c m t ch m c • Nh ng c m t ch m c s đ c a tài li u đ • ng c x lý tr i d ng câu truy v n c so kh p v i nh ng c m t ch m c c Nh ng tài li u có m c đ liên quan cao nh t s đ c tr v cho i dùng GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa M c đích c a IR hi n th cho ng i dùng m t t p thông tin th a mãn nhu c u c a h Chúng ta đ nh ngh a xác cho thông tin c n thi t “câu truy v n”(query), thông tin đ c ch n “tài li u” (documents) M i cách ti p c n IR bao g m thành ph n chính: m t k thu t đ bi u di n thông tin (câu truy v n, tài ng pháp so sánh cách bi u di n M c đích đ t đ ng li u), hai ph qui trình ki m tra tài li u b ng cách tính tốn đ t ng quan gi a câu truy v n tài li u Qui trình t đ ng thành cơng tr v k t qu gi ng v i k t qu đ c ng Có m t v n đ th i t o so sánh câu truy v n v i tài li u ng x y đ i v i h th ng tìm ki m nh ng t mà ng đ a câu truy v n th h tìm ki m Tr i dùng ng khác xa nh ng t t p tài li u ch a thông tin mà ng h p nh th g i “paraphrase problem” (v n đ v di n gi i) gi i quy t v n đ h th ng t o hàm bi u di n x lý câu truy v n tài li u m t cách khác đ đ t đ n m t đ t ng thích [0,1] X lý c a ng j Không gian câu truy v n Q Câu truy v n Hàm bi u di n câu truy v n i Tài li u Hàm bi u di n tài li u q Bi u di n Không gian tài li u D d Bi u di n Không gian bi u di n R c Hàm so sánh [0,1] GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa Hình 1.1: Mơ hình h th ng tìm ki m thơng tin G i mi n xác đ nh c a hàm bi u di n câu truy v n q Q, t p h p câu truy v n có th có; mi n giá tr c a R, khơng gian th ng nh t bi u di n thông tin G i mi n xác đ nh c a hàm bi u di n tài li u d D, t p h p tài li u; mi n giá tr c a R2 Mi n xác đ nh c a hàm so sánh c R x R mi n giá tr c a [0,1], t p s th c t đ n Trong m t h th ng tìm ki m lí t ng: c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D, j: Q x D > [0,1] bi u di n vi c x lý c a ng thông tin, đ i dùng gi a m i quan h c a c tính d a m t tiêu chu n (ví d : s gi ng v n i dung hay s gi ng v ki u …) Hình 1.1 minh h a m i quan h Có hai ki u h th ng tìm ki m: tìm ki m d a so kh p xác d a s p x p Mơ hình có th mơ t c cách ti p c n Trong h th ng tìm ki m d a so kh p xác, mi n giá tr c a c đ c gi i h n t đ n 1, đ sang nh phân đ quy t đ nh li u tài li u có th a bi u th c bool đ câu truy v n hay không? Các IR d a so kh p xác th li u khơng s p x p th a câu truy v n c a ng c chuy n c xác đ nh b i ng cung c p tài i dùng, h u h t h th ng tìm ki m hi n đ u dùng cách Cách ho t đ ng chi ti t c a h th ng s đ c mô t ph n sau i v i h th ng IR d a s p x p, tài li u s đ c s p x p theo th t gi m d n v m c đ liên quan Có lo i h th ng tìm ki m d a s p x p: “ranked Boolean”, “probabilistic” “similarity based” Trong cách mi n giá tr c a c [0,1], nhiên chúng khác cách tính “giá tr tr ng thái tìm ki m” (“retrieval status value”): • Trong h th ng d a “ranked Boolean” giá tr m c đ mà thông tin th a mãn bi u th c bool đ GVHD: TS H B o Qu c TS inh i n c ch b i thơng tin cịn l i Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa • Trong h th ng d a “probabilistic” , khái ni m h i khác m t chút, giá tr xác su t mà thơng tin có liên quan đ n m t câu truy v n R t nhi u h th ng tìm ki m d a xác su t đ v nđ • c thi t k đ ch p nh n câu truy c di n t b ng ngôn ng t nhiên h n m t bi u th c bool Trong h th ng tìm ki m d a s gi ng nhau, giá tr tr ng thái tìm ki m đ c tính b ng cách tính m c đ gi ng c a n i dung thông tin Trong h th ng tìm ki m d a so kh p xác, vi c đánh giá h th ng ch y u d a vi c đánh giá m c đ liên quan Gi s j giá tr nh phân đ tr c cho c Nói cách khác, ta gi s r ng tài li u ho c có ho c khơng có liên quan đ n câu truy v n, đ liên quan gi a tài li u câu truy v n ng i xác đ nh xác Theo gi đ nh này, tính hi u qu c a h th ng tìm ki m d a so kh p xác đ c đánh giá d a đ i l (precision) “đ bao ph ” (recall) xác t l tài li u đ tài li u th c s liên quan đ n thông tin mà ng li u có liên quan đ ng th ng kê “đ xác” c ch n, i dùng c n, đ bao ph t l tài c s p x p xác theo đ liên quan b i h th ng tìm ki m Nói cách khác, đ xác b ng tr t l c nh báo sai, đ bao ph đo m c đ hoàn ch nh c a vi c tìm ki m B ng 1.1 minh h a cho m i quan h Actually is Selected as Relevant Not relevant Relevant Found False alarm Not Relevant Missed Pr ecision = Re call = GVHD: TS H B o Qu c TS inh i n Found Found + False alarm Found Found + Missed Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa B ng 1.1: Tính đ hi u qu c a h th ng tìm ki m thơng tin Vi c đánh giá tính hi u qu c a h th ng tìm ki m d a s p x p ph c t p h n M t cách tính đ hi u qu ph bi n cho h th ng “đ xác trung bình” Nó đ c tính b ng cách ch n m t t p l n h n tài li u bao ph gi a Ph ng pháp th 5, 7, 11 m theo đ bao ph trình s đ ng đ đ u danh sách có giá tr c s d ng ph xác sau s đ c l p l i cho t ng câu truy v n, t ng pháp tính d a c tính cho t ng t p m t Qui ng ng m i đ xác trung bình s cho m t đ bao ph M i giá tr trung bình c a nh ng s sau s đ tốn ghi nh n nh m t đ c tr ng c a h th ng c tính xác trung bình l n t t, vi c so sánh ch th c s có ý ngh a s d ng m t t p tài li u câu truy v n Tuy nhiên đ xác trung bình c ng làm gi m m c đ thay đ i c a câu truy v n có đ c tính khác (ví d nh s l liên quan khác nhau) H n th n a, tài li u có liên quan th danh sách s p x p nên thông th ng tài li u có đ u ng t p trung ng đ xác s gi m m i t p tài li u đ cm r ng đ t ng đ bao ph 1.2 H th ng tìm ki m thơng tin xun ngơn ng (CLIR): 1.2.1 Khái ni m: H th ng tìm ki m thông tin xuyên ngôn ng (CLIR) h th ng tìm ki m (IR) cho phép ng i dùng nh p câu truy v n b ng m t ngôn ng đ tìm ki m tài li u m t ngôn ng khác it ng s d ng h th ng tìm ki m thơng tin xun ng (CLIR) là: • Nh ng ng i có kh n ng đ c tài li u ti ng n c ngồi, nh ng g p khó kh n t o câu truy v n b ng ngôn ng • Nh ng ng i g p khó kh n đ c/ tìm ki m tài li u ti ng n nh ng l i c n m t s l ng gi i h n tài li u đ c c tìm ki m b ng CLIR đ s d ng h th ng d ch máy (MT), thay ph i d ch toàn b t p h p tài li u GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa • Nh ng ng i bi t t khóa ho c c m t ti ng n c ngoài, mu n đ c tài li u có liên quan v i nh ng t khóa ho c c m t b ng ngơn ng b nx 1.2.2 Các v n đ c a CLIR: Vì câu truy v n ng i dùng nh p vào tài li u đ c tìm ki m hai ngơn ng khác nên CLIR c n ph i có qui trình chuy n ng v i qui trình tìm ki m theo cách tìm ki m truy n th ng c a h đ n ng Các h tìm ki m đ n ng hi n th c hi n r t t t qui trình tìm ki m đ n ng Và v n đ c n quan tâm làm th đ qui trình chuy n ng có th đ c th c hi n t t nh t Chính qui trình chuy n ng làm phát sinh r t nhi u v n đ CLIR V n đ đ u tiên bi t đ c m t t ngôn ng đ ngôn ng khác? V n đ th hai quy t đ nh đ l i? V n đ th ba xác đ nh đ d ch có nhi u b n d ch đ c vi t nh th c cách d ch s đ c gi c t m quan tr ng khác gi a b n c gi l i Hai v n đ đ u tiên, đ d ch đ lo i b b t b n d ch, hai v n đ c a h th ng d ch máy H th ng CLIR có th lo i b m t vài cách d ch gi l i m t s khác b ng cách kh nh p nh ng Tuy nhiên, vi c gi l i m t s cách d ch nh p nh ng giúp cho h th ng tìm ki m gia t ng đ bao ph c a V n đ th ba c a CLIR có liên quan đ n cách x lý b n d ch t ng đ ng, u giúp phân bi t CLIR v i d ch máy tìm ki m thơng tin đ n ng Gi s r ng câu truy v n ban đ u có hai t phân bi t N u t đ u tiên có th đ nhi u cách khác nhau, n u t th hai ch có th đ c d ch sang c d ch sang m t cách nh t, h th ng tìm ki m s khơng t ng tr ng s cho t đ u tiên, b i có nhi u l a ch n d ch i u minh h a cho v n đ tính tr ng s c a cách d ch, đ c bi t đ i v i h th ng CLIR M t tài li u ch a m t cách d ch c a m i t câu truy GVHD: TS H B o Qu c TS inh i n 10 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa Hình 4.3 Màn hình k t qu 1: Tài li u ti ng Vi t 2: Tài li u ti ng Anh 3: Tài li u ti ng Hoa 4.3 ánh giá : 4.3.1 Module d ch kh nh p nh ng: Chúng th c hi n vi c d ch kh nh p nh ng 100 câu ti ng Vi t bao g m 40 câu l nh v c tin h c 60 câu l nh v c khác K t qu c a chuy n ng kh nh p nh ng ti ng Anh đ GVHD: TS H B o Qu c TS inh i n 119 c trình bày b ng 4.1 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa Song ng Kh nh p nh ng úng (câu) n ng T l úng (câu) T l L nh v c Tin h c 36 90% 31 77,5% Các l nh v c khác 50 83,33% 40 66,67% B ng 4.1: K t qu d ch kh nh p nh ng ti ng Anh T k t qu th ng kê c a b ng 4.1 ta d dàng nh n th y vi c kh nh p nh ng d a ng li u song ng cho đ xác cao, đ c bi t l nh v c tin h c K t qu h p lý ng li u song ng dùng đ kh nh p nh ng thu c v l nh v c tin h c Tuy nhiên, k t qu đ i v i l nh v c khác c ng cao, nguyên nhân đ i v i l nh v c khác s nh p nh ng c a b n d ch c ng không nhi u, th ng b n d ch đ u tiên t n b n d ch ph bi n nên cho k t qu d ch xác K t qu chuy n ng kh nh p nh ng ti ng Hoa: Song ng Kh nh p nh ng úng (câu) n ng T l úng (câu) T l L nh v c Tin h c 25 62,5% Các l nh v c khác 39 65% B ng 4.2: K t qu d ch kh nh p nh ng ti ng Hoa Riêng đ i v i ti ng Hoa, v n ch a xây d ng đ c ng li u song ng nên ch có th kh nh p nh ng d a ng li u đ n ng Tuy nhiên, ng li u đ n ng mà ch ng trình s d ng khơng thu c m t l nh v c chuyên nên k t qu kh nh p nh ng ch a cao Trong t ng lai, s phát tri n hồn thi n h n n a đ xác c a qui trình kh nh p nh ng ti ng Hoa 4.3.2 Ch ng trình tìm ki m Web: GVHD: TS H B o Qu c TS inh i n 120 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa i v i ch ng trình tìm ki m web, đ hi u qu cao, ch tr v tài li u ti ng Anh ti ng Hoa t ng đ tr c ti p b ng ti ng Anh ti ng Hoa Google ng v i ng ng trình có th i dùng tìm ki m ây m t k t qu đáng khích l Tuy nhiên, t c đ tìm ki m c a ch ng trình l i ph thu c nhi u vào tính n đ nh c ađ ng c a đ ng truy n m ng V i ch t l ng m ng t t th i gian ch ng trình download tài li u ch m t kho ng 10s, th i gian t i đa đ l y tài li u 60s N u th i gian l y tài li u v t Google l n h n 60s ch đ c k t qu Khuy t m hi n v n ch a đ GVHD: TS H B o Qu c TS inh i n 121 ng trình s khơng hi n c kh c ph c Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa Ch 5.1 ng 5: K T LU N H NG PHÁT TRI N K t lu n: H th ng tìm ki m xuyên ng Vi t – Anh – Hoa h th ng tìm ki m xuyên ng đ u tiên Vi t Nam M c dù v n m t s h n ch nh ng h th ng đ t đ cm ts thành công nh t đ nh H th ng cho th y vi c tìm ki m xuyên ng b ng ti ng Vi t khác ngơn ng khác nh ng hồn tồn có th th c hi n đ c Ngồi m c đích minh h a cho hai lo i hình ngơn ng tiêu bi u, vi c l a ch n ti ng Anh ti ng Hoa cho h th ng mang nhi u ý ngh a khác Ti ng Anh m t ngôn ng qu c t ph bi n thông d ng, đ i v i ti ng Hoa, ngơn ng có s l nói nhi u nh t th gi i; thông qua h th ng ng ng ng i i dùng có th ti p c n v i kho thông tin kh ng l th gi i Nh ng thành công mà h th ng đ t đ c nh may m n k th a k t qu t [16] Vi c s d ng cơng c tách t đ t đ xác đ n 98% m t kh i đ u t t cho h th ng M t khác m c a h th ng kh nh p nh ng b n d ch, mà qui trình địi h i ph i có ng li u N u khơng có kho ng li u ch c ch n vi c kh nh p nh ng s khơng đ t đ c đ xác cao Và ng li u song ng t [11] l i m t đóng góp vơ quan tr ng cho h th ng Trong th i gian s p t i s ti p t c phát tri n nâng cao tính hi u qu c a h th ng 5.2 Hu ng phát tri n: i v i t n ng li u: 5.2.1 MRD Vi t – Anh mà xây d ng có c u trúc đ y đ (g m c tr ng l nh v c, tham chi u đ ng ngh a) nhiên s l ng m c t h n ch đ c bi t t ghép thu t ng chuyên ngành M t MRD đ y đ h n s giúp cho giai đo n chuy n ng đ t đ xác cao h n Tuy nhiên, vi c m r ng t n địi h i th i gian cơng s c l n GVHD: TS H B o Qu c TS inh i n 122 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngôn ng Vi t – Anh – Hoa MRD Anh – Hoa có c u trúc đ n gi n Vi c b sung thêm nh ng tr ng nh l nh v c, đ ng ngh a kh thi d a vào ng li u song song Ng li u ngu n tài nguyên vô quí hi m Nh ng ng li u mà dùng hi n ng li u song ng Vi t – Anh (v l nh v c tin h c) ng li u đ n ng ti ng Hoa (thu th p t báo ti ng Hoa) Trong t s c g ng b sung m t s ng li u ng lai, l nh v c khác đ vi c kh nh p nh ng đ t hi u qu cao h n 5.2.2 i v i IR Engine: Trong lu n v n s d ng Google nh m t IR Engine Ngoài Google hi n cịn có r t nhi u cơng c m nh khác có kh n ng tìm ki m Internet t ng tính hi u qu c a vi c tìm ki m, hồn tồn có th g i th c thi search engine khác Trên th c t h th ng tìm ki m có IR Engine riêng bi t đ làm cơng vi c tìm ki m c th Ch ng h n, h th ng tìm ki m xuyên ng mà chúng tơi xây d ng có th dùng ba IR Engine khác (VIR Engine, EIR Engine CIR Engine) đ tìm ki m thơng tin c n tìm cho ba lo i ngôn ng Vi t – Anh – Hoa Nh v y h ng phát tri n t ng lai xây d ng IR Engine chuyên bi t cho t ng ngôn ng giúp t ng đ xác tìm ki m thơng tin Lúc h th ng có th đ GVHD: TS H B o Qu c TS inh i n c xây d ng theo mơ hình sau: 123 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa Ng i dùng Câu truy v n b ng ti ng Vi t Các t n Các tài li u có liên quan đ n câu truy v n b ng ba ngôn ng Vi t - Anh - Hoa B d ch B kh nh p nh ng Ng li u Câu truy v n ti ng Anh EIR Engine Câu truy v n ti ng Hoa CIR Engine VIR Engine Hình 5.1 Mơ hình c a h th ng truy xu t xuyên ng Vi t – Anh – Hoa (dùng ba IR Engine) Trong IR Engine có th dùng k thu t local feedback đ m r ng câu truy v n, làm phong phú h n tài li u tìm ki m 5.2.3 M r ng ngơn ng tìm ki m cho h th ng: V i gi thuy t ngu n tài nguyên t n ng li u c a m t ngôn ng khác (ch ng h n nh ti ng Pháp) đ y đ h th ng c a chúng tơi hồn tồn có th tìm ki m tài li u có liên quan đ n câu truy v n ngơn ng Vi c b sung ngôn ng khác cho h th ng ch v n đ th i gian GVHD: TS H B o Qu c TS inh i n 124 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa PH L C DANH SÁCH CÁC PH T TI NG ANH: H U T D N XU T Stt H ut Ngh a ti ng Vi t ability kh _n ng ~ able có_th ~ đ readability (kh _n ng đ c) c; kh _~ ably Ghi chú, Ví d readable (có_th đ c đ c), transferrable (kh _chuy n) có_th ~ đ c; interchangeably (có_th hoán_đ i kh _~ đ c), transferrably (kh _chuy n) al (thu c v ) ~ national (qu c_gia) ance s ~ assistance (s tr _giúp) ant ~ assistant (tr _giúp) ate Làm cho ~ fascinate (làm cho ch t) ation s ~ decoration (s -trang_trí) cation s ~ application (s -áp_d ng) 10 ed* (đã đ 11 ee ng 12 en Làm b ng ~ golden (làm b ng vàng) 13 en Làm cho ~ shorten (làm cho ng n) 14 ence s ~ dependence (s -ph _thu c) 15 ent ~ referent (tham_kh o) 16 er* ng 17 ese ti ng/ng 18 ful ~đ y handful (n m_tay đ y), cupful 19 hood th i_k ~ childhood (th i_k niên_thi u) 20 ial (thu c v ) ~ sentential (thu c v câu) 21 ian ng technician (k _thu t_viên) 22 ibility kh _n ng ~ 23 ible có_th ~ đ c/b)~ i/v t đ c i/máy ~ ibly i~ i ~, ~_viên có_th ~ đ GVHD: TS H B o Qu c TS inh i n interviewee (ng iđ c ph ng_v n) printer (th _in, máy_in) Japanese (ti ng_Nh t), Vietnamese comprehensibility (kh _n ng hi u) c; kh _~ 24 closed-door (c a b đóng) visible (có_th nhìn th y đ c), visible (kh _ki n) c; visibly (có_th nhìn th y đ 125 c), Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa kh _~ visible (kh _ki n) 25 ic (có tính) ~ graphic (đ _ho ) 26 ing* (đang) ~ running car (xe_h i ch y) 27 ion s ~ action (hành_đ ng) 28 ise/ize ~_hóa normalise/-ize (bình_th 29 ism ch _ngh a ~ socialism (ch _ngh a xã_h i) 30 ist ng scientist (nhà_khoa_h c) 31 ity s ~ activity (s -ho t_đ ng) 32 ive ~ active (tích_c c) 33 less khơng có ~; b t_~, careless (b t_c n, khơng c n_th n) i ~, nhà_~ ng_hố) vơ_~ 34 let ~ nh booklet (cu n-sách nh ) 35 like gi ng nh ~ humanlike (gi ng nh ng 36 ly (m t cách) ~ strongly (m t cách m nh_m ) 37 Ment s ~ replacement (s -thay_th ) 38 ness s ~ brightness (s -chói_sáng) 39 Logy (ngành)_~_h c etymology (ngành_t _nguyên_h c) 40 or ng editor (ng i/máy_~ i) i_hi u_đính), generator (máy_phát) 41 st,nd,rd,t th ~ 31st, 32nd, 33rd ,34th (th 31,32,32,34) h 42 tion s ~ evolution (s -ti n_tri n) 43 Tive ~ talkative (hay nói) 44 Y có ~ cloudy, rocky (có mây, có đá) L u ý: • D u ~ đ đ i di n cho thân t • Các h u t đánh d u * nh ng h u t b trùng v i h u t c a bi n cách TI N T D N XU T Stt Ti n t Ngh a ti ng Vi t Ghi chú, Ví d Anti ch ng ~, kháng_~ Auto ~ t _đ ng GVHD: TS H B o Qu c TS inh i n antivirus (ch ng virút), antibody (kháng_th ) autocar (xe_h i t _đ ng) 126 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa Bi Centi Co Counter Hai ~, l ng_~ Xen-ti_~ đ ng_~ trái ng c v i ~ 10 11 12 13 De Dis Former Giga Hexa Hyper in, il, im, ir (*) kh _~, gi i_~ kh _ c u_~ gi_ga_~ sáu ~, l c_~ siêu_~ không ~, b t_~, vô_~ 14 15 16 17 18 19 20 21 22 23 24 25 Inter Kilo Macro Mega Meta Micro Mid Milli Mis Mono Multi Nano ~ l n nhau, liên_~ kí_lơ_~ ~ v mơ mê_ga_~ siêu ~ vi_~ gi a ~, trung ~ mi_li ~ ~ sai, ~ l m đ n_~ đa_~ na_nô ~ bicenter (l ng_tâm) centimeter (xen_ti_mét) co-author (đ ng_tác_gi ) counterclockwise (ng c chi u kim đ ng_h ) decode (gi i_mã) discharge (kh _tích_đi n) former-president (c u_t ng_th ng) gigabyte (gi_ga_byte) hexagon (l c_giác) hypertext (siêu_v n b n) illiterate (không bi t ch ), impatient (không kiên_nh n), irregular (b t_quy_t c) interconnection (k t_n i l n nhau) kilogram (kí_lơ_gam) macro-economy (kinh_t v _mơ) megawatt (mê_ga_ốt) metavariable (siêu_bi n) micro-instruction (vi_l nh) midterm (gi a k , trung_h n) millimeter (mi_li_mét) mismatch (không trùng nhau) monotone (đ n_đi u) multi-media (đa_ph ng_ti n) nanofarad (na_nô_fara) 26 27 28 29 30 31 32 33 34 Non Oct Over Pent Photo Pico Post Pre Pseudo không ~, phi ~ tám ~, bát_~ quá_~ n m ~, ng _~ quang_~ pi_cô_~ h u_~, sau ~ ti n_~ ~_gi non-profit (không l i_nhu n) octal (bát_phân) overload (quá_t i) pentagon (ng _giác) photo-electronic (quang_đi n_t ) picofarad (pi_cô_farad) post-graduate (sau đ i_h c) pre-process (ti n_x _lý) pseudo-code (mã_gi ) GVHD: TS H B o Qu c TS inh i n 127 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa 35 36 37 38 39 40 41 42 43 44 45 46 47 48 Quad Re Self Semi Stereo Sub Super Tele Tera Tri Ultra Un Under Vice b n ~, t ~ ~ l i, tái_~ t _~ bán_~ ~n i ~_con, ~ ph siêu_~ ~ t xa, vi n ~ tê_ra_~ ba ~, tam_~ c c_~ khơng ~ d i ~,h ~, ~th p phó ~ quadruple (b b n) re-calculate (tính_tốn l i) self-educate (t _h c) semi-conductor (bán_d n) stereo-image (hình_ nh_n i) subprogram (ch ng_trình_con) super-conductor (siêu_d n) tele-meter (đo_l ng t xa) terabyte (tê_ra_byte) triangle (tam_giác), tripod (ba c c) ultraviolet (c c_tím) unhappy (khơng h nh_phúc) under-estimate (đánh_giá th p) vice-director (phó_giám_đ c) : “in-” bi n th thành “il-” đ ng tr c “l”; thành “im-” đ ng tr c “b”, “m” hay “p” thành “ir-” đ ng tr c “r” L u ý: d u g ch d i (“_”) đ n i hình v m t t c a ti ng Vi t (*) DANH SÁCH CÁC PHÓ T TI NG VI T: DANH T CH LO I (KHÔNG PH I NG V T ) Stt Lo i t Ví d Ghi Ang V n Bài th , di n v n, b n tuyên ngôn, tài li u, ti u thuy t b t n, máy, hoa, b c tranh, th , t Bàn, gh , đ u, thuy n; khuy t m, tâm tr ng chi m đa s cho danh t c th c ng nh tr u t ng n n, đèn, roi, bút, súng, đàn, t m v t có hình tr , dài c n phịng, nhà ng, vách, nh 10 chi c Bàn, gh , thuy n, ch s l loi 11 Dao, thuy n, sông, đa s đ v t GVHD: TS H B o Qu c TS inh i n 128 c dùng ch đ ng Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa 12 c n gió, 13 cu n Sách, t p, v , ti u thuy t 14 đố Hoa 15 hịn đ n, bi, núi 16 kh u súng, đ i bác 17 Bùa, th , phi u, đ n 18 Gió 19 k ch, 20 Quà, n , 21 n n V n hoá, đ c l p, khoa h c, 22 Nhà 23 ng n c , núi, 24 Nhà, đ n, m , (sao) 25 t 26 qu Bom, núi, 27 quy n Sách, v 28 t m có d ng trịn có d ng d p gi ng ch danh t tr u t ng ch cơng trình xây d ng ng, truy n, sách có hình trịn (gi ng trái cây) nh, tranh, b ng, bìa 29 t n tu ng, k ch 30 Nhà, lâu đài 31 g 32 th a ru ng, đ t 33 sao, vua 34 v k ch, tu ng DANH T s v t đóng thành quy n ch cơng trình xây d ng m, ki m CH LO I (NG I/CON V T) Stt Lo i t Ví d anh Sinh viên, cán b bà ch nhi m, v bác th , phu xe ch Giáo viên, nhà báo b c v nhân, anh hùng Tí, T u c u h c trò, trai Gián p, m mìn GVHD: TS H B o Qu c TS inh i n Ghi tr ng Khinh 129 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa Trâu, bò, gà ch dùng cho v t 10 cô d 11 chàng thi s , v n nhân 12 Liên l c, tài x 13 đ ng Anh hùng, thánh th n 14 em h c sinh, nhi đ ng 15 lão qu n gia, tri huy n 16 m v n ch khinh khinh công chúa, tiên i ng tr ng àn bà, v 17 nàng 18 ng c s , y tá v n ch ng Giáo viên, th n 19 tay th u khốn, nhà bn khinh 20 tên s quan đ ch, ngu binh khinh 21 th ng qu s , m t thám khinh 22 v ph lão, ch t ch tr ng 23 viên s quan, đ i uý 24 DANH T CH N V QUY Stt T Ti ng Anh C Ví d Ghi cân pound th t chai bottle r chuy n time tàu, hàng c c clot dãy Row, line Nhà dùng v i danh t t p h p đàn herd Gà dùng v i danh t t p h p đoàn herd, ng đo n section, V n gi c sleep,slunker ng 10 gi t drop n 11 gói pack thu c 12 h t grain, drop cát, g o 13 hàng Row, line Cây GVHD: TS H B o Qu c TS inh i n u đ n v lâm th i i dùng v i danh t t p h p đ n v lâm th i c dùng v i danh t t p h p 130 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa 14 h t grain 15 hịn Ball, piece 16 lít litter r 17 lon jar, pot, can g o 18 mi ng piece th t 19 s i string, thread dây, ch 20 t n Ton s t, vàng 21 thìa spoon Canh c metter v i 23 thúng basket g o 24 thùng barrel, cask r 25 t sheet gi y 26 tr n battle M a 27 xâu thread, string Cá 22 th GVHD: TS H B o Qu c TS inh i n g o u u đ n v lâm th i 131 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa TÀI LI U THAM KH O [1] Lisa Ballesteros, W.Bruce Croft “Statistical Methods for Cross-Language Information Retrieval ” Computer Science Department – University of Massachusetts [2] Christian Fluhr, Dominique Schmit, Philippe Ortet, Faza Elkateb, Karine Gurtner, Khaled Radwan “Distributed Cross-Lingual Informtion retrieval” DIST/SMTI CEASaclay France [3 ] Mark W Davis and Ted E Dunning, March 1995 Query translation using an evolutionary programming for multi-lingual information retrieval In proceeding the Fourth Annual Conference on Evolutionary Programming [4] Michael L Littman, Susan T Dumais, Thomas K Landauer, “Automatic CrossLanguage Information Retrieval using Latent Semantic Indexing”, Computer Science Department, Brown University [5] Lisa Ballesteros, W Bruce Croft, Resolving Ambiguity for Cross-language Retrieval, 1997 [6] Lisa Ballesteros, W Bruce Croft, Phrase Translation and Query Expansion Techniques for Cross-Language Information Retrieval, 1997 [7 ] Yamabana Kiyoshi, Muraki Kazunori, Doi Shinichi, Kamei Shin-ichiro “A language conversion front-end for Cross-language Information Retrieval ” [8] Atsushi Fuiji and Tetsuya Ishikawa 9.2002 “Japanise/English Cross-Language Information Retrieval: Exploration of Query Translation and Translisteration” [9] J.S.Chang, Y.C.Lin, Y.K.Su (1995) “Automatic Construction of a Chinese Electronic Dictionary” Proceedings of Workshop of ACL-1995, pp.107-120 [10] Hoàng Phê (1998), T n ti ng Vi t, Trung tâm t n h c, NXB N ng GVHD: TS H B o Qu c TS inh i n 132 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa [11] inh i n (2004), “M t s v n đ vi c xây d ng t n ti ng Vi t n t ”, T p san Khoa h c Xã h i Nhân v n – H Khoa h c Xã h i & Nhân v n TP HCM, 2004 (27), trang 37 – 46 [12] George Miller (2000): Introduction to WordNet, http://www.cogsci.princeto.edu/~vn/.Prenceton [13] Dien Dinh, Kiem Hoang, Toan Nguyen Van (2001), “Vietnamese Word Segmentation”, Proceedings of NLPPRS’01 (The 6th Natural Language Processing Pacific Rim Symposium), Tokyo, Japan, 11/2001, pg 749-756 [14] Tsai, C H (1996), MMSEG: A word identification system for Mandarin Chinese text based on two variations of the maximum matching algorithm, Unpublished manuscript, University of Illinois at Urbana-Champaign [15] Mark W Davis William C.Ogden , 1997 “Implementing Cross-Language Text Retrieval Systems for Large-scale Text Collections and the World Wide Web” Computing Research Laboratory – New Mexico State Univeristy [16] inh i n (2005) “Xây d ng khai thác kho ng li u song ng Anh – Vi t” Lu n án ti n s ngôn ng h c, Tr [17] Lê Thuý Ng c, ng đ i h c Khoa h c Xã h i Nhân v n M Nhung, Tìm hi u v Search Engine xây d ng ng d ng minh ho cho Search Engine ti ng Vi t, Lu n v n c nhân tin h c, GVHD: Nguy n Th Di m Tiên GVHD: TS H B o Qu c TS inh i n 133 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 ... Vi t – Anh – Hoa Anh – Hoa? ?? cho phép ng i dùng nh p câu truy v n b ng ti ng Vi t tr v tài li u có liên quan b ng ti ng Vi t, ti ng Anh ti ng Hoa Trong lu n v n l a ch n ti ng Anh ti ng Hoa hai... viên d ch cho m i ng danh t ti ng Hà Lan đ c t o b ng cách so sánh t n s c a m i c m ti ng Anh xu t hi n m t c p câu ti ng Anh ch a ng danh t , v i t n s mà m i t ti ng Anh xu t hi n toàn t p... 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa C u trúc v mô t n ti ng Anh EDIC: 2.1.6.1.1 C u trúc v mô danh sách m c t ti ng Anh EDic Tiêu chí l a ch n m c t t n EDic bao g m t

Ngày đăng: 07/09/2020, 15:29

TỪ KHÓA LIÊN QUAN

w