1. Trang chủ
  2. » Tất cả

He thong tim kiem thong tin xuyen ngon ngu viet-Anh-Hoa-Luan

133 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 133
Dung lượng 2,27 MB

Nội dung

H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa M CL C M C L C M U Ch ng 1: T NG QUAN 1.1 Gi i thi u mơ hình tìm ki m thơng tin (Information Retrieval): 1.2 H th ng tìm ki m thơng tin xun ngơn ng (CLIR): .9 1.2.1 Khái ni m: 1.2.2 Các v n đ c a CLIR: 10 1.3 Các h ng ti p c n: 11 1.3.1 D ch máy (Machine Translation for Text Translation): 11 1.3.2 D a t n đa ng (Multilingual Thesauri): 14 1.3.3 D a ng li u (Corpus-based techniques): 22 1.4 M t s cơng trình nghiên c u n c: 30 1.4.1 Vi t Nam: 30 1.4.2 Trên th gi i: 31 1.5 K t lu n: 32 Ch ng 2: C S LÝ THUY T 35 2.1 Gi i thi u v MRD (Machine Readable Dictionary) .35 2.1.1 S l c l ch s phát tri n MRD th gi i: 35 2.1.2 Vai trò c u trúc c a MRD: 39 2.1.3 Khai thác tài nguyên t n: .41 2.1.4 Xây d ng t n t đ ng: 42 2.1.5 C u trúc v mô vi mô c a t n MRD: 43 2.1.6 M t s t n MRD: 43 2.2 Các ph ng pháp tách t : 51 2.2.1 Mơ hình WFST: 51 2.2.2 Mơ hình MMSEG: 57 2.3 Các ph ng pháp kh nh p nh ng: 64 2.3.1 Gi i thi u: 64 2.3.2 Kh nh p nh ng: 65 2.4 K t lu n: 70 Ch ng 3: PHÂN TÍCH THI T K 72 3.1 T ng quan h th ng: 72 3.1.1 Phát bi u toán: 72 3.1.2 Mơ hình h th ng: 72 3.1.3 Phát sinh qu n lý: 73 3.2 Phân tích – thi t k h th ng: 76 3.2.1 Mơ hình Usecase: 76 3.2.2 c t usecase: .77 3.2.3 S đ tu n t : 78 3.2.4 Thi t k l p: 81 3.2.5 Thi t k giao di n: 94 GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa 3.3 Xây d ng h th ng: 97 3.3.1 T ch c MRD: .97 3.3.2 Ph ng pháp tìm ki m d a MRD: 106 3.3.3 Tìm ki m tài li u b ng cơng c tìm ki m: .110 CH NG 4: CÀI T VÀ TH NGHI M 112 4.1 Cài đ t: .112 4.1.1 Ti n x lý: 112 4.1.2 C u trúc d li u: 112 4.1.3 D ch t t n: 113 4.1.4 Kh nh p nh ng : 113 4.1.5 Tìm ki m: .116 4.2 Th nghi m: 117 4.2.1 Module d ch kh nh p nh ng: 117 4.2.2 Ch ng trình demo web: 117 4.3 ánh giá : 119 4.3.1 Module d ch kh nh p nh ng: 119 4.3.2 Ch ng trình tìm ki m Web: 120 Ch ng 5: K T LU N H NG PHÁT TRI N 122 5.1 K t lu n: 122 5.2 Hu ng phát tri n: .122 5.2.1 i v i t n ng li u: 122 5.2.2 i v i IR Engine: .123 5.2.3 M r ng ngơn ng tìm ki m cho h th ng: 124 PH L C 125 TÀI LI U THAM KH O 132 GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa M U V i s phát tri n nhanh chóng c a cơng ngh tin h c, kh i l ng thông tin đ cl u tr máy tính ngày nhi u Vì v y c n có h th ng tìm ki m thông tin (Information Retrieval) cho phép ng i dùng tìm ki m m t cách xác nhanh nh t thông tin mà h c n kho t li u kh ng l H n n a, xu th tồn c u hóa nh hi n nay, r t nhi u t ch c, cơng ty qu c t hình thành, l i xu t hi n m t nhu c u m i vi c tìm ki m thơng tin tìm ki m thơng tin đa ng đ ng i dùng có th khai thác m t cách hi u qu nh t kho tài li u đa ng mà h có M t ví d c th v kho t li u đa ng Internet Các trang Web b ng nhi u ngôn ng khác xu t hi n ngày nhi u, cơng c tìm ki m đ n ng (search engine) ch có th tr v tài li u đ c vi t ngôn ng v i ngôn ng c a câu truy v n (query) Do v n đ đ t li u có th xây d ng m t h tìm ki m thông tin mà thông tin tr v t t c tài li u ngôn ng khác kho t li u có liên quan đ n câu truy v n (không ph thu c vào ngơn ng c a câu truy v n) ây toán đ t cho vi c nghiên c u h tìm ki m đa ng / xuyên ng (multilanguage IR/ cross language IR) M c tiêu c a h th ng tìm ki m xuyên ng cung c p cơng c cho ng có th mơ t nhu c u tìm ki m thơng tin (th i dùng đ ngơn ng mà di n đ t gi i nh t ng ti ng m đ ), h th ng s ph i tr v t t c tài li u t t c ngơn ng có kho t li u tìm ki m có liên quan đ n nhu c u thông tin c a ng i dùng Trên nhu c u chung c a h u h t ngôn ng ti ng Vi t c a c ng không ph i ngo i l Khác v i ngôn ng khác, ti ng Vi t có nhi u đ c m riêng bi t r t khó x lý b ng máy tính, nên đ tài nghiên c u hay ch ng trình ng d ng liên quan đ n h th ng tìm ki m b ng ti ng Vi t r t Mà nhu c u tìm ki m tài li u kho tàng ki n th c c a th gi i c a ng i Vi t r t l n V i mong mu n phát tri n nhi u h n n a h th ng tìm ki m xun ngơn ng b ng ti ng Vi t, xây d ng “H th ng tìm ki m thơng tin xun ngơn ng Vi t – GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa Anh – Hoa” cho phép ng i dùng nh p câu truy v n b ng ti ng Vi t tr v tài li u có liên quan b ng ti ng Vi t, ti ng Anh ti ng Hoa Trong lu n v n l a ch n ti ng Anh ti ng Hoa hai đ i di n tiêu bi u cho hai lo i hình ngơn ng bi n hình đ n l p T cho th y r ng h th ng tìm ki m thơng tin xuyên ng có th th c thi hai lo i hình ngơn ng khác B c c c a lu n v n g m ch • Ch ng sau: ng – T NG QUAN : gi i thi u t ng quan v h th ng tìm ki m (IR), h th ng tìm ki m thông tin xuyên ngôn ng (CLIR), h ng ti p c n v n đ c n gi i quy t c a h th ng • ph Ch ng – C S LÝ THUY T: trình bày c s lý thuy t ng pháp nghiên c u lu n v n • Ch ng – PHÂN TÍCH VÀ THI T K : phân tích thi t k h • Ch ng – CÀI • Ch ng – K T LU N H th ng qu đ t đ • T VÀ KI M TRA: cài đ t, ki m th ch ng trình NG PHÁT TRI N: trình bày k t c, đánh giá v h th ng h ng phát tri n t ng lai Ph n TÀI LI U THAM KH O PH L C: trình bày thơng tin có liên quan đ c s d ng lu n v n GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xuyên ngôn ng Vi t – Anh – Hoa Ch Trong ch ng 1: T NG QUAN ng này, chúng tơi s trình bày khái qt v h th ng tìm ki m (Information Retrieval), h th ng tìm ki m thơng tin xun ngơn ng (Cross-Language Information Retrieval) m t s kh o sát v tình hình nghiên c u ngồi n c Cu i ch ng s rút k t lu n chung l a ch n h ng ti p c n cho h th ng c a N i dung trình bày bao g m: X Gi i thi u mơ hình tìm ki m thơng tin X H th ng tìm ki m thơng tin xun ngơn ng X M t s cơng trình nghiên c u n c X K t lu n 1.1 Gi i thi u mơ hình tìm ki m thơng tin (Information Retrieval): H th ng tìm ki m thơng tin xun ng (Cross Language Information Retrieval CLIR) có liên h r t m t thi t v i h th ng tìm ki m thơng tin (Information Retrieval IR) c ng có r t nhi u đ c tr ng c a h th ng (IR) Qui trình c a h th ng tìm ki m thơng tin nh sau: • Ng i dùng mu n xem nh ng tài li u liên quan đ n m t ch đ • Ng i dùng cung c p m t mô t v ch đ d • T câu truy v n h th ng s l c nh ng c m t ch m c • Nh ng c m t ch m c s đ c a tài li u đ • ng c x lý tr i d ng câu truy v n c so kh p v i nh ng c m t ch m c c Nh ng tài li u có m c đ liên quan cao nh t s đ c tr v cho i dùng GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa M c đích c a IR hi n th cho ng i dùng m t t p thông tin th a mãn nhu c u c a h Chúng ta đ nh ngh a xác cho thơng tin c n thi t “câu truy v n”(query), thông tin đ c ch n “tài li u” (documents) M i cách ti p c n IR bao g m thành ph n chính: m t k thu t đ bi u di n thông tin (câu truy v n, tài ng pháp so sánh cách bi u di n M c đích đ t đ ng li u), hai ph qui trình ki m tra tài li u b ng cách tính tốn đ t ng quan gi a câu truy v n tài li u Qui trình t đ ng thành cơng tr v k t qu gi ng v i k t qu đ c ng Có m t v n đ th i t o so sánh câu truy v n v i tài li u ng x y đ i v i h th ng tìm ki m nh ng t mà ng đ a câu truy v n th h tìm ki m Tr i dùng ng khác xa nh ng t t p tài li u ch a thông tin mà ng h p nh th g i “paraphrase problem” (v n đ v di n gi i) gi i quy t v n đ h th ng t o hàm bi u di n x lý câu truy v n tài li u m t cách khác đ đ t đ n m t đ t ng thích [0,1] X lý c a ng j Không gian câu truy v n Q Câu truy v n Hàm bi u di n câu truy v n i Tài li u Hàm bi u di n tài li u q Bi u di n Không gian tài li u D d Bi u di n Không gian bi u di n R c Hàm so sánh [0,1] GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa Hình 1.1: Mơ hình h th ng tìm ki m thơng tin G i mi n xác đ nh c a hàm bi u di n câu truy v n q Q, t p h p câu truy v n có th có; mi n giá tr c a R, không gian th ng nh t bi u di n thông tin G i mi n xác đ nh c a hàm bi u di n tài li u d D, t p h p tài li u; mi n giá tr c a R2 Mi n xác đ nh c a hàm so sánh c R x R mi n giá tr c a [0,1], t p s th c t đ n Trong m t h th ng tìm ki m lí t ng: c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D, j: Q x D > [0,1] bi u di n vi c x lý c a ng thông tin, đ i dùng gi a m i quan h c a c tính d a m t tiêu chu n (ví d : s gi ng v n i dung hay s gi ng v ki u …) Hình 1.1 minh h a m i quan h Có hai ki u h th ng tìm ki m: tìm ki m d a so kh p xác d a s p x p Mơ hình có th mơ t c cách ti p c n Trong h th ng tìm ki m d a so kh p xác, mi n giá tr c a c đ c gi i h n t đ n 1, đ sang nh phân đ quy t đ nh li u tài li u có th a bi u th c bool đ câu truy v n hay không? Các IR d a so kh p xác th li u không s p x p th a câu truy v n c a ng c chuy n c xác đ nh b i ng cung c p tài i dùng, h u h t h th ng tìm ki m hi n đ u dùng cách Cách ho t đ ng chi ti t c a h th ng s đ c mô t ph n sau i v i h th ng IR d a s p x p, tài li u s đ c s p x p theo th t gi m d n v m c đ liên quan Có lo i h th ng tìm ki m d a s p x p: “ranked Boolean”, “probabilistic” “similarity based” Trong cách mi n giá tr c a c [0,1], nhiên chúng khác cách tính “giá tr tr ng thái tìm ki m” (“retrieval status value”): • Trong h th ng d a “ranked Boolean” giá tr m c đ mà thông tin th a mãn bi u th c bool đ GVHD: TS H B o Qu c TS inh i n c ch b i thơng tin cịn l i Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa • Trong h th ng d a “probabilistic” , khái ni m h i khác m t chút, giá tr xác su t mà thơng tin có liên quan đ n m t câu truy v n R t nhi u h th ng tìm ki m d a xác su t đ v nđ • c thi t k đ ch p nh n câu truy c di n t b ng ngôn ng t nhiên h n m t bi u th c bool Trong h th ng tìm ki m d a s gi ng nhau, giá tr tr ng thái tìm ki m đ c tính b ng cách tính m c đ gi ng c a n i dung thơng tin Trong h th ng tìm ki m d a so kh p xác, vi c đánh giá h th ng ch y u d a vi c đánh giá m c đ liên quan Gi s j giá tr nh phân đ tr c cho c Nói cách khác, ta gi s r ng tài li u ho c có ho c khơng có liên quan đ n câu truy v n, đ liên quan gi a tài li u câu truy v n ng i xác đ nh xác Theo gi đ nh này, tính hi u qu c a h th ng tìm ki m d a so kh p xác đ c đánh giá d a đ i l (precision) “đ bao ph ” (recall) xác t l tài li u đ tài li u th c s liên quan đ n thơng tin mà ng li u có liên quan đ ng th ng kê “đ xác” c ch n, i dùng c n, đ bao ph t l tài c s p x p xác theo đ liên quan b i h th ng tìm ki m Nói cách khác, đ xác b ng tr t l c nh báo sai, đ bao ph đo m c đ hồn ch nh c a vi c tìm ki m B ng 1.1 minh h a cho m i quan h Actually is Selected as Relevant Not relevant Relevant Found False alarm Not Relevant Missed Pr ecision = Re call = GVHD: TS H B o Qu c TS inh i n Found Found + False alarm Found Found + Missed Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn ng Vi t – Anh – Hoa B ng 1.1: Tính đ hi u qu c a h th ng tìm ki m thơng tin Vi c đánh giá tính hi u qu c a h th ng tìm ki m d a s p x p ph c t p h n M t cách tính đ hi u qu ph bi n cho h th ng “đ xác trung bình” Nó đ c tính b ng cách ch n m t t p l n h n tài li u bao ph gi a Ph ng pháp th 5, 7, 11 m theo đ bao ph trình s đ ng đ đ u danh sách có giá tr c s d ng ph xác sau s đ c l p l i cho t ng câu truy v n, t ng pháp tính d a c tính cho t ng t p m t Qui ng ng m i đ xác trung bình s cho m t đ bao ph M i giá tr trung bình c a nh ng s sau s đ tốn ghi nh n nh m t đ c tr ng c a h th ng c tính xác trung bình l n t t, vi c so sánh ch th c s có ý ngh a s d ng m t t p tài li u câu truy v n Tuy nhiên đ xác trung bình c ng làm gi m m c đ thay đ i c a câu truy v n có đ c tính khác (ví d nh s l liên quan khác nhau) H n th n a, tài li u có liên quan th danh sách s p x p nên thơng th ng tài li u có đ u ng t p trung ng đ xác s gi m m i t p tài li u đ cm r ng đ t ng đ bao ph 1.2 H th ng tìm ki m thơng tin xuyên ngôn ng (CLIR): 1.2.1 Khái ni m: H th ng tìm ki m thơng tin xun ngơn ng (CLIR) h th ng tìm ki m (IR) cho phép ng i dùng nh p câu truy v n b ng m t ngơn ng đ tìm ki m tài li u m t ngôn ng khác it ng s d ng h th ng tìm ki m thơng tin xun ng (CLIR) là: • Nh ng ng i có kh n ng đ c tài li u ti ng n c ngoài, nh ng g p khó kh n t o câu truy v n b ng ngơn ng • Nh ng ng i g p khó kh n đ c/ tìm ki m tài li u ti ng n nh ng l i c n m t s l ng gi i h n tài li u đ c c tìm ki m b ng CLIR đ s d ng h th ng d ch máy (MT), thay ph i d ch tồn b t p h p tài li u GVHD: TS H B o Qu c TS inh i n Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa • Nh ng ng i bi t t khóa ho c c m t ti ng n c ngoài, mu n đ c tài li u có liên quan v i nh ng t khóa ho c c m t b ng ngơn ng b nx 1.2.2 Các v n đ c a CLIR: Vì câu truy v n ng i dùng nh p vào tài li u đ c tìm ki m hai ngôn ng khác nên CLIR c n ph i có qui trình chuy n ng v i qui trình tìm ki m theo cách tìm ki m truy n th ng c a h đ n ng Các h tìm ki m đ n ng hi n th c hi n r t t t qui trình tìm ki m đ n ng Và v n đ c n quan tâm làm th đ qui trình chuy n ng có th đ c th c hi n t t nh t Chính qui trình chuy n ng làm phát sinh r t nhi u v n đ CLIR V n đ đ u tiên bi t đ c m t t ngôn ng đ ngôn ng khác? V n đ th hai quy t đ nh đ l i? V n đ th ba xác đ nh đ d ch có nhi u b n d ch đ c vi t nh th c cách d ch s đ c gi c t m quan tr ng khác gi a b n c gi l i Hai v n đ đ u tiên, đ d ch đ lo i b b t b n d ch, hai v n đ c a h th ng d ch máy H th ng CLIR có th lo i b m t vài cách d ch gi l i m t s khác b ng cách kh nh p nh ng Tuy nhiên, vi c gi l i m t s cách d ch nh p nh ng giúp cho h th ng tìm ki m gia t ng đ bao ph c a V n đ th ba c a CLIR có liên quan đ n cách x lý b n d ch t ng đ ng, u giúp phân bi t CLIR v i d ch máy tìm ki m thơng tin đ n ng Gi s r ng câu truy v n ban đ u có hai t phân bi t N u t đ u tiên có th đ nhi u cách khác nhau, n u t th hai ch có th đ c d ch sang c d ch sang m t cách nh t, h th ng tìm ki m s khơng t ng tr ng s cho t đ u tiên, b i có nhi u l a ch n d ch i u minh h a cho v n đ tính tr ng s c a cách d ch, đ c bi t đ i v i h th ng CLIR M t tài li u ch a m t cách d ch c a m i t câu truy GVHD: TS H B o Qu c TS inh i n 10 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 ... Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa M U V i s phát tri n nhanh chóng c a cơng ngh tin h c, kh i l ng thông tin. .. đ mà thông tin th a mãn bi u th c bool đ GVHD: TS H B o Qu c TS inh i n c ch b i thông tin l i Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thơng tin xun ngơn... t Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa ¬ Khuy t m: Hi u qu d ch gi i h n 1.3.2 D a t n đa ng (Multilingual Thesauri):

Ngày đăng: 27/07/2020, 16:11