Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 167 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
167
Dung lượng
1,37 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP. HCM ĐẠI HỌC BÁCH KHOA TP.HCM LÊ MẠNH HẢI MÔ HÌNH XỬ LÝ KHOẢNG TRỐNG TỪ VỰNG TRONG DỊCH MÁY ANH VIỆT LUẬN ÁN TIẾN SĨ KỸ THUẬT TP. HCM – Năm 2010 ĐẠI HỌC QUỐC GIA TP. HCM ĐẠI HỌC BÁCH KHOA TP. HCM LÊ MẠNH HẢI MÔ HÌNH XỬ LÝ KHOẢNG TRỐNG TỪ VỰNG TRONG DỊCH MÁY ANH VIỆT Chuyeân ngaønh: KHOA HỌC MÁY TÍNH Maõ soá: 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. PHAN THỊ TƯƠI TP.HỒ CHÍ MINH – 2010 I Lời cam đoan Tôi xin cam đoan luận án này là công trình nghiên cứu khoa học của tôi. Các kết quả của luận án là trung thực và chưa từng được ai khác công bố trong bất kỳ công trình nào khác. Tp. Hồ Chí Minh, ngày 20 tháng 11 năm 2009 Người thực hiện NCS. Lê Mạnh Hải II LỜI CẢM ƠN Lời đầu tiên, tôi xin được bày tỏ lòng biết ơn sâu sắc của mình tới PGS-TS. Phan Thị Tươi, người đã trực tiếp hướng dẫn, động viên và giúp đỡ tôi trong suốt quá trình thực hiện luận án này. Tôi cũng xin cảm ơn các thầy trong khoa Công nghệ thông tin Trường Đại học Bách khoa thành phố Hồ Chí Minh đã đóng góp nhiều ý kiến và tạo điều kiện để tôi thực hiện luận án. Luận án của tôi c ũng khó có thể hoàn thành nếu không có sự hỗ trợ từ gia đình, bạn bè, và đặc biệt là nhóm nghiên cứu sinh trong khoa CNTT-Trường Đại học Bách khoa thành phố Hồ Chí Minh - Những người đã trực tiếp đóng góp công sức và những ý kiến thiết thực cho thành công của nghiên cứu. TP.HCM, ngày 20-11-2009 Người thực hiện NCS. Lê Mạnh Hải III TÓM TẮT Khoảng trống từ vựng là hiện tượng thiếu từ vựng tương ứng ở ngôn ngữ đích (tiếng Việt) so với ngôn ngữ nguồn (tiếng Anh). Hiện tượng “khoảng trống từ vựng” được đề cập đến trong nhiều tài liệu giáo khoa về dịch máy. Chẳng hạn từ tiếng Anh “abeyant” có nghĩa là “tạm thời đình chỉ”, không có từ tương ứng trong tiếng Vi ệt. Trong dịch máy, khoảng trống từ vựng gây ra nhiều khó khăn cả về độ chính xác cũng như tốc độ dịch. Luận án đề xuất phương pháp giải quyết vấn đề khoảng trống từ vựng trong dịch máy tự động Anh - Việt bằng mô hình dịch từ sang ngữ (ngữ là một cụm từ có cấu trúc ngữ pháp trong tiếng Việt) - gọi tắt là mô hình dịch ngữ. Khi s ử dụng một ngữ để truyền tải những thông tin mà lẽ ra chỉ cần một từ thực hiện, các hệ thống dịch máy sẽ gặp trở ngại rất lớn khi tái tạo câu đích. Các thông tin về cấu trúc câu nguồn khi đó không đủ để xây dựng câu đích. Luận án thực hiện các công việc sau: - Nghiên cứu hiện tượng khoảng trống từ vựng trong dịch máy Anh - Việ t, tác động của hiện tượng này lên dịch máy và các phương pháp đã được đề xuất để xử lý khoảng trống từ vựng. - Xây dựng từ điển song ngữ Anh Việt hỗ trợ mô hình dịch ngữ để thực hiện dịch một từ tiếng Anh sang một ngữ tiếng Việt mà vẫn đảm bảo ngữ pháp cho câu đích. Từ điển này có cấu trúc nét, tương thích ngữ pháp chức năng từ vựng (Lexical Functional Grammar - LFG). - Đề xuất giải pháp mô hình dịch ngữ bằng các giải thuật xử lý khoảng trống từ vựng và thực nghiệm với 200 câu có khoảng trống từ vựng. IV ABSTRACT A lexical gap or lacuna is an absence of a word in a particular language. Phenomenon of "Lexical gap" is mentioned in many natural language processing (NLP) studies. For example, English word "abeyant" has meaning "temporarily suspended" in Vietnamese, which has no Vietnamese equivalent single word. In English – Vietnamese machine translation, lexical gap causes many difficulties in terms of both accuracy as well as speed. The thesis proposes an English - Vietnamese model which translates word – to - phrase in case of lexical gap referred as model for English – Vietnamese machine translation in order to solve lexical gap problem. Phrase in the model is a structure with features. When using a structure to convey the information that perhaps only one word, machine translation systems will face enormous obstacles when landing reconstruction nwith a phrase structure. Information structures from source sentence then are not enough resources to build the target sentence. Thesis has solved the following problems: - Study the phenomenon of gaps in vocabulary English-Vietnamese machine translation and the impact of this phenomenon on machine translation - Building bilingual dictionaries English Vietnamese language support service model to perform a translation from English to a Vietnamese language grammar. This dictionary features a compatible function grammatical structure. - Propose solutions service model in terms of algorithm processing lexical gap and perform a translation of 200 sentences from English to Vietnamese. V MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT VIII DANH MỤC CÁC BẢNG IX DANH MỤC CÁC HÌNH VẼ X DANH MỤC CÁC GIẢI THUẬT XII Chương 1- MỞ ĐẦU 1 1.1. Mục đích, ý nghĩa của luận án 1 1.2. Đối tượng, phạm vi nghiên cứu 3 1.2.1. Đối tượng nghiên cứu 3 1.2.2. Các đóng góp chính của luận án: 5 1.2.3. Phạm vi nghiên cứu 6 1.3. Nhiệm vụ của luận án 8 1.4. Phương pháp nghiên cứu 8 1.5. Cấu trúc của luận án 9 Chương 2- TỔNG QUAN VỀ KHOẢNG TRỐNG TỪ VỰNG 10 2.1. Khoảng trống từ vựng 10 2.1.1. Các nghiên cứu về khoảng trống từ vựng 10 2.1.2. Phân loại và hướng tiếp cận 11 2.1.3. Hướng tiếp cận của luận án trong việc xử lý khoảng trống từ vựng 15 2.1.4. Khảo sát khoảng trống từ vựng giữa hai ngôn ngữ Anh - Việt 16 2.2. Các phương pháp dịch máy và khoảng trống từ vựng 24 2.3. Kết chương 30 Chương 3- CƠ SỞ LÝ THUYẾT VĂN PHẠM 31 3.1. Văn phạm cấu trúc ngữ hướng tâm (HPSG) 31 3.1.1. Tổng quan về HPSG 32 3.1.2. Hệ thống các ma trận của HPSG 35 3.1.3. Các phép toán trong HPSG 40 3.2. Văn phạm chức năng từ vựng (LFG) 45 3.2.1. Các khái niệm về LFG 46 3.2.2. Cấu trúc thành tố (C-Structure) 46 3.2.3. Cấu trúc chức năng (F-Structure) 48 3.2.4. Liên kết cấu trúc thành phần với cấu trúc chức năng 50 3.3. Kết chương 52 Chương 4- NGỮ PHÁP CHỨC NĂNG TỪ VỰNG TIẾNG VIỆT 54 4.1. Văn phạm tiếng Việt 54 4.1.1. Các xu hướng nghiên cứu ngữ pháp tiếng Việt 54 4.1.2. Ngữ pháp chức năng tiếng Việt 58 VI 4.2. Văn phạm chức năng từ vựng tiếng Việt 64 4.2.1. Cấu trúc thành tố của VLFG 64 4.2.2. Cấu trúc chức năng của VLFG 68 4.2.3. Ánh xạ cấu trúc chức năng vào cấu trúc thành tố của VLFG 71 4.3. Kết chương 74 Chương 5- TỪ ĐIỂN NÉT CHO MÔ HÌNH DỊCH NGỮ 75 5.1. Từ điển song ngữ Anh – Việt 75 5.1.1. Nhiệm vụ của từ điển Anh - Việt 75 5.1.2. Hệ thống từ loại tiếng Anh 77 5.1.3. Hệ thống các cấu trúc nét dùng lưu trữ từ tiếng Anh 78 5.2. Các phần mềm và ngữ liệu tiếng Anh 80 5.3. Các từ điển điện tử dùng trong dịch máy Anh Việt 81 5.4. Hệ thống từ tương đương tiếng Việt 84 5.5. Cấu trúc mẫu cho các ngữ trong từ điển song ngữ Anh - Việt 88 5.6. Kết chương 91 Chương 6- GIẢI PHÁP XỬ LÝ KHOẢNG TRỐNG TỪ VỰNG : MÔ HÌNH DỊCH SỬ DỤNG NGỮ 92 6.1. Mô hình dịch sử dụng ngữ 92 6.1.1. Mô hình dịch ngữ và đóng góp của luận án 92 6.1.2. Hoạt động của mô hình dịch ngữ: 95 6.2. Các giải thuật xử lý khoảng trống từ vựng trong mô hình dịch ngữ 102 6.2.1. Phép thay thế một nút lá bằng một cấu trúc 107 6.2.2. Phép rút gọn một cấu trúc 112 6.2.3. Phép chuyển vị một cấu trúc 116 6.2.4. Xử lý sai lệch cú pháp 118 6.2.5. Xử lý khuyết cấu trúc thành phần 119 6.3. Đánh giá hiệu quả hoạt động của mô hình dịch ngữ 120 6.3.1. Phương pháp chọn ngữ liệu: 121 6.3.2. Việc phân tích cấu trúc tiếng Anh 121 6.3.3. Đánh giá kết quả 122 6.4. Kết chương 125 Chương 7- KẾT LUẬN 126 7.1. Các kết quả đạt được 126 7.2. Các khó khăn và hướng phát triển 128 7.3. Kết luận 129 DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 130 TÀI LIỆU THAM KHẢO 131 PHỤ LỤC A A VII PHỤ LỤC B B PHỤ LỤC C C PHỤ LỤC D I PHỤ LỤC E N VIII DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt 1 DICT dictionary network protocol Giao thức mạng từ điển 2 (E) English Tiếng Anh 3 EBMT Example-Based Machine Translation Dịch máy theo mẫu 4 HPSG Head-driven phrase grammar Văn phạm cấu trúc ngữ hướng trọng tâm 5 KTTV Lexical gap Khoảng trống từ vựng 6 LFG Lexical Functional Grammar Văn phạm chức năng từ vựng 7 RBMT Rule-Based Machine Translation Dịch máy theo luật 8 SMT Statistical Machine Translation Dịch máy xác suất 9 (V) Vietnamese Tiếng Việt 10 VLFG Vietnamese Lexical Functional Grammar Văn phạm chức năng từ vựng tiếng Việt [...]... các khoảng trống từ vựng: Các bảng 2.6 và 2.7 cho thấy danh từ chính là loại từ gặp khoảng trống từ vựng nhiều nhất Với P=1 phân bổ khoảng trống từ vựng của 7.455 từ gốc trong [5] theo từ loại như ở bảng 2.6, với P=0.5 phân bổ khoảng trống từ vựng theo từ loại như trong bảng 2.7 Bảng 2.6 Khoảng trống từ vựng theo từ loại của 7.455 từ gốc có P=1 P=1 Từ loại Số từ danh từ 672 tính từ 164 ngoại động từ. .. công bố trong [46] 2.1 Khoảng trống từ vựng Khoảng trống từ vựng được nghiên cứu trong nhiều công trình lý luận về dịch thuật và dịch máy Mặc dù có nhiều nghiên cứu cho thấy sự xuất hiện của khoảng trống từ vựng trong quá trình dịch, nhưng cách phân loại khoảng trống từ vựng có khác biệt 2.1.1 Các nghiên cứu về khoảng trống từ vựng Các tài liệu giáo khoa có đề cập đến khoảng trống từ vựng bao gồm lý thuyết... trong từ điển có khoảng trống từ vựng Với P=1, kết quả tìm được 933 từ là khoảng trống từ vựng Đây là những từ mà mọi nghĩa đều không có từ tiếng Việt tương ứng Nếu so khớp với tập 19.674 từ có xác suất khoảng trống từ vựng P>0.5 thì có 2.451 từ là khoảng trống từ vựng (tương đương cứ 3 từ thì có 1 từ là khoảng trống từ vựng) Đây là các từ mà trên một nửa các nghĩa tiếng Việt có thể nhận là cụm từ 5... ra khoảng trống từ vựng 13 Hình 2.2 Các bước xác định khoảng trống từ vựng Anh - Ý (nguồn: [44]) .15 Hình 2.3 Mô hình dịch thẳng 25 Hình 2.4 Mô hình dịch chuyển đổi 25 Hình 2.5 Mô hình dịch qua ngôn ngữ trung gian 25 Hình 2.6 Khoảng trống từ vựng ảnh hưởng tới dịch máy 29 Hình 3.1 Các trường phái lý thuyết văn phạm của ngôn ngữ tính toán hiện đại 32 Hình. .. hiện tượng khoảng trống từ vựng trong dịch máy Anh -Việt và tác động của hiện tượng này lên dịch máy Công việc này được trình bày trong phần tổng quan về khoảng trống từ vựng - Xây dựng từ điển song ngữ Anh Việt hỗ trợ mô hình dịch ngữ để thực hiện dịch một từ tiếng Anh sang một ngữ tiếng Việt mà vẫn đảm bảo ngữ pháp cho câu đích Từ điển này có cấu trúc nét, tương thích ngữ pháp chức năng từ vựng (Lexical...IX DANH MỤC CÁC BẢNG Bảng 2.1 Mục từ trong từ điển thông thường (nguồn: [5]) .17 Bảng 2.2 Xác suất một từ là khoảng trống từ vựng 19 Bảng 2.3 Ví dụ các từ là khoảng trống từ vựng (xác suất P=1) 19 Bảng 2.4 Khoảng trống từ vựng theo từ loại có P=1 .19 Bảng 2.5 Các khoảng trống từ vựng theo ngữ dụng từ 8725 câu của Penn TreeBank .20 Bảng 2.6 Khoảng trống từ vựng theo từ loại... 79 Hình 5.2 Ma trận kiểu word 79 Hình 5.3 Ràng buộc của kiểu nn (ma trận danh từ) 80 Hình 5.4 Ràng buộc của kiểu tvb (ngoại động từ) 80 Hình 5.5 Ma trận giá trị của danh từ “book” 80 Hình 5.6 Danh từ “book” trong từ điển song ngữ Anh - Việt 85 Hình 5.7 Danh từ “altigraph” trong từ điển song ngữ Anh - Việt 86 Hình 5.8 Động từ “lionize” trong từ điển song ngữ Anh. .. (năm 1997) nghiên cứu về khoảng trống từ vựng trong dịch máy Việt – Anh Đây là nghiên cứu đầu tiên về khoảng trống từ vựng giữa tiếng Việt và tiếng Anh Phương pháp giải quyết khoảng trống từ vựng bằng cách sử dụng cụm từ tự do thay các khoảng trống từ vựng trong nghiên cứu này cho phép tăng độ chính xác của một số câu dịch, nhưng cũng làm tăng các câu sai ngữ pháp trong bản dịch Nghiên cứu của Hai cũng... Số lượng thán từ đại từ Không rõ đại từ sở hữu đại từ phản thân 17 7 7 3 1 Bảng 2.5 Các khoảng trống từ vựng theo ngữ dụng từ 8725 câu của Penn TreeBank Từ able abortion accepted accountable accountant actively actuarial adapter adjustable adjustment affidavit Từ loại tính từ danh từ tính từ tính từ danh từ phó từ danh từ danh từ tính từ danh từ danh từ Nghĩa tiếng Việt có đủ tư cách tình trạng phát... tính mới của từ điển song ngữ Anh -Việt dùng cho dịch máy Đóng góp thứ ba: Đề xuất mô hình dịch với các giải thuật cho phép biến đổi cấu trúc câu tiếng Việt trong trường hợp có khoảng trống từ vựng bằng cách sử dụng các cụm từ theo mẫu Việc xây dựng một mô hình để xử lý các cụm từ do khoảng trống từ vựng gây ra là đóng góp lớn nhất của luận án, cho phép dịch các câu tiếng Anh ngay cả trong những trường . khoảng trống từ vựng 13 Hình 2.2. Các bước xác định khoảng trống từ vựng Anh - Ý (nguồn: [44]) 15 Hình 2.3. Mô hình dịch thẳng 25 Hình 2.4. Mô hình dịch chuyển đổi. 25 Hình 2.5. Mô hình dịch. ngữ trong từ điển song ngữ Anh - Việt 88 5.6. Kết chương 91 Chương 6- GIẢI PHÁP XỬ LÝ KHOẢNG TRỐNG TỪ VỰNG : MÔ HÌNH DỊCH SỬ DỤNG NGỮ 92 6.1. Mô hình dịch sử dụng ngữ 92 6.1.1. Mô hình dịch. cận của luận án trong việc xử lý khoảng trống từ vựng 15 2.1.4. Khảo sát khoảng trống từ vựng giữa hai ngôn ngữ Anh - Việt 16 2.2. Các phương pháp dịch máy và khoảng trống từ vựng 24 2.3. Kết