Đang tải... (xem toàn văn)
Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ TRI THỨC ^ ] NGUYỄN LƯU THÙY NGÂN - 9912621 ĐỖ XUÂN QUANG - 9912652 XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH - VIỆT LUẬN VĂN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN TS. ĐINH ĐIỀN NIÊN KHÓA 1999-2003 Luận văn tốt nghiệp Trang 2 LLờờii ccảảmm ttạạ Lời đầu tiên chúng em xin chân thành cảm ơn thầy Đinh Điền, người đã trực tiếp hướng dẫn chúng em hoàn thành luận văn này. Thầy là người đã truyền thụ cho chúng em rất nhiều kiến thức về tin học và ngôn ngữ học, giúp chúng em có được hiểu biết sâu hơn về một trong các ứng dụng có ý nghĩa vô cùng to lớn trong cuộc sống của tin học – vấn đề dịch máy. Chúng em cũng xin chân thành cảm ơn các thầy cô trong khoa Công nghệ thông tin đã tận tình chỉ bảo và giúp đỡ cho chúng em trong suốt thời gian chúng em học đại học và trong quá trình chúng em thực hiện luận văn. Chúng con xin chân thành cảm ơn ba mẹ, các anh và những người thân trong gia đình đã nuôi dạy, tạo mọi điều kiện tốt nhất cho chúng con học tập và động viên chúng con trong thời gian thực hiện luận văn. Và cuối cùng, chúng tôi xin gởi lời cảm ơn đến tất cả bạn bè và nhất là các bạn trong nhóm VCL (Vietnamese Computational Linguistics), những người đã hỗ trợ chúng tôi trong quá trình chúng tôi hoàn thiện luận văn này. Tp. Hồ Chí Minh, tháng 07 năm 2003 Nguyễn Lưu Thùy Ngân - 9912621 Đỗ Xuân Quang - 9912652 Luận văn tốt nghiệp Trang 3 NNHHẬẬNN XXÉÉTT CCỦỦAA GGIIÁÁOO VVIIÊÊNN HHƯƯỚỚNNGG DDẪẪNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tp. Hồ Chí Minh, tháng 07 năm 2003 TS. Đinh Điền Luận văn tốt nghiệp Trang 4 NNHHẬẬNN XXÉÉTT CCỦỦAA GGIIÁÁOO VVIIÊÊNN PPHHẢẢNN BBIIỆỆNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tp. Hồ Chí Minh, tháng 07 năm 2003 Giáo viên phản biện Luận văn tốt nghiệp Trang 5 LLờờii nnóóii đđầầuu Cho đến nay, sau hơn 50 năm phát triển, dịch máy chứng tỏ là một ứng dụng vô cùng thiết thực, đồng thời cũng là một bài toán khá hóc búa đặt ra cho các nhà khoa học trên toàn thế giới. Từ đầu thập niên 1960, các nhà khoa học đã đúc kết lại ba chiến lược dịch máy cơ bản, đó là dịch trực tiếp, dịch thông qua ngôn ngữ trung gian và dịch dựa trên chuyển đổi. Và qua thực tế, chiến lược dịch dựa trên chuyển đổi đã khẳng định được tính hiệu quả và tiềm năng của nó, và đây cũng là cách tiếp cận mà chúng em đã và đang theo đuổi để xây dựng một hệ dịch tự động từ tiếng Anh sang tiếng Việt. Trong hệ dịch dựa trên sự chuyển đổi, khối chuyển đổi cây cú pháp (cấu trúc) giữ một vai trò quan trọng, quyết định chất lượng hệ dịch. Vì lý do đó, chúng em đã quyết định chọn “Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch Anh-Việt” làm đề tài luận văn tốt nghiệp cử nhân của mình. Khối chuyển đổi cây cú pháp đảm nhiệm việc thay đổi trật tự, chèn, xoá các thành phần trong cây cú pháp của câu tiếng Anh sao cho sau khi hoàn tất việc gắn nghĩa, ta sẽ thu được câu tiếng Việt có trật tự từ hợp lý. Luận văn được tổ chức thành các phần chính sau: Chương 1: Giới thiệu tầm quan trọng, mục tiêu, phạm vi của đề tài, cơ sở lý thuyết ngôn ngữ học, tin học và hướng tiếp cận vấn đề. Chương 2: Điểm qua các cách tiếp cận chuyển đổi cấu trúc. Chương 3: Thuật toán nền tảng, mô hình học và mô hình áp dụng chuyển đổi cây cú pháp. Chương 4: Thiết kế – Cài đặt Chương 5: Thử nghiệm – đánh giá Chương 6: Kết quả – Kết luận – Hướng phát triển Phần phụ lục. Tài liệu tham khảo. Luận văn tốt nghiệp Trang 6 MMụụcc llụụcc LLờờii nnóóii đđầầuu .5 MMụụcc llụụcc .6 Danh sách các hình .11 Danh sách các bảng .13 CChhưươơnngg 11 14 TỔNG QUAN VỀ CHUYỂN ĐỔI CÂY CÚ PHÁP 14 1.1 Đặt vấn đề .14 1.2 Các chiến lược dịch máy 16 1.1.1 Chiến lược dịch trực tiếp .16 1.1.2 Chiến lược dịch dựa trên ngôn ngữ trung gian .17 1.1.3 Chiến lược dịch dựa trên sự chuyển đổi .18 1.2 Vai trò của chuyển đổi cây cú pháp trong cách tiếp cận dựa trên chuyển đổi 20 1.3 Cơ sở lý thuyết 22 1.3.1 Cơ sở lý thuyết ngôn ngữ học của việc chuyển đổi 23 1.3.2 Cơ sở lý thuyết tin học - Hướng tiếp cận vấn đề 33 CChhưươơnngg 22 35 CÁC HƯỚNG TIẾP CẬN CHUYỂN ĐỔI CẤU TRÚC TRONG DỊCH MÁY 35 2.1 Hướng tiếp cận dựa trên luật cố định 35 2.1.1 Cơ chế chuyển đổi của cách tiếp cận dựa trên luật cố định 35 2.1.2 Nhận xét 38 Luận văn tốt nghiệp Trang 7 2.2 Hướng tiếp cận sử dụng case-frame .39 2.2.1 Chuyển đổi các thông tin cấp độ câu 40 2.2.2 Chuyển đổi ngữ động từ 41 2.2.3 Sự chuyển đổi của định ngữ, bổ ngữ .42 2.2.4 Tự điển chuyển đổi 43 2.2.5 Nhận xét 44 2.3 Hướng tiếp cận sử dụng TAG đồng bộ (STAG) 44 2.3.1 Văn phạm TAG .45 2.3.2 TAG đồng bộ (STAG) 49 2.3.3 Nhận xét 52 2.4 Cách tiếp cận phân tích ngữ pháp song song 53 2.4.1 Ngữ pháp chuyển dịch đảo có thống kê (SITG) .53 2.4.2 Thuật toán phân tích cú pháp song song với SITG .55 2.4.3 Đánh nhãn cấu trúc 58 2.4.4 Chuyển đổi cây cú pháp song song cho cả hai ngôn ngữ .58 2.4.5 Nhận xét 59 2.5 Cách tiếp cận dựa trên cấu trúc vị từ - đối số .60 2.5.1 Rút trích các cấu trúc vị từ - đối số .60 2.5.2 Khối chuyển đổi cấu trúc 62 2.5.3 Nhận xét 64 2.6 Tổng kết chương 65 CChhưươơnngg 33 66 MÔ HÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP .66 3.1 Phương pháp học hướng lỗi dựa trên sự chuyển trạng thái 66 3.1.1 Ý tưởng .66 3.1.2 Thuật toán học TBL của Eric Brill 68 3.1.3 Nhận xét 70 Luận văn tốt nghiệp Trang 8 3.2 Thuật toán học nhanh FnTBL 71 3.2.1 Hình thức hóa TBL .72 3.2.2 Thuật toán FnTBL .73 3.3 Mô hình chuyển đổi cây cú pháp sử dụng thuật toán FnTBL .78 3.3.1 Mô hình áp dụng chuyển đổi cây cú pháp 80 3.3.2 Mô hình học luật chuyển đổi bằng phương pháp học FnTBL 82 3.4 Nâng cao khả năng mở rộng cho mô hình học 95 CChhưươơnngg 44 97 CÀI ĐẶT CHƯƠNG TRÌNH 97 4.1 Thiết kế .97 4.1.1 Mô hình tổng thể .97 4.2 Thuật toán gán nhãn cơ sở cho ngữ liệu 99 4.2.1 Thuật toán 99 4.2.2 Xây dựng cây cú pháp .99 4.2.3 Xây dựng cây quan hệ .103 4.2.4 Thuật toán chuyển đổi theo nguyên tắc 105 4.3 Học chuyển đổi cùng cấp .106 4.3.1 Xây dựng ngữ liệu học 106 4.3.2 Xây dựng khung luật cho bộ học chuyển đổi cùng cấp 108 4.3.3 Sơ đồ lớp của chương trình học 114 4.3.4 Xây dựng bộ luật (giai đoạn học cùng cấp) 114 4.3.5 Áp dụng bộ luật chuyển đổi cùng cấp .116 4.4 Học chuyển đổi khác cấp .117 4.4.1 Xây dựng ngữ liệu học 117 4.4.2 Xây dựng khung luật cho quá trình học chuyển đổi khác cấp 120 4.4.3 Sơ đồ lớp của chương trình học 125 4.4.4 Xây dựng bộ luật (giai đoạn học khác cấp) 125 Luận văn tốt nghiệp Trang 9 4.4.5 Áp dụng bộ luật chuyển đổi khác cấp .127 CChhưươơnngg 55 128 THỬ NGHIỆM – ĐÁNH GIÁ 128 5.1 Thử nghiệm .128 5.1.1 Độ đo sử dụng .128 5.1.2 Kết quả học rút luật chuyển đổi 129 5.1.3 Một số kết quả chuyển đổi 131 5.2 Đánh giá 134 5.2.1 Ngữ liệu thử nghiệm .134 5.2.2 Nhận xét 135 CChhưươơnngg 66 137 TỔNG KẾT 137 6.1 Kết quả 137 6.2 Hướng phát triển 137 6.3 Kết luận .138 PHỤ LỤC 1 139 KHUNG LUẬT VÀ MỘT SỐ LUẬT CÙNG CẤP 139 PHỤ LỤC 2 141 KHUNG LUẬT VÀ MỘT SỐ LUẬT KHÁC CẤP 141 PHỤ LỤC 3 142 MỘT SỐ KẾT QUẢ DỊCH SỬ DỤNG KHỐI CHUYỂN ĐỔI CÂY CÚ PHÁP VCLTRANSFER 142 PHỤ LỤC 4 147 MỘT SỐ CÂU DỊCH CỦA HAI HỆ DỊCH .147 PHỤ LỤC 5 153 HỆ THỐNG NHÃN NGỮ PHÁP .153 Luận văn tốt nghiệp Trang 10 PHỤ LỤC 6 156 CÁC NHÃN QUAN HỆ NGỮ PHÁP .156 TÀI LIỆU THAM KHẢO 157 [...]... là quá trình sắp xếp lại, thêm bớt, thay thế các thành phần cấu trúc của câu ở ngôn ngữ nguồn để có được cấu trúc tương ứng ở ngôn ngữ đích Trang 15 Chương 1 - Tổng quan về chuyển đổi cây cú pháp Trong luận văn này, chúng em tìm hiểu và xây dựng chương trình chuyển đổi cây cú pháp Anh-Việt, đóng vai trò là một khối chuyển đổi cấu trúc trong hệ dịch tự động Anh-Việt dựa trên sự chuyển đổi Như đã trình. .. thuyết Để chuyển đổi cây cú pháp, chúng ta phải có được : Kết quả phân tích ngữ pháp của một câu tiếng Anh ra dạng cây cú pháp và những thông tin cần thiết khác để xác định mối liên hệ giữa các thành phần cây cú pháp Nhưng chỉ cần quan tâm đến những mối liên hệ có ảnh hưởng đến việc chuyển đổi cấu trúc cú pháp của câu Bộ luật chuyển đổi từ cây cú pháp tiếng Anh sang cây cú pháp tiếng Việt Trang 22 Chương. .. phần trong khung luật bước 2 122 Bảng 14: Một phần cây cú pháp minh hoạ việc đánh ID tương đối cho route 123 Bảng 15: Tóm tắt kết quả học luật chuyển đổi cùng cấp 130 Bảng 16: Tóm tắt kết quả học luật chuyển đổi cùng cấp 131 Bảng 17: Kết quả thử nghiệm việc áp dụng chuyển đổi cây cú pháp 135 Trang 13 Chương 1 - Tổng quan về chuyển đổi cây cú pháp Chương 1 TỔNG QUAN VỀ CHUYỂN ĐỔI CÂY CÚ... nói trên thì chiến lược dựa trên sự chuyển đổi được quan tâm nhiều nhất vì tính khả thi cao và rất linh động Bằng chứng là có nhiều hệ dịch dựa trên sự chuyển đổi ra đời và hoạt động hiệu quả.[21] Trang 19 Chương 1 - Tổng quan về chuyển đổi cây cú pháp 1.2 Vai trò của chuyển đổi cây cú pháp trong cách tiếp cận dựa trên chuyển đổi Ngôn ngữ trung gian Chuyển đổi Dịch trực tiếp Văn bản nguồn Văn bản đích... tiết; hệ dịch GETA (Đại học Grenoble, 1971-), Trong các hệ dịch dựa trên chuyển đổi, bước chuyển đổi là bước quan trọng nhất, giữ vai trò quyết định chất lượng hệ dịch Chuyển đổi này bao gồm hai phần chuyển đổi chính, đó là chuyển đổi từ vựng và chuyển đổi cấu trúc Chuyển đổi từ vựng là quá trình chọn nghĩa đúng cho các từ ở ngôn ngữ nguồn thể hiện sang từ tương ứng của ngôn ngữ đích Còn chuyển đổi. .. trên cơ sở đó, chương trình chuyển đổi sẽ tự động rút ra các luật để chuyển đổi các thành phần trong cây cú pháp của tiếng Anh cho phù hợp với tiếng Việt Trật tự các thành phần cây cú pháp phụ thuộc vào những nhân tố sau : Trang 30 Chương 1 - Tổng quan về chuyển đổi cây cú pháp 1.3.1.3.1 Nhân tố về loại hình ngôn ngữ Theo kết quả nghiên cứu của Greenberg: trật tự và đặc điểm các thành phần trong câu bị... Hình 15: Chuyển đổi khung giữa các ngôn ngữ 63 Hình 16: Sơ đồ phương pháp học TBL tổng quát 70 Hình 17: Một ví dụ minh hoạ chuyển đổi cây cú pháp 79 Hình 18: Mô hình áp dụng chuyển đổi cây cú pháp 81 Hình 19: Mô hình học luật chuyển đổi cây cú pháp theo thuật toán FnTBL 82 Hình 20: Ví dụ về các quan hệ ngữ pháp trong ngữ 85 Trang 11 Luận văn tốt nghiệp Hình 21: Xây dựng. .. (như vai trò của các thành phần trong cây cú pháp, ) Trang 34 Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy Chương 2 CÁC HƯỚNG TIẾP CẬN CHUYỂN ĐỔI CẤU TRÚC TRONG DỊCH MÁY Vấn đề chuyển đổi cấu trúc giữa hai ngôn ngữ trong dịch máy là một trong các vấn đề cần được quan tâm hàng đầu trong bất kỳ một hệ dịch nào Nhiều cách tiếp cận khác nhau đã được đề xuất, trong đó mỗi cách tiếp cận thường... trung gian Dịch dựa trên chuyển đổi Cho đến nay, các hệ dịch dựa trên chuyển đổi được đánh giá cao vì tính khả thi của nó Tùy thuộc vào hai ngôn ngữ cần dịch mà hệ thống có thể thiết kế các khối phân tích, chuyển đổi, tái tạo với độ phức tạp thích hợp Một số hệ dịch dựa trên chuyển đổi tiêu biểu như, hệ dịch Anh -Pháp METEO được xây dựng bởi đại học Montreal - TAUM, được đưa vào sử dụng để dịch các bản... trên, việc thực hiện một chương trình có khả năng bao quát tất cả các cấu trúc chuyển đổi có thể có là một vấn đề không tưởng trong xử lý ngôn ngữ tự nhiên Do đó, chúng em giới hạn đề tài chuyển đổi cây cú pháp này ở các văn bản thuộc lĩnh vực khoa học kỹ thuật Kết quả của chương trình chuyển đổi cây cú pháp Anh - Việt thể hiện gián tiếp qua trật tự từ trong câu tiếng Việt được dịch ra (không quan tâm . chọn Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch Anh-Việt làm đề tài luận văn tốt nghiệp cử nhân của mình. Khối chuyển đổi cây cú pháp. đích. Chương 1 - Tổng quan về chuyển đổi cây cú pháp Trang 16 Trong luận văn này, chúng em tìm hiểu và xây dựng chương trình chuyển đổi cây cú pháp Anh-Việt,