Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
692,94 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN THỊ LỆ THUYỀN SỬDỤNGNGÔNNGỮTRỤCTRONGDỊCHĐANGỮ Chuyên ngành : Khoa học máy tính Mã số : 62.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng 2018 Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS Võ Trung Hùng Phản biện 1: GS.TSKH Hoàng Văn Kiếm Phản biện 2: PGS.TS Huỳnh Xuân Hiệp Phản biện 3: PGS.TS Lê Mạnh Thạnh Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ Đại học Đà Nẵng vào lúc 14h30 ngày 19 tháng 05 năm 2018 Có thể tìm hiểu luận án - Trung tâm Thông tin – Tư liệu, Đại học Đà Nẵng - Thư viện Quốc gia Việt Nam MỞ ĐẦU Lý chọn đề tài Cùng với phát triển công nghệ, người tạo lượng thông tin khổng lồ mạng Internet cung cấp từ hàng triệu Website khắp giới Nhưng khai thác hết thông tin nhiều lý lý quan trọng rào cản ngônngữ Vấn đề đặt làm để người giới khai thác hết nguồn thơng tin Internet mà không bị hạn chế ngôn ngữ? Hiện có hai giải pháp để giải vấn đề này: Thứ phát triển hệ thống, ứng dụng, nguồn liệu đangữ để người sửdụng lựa chọn ngơnngữ mà họ muốn sử dụng; Thứ hai ứng dụng phần mềm dịch tự động để dịch giao diện, nội dung từ ngơnngữ có sang ngơnngữ mà người sửdụng chọn lựa Hiện có nhiều hệ thống dịchđangữ xây dựng với nhiều hướng tiếp cận khác chất lượng dịch ngày cải thiện Tuy nhiên, đầu dịch hệ thống hầu hết mang tính tham khảo chưa thể nghĩa, văn phong câu nguồn Hơn giới sửdụng 5.000 ngơnngữ có chữ viết, việc phát triển hệ thống dịchđangữ cho cặp ngơnngữ vơ khó khăn ngơnngữ có số lượng người dùng Một hướng tiếp cận dịchđangữ quan tâm sửdụngngônngữtrục để dịch, hướng tiếp cận giảm chi phí xây dựng phần mềm từ (n*(n-1)) xuống (2*n) giải cặp ngơnngữ thiếu tài nguyên không tương đồng cấu trúcngữ pháp Văn phạm câu nguồn phương pháp dịch qua ngơnngữtrục phân tích biểu diễn qua ngônngữ khác gọi ngônngữ trung gian sau sửdụng văn phạm ngơnngữđích để dịch từ ngơnngữ trung gian Ưu điểm phương pháp cần phân tích ngơnngữ nguồn để chuyển sang ngơnngữ trung gian ngược lại Ngoài ra, hệ thống dịchđa ngữ, dễ dàng bổ sung ngônngữ vào hệ thống nhược điểm làm tìm ngơnngữ mà biểu diễn tất thông tin ngônngữ tự nhiên không nhập nhằng ngữ nghĩa Trong năm gần đây, nhiều ngơnngữ tự nhiên có kho ngữ liệu song ngữ lớn (như tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp,…) lựa chọn làm ngônngữ trung gian dịch tự động xây dựng kho ngữ liệu song ngữ Tuy nhiên với phương pháp dịch hai lần thông qua ngônngữ thứ ba, chất lượng dịch khơng cao khơng khử tính nhập nhằng từ loại ngônngữ tự nhiên Đến nay, hướng tiếp cận thường sửdụng cho cặp ngônngữ không tương đồng cấu trúcngữ pháp khan nguồn tài nguyên liệu Hiện có ngơnngữ xây dựng cho dịch máy dựa vào phương pháp trung gian gọi UNL, ngơnngữ cho phép người sửdụng biểu diễn tất tri thức ngônngữ tự nhiên máy tính mà khơng bị nhập nhằng ngữ nghĩa UNL bao gồm thành phần ngônngữ tự nhiên: từ vựng (UW), quan hệ (relation), thuộc tính (attributes) sở tri thức ngônngữ (UNLKB) Trong UNL, liên kết từ vựng dựa quan hệ ngữ nghĩa gắn thuộc tính để miêu tả khía cạnh người nói Mục đích đời UNL cung cấp cho người sửdụng Internet khả truy cập vào trang web ngônngữ họ Hệ thống dịch tự động đangữ bao gồm nhiều máy chủ ngônngữ khác dịch thông qua ngônngữtrục UNL Mỗi máy chủ ngônngữ đảm nhận hai chức năng, dịch văn từ ngônngữ nguồn sang ngônngữ UNL gọi q trình mã hóa dịch ngược lại sang ngơnngữđích gọi q trình giải mã Đến nay, nhiều ngơnngữ giới tích hợp vào tảng UNL tạo thành hệ thống dịchđangữ như: tiếng Nga, tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Tây Ban Nha,… Vấn đề đặt làm để tích hợp máy chủ tiếng Việt vào tảng UNL chưa triển khai? Xuất phát từ nhu cầu thực tiễn trên, tác giả chọn “Sử dụngngônngữtrụcdịchđa ngữ” làm đề tài nghiên cứu luận án tiến sỹ kỹ thuật nhằm đóng góp cho phát triển dịch tự động Đặc biệt, kết nghiên cứu luận án mở hướng nghiên cứu cho dịch tự động tiếng Việt với ngônngữ khác hội phát triển hệ thống dịch tự động đangữngônngữ Việt Nam như: tiếng Việt, Chăm, Ba-na, Ê-đê, Jrai,… Mục tiêu nghiên cứu Mục tiêu chung luận án nghiên cứu thử nghiệm hệ thống dịch tự động đangữ áp dụng cho tiếng Việt ngơnngữ dân tộc người Việt Nam Mục tiêu cụ thể luận án gồm: - Đề xuất hướng tiếp cận dịch tự động đangữ cho tiếng Việt dựa ngônngữ trục; - Xây dựng thử nghiệm hệ thống dịch tự động đangữ cho tiếng Việt dựa ngônngữtrục UNL hệ thống UNL sẵn có; - Đề xuất hướng mở rộng hệ thống dịch tự động đangữ có cho ngơnngữ dân tộc người Việt Nam; - Đề xuất hướng tiếp cận dịch tự động đangữ bao gồm cho tiếng Việt dựa vào ngônngữ UNL 3 Đối tượng phạm vi nghiên cứu Dựa mục tiêu, đối tượng nghiên cứu luận án gồm: -Các hướng tiếp cận dịch tự động; -Các vấn đề dịch tự động cho tiếng Việt; -Ứng dụngngônngữ UNL dịch tự động Phạm vi nghiên cứu luận án gồm: -Hướng tiếp cận dựa ngônngữtrục UNL dịch tự động; -Cấu trúcngữ pháp câu tiếng Việt biểu thức UNL; -Hệ thống dịchđangữ cho tiếng Việt UNL; -Giải pháp dịch tự động tiếng Việt UNL Nội dung nghiên cứu Để đạt mục tiêu, nội dung nghiên cứu luận án gồm: - Nghiên cứu số phương pháp dịch tự động; - Nghiên cứu ứng dụng UNL dịch tự động; - Nghiên cứu hướng tiếp cận dịch tự động cho tiếng Việt; - Đề xuất giải pháp dịchđangữ cho tiếng Việt dựa vào UNL; - Xây dựng hệ thống thử nghiệm dịch tự động Việt – UNL Phương pháp nghiên cứu Các phương pháp nghiên cứu luận án sử dụng: - Phương pháp lý thuyết - Phương pháp thực nghiệm - Phương pháp chuyên gia Đóng góp luận án Đóng góp luận án bao gồm: 1) Đề xuất giải pháp để tích hợp tiếng Việt vào hệ thống UNL Hệ thống UNL nghiên cứu phát triển 20 năm (từ 1996) hỗ trợ dịch tự động cho 54 ngônngữ Tuy nhiên, việc nghiên cứu để tích hợp tiếng Việt vào hệ thống UNL chưa triển khai Luận án nghiên cứu cách hệ thống ngônngữ UNL; để sở đề xuất mơ hình tổng thể giải pháp liên quan để tích hợp tiếng Việt vào UNL Việc tích hợp có ý nghĩa quan trọng cần tích hợp tiếng Việt vào hệ thống UNL dịch tự động từ tiếng Việt sang tất ngơnngữ khác có hệ thống UNL ngược lại 2) Đề xuất giải pháp xây dựng thành công từ điển tiếng Việt – UNL Từ điển sở hệ thống dịch tự động việc xây dựng thành công từ điển tiếng Việt – UNL đóng góp quan trọng để tích hợp tiếng Việt vào hệ thống UNL Luận án nghiên cứu đặc điểm từ điển UNL từ điển sẵn có tiếng Việt để từ xây dựng từ điển Việt – UNL với 235.602 mục từ 3) Đề xuất giải pháp xây dựng tập luật mã hoá (phục vụ dịch tiếng Việt sang UNL) tập luật giải mã (phục vụ dịch từ UNL sang tiếng Việt) Trên sở nghiên cứu luật hệ thống UNL số công cụ liên quan, luận án đề xuất giải pháp cải tiến xây dựng luật phục vụ trình dịch tự động tiếng Việt UNL Đã xây dựng 40 luật mã hoá cho số cấu trúc câu tiếng Việt để dịch sang biểu thức UNL 72 luật giải mã cho chiều dịch ngược lại 4) Đề xuất giải pháp xây dựng cơng cụ: EnCoVie chương trình dịch tự động từ tiếng Việt sang UNL DeCoVie chương trình dịch tự động từ UNL sang tiếng Việt Đây chương trình để dịch tự động dựa từ điển tập luật xây dựng Những đóng góp có ý nghĩa mặt khoa học mở hướng nghiên cứu dịch tự động cho tiếng Việt bên cạnh phương pháp có Về mặt thực tiễn xây dựng từ điển, tập luật hai chương trình dịch Đây tiền đề để tiếp tục hoàn thiện hệ thống dịch UNL – tiếng Việt phục vụ cho nghiên cứu sau lĩnh vực dịch tự động Bố cục luận án Ngoài nội dung như: mở đầu, kết luận, hướng phát triển, tài liệu tham khảo phụ lục, luận án tổ chức thành chương: Chương 1: Tổng quan dịch máy ngơnngữ UNL Trình bày kết nghiên cứu liên quan đến dịch tự động, hệ thống dịchđangữ cho tiếng Việt, đánh giá chất lượng dịch phương pháp dịch trung gian dịchtrực tiếp cặp dịch Ngoài nội dung chương trình bày kết nghiên cứu ngơnngữ UNL, số thành tựu liên quan UNL ứng dụng UNL làm ngônngữtrục hệ thống dịchđangữ Chương 2: Đề xuất mơ hình dịch tiếng Việt - UNL Trình bày kết thử nghiệm dịch tự động cho tiếng Việt dựa vào UNL cơng cụ có sẵn Đề xuất mơ hình dịch cho tiếng Việt UNL dựa lý thuyết hệ thống UNL công cụ dịch tự động UNL thử nghiệm cho ngônngữ khác tiếng Việt Chương 3: Xây dựng từ điển tập luật Trình bày giải pháp xây dựng từ điển tiếng Việt – UNL, xây dựng tập luật mã hóa giải mã cho hai cơng cụ EnCoVie DeCoVie Chương 4: Thử nghiệm đánh giá Xây dựng hai công cụ chuyển đổi câu tiếng Việt sang UNL ngược lại Trình bày kết thử nghiệm đánh giá nội dung: xây dựng từ điển tiếng Việt – UNL, chuyển đổi hai công cụ EnCoVie DeCoVie, hệ thống dịchđangữ qua ngônngữtrục UNL (gồm ba ngônngữ tự nhiên hệ thống: tiếng Việt, tiếng Anh tiếng Nga) Chương TỔNG QUAN VỀ DỊCH MÁY VÀ NGÔNNGỮ UNL 1.1 Một số khái niệm sửdụng luận án Định nghĩa số thuật ngữ như: dịch máy, dịch song ngữ, dịchđa ngữ, ngônngữ trung gian, ngônngữ trục, từ điển, từ điển song ngữ, luật ngữ pháp, phân tích cú pháp nơng, phân tích cú pháp sâu, ngơnngữ UNL, mã hóa, giải mã, máy chủ ngôn ngữ, hệ thống UNL, công cụ EnCoVie DeCoVie 1.2 Một số hướng tiếp cận dịch tự động 1.2.1 Dịch máy dựa luật Là hướng tiếp cận truyền thống dựa sở phân tích hình thái học, cú pháp ngữ nghĩa ngơnngữđíchngơnngữ nguồn Hướng tiếp cận có ba phương pháp dịchtrực tiếp, dịch chuyển đổi cú pháp dịch qua ngônngữ trung gian 1.2.2 Dịch máy dựa ngữ liệu Là hướng tiếp cận dựa vào kho ngữ liệu ngônngữ Hướng tiếp cận dịch máy có hai phương pháp dịch máy dựa ví dụ dịch máy thống kê 1.2.3 Phương pháp dịch kết hợp Đặc trưng phương pháp dịch kết hợp sửdụng ưu điểm nhiều phương pháp khác hệ thống dịch 1.2.4 Đánh giá Dịch dựa vào luật: Chất lượng dịch cao tốn nhiều chi phí xây dựng hệ thống quy mơ lớn khó mở rộng hệ thống Dịch máy dựa vào kho ngữ liệu: chất lượng dịch dựa vào kho ngữ liệu song ngữ huấn luyện sẵn nên tốn quản lý Hướng tiếp cận dịch kết hợp: sửdụng nhiều phương pháp dịch khác hệ thống nên chất lượng dịch cải thiện 1.3 DịchđangữTrong hệ thống dịchđangữ cặp ngônngữ xây dựng độc lập với định dạng cấu trúc, cần thêm ngơnngữ phải bổ sung mô-đun theo số lượng cặp ngônngữ hệ thống Hiện giới có khoảng 5.000 ngơnngữ có chữ viết, khơng thể xây dựng hết tất cặp dịch cho số lượng lớn ngônngữ Một giải pháp mà xây dựng hệ thống dịchđangữ hướng đến dịch qua ngônngữtrục Với hướng tiếp cận giảm chi phí xây dựng hệ thống từ n*(n-1) xuống 2*n mô-đun dịch cần bổ sung ngơnngữ vào hệ thống cần xây dựng mô-đun cho ngônngữ với ngônngữ trung gian đại diện 1.4 Vấn đề dịch tự động cho tiếng Việt Dịch tự động cho tiếng Việt nhiều nhóm nghiên cứu quan tâm chủ yếu tập trung cặp ngônngữ Anh – Việt, Pháp – Việt Các hệ thống dịchđangữ hạn chế số lượng cặp dịch tiếng Việt với ngônngữ giới Vấn đề đặt làm để xây dựng nhanh hệ thống dịchđangữ cho tiếng Việt với ngơnngữ giới mà giảm chi phí xây dựng cho ngônngữ tham gia vào hệ thống? 1.5 Tổng quan UNL 1.5.1 Giới thiệu UNL ngơnngữ nhân tạo có tất thành phần tương ứng với ngônngữ tự nhiên thiết kế để biểu diễn ngônngữ tự nhiên máy tính dạng mạng ngữ nghĩa với cấu trúcđa đồ thị 1.5.2 Ngônngữ UNL Một hệ thống UNL gồm nhiều máy chủ ngônngữ khác nhau, máy chủ đăng ký với tổ chức Universal Networking Language Foundation để thực dịch văn thông qua UNL Với vai trò hệ thống, ngơnngữ UNL sửdụngngônngữtrục hệ thống dịchđangữ 1.6 Tiểu kết chương Kết nghiên cứu tổng quan có cơng trình cơng bố tạp chí nước ngồi Trên sở nghiên cứu tổng quan, tác giả đánh giá lại nội dung chương sau: Nhu cầu xây dựng hệ thống dịchđangữ cho tất ngônngữ giới đangữ hóa website cấp thiết, nhiên khó đáp ứng kịp thời hướng tiếp cận xây dựng n*(n-1) mô-đun dịch Hiện tồn nhiều hệ thống dịch xây dựng theo nhiều phương pháp khác nhau, khơng thể tích hợp hệ thống đơn lẻ thành hệ thống dịchđangữ lớn Dịch qua ngônngữ trung gian hướng tiếp cận quan tâm làm giảm từ n*(n-1) xuống 2*n mơ-đun dịch Với phương pháp dịch qua ngơnngữ trung gian, dễ dàng tích hợp hệ thống đơn lẻ (cùng chung ngônngữ trung gian) thành hệ thống dịchđangữsửdụngngônngữ trung gian làm ngônngữtrụcDịch tự động cho tiếng Việt nghiên cứu năm 1960, nhiên đến nghiên cứu chủ yếu số cặp ngôn ngữ: Việt – Pháp, Việt – Anh, Tiếng Việt dịch sang nhiều ngônngữ khác (theo Google translator có khoảng 103/ 5.000 ngônngữ giới), nhiên chất lượng đầu mang tính tham khảo hàm ý chưa thể diễn tả mặt văn phong ngữ cảnh câu nguồn 11 Việt Nam có 54 dân tộc, bên cạnh chữ Quốc ngữ người Kinh có khoảng 30 dân tộc có chữ viết thức khơng thức , nhu cầu xây dựng hệ thống dịchđangữ để trao đổi thông tin Việt Nam cần thiết UNL đời kết hợp giải pháp đangữ hóa giảm chi phí xây dựng hệ thống dịchđangữ Ý tưởng UNL định nghĩa ngơnngữtrục có khả biểu diễn cho tất ngônngữ tự nhiên Đến nay, dự án UNL hỗ trợ phát triển 54 ngơnngữ khác có dự án, hội thảo triển khai Vấn đề đặt làm để ứng dụng UNL hệ thống dịchđangữ cho tiếng Việt? Những đóng góp luận án chương sở quan trọng để triển khai chương Chương ĐỀ XUẤT MƠ HÌNH DỊCH TIẾNG VIỆT - UNL 2.1 Đặt vấn đề Ở Việt Nam nghiên cứu UNL hạn chế chưa có hệ thống dịch tiếng Việt dựa vào UNL Các công cụ hỗ trợ UNL phù hợp cho ngônngữ thử nghiệm phát triển hoàn chỉnh máy chủ ngônngữ Vấn đề đặt làm để tích hợp máy chủ tiếng Việt vào tảng UNL chưa triển khai? 2.2 Ngữ pháp tiếng Việt Tiếng Việt xếp vào loại hình đơn lập (Isolate) hay gọi loại hình phi hình thái, khơng biến hình, đơn tiết Các phương thức ngữ pháp tiếng Việt chủ yếu dựa vào trật tự từ, hư từ ngữ điệu 2.3 Đề xuất mô h nh dịch 12 Máy chủ tiếng Việt Tập luật mã hóa Từ điển tiếng Việt - UNL Cơng cụ EnCoVie Câu Tiếng Việt Biểu thức UNL Công cụ DeCoVie Từ điển UNL – tiếng Việt Tập luật giải mã H nh 2.1 Mơ hình hệ thống máy chủ tiếng Việt 2.3.1 Cơng cụ EnCoVie Q trình chuyển đổi thực sau: việc tách từ, gán nhãn từ loại phân tích cú pháp câu đầu vào thực mơ-đun Sau EnCoVie dựa vào từ điển tập luật mã hóa để chuyển đổi câu tiếng Việt sang biểu thức UNL tương ứng 2.3.2 Cơng cụ DeCoVie Q trình giải mã cơng cụ DeCoVie mô tả sau: biểu thức UNL đầu vào tách mối quan hệ nhị phân UW mô-đun Công cụ DeCoVie dựa vào từ điển tập luật giải mã để chuyển đổi biểu thức UNL sang câu tiếng Việt tương ứng 2.3.3 Từ điển UNL Một mục từ từ điển chứa ba thành phần bản: HW - từ đầu mục từ ngônngữ cần định nghĩa, UW - định nghĩa khái niệm 13 UNL tương ứng tập thuộc tính ngữ pháp Mỗi headword định nghĩa UW thuộc tính tương ứng [HW]“UW”(ATTR,ATTR,…); Trong từ điển UNL, HeadWord mục từ tiếng Việt định nghĩa UW tương ứng Trong giai đoạn mã hóa, mục từ tiếng Việt sửdụng để tìm UW thích hợp nhằm tạo thành biểu thức UNL Trong trình giải mã, UW biểu thức UNL sửdụng để tìm kiếm mục từ tạo thành câu đầu tiếng Việt Dựa vào nguyên lý hoạt động này, thay xây dựng hai từ điển tiếng Việt – UNL cho q trình mã hóa từ điển UNL – tiếng Việt cho trình giải mã tác giả đề xuất xây dựng từ điển dùng chung cho hai trình chuyển đổi Đây điểm khác biệt hệ thống dịch qua UNL với hệ thống dịch khác 2.3.4 Luật ngữ pháp UNL Trong luận án, tác giả định nghĩa loại luật mã hóa loại luật giải mã 2.4 Một số vấn đề cần xử lý cho tiếng Việt Trong hệ xử lý ngônngữ tự nhiên phải giải số toán (tách từ, gán nhãn từ loại, ) để đạt mục đích hiểu ý nghĩa ngônngữ 2.5 Tiểu kết chương Nội dung chương trình bày nghiên cứu tiếng Việt, đề xuất mơ hình dịch tiếng Việt – UNL thành phần Kết nghiên cứu chương có cơng trình cơng bố tạp chí nước ngồi Nội dung chương trình bày số vấn đề sau: Cùng cách thức dịch thông qua ngônngữ trung gian, dịch qua UNL có kết tốt so với dịch qua ngơnngữ tự nhiên (ví dụ tiếng Anh) 14 Hiện có nhiều cơng cụ hỗ trợ phát triển ứng dụng UNL cho ngônngữ tự nhiên, chúng phù hợp với thử nghiệm công cụ hồn chỉnh phát triển máy chủ ngơnngữ Tiếng Việt thuộc loại hình ngơnngữ đơn lập Các phương thức ngữ pháp tiếng Việt chủ yếu dựa vào trật tự từ, hư từ ngữ điệu Hiện có nhiều nghiên cứu toán xử lý câu đầu vào tiếng Việt kết đầu tốt (từ 78% - 98%) Đề xuất mơ hình dịch tiếng Việt UNL: gồm hai công cụ EnCoVie DeCoVie EnCoVie DeCoVie hoạt động dựa vào hai từ điển hai tập luật chuyển đổi Những nội dung đề xuất chương đặt toán cần giải cho hệ thống dịch song ngữ Việt - UNL chương Chương GIẢI PHÁP XÂY DỰNG TỪ ĐIỂN VÀ LUẬT 3.1 Giải pháp xây dựng từ điển Tiếng Việt - UNL Đề xuất hai giải pháp: - Sửdụng UNL Explorer mở rộng từ điển tiếng Việt – UNL - Rút trích tự động từ vựng từ biểu thức UNL 3.2 Giải pháp xây dựng luật ngữ pháp 3.2.1 Xây dựng luật mã hóa 3.2.1.1 Xây dựng luật mã hóa cho câu đơn tiếng Việt * Trường hợp cấu trúc câu đơn thứ nhất: Xây dựng luật mã hóa cho mơ hình thứ (trong 12 nhóm mơ hình câu đơn) Chủ ngữ - Vị ngữ (vị ngữ “là”+ danh, tính động từ Có biến thể không là) Xét trường hợp với chủ ngữ đại từ, vị ngữ danh từ Đại từ nhân xưng+ “là” + danh từ đơn thể 15 Hệ từ “là” dùng để biểu thị ý nhấn mạnh sắc thái khẳng định, thuộc tính “@affirmative” mơ tả khẳng định người nói -{“là”:null:null}{n,nt:+@affirmative:null}; Đại từ từ dùng để thay đối tượng, điều nói đến, tồn >{p,pp:null:aoj}{n,nt,@affirmative:null:null}; * Trường hợp cấu trúc câu đơn thứ hai: Đây loại câu hai thành phần với vị ngữ động từ - Xét trường hợp vị ngữ động từ nội động với cấu trúc Đại từ nhân xưng + động nội động Động từ nội động loại động từ trạng thái hay hoạt động không nhằm vào đối tượng mà khép kín phạm vi chủ thể Mối quan hệ ngữ pháp định nghĩa tương đương quan hệ ngữ nghĩa “agt” có luật: >{p,pp:null:agt}{v,vs:+.@present:null}; - Xét trường hợp vị ngữ có động từ ngoại động với cấu trúc cụ thể đại từ nhân xưng + ngoại động từ + bổ ngữ [danh từ trừu tượng+ giới từ + danh từ đơn thể]) Cũng giống động từ nội động, “đại từ nhân xưng” “ngoại động từ” thiết lập mối quan hệ nhị phân “agt” tương đương UNL định nghĩa luật sửa đổi phải sau: >{p,pp:null:agt}{v,vt:+.@present.@entry:null}; “danh từ trừu tượng” bị ảnh hưởng trạng thái “động từ ngoại động” định nghĩa luật sau: >{v,vt:null:obj}{n,na:null:null}; Giới từ loại từ có tác dụng nối liền từ phụ với từ chính, biểu thị quan hệ ngữ pháp sau: 16 -{E:null:null}{n,ng:+E,+plc:null}; {p,pp:null:agt}{v,vt,order:+.@present.@entry:null}; Động từ sai khiến tác động đại từ nhân xưng “obj”: {p,pp:null:agt}{v,vt,CogAct:+@present,+@entry:null}; >{p,pp,scope01:null:agt:01}{v,vt,PhyAct:+@present, +@entry:null}; 18 Từ nối “và” sửdụng để nối hai mệnh đề câu: :{“và”:null:null}{“:01”:+and:null}; >{v,vt,CogAct:null:null}{and:null:and}; -{“:01”:null:null}{P,PP:+scope01:null}; * Trường hợp cấu trúc câu ghép thứ ba: Sửdụng cặp từ nối “nhờ có …nên…”, “nếu …thì….”, “tuy …nhưng…”,… Trong nội dung này, xây dựng luật mã hóa dạng câu điều kiện với cặp từ nối “nếu … …” trình bày đầy đủ tồn văn luận án 3.2.2 Xây dựng luật giải mã 3.2.2.1 Trường hợp biểu thức chứa nhiều nút * Trường hợp biểu thức chứa nút có quan hệ “aoj(n,nt;p,pp)” Quan hệ “aoj” định nghĩa điều trạng thái thuộc tính :“n,nt:null:aoj”{p,pp:null:null}; Thuộc tính “@affirmative” mang tính chất khẳng định thuộc tính gắn với hệ từ “là” tiếng Việt :“[là]:+C:null”{n,nt.@affirmative:-@present,@affirmative :null}; * Trường hợp biểu thức chứa nhiều nút có quan hệ “agt(v,vt;p,pp)”, “obj(v,vt;n,na)” “pcl(n,na;n,ng)” Tạo mối quan hệ “agt” luật sau: :“v,vt:null:agt”{p,pp:null:null}; Quan hệ “obj” định nghĩa việc trung tâm bị ảnh hưởng trực tiếp kiện trạng thái :{v,vt:null:null}“n,na:null:obj”; 19 Quan hệ “plc” định nghĩa nơi mà kiện xảy trạng thái việc tồn :{n,na:null:null}“n,ng:+@plc:plc”; Nếu từ có thuộc tính “@plc” dấu hiệu nhận biết từ địa điểm Trong tiếng Việt thêm giới từ “ở” để biểu thị điều nêu nơi, chỗ, khoảng thời gian vật hay việc nói đến tồn hay diễn :“[ở]:+e:null:null”{n,ng,@plc:-@plc:null}; 3.2.2.2 Trường hợp biểu thức chứa nút kết hợp *Trường hợp biểu thức có quan hệ “agt(v,vt;p,pp)” “and (scope;v,vt)” Luật phá vỡ mối quan hệ “agt” sau: :“v,vt:null:agt”{p,pp:null:null}; Quan hệ “and” định nghĩa mối quan hệ kết hợp hai khái niệm khác :{v,vt:null:null}“[:01]:+scope,+and:and”; Để xử lý mối quan hệ ngữ nghĩa từ tạo thành câu đích, luật chèn từ xóa từ xây dựng sau: :“[và]:+and:null:null”{scope,and:-and:null}; :{scope:null:null}“v,vt:@entry:null”; DL“scope:nul:null”{v,vt:null:null}; * Trường hợp biểu thức có quan hệ “obj(v,vs;p,pp)”, “cob(v,vs;n,nt)”, “cnt(v,vs;scope)”, “agt(v,vt;p,pp)”, “tim(v,vt; a,ap): trình bày đầy đủ tồn văn luận án *Trường hợp biểu thức có quan hệ “agt(v,vt;p,pp)”, “man(v,vt;a,ap),“con(scope;v,vt)”,“agt(v,vs;p,pp)”, n,na)”: trình bày đầy đủ tồn văn luận án 20 “tim(v,vs; 3.3 Tiểu kết chương Kết nghiên cứu chương có cơng trình cơng bố tạp chí hội thảo nước nước ngồi Nội dung chương trình bày số vấn đề sau: Đề xuất hai giải pháp bổ sung từ điển tiếng Việt – UNL Đề xuất giải pháp xây dựng tập luật chuyển đổi: - Tập luật mã hóa cho cấu trúc câu tiếng Việt - Tập luật giải mã cho trường hợp: trường hợp biểu thức chứa nhiều nút trường hợp biểu thức chứa nút kết hợp Những nội dung chương sở để xây dựng công cụ thử nghiệm chương Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ 4.1 Xây dựng công cụ EnCoVie DeCoVie Trình bày giải thuật xây dựng hai công cụ 4.2 Thử nghiệm đánh giá 4.2.1 Từ điển tiếng Việt – UNL Cả hai giải pháp thu 235.602 mục từ bổ sung vào từ điển tiếng Việt – UNL, nhiên số lượng mục từ thu không nhiều Nguyên nhân: - Hạn chế số lượng mục từ từ điển Anh – Việt (190.000 mục từ) nên có số từ vựng so sánh khơng tìm thấy từ điển - Có nhiều scope định nghĩa riêng dự án - Sự không trùng khớp HeadWord mục từ từ điển Anh – Việt từ vựng trích lọc từ biểu thức UNL biến đổi hình thái - Hệ thống không đầy đủ thông tin từ loại 21 4.2.2 Dịchđangữ qua ngônngữtrục UNL *Dữ liệu thử nghiệm: xây dựng mẫu cấu trúc (2200 mẫu) mẫu sai cấu trúc (550 mẫu) chuyên gia ngônngữ Kết thống kê sau: Bảng 4.3 Tỷ lệ thay đổi dịch qua UNL trực tiếp Cách thức dịch EnCovie: tiếng Việt UNL UNL.ru: UNL tiếng Anh Google: tiếng Việt tiếng Anh UNL.ru: tiếng Anh UNL DeCovie: UNL tiếng Việt Số câu Không thay đổi 933 (84.82 %) 489 (77.18 %) 942 (85.64 %) Google: tiếng Anh tiếng UNL.ru: UNL tiếng Nga Google: tiếng Việt tiếng Nga UNL.ru: tiếng Nga UNL DeCovie: UNL tiếng Việt Google: tiếng Nga tiếng Việt 167 (15.18%) 251 (22.82%) 158 (14.36 %) 858 (78%) 242 (22%) 509 (46.27%) 591(53.73%) 471 (42.82%) 629 (57.18%) 629(57.18%) 471(42.82%) 713(64.82%) 387(35.18%) Việt EnCovie: tiếng Việt UNL Bị thay đổi 4.3 Tiểu kết chương Kết nghiên cứu chương có cơng trình cơng bố kỷ yếu hội thảo nước Chương đánh giá lại sau: Bổ sung 235.602 mục từ cho từ điển tiếng Việt – UNL 22 Xây dựng hai công cụ EnCoVie DeCoVie để dịch từ tiếng Việt sang UNL ngược lại Hai công cụ hoạt động tốt số câu tiếng Việt biểu thức UNL xây dựng tập luật chuyển đổi Tích hợp vào hệ thống UNL (gồm ba ngôn ngữ: tiếng Việt, tiếng Anh tiếng Nga) hệ thống hoạt động tốt so với hệ thống dịchtrực tiếp (trong trường hợp Google translator) mẫu liệu thử Những kết tiền đề để tiếp tục hoàn thiện máy chủ tiếng Việt tích hợp vào hệ thống UNL tạo thành hệ thống dịchđangữ bao gồm tiếng Việt tương lai KẾT LUẬN Hướng tiếp cận Luận án sửdụng phương pháp dịch qua ngônngữ trung gian để phát triển máy chủ tiếng Việt dựa UNL gồm hai công cụ EnCoVie DeCoVie Các kết đạt Kết nghiên cứu luận án có ý nghĩa khoa học thực tiễn với đóng góp sau: - Đề xuất hướng nghiên cứu dịch tự động cho tiếng Việt dựa vào ngônngữ trung gian UNL - Đề xuất thử nghiệm thành công máy chủ tiếng Việt để dịch tự động UNL tiếng Việt Những thành phần máy chủ cần xây dựng gồm: Từ điển tiếng Việt – UNL (235.602 mục từ); Tập luật mã hóa cho cấu trúc tiếng Việt (40 luật) tập luật giải cho dạng biểu thức UNL (72 luật); Công cụ EnCoVie để dịch tự động câu tiếng Việt sang UNL DecoVie dịch từ biểu thức UNL sang câu tiếng Việt (đặt http://unlvie.mooo.com/ ) 23 - Tích hợp hệ thống dịchđangữ dựa vào UNL bao gồm ngôn ngữ: tiếng Nga, tiếng Anh tiếng Việt Thử nghiệm đánh giá, kết dịch qua ngônngữ trung gian UNL tốt so với dịchdịchtrực tiếp cặp dịch (bởi công cụ Google Translator) Giới hạn luận án Luận án kế thừa kết xử lý câu đầu vào tiếng Việt (tách từ, gán nhãn từ loại, phân tích cú pháp) có độ xác sau: hệ tách từ tiếng Việt độ xác 97%, hệ gán nhãn từ loại độ xác 93%, hệ phân tích cụm từ tiếng Việt độ xác 81% hệ phân tích cú pháp tiếng Việt độ xác 78% - Kết dịch EnCoVie phụ thuộc vào đầu tiền xử lý câu tiếng Việt đầu vào - Luận án chưa giải trường hợp biến thể cấu trúc câu tiếng Việt - Luận án khơng trình bày xây dựng luật mối quan hệ từ loại tiếng Việt quan hệ nhị phân UNL Hướng nghiên cứu Luận án đưa số hướng phát triển sau: - Giải trường hợp biến thể cấu trúc tiếng Việt quan hệ nhị phân hai UW quan hệ UNL -Xây dựng luật chuyển đổi cho cấu trúc câu tiếng Việt quan hệ nhị phân UNL - Bổ sung mục từ vào từ điển tiếng Việt – UNL - Nghiên cứu phát triển hệ thống dịch tự động đangữ cho ngônngữ khác Việt Nam như: tiếng Việt, Chăm, Cơ–tu, Ba-na, Ê –đê, Jrai,… 24 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ [1] P.T.L.Thuyền, V.T.Hùng (2014),“Bổ sung liệu vào từ điển UNL – tiếng Việt công cụ UNL Explorer”, Tạp chí Khoa học Cơng nghệ Đại học Đà Nẵng, số 11(84), trang 125 – 129 [2] P.T.L.Thuyen, V.T.Hung (2015),“Results comparison of machine translation by dicrect translation and by through intermediate language”, International Journal of Advance Research in Computer Science and Management Studies, Volume 3, Issue 4, papes 1-6 [3] P.T.L.Thuyền, V.T.Hùng (2016),“Rút trích biểu thức UNL để tạo từ điển tiếng Việt – UNL”, Tạp chí Khoa học Công nghệ trường kỹ thuật, số 110, trang 86 – 90 [4] P.T.L.Thuyen,V.T.Hung(2016),“Multilingual Automatic Translation Based on UNL: A Case Study for the Vietnamese Language”, IEIE Transactions on Smart Processing and Computing, vol 5, no 2, IEIE Transactions on Smart Processing and Computing, vol 5, no 2, April 2016 http://dx.doi.org/10.5573/IEIESPC.2016.5.2.077 [5] P.T.L.Thuyền, V.T.Hùng (2016),“Chuyển đổi câu đơn tiếng Việt sang biểu thức UNL”, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX: Nghiên cứu ứng dụng Công nghệ thông tin, trang 78 – 85 [6] P.T.L.Thuyen,V.T.Hung (2016),“Automatic translation of Vietnamese simple sentences based on UNL”, The 3rd National Foundation for Science and Technology Development Conference on Infornation and Computer Science, pages 218 – 222 [7] P.T.L.Thuyền, V.T.Hùng (2016),“Phân tích động từ câu ghép tiếng Việt hệ thống dịch máy dựa UNL”, Kỷ yếu Hội thảo quốc gia lần thứ XIX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, trang 287 – 292 [8] P.T.L.Thuyền, V.T.Hùng (2017),“Phân tích ngữ pháp câu đơn tiếng Việt để xây dựng công cụ eConverter”, Kỷ yếu Hội nghị Khoa học Công nghệ quốc gia lần thứ X: Nghiên cứu ứng dụng Công nghệ thông tin, trang 749 – 759 [9] P.T.L.Thuyen,V.T.Hung(2018),“Translate UNL expressions to Vietnamese compound sentence based on Deconverter tool”, Proceeding of Fourth International Conference on INformation systems Design and Intelligent Applications-INDIA, pages 323333, ISSN 2194-5365(electronic) ... ngơn ngữ có chữ viết, việc phát triển hệ thống dịch đa ngữ cho cặp ngôn ngữ vơ khó khăn ngơn ngữ có số lượng người dùng Một hướng tiếp cận dịch đa ngữ quan tâm sử dụng ngôn ngữ trục để dịch, ... nguồn liệu đa ngữ để người sử dụng lựa chọn ngôn ngữ mà họ muốn sử dụng; Thứ hai ứng dụng phần mềm dịch tự động để dịch giao diện, nội dung từ ngơn ngữ có sang ngơn ngữ mà người sử dụng chọn lựa... trang web ngôn ngữ họ Hệ thống dịch tự động đa ngữ bao gồm nhiều máy chủ ngôn ngữ khác dịch thông qua ngôn ngữ trục UNL Mỗi máy chủ ngơn ngữ đảm nhận hai chức năng, dịch văn từ ngôn ngữ nguồn