Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
692,94 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN THỊ LỆ THUYỀN SỬ DỤNG NGÔN NGỮ TRỤC TRONG DỊCH ĐA NGỮ Chuyên ngành : Khoa học máy tính Mã số : 62.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng 2018 Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS Võ Trung Hùng Phản biện 1: GS.TSKH Hoàng Văn Kiếm Phản biện 2: PGS.TS Huỳnh Xuân Hiệp Phản biện 3: PGS.TS Lê Mạnh Thạnh Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ Đại học Đà Nẵng vào lúc 14h30 ngày 19 tháng 05 năm 2018 Có thể tìm hiểu luận án - Trung tâm Thông tin – Tư liệu, Đại học Đà Nẵng - Thư viện Quốc gia Việt Nam MỞ ĐẦU Lý chọn đề tài Cùng với phát triển công nghệ, người tạo lượng thông tin khổng lồ mạng Internet cung cấp từ hàng triệu Website khắp giới Nhưng khai thác hết thông tin nhiều lý lý quan trọng rào cản ngôn ngữ Vấn đề đặt làm để người giới khai thác hết nguồn thơng tin Internet mà không bị hạn chế ngôn ngữ? Hiện có hai giải pháp để giải vấn đề này: Thứ phát triển hệ thống, ứng dụng, nguồn liệu đa ngữ để người sử dụng lựa chọn ngơn ngữ mà họ muốn sử dụng; Thứ hai ứng dụng phần mềm dịch tự động để dịch giao diện, nội dung từ ngơn ngữ có sang ngơn ngữ mà người sử dụng chọn lựa Hiện có nhiều hệ thống dịch đa ngữ xây dựng với nhiều hướng tiếp cận khác chất lượng dịch ngày cải thiện Tuy nhiên, đầu dịch hệ thống hầu hết mang tính tham khảo chưa thể nghĩa, văn phong câu nguồn Hơn giới sử dụng 5.000 ngơn ngữ có chữ viết, việc phát triển hệ thống dịch đa ngữ cho cặp ngơn ngữ vơ khó khăn ngơn ngữ có số lượng người dùng Một hướng tiếp cận dịch đa ngữ quan tâm sử dụng ngôn ngữ trục để dịch, hướng tiếp cận giảm chi phí xây dựng phần mềm từ (n*(n-1)) xuống cịn (2*n) giải cặp ngơn ngữ thiếu tài nguyên không tương đồng cấu trúc ngữ pháp Văn phạm câu nguồn phương pháp dịch qua ngơn ngữ trục phân tích biểu diễn qua ngôn ngữ khác gọi ngôn ngữ trung gian sau sử dụng văn phạm ngơn ngữ đích để dịch từ ngơn ngữ trung gian Ưu điểm phương pháp cần phân tích ngơn ngữ nguồn để chuyển sang ngơn ngữ trung gian ngược lại Ngoài ra, hệ thống dịch đa ngữ, dễ dàng bổ sung ngôn ngữ vào hệ thống nhược điểm làm tìm ngơn ngữ mà biểu diễn tất thông tin ngôn ngữ tự nhiên không nhập nhằng ngữ nghĩa Trong năm gần đây, nhiều ngơn ngữ tự nhiên có kho ngữ liệu song ngữ lớn (như tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp,…) lựa chọn làm ngôn ngữ trung gian dịch tự động xây dựng kho ngữ liệu song ngữ Tuy nhiên với phương pháp dịch hai lần thông qua ngôn ngữ thứ ba, chất lượng dịch khơng cao khơng khử tính nhập nhằng từ loại ngôn ngữ tự nhiên Đến nay, hướng tiếp cận thường sử dụng cho cặp ngôn ngữ không tương đồng cấu trúc ngữ pháp khan nguồn tài nguyên liệu Hiện có ngơn ngữ xây dựng cho dịch máy dựa vào phương pháp trung gian gọi UNL, ngơn ngữ cho phép người sử dụng biểu diễn tất tri thức ngôn ngữ tự nhiên máy tính mà khơng bị nhập nhằng ngữ nghĩa UNL bao gồm thành phần ngôn ngữ tự nhiên: từ vựng (UW), quan hệ (relation), thuộc tính (attributes) sở tri thức ngôn ngữ (UNLKB) Trong UNL, liên kết từ vựng dựa quan hệ ngữ nghĩa gắn thuộc tính để miêu tả khía cạnh người nói Mục đích đời UNL cung cấp cho người sử dụng Internet khả truy cập vào trang web ngôn ngữ họ Hệ thống dịch tự động đa ngữ bao gồm nhiều máy chủ ngôn ngữ khác dịch thông qua ngôn ngữ trục UNL Mỗi máy chủ ngôn ngữ đảm nhận hai chức năng, dịch văn từ ngôn ngữ nguồn sang ngôn ngữ UNL gọi q trình mã hóa dịch ngược lại sang ngơn ngữ đích gọi q trình giải mã Đến nay, nhiều ngơn ngữ giới tích hợp vào tảng UNL tạo thành hệ thống dịch đa ngữ như: tiếng Nga, tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Tây Ban Nha,… Vấn đề đặt làm để tích hợp máy chủ tiếng Việt vào tảng UNL chưa triển khai? Xuất phát từ nhu cầu thực tiễn trên, tác giả chọn “Sử dụng ngôn ngữ trục dịch đa ngữ” làm đề tài nghiên cứu luận án tiến sỹ kỹ thuật nhằm đóng góp cho phát triển dịch tự động Đặc biệt, kết nghiên cứu luận án mở hướng nghiên cứu cho dịch tự động tiếng Việt với ngôn ngữ khác hội phát triển hệ thống dịch tự động đa ngữ ngôn ngữ Việt Nam như: tiếng Việt, Chăm, Ba-na, Ê-đê, Jrai,… Mục tiêu nghiên cứu Mục tiêu chung luận án nghiên cứu thử nghiệm hệ thống dịch tự động đa ngữ áp dụng cho tiếng Việt ngơn ngữ dân tộc người Việt Nam Mục tiêu cụ thể luận án gồm: - Đề xuất hướng tiếp cận dịch tự động đa ngữ cho tiếng Việt dựa ngôn ngữ trục; - Xây dựng thử nghiệm hệ thống dịch tự động đa ngữ cho tiếng Việt dựa ngôn ngữ trục UNL hệ thống UNL sẵn có; - Đề xuất hướng mở rộng hệ thống dịch tự động đa ngữ có cho ngơn ngữ dân tộc người Việt Nam; - Đề xuất hướng tiếp cận dịch tự động đa ngữ bao gồm cho tiếng Việt dựa vào ngôn ngữ UNL 3 Đối tượng phạm vi nghiên cứu Dựa mục tiêu, đối tượng nghiên cứu luận án gồm: -Các hướng tiếp cận dịch tự động; -Các vấn đề dịch tự động cho tiếng Việt; -Ứng dụng ngôn ngữ UNL dịch tự động Phạm vi nghiên cứu luận án gồm: -Hướng tiếp cận dựa ngôn ngữ trục UNL dịch tự động; -Cấu trúc ngữ pháp câu tiếng Việt biểu thức UNL; -Hệ thống dịch đa ngữ cho tiếng Việt UNL; -Giải pháp dịch tự động tiếng Việt UNL Nội dung nghiên cứu Để đạt mục tiêu, nội dung nghiên cứu luận án gồm: - Nghiên cứu số phương pháp dịch tự động; - Nghiên cứu ứng dụng UNL dịch tự động; - Nghiên cứu hướng tiếp cận dịch tự động cho tiếng Việt; - Đề xuất giải pháp dịch đa ngữ cho tiếng Việt dựa vào UNL; - Xây dựng hệ thống thử nghiệm dịch tự động Việt – UNL Phương pháp nghiên cứu Các phương pháp nghiên cứu luận án sử dụng: - Phương pháp lý thuyết - Phương pháp thực nghiệm - Phương pháp chuyên gia Đóng góp luận án Đóng góp luận án bao gồm: 1) Đề xuất giải pháp để tích hợp tiếng Việt vào hệ thống UNL Hệ thống UNL nghiên cứu phát triển 20 năm (từ 1996) hỗ trợ dịch tự động cho 54 ngôn ngữ Tuy nhiên, việc nghiên cứu để tích hợp tiếng Việt vào hệ thống UNL chưa triển khai Luận án nghiên cứu cách hệ thống ngôn ngữ UNL; để sở đề xuất mơ hình tổng thể giải pháp liên quan để tích hợp tiếng Việt vào UNL Việc tích hợp có ý nghĩa quan trọng cần tích hợp tiếng Việt vào hệ thống UNL dịch tự động từ tiếng Việt sang tất ngơn ngữ khác có hệ thống UNL ngược lại 2) Đề xuất giải pháp xây dựng thành công từ điển tiếng Việt – UNL Từ điển sở hệ thống dịch tự động việc xây dựng thành công từ điển tiếng Việt – UNL đóng góp quan trọng để tích hợp tiếng Việt vào hệ thống UNL Luận án nghiên cứu đặc điểm từ điển UNL từ điển sẵn có tiếng Việt để từ xây dựng từ điển Việt – UNL với 235.602 mục từ 3) Đề xuất giải pháp xây dựng tập luật mã hoá (phục vụ dịch tiếng Việt sang UNL) tập luật giải mã (phục vụ dịch từ UNL sang tiếng Việt) Trên sở nghiên cứu luật hệ thống UNL số công cụ liên quan, luận án đề xuất giải pháp cải tiến xây dựng luật phục vụ trình dịch tự động tiếng Việt UNL Đã xây dựng 40 luật mã hoá cho số cấu trúc câu tiếng Việt để dịch sang biểu thức UNL 72 luật giải mã cho chiều dịch ngược lại 4) Đề xuất giải pháp xây dựng cơng cụ: EnCoVie chương trình dịch tự động từ tiếng Việt sang UNL DeCoVie chương trình dịch tự động từ UNL sang tiếng Việt Đây chương trình để dịch tự động dựa từ điển tập luật xây dựng Những đóng góp có ý nghĩa mặt khoa học mở hướng nghiên cứu dịch tự động cho tiếng Việt bên cạnh phương pháp có Về mặt thực tiễn xây dựng từ điển, tập luật hai chương trình dịch Đây tiền đề để tiếp tục hoàn thiện hệ thống dịch UNL – tiếng Việt phục vụ cho nghiên cứu sau lĩnh vực dịch tự động Bố cục luận án Ngoài nội dung như: mở đầu, kết luận, hướng phát triển, tài liệu tham khảo phụ lục, luận án tổ chức thành chương: Chương 1: Tổng quan dịch máy ngơn ngữ UNL Trình bày kết nghiên cứu liên quan đến dịch tự động, hệ thống dịch đa ngữ cho tiếng Việt, đánh giá chất lượng dịch phương pháp dịch trung gian dịch trực tiếp cặp dịch Ngoài nội dung chương trình bày kết nghiên cứu ngơn ngữ UNL, số thành tựu liên quan UNL ứng dụng UNL làm ngôn ngữ trục hệ thống dịch đa ngữ Chương 2: Đề xuất mơ hình dịch tiếng Việt - UNL Trình bày kết thử nghiệm dịch tự động cho tiếng Việt dựa vào UNL cơng cụ có sẵn Đề xuất mơ hình dịch cho tiếng Việt UNL dựa lý thuyết hệ thống UNL công cụ dịch tự động UNL thử nghiệm cho ngôn ngữ khác tiếng Việt Chương 3: Xây dựng từ điển tập luật Trình bày giải pháp xây dựng từ điển tiếng Việt – UNL, xây dựng tập luật mã hóa giải mã cho hai cơng cụ EnCoVie DeCoVie Chương 4: Thử nghiệm đánh giá Xây dựng hai công cụ chuyển đổi câu tiếng Việt sang UNL ngược lại Trình bày kết thử nghiệm đánh giá nội dung: xây dựng từ điển tiếng Việt – UNL, chuyển đổi hai công cụ EnCoVie DeCoVie, hệ thống dịch đa ngữ qua ngôn ngữ trục UNL (gồm ba ngôn ngữ tự nhiên hệ thống: tiếng Việt, tiếng Anh tiếng Nga) Chương TỔNG QUAN VỀ DỊCH MÁY VÀ NGÔN NGỮ UNL 1.1 Một số khái niệm sử dụng luận án Định nghĩa số thuật ngữ như: dịch máy, dịch song ngữ, dịch đa ngữ, ngôn ngữ trung gian, ngôn ngữ trục, từ điển, từ điển song ngữ, luật ngữ pháp, phân tích cú pháp nơng, phân tích cú pháp sâu, ngơn ngữ UNL, mã hóa, giải mã, máy chủ ngôn ngữ, hệ thống UNL, công cụ EnCoVie DeCoVie 1.2 Một số hướng tiếp cận dịch tự động 1.2.1 Dịch máy dựa luật Là hướng tiếp cận truyền thống dựa sở phân tích hình thái học, cú pháp ngữ nghĩa ngơn ngữ đích ngơn ngữ nguồn Hướng tiếp cận có ba phương pháp dịch trực tiếp, dịch chuyển đổi cú pháp dịch qua ngôn ngữ trung gian 1.2.2 Dịch máy dựa ngữ liệu Là hướng tiếp cận dựa vào kho ngữ liệu ngôn ngữ Hướng tiếp cận dịch máy có hai phương pháp dịch máy dựa ví dụ dịch máy thống kê 1.2.3 Phương pháp dịch kết hợp Đặc trưng phương pháp dịch kết hợp sử dụng ưu điểm nhiều phương pháp khác hệ thống dịch 1.2.4 Đánh giá Dịch dựa vào luật: Chất lượng dịch cao tốn nhiều chi phí xây dựng hệ thống quy mơ lớn khó mở rộng hệ thống Dịch máy dựa vào kho ngữ liệu: chất lượng dịch dựa vào kho ngữ liệu song ngữ huấn luyện sẵn nên tốn quản lý Hướng tiếp cận dịch kết hợp: sử dụng nhiều phương pháp dịch khác hệ thống nên chất lượng dịch cải thiện 1.3 Dịch đa ngữ Trong hệ thống dịch đa ngữ cặp ngôn ngữ xây dựng độc lập với định dạng cấu trúc, cần thêm ngơn ngữ phải bổ sung mô-đun theo số lượng cặp ngôn ngữ hệ thống Hiện giới có khoảng 5.000 ngơn ngữ có chữ viết, khơng thể xây dựng hết tất cặp dịch cho số lượng lớn ngôn ngữ Một giải pháp mà xây dựng hệ thống dịch đa ngữ hướng đến dịch qua ngôn ngữ trục Với hướng tiếp cận giảm chi phí xây dựng hệ thống từ n*(n-1) xuống 2*n mô-đun dịch cần bổ sung ngơn ngữ vào hệ thống cần xây dựng mô-đun cho ngôn ngữ với ngôn ngữ trung gian đại diện 1.4 Vấn đề dịch tự động cho tiếng Việt Dịch tự động cho tiếng Việt nhiều nhóm nghiên cứu quan tâm chủ yếu tập trung cặp ngôn ngữ Anh – Việt, Pháp – Việt Các hệ thống dịch đa ngữ hạn chế số lượng cặp dịch tiếng Việt với ngôn ngữ giới Vấn đề đặt làm để xây dựng nhanh hệ thống dịch đa ngữ cho tiếng Việt với ngơn ngữ giới mà giảm chi phí xây dựng cho ngôn ngữ tham gia vào hệ thống? 1.5 Tổng quan UNL 1.5.1 Giới thiệu UNL ngơn ngữ nhân tạo có tất thành phần tương ứng với ngôn ngữ tự nhiên thiết kế để biểu diễn ngôn ngữ tự nhiên máy tính dạng mạng ngữ nghĩa với cấu trúc đa đồ thị 1.5.2 Ngôn ngữ UNL Một hệ thống UNL gồm nhiều máy chủ ngôn ngữ khác nhau, máy chủ đăng ký với tổ chức Universal Networking Language Foundation để thực dịch văn thông qua UNL Với vai trị hệ thống, ngơn ngữ UNL sử dụng ngôn ngữ trục hệ thống dịch đa ngữ 1.6 Tiểu kết chương Kết nghiên cứu tổng quan có cơng trình cơng bố tạp chí nước ngồi Trên sở nghiên cứu tổng quan, tác giả đánh giá lại nội dung chương sau: Nhu cầu xây dựng hệ thống dịch đa ngữ cho tất ngôn ngữ giới đa ngữ hóa website cấp thiết, nhiên khó đáp ứng kịp thời hướng tiếp cận xây dựng n*(n-1) mô-đun dịch Hiện tồn nhiều hệ thống dịch xây dựng theo nhiều phương pháp khác nhau, khơng thể tích hợp hệ thống đơn lẻ thành hệ thống dịch đa ngữ lớn Dịch qua ngôn ngữ trung gian hướng tiếp cận quan tâm làm giảm từ n*(n-1) xuống cịn 2*n mơ-đun dịch Với phương pháp dịch qua ngơn ngữ trung gian, dễ dàng tích hợp hệ thống đơn lẻ (cùng chung ngôn ngữ trung gian) thành hệ thống dịch đa ngữ sử dụng ngôn ngữ trung gian làm ngôn ngữ trục Dịch tự động cho tiếng Việt nghiên cứu năm 1960, nhiên đến nghiên cứu chủ yếu số cặp ngôn ngữ: Việt – Pháp, Việt – Anh, Tiếng Việt dịch sang nhiều ngôn ngữ khác (theo Google translator có khoảng 103/ 5.000 ngôn ngữ giới), nhiên chất lượng đầu mang tính tham khảo hàm ý chưa thể diễn tả mặt văn phong ngữ cảnh câu nguồn 11 Việt Nam có 54 dân tộc, bên cạnh chữ Quốc ngữ người Kinh có khoảng 30 dân tộc có chữ viết thức khơng thức , nhu cầu xây dựng hệ thống dịch đa ngữ để trao đổi thông tin Việt Nam cần thiết UNL đời kết hợp giải pháp đa ngữ hóa giảm chi phí xây dựng hệ thống dịch đa ngữ Ý tưởng UNL định nghĩa ngơn ngữ trục có khả biểu diễn cho tất ngôn ngữ tự nhiên Đến nay, dự án UNL hỗ trợ phát triển 54 ngơn ngữ khác có dự án, hội thảo triển khai Vấn đề đặt làm để ứng dụng UNL hệ thống dịch đa ngữ cho tiếng Việt? Những đóng góp luận án chương sở quan trọng để triển khai chương Chương ĐỀ XUẤT MƠ HÌNH DỊCH TIẾNG VIỆT - UNL 2.1 Đặt vấn đề Ở Việt Nam nghiên cứu UNL cịn hạn chế chưa có hệ thống dịch tiếng Việt dựa vào UNL Các công cụ hỗ trợ UNL phù hợp cho ngôn ngữ thử nghiệm phát triển hoàn chỉnh máy chủ ngôn ngữ Vấn đề đặt làm để tích hợp máy chủ tiếng Việt vào tảng UNL chưa triển khai? 2.2 Ngữ pháp tiếng Việt Tiếng Việt xếp vào loại hình đơn lập (Isolate) hay cịn gọi loại hình phi hình thái, khơng biến hình, đơn tiết Các phương thức ngữ pháp tiếng Việt chủ yếu dựa vào trật tự từ, hư từ ngữ điệu 2.3 Đề xuất mô h nh dịch 12 Máy chủ tiếng Việt Tập luật mã hóa Từ điển tiếng Việt - UNL Cơng cụ EnCoVie Câu Tiếng Việt Biểu thức UNL Công cụ DeCoVie Từ điển UNL – tiếng Việt Tập luật giải mã H nh 2.1 Mơ hình hệ thống máy chủ tiếng Việt 2.3.1 Cơng cụ EnCoVie Q trình chuyển đổi thực sau: việc tách từ, gán nhãn từ loại phân tích cú pháp câu đầu vào thực mơ-đun Sau EnCoVie dựa vào từ điển tập luật mã hóa để chuyển đổi câu tiếng Việt sang biểu thức UNL tương ứng 2.3.2 Cơng cụ DeCoVie Q trình giải mã cơng cụ DeCoVie mô tả sau: biểu thức UNL đầu vào tách mối quan hệ nhị phân UW mô-đun Công cụ DeCoVie dựa vào từ điển tập luật giải mã để chuyển đổi biểu thức UNL sang câu tiếng Việt tương ứng 2.3.3 Từ điển UNL Một mục từ từ điển chứa ba thành phần bản: HW - từ đầu mục từ ngôn ngữ cần định nghĩa, UW - định nghĩa khái niệm 13 UNL tương ứng tập thuộc tính ngữ pháp Mỗi headword định nghĩa UW thuộc tính tương ứng [HW]“UW”(ATTR,ATTR,…); Trong từ điển UNL, HeadWord mục từ tiếng Việt định nghĩa UW tương ứng Trong giai đoạn mã hóa, mục từ tiếng Việt sử dụng để tìm UW thích hợp nhằm tạo thành biểu thức UNL Trong trình giải mã, UW biểu thức UNL sử dụng để tìm kiếm mục từ tạo thành câu đầu tiếng Việt Dựa vào nguyên lý hoạt động này, thay xây dựng hai từ điển tiếng Việt – UNL cho q trình mã hóa từ điển UNL – tiếng Việt cho trình giải mã tác giả đề xuất xây dựng từ điển dùng chung cho hai trình chuyển đổi Đây điểm khác biệt hệ thống dịch qua UNL với hệ thống dịch khác 2.3.4 Luật ngữ pháp UNL Trong luận án, tác giả định nghĩa loại luật mã hóa loại luật giải mã 2.4 Một số vấn đề cần xử lý cho tiếng Việt Trong hệ xử lý ngôn ngữ tự nhiên phải giải số toán (tách từ, gán nhãn từ loại, ) để đạt mục đích hiểu ý nghĩa ngôn ngữ 2.5 Tiểu kết chương Nội dung chương trình bày nghiên cứu tiếng Việt, đề xuất mơ hình dịch tiếng Việt – UNL thành phần Kết nghiên cứu chương có cơng trình cơng bố tạp chí nước ngồi Nội dung chương trình bày số vấn đề sau: Cùng cách thức dịch thông qua ngôn ngữ trung gian, dịch qua UNL có kết tốt so với dịch qua ngơn ngữ tự nhiên (ví dụ tiếng Anh) 14 Hiện có nhiều cơng cụ hỗ trợ phát triển ứng dụng UNL cho ngôn ngữ tự nhiên, chúng phù hợp với thử nghiệm công cụ hồn chỉnh phát triển máy chủ ngơn ngữ Tiếng Việt thuộc loại hình ngơn ngữ đơn lập Các phương thức ngữ pháp tiếng Việt chủ yếu dựa vào trật tự từ, hư từ ngữ điệu Hiện có nhiều nghiên cứu toán xử lý câu đầu vào tiếng Việt kết đầu tốt (từ 78% - 98%) Đề xuất mơ hình dịch tiếng Việt UNL: gồm hai công cụ EnCoVie DeCoVie EnCoVie DeCoVie hoạt động dựa vào hai từ điển hai tập luật chuyển đổi Những nội dung đề xuất chương đặt toán cần giải cho hệ thống dịch song ngữ Việt - UNL chương Chương GIẢI PHÁP XÂY DỰNG TỪ ĐIỂN VÀ LUẬT 3.1 Giải pháp xây dựng từ điển Tiếng Việt - UNL Đề xuất hai giải pháp: - Sử dụng UNL Explorer mở rộng từ điển tiếng Việt – UNL - Rút trích tự động từ vựng từ biểu thức UNL 3.2 Giải pháp xây dựng luật ngữ pháp 3.2.1 Xây dựng luật mã hóa 3.2.1.1 Xây dựng luật mã hóa cho câu đơn tiếng Việt * Trường hợp cấu trúc câu đơn thứ nhất: Xây dựng luật mã hóa cho mơ hình thứ (trong 12 nhóm mơ hình câu đơn) Chủ ngữ - Vị ngữ (vị ngữ “là”+ danh, tính động từ Có biến thể không là) Xét trường hợp với chủ ngữ đại từ, vị ngữ danh từ Đại từ nhân xưng+ “là” + danh từ đơn thể 15 Hệ từ “là” dùng để biểu thị ý nhấn mạnh sắc thái khẳng định, thuộc tính “@affirmative” mơ tả khẳng định người nói -{“là”:null:null}{n,nt:+@affirmative:null}; Đại từ từ dùng để thay đối tượng, điều nói đến, tồn >{p,pp:null:aoj}{n,nt,@affirmative:null:null}; * Trường hợp cấu trúc câu đơn thứ hai: Đây loại câu hai thành phần với vị ngữ động từ - Xét trường hợp vị ngữ động từ nội động với cấu trúc Đại từ nhân xưng + động nội động Động từ nội động loại động từ trạng thái hay hoạt động không nhằm vào đối tượng mà khép kín phạm vi chủ thể Mối quan hệ ngữ pháp định nghĩa tương đương quan hệ ngữ nghĩa “agt” có luật: >{p,pp:null:agt}{v,vs:+.@present:null}; - Xét trường hợp vị ngữ có động từ ngoại động với cấu trúc cụ thể đại từ nhân xưng + ngoại động từ + bổ ngữ [danh từ trừu tượng+ giới từ + danh từ đơn thể]) Cũng giống động từ nội động, “đại từ nhân xưng” “ngoại động từ” thiết lập mối quan hệ nhị phân “agt” tương đương UNL định nghĩa luật sửa đổi phải sau: >{p,pp:null:agt}{v,vt:+.@present.@entry:null}; “danh từ trừu tượng” bị ảnh hưởng trạng thái “động từ ngoại động” định nghĩa luật sau: >{v,vt:null:obj}{n,na:null:null}; Giới từ loại từ có tác dụng nối liền từ phụ với từ chính, biểu thị quan hệ ngữ pháp sau: 16 -{E:null:null}{n,ng:+E,+plc:null}; {p,pp:null:agt}{v,vt,order:+.@present.@entry:null}; Động từ sai khiến tác động đại từ nhân xưng “obj”: {p,pp:null:agt}{v,vt,CogAct:+@present,+@entry:null}; >{p,pp,scope01:null:agt:01}{v,vt,PhyAct:+@present, +@entry:null}; 18 Từ nối “và” sử dụng để nối hai mệnh đề câu: :{“và”:null:null}{“:01”:+and:null}; >{v,vt,CogAct:null:null}{and:null:and}; -{“:01”:null:null}{P,PP:+scope01:null}; * Trường hợp cấu trúc câu ghép thứ ba: Sử dụng cặp từ nối “nhờ có …nên…”, “nếu …thì….”, “tuy …nhưng…”,… Trong nội dung này, xây dựng luật mã hóa dạng câu điều kiện với cặp từ nối “nếu … …” trình bày đầy đủ tồn văn luận án 3.2.2 Xây dựng luật giải mã 3.2.2.1 Trường hợp biểu thức chứa nhiều nút * Trường hợp biểu thức chứa nút có quan hệ “aoj(n,nt;p,pp)” Quan hệ “aoj” định nghĩa điều trạng thái thuộc tính :“n,nt:null:aoj”{p,pp:null:null}; Thuộc tính “@affirmative” mang tính chất khẳng định thuộc tính gắn với hệ từ “là” tiếng Việt :“[là]:+C:null”{n,nt.@affirmative:-@present,@affirmative :null}; * Trường hợp biểu thức chứa nhiều nút có quan hệ “agt(v,vt;p,pp)”, “obj(v,vt;n,na)” “pcl(n,na;n,ng)” Tạo mối quan hệ “agt” luật sau: :“v,vt:null:agt”{p,pp:null:null}; Quan hệ “obj” định nghĩa việc trung tâm bị ảnh hưởng trực tiếp kiện trạng thái :{v,vt:null:null}“n,na:null:obj”; 19 Quan hệ “plc” định nghĩa nơi mà kiện xảy trạng thái việc tồn :{n,na:null:null}“n,ng:+@plc:plc”; Nếu từ có thuộc tính “@plc” dấu hiệu nhận biết từ địa điểm Trong tiếng Việt thêm giới từ “ở” để biểu thị điều nêu nơi, chỗ, khoảng thời gian vật hay việc nói đến tồn hay diễn :“[ở]:+e:null:null”{n,ng,@plc:-@plc:null}; 3.2.2.2 Trường hợp biểu thức chứa nút kết hợp *Trường hợp biểu thức có quan hệ “agt(v,vt;p,pp)” “and (scope;v,vt)” Luật phá vỡ mối quan hệ “agt” sau: :“v,vt:null:agt”{p,pp:null:null}; Quan hệ “and” định nghĩa mối quan hệ kết hợp hai khái niệm khác :{v,vt:null:null}“[:01]:+scope,+and:and”; Để xử lý mối quan hệ ngữ nghĩa từ tạo thành câu đích, luật chèn từ xóa từ xây dựng sau: :“[và]:+and:null:null”{scope,and:-and:null}; :{scope:null:null}“v,vt:@entry:null”; DL“scope:nul:null”{v,vt:null:null}; * Trường hợp biểu thức có quan hệ “obj(v,vs;p,pp)”, “cob(v,vs;n,nt)”, “cnt(v,vs;scope)”, “agt(v,vt;p,pp)”, “tim(v,vt; a,ap): trình bày đầy đủ tồn văn luận án *Trường hợp biểu thức có quan hệ “agt(v,vt;p,pp)”, “man(v,vt;a,ap),“con(scope;v,vt)”,“agt(v,vs;p,pp)”, n,na)”: trình bày đầy đủ tồn văn luận án 20 “tim(v,vs; 3.3 Tiểu kết chương Kết nghiên cứu chương có cơng trình cơng bố tạp chí hội thảo nước nước ngồi Nội dung chương trình bày số vấn đề sau: Đề xuất hai giải pháp bổ sung từ điển tiếng Việt – UNL Đề xuất giải pháp xây dựng tập luật chuyển đổi: - Tập luật mã hóa cho cấu trúc câu tiếng Việt - Tập luật giải mã cho trường hợp: trường hợp biểu thức chứa nhiều nút trường hợp biểu thức chứa nút kết hợp Những nội dung chương sở để xây dựng công cụ thử nghiệm chương Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ 4.1 Xây dựng công cụ EnCoVie DeCoVie Trình bày giải thuật xây dựng hai công cụ 4.2 Thử nghiệm đánh giá 4.2.1 Từ điển tiếng Việt – UNL Cả hai giải pháp thu 235.602 mục từ bổ sung vào từ điển tiếng Việt – UNL, nhiên số lượng mục từ thu không nhiều Nguyên nhân: - Hạn chế số lượng mục từ từ điển Anh – Việt (190.000 mục từ) nên có số từ vựng so sánh khơng tìm thấy từ điển - Có nhiều scope định nghĩa riêng dự án - Sự không trùng khớp HeadWord mục từ từ điển Anh – Việt từ vựng trích lọc từ biểu thức UNL biến đổi hình thái - Hệ thống không đầy đủ thông tin từ loại 21 4.2.2 Dịch đa ngữ qua ngôn ngữ trục UNL *Dữ liệu thử nghiệm: xây dựng mẫu cấu trúc (2200 mẫu) mẫu sai cấu trúc (550 mẫu) chuyên gia ngôn ngữ Kết thống kê sau: Bảng 4.3 Tỷ lệ thay đổi dịch qua UNL trực tiếp Cách thức dịch EnCovie: tiếng Việt UNL UNL.ru: UNL tiếng Anh Google: tiếng Việt tiếng Anh UNL.ru: tiếng Anh UNL DeCovie: UNL tiếng Việt Số câu Không thay đổi 933 (84.82 %) 489 (77.18 %) 942 (85.64 %) Google: tiếng Anh tiếng UNL.ru: UNL tiếng Nga Google: tiếng Việt tiếng Nga UNL.ru: tiếng Nga UNL DeCovie: UNL tiếng Việt Google: tiếng Nga tiếng Việt 167 (15.18%) 251 (22.82%) 158 (14.36 %) 858 (78%) 242 (22%) 509 (46.27%) 591(53.73%) 471 (42.82%) 629 (57.18%) 629(57.18%) 471(42.82%) 713(64.82%) 387(35.18%) Việt EnCovie: tiếng Việt UNL Bị thay đổi 4.3 Tiểu kết chương Kết nghiên cứu chương có cơng trình cơng bố kỷ yếu hội thảo nước Chương đánh giá lại sau: Bổ sung 235.602 mục từ cho từ điển tiếng Việt – UNL 22 Xây dựng hai công cụ EnCoVie DeCoVie để dịch từ tiếng Việt sang UNL ngược lại Hai công cụ hoạt động tốt số câu tiếng Việt biểu thức UNL xây dựng tập luật chuyển đổi Tích hợp vào hệ thống UNL (gồm ba ngôn ngữ: tiếng Việt, tiếng Anh tiếng Nga) hệ thống hoạt động tốt so với hệ thống dịch trực tiếp (trong trường hợp Google translator) mẫu liệu thử Những kết tiền đề để tiếp tục hoàn thiện máy chủ tiếng Việt tích hợp vào hệ thống UNL tạo thành hệ thống dịch đa ngữ bao gồm tiếng Việt tương lai KẾT LUẬN Hướng tiếp cận Luận án sử dụng phương pháp dịch qua ngôn ngữ trung gian để phát triển máy chủ tiếng Việt dựa UNL gồm hai công cụ EnCoVie DeCoVie Các kết đạt Kết nghiên cứu luận án có ý nghĩa khoa học thực tiễn với đóng góp sau: - Đề xuất hướng nghiên cứu dịch tự động cho tiếng Việt dựa vào ngôn ngữ trung gian UNL - Đề xuất thử nghiệm thành công máy chủ tiếng Việt để dịch tự động UNL tiếng Việt Những thành phần máy chủ cần xây dựng gồm: Từ điển tiếng Việt – UNL (235.602 mục từ); Tập luật mã hóa cho cấu trúc tiếng Việt (40 luật) tập luật giải cho dạng biểu thức UNL (72 luật); Công cụ EnCoVie để dịch tự động câu tiếng Việt sang UNL DecoVie dịch từ biểu thức UNL sang câu tiếng Việt (đặt http://unlvie.mooo.com/ ) 23 - Tích hợp hệ thống dịch đa ngữ dựa vào UNL bao gồm ngôn ngữ: tiếng Nga, tiếng Anh tiếng Việt Thử nghiệm đánh giá, kết dịch qua ngôn ngữ trung gian UNL tốt so với dịch dịch trực tiếp cặp dịch (bởi công cụ Google Translator) Giới hạn luận án Luận án kế thừa kết xử lý câu đầu vào tiếng Việt (tách từ, gán nhãn từ loại, phân tích cú pháp) có độ xác sau: hệ tách từ tiếng Việt độ xác 97%, hệ gán nhãn từ loại độ xác 93%, hệ phân tích cụm từ tiếng Việt độ xác 81% hệ phân tích cú pháp tiếng Việt độ xác 78% - Kết dịch EnCoVie phụ thuộc vào đầu tiền xử lý câu tiếng Việt đầu vào - Luận án chưa giải trường hợp biến thể cấu trúc câu tiếng Việt - Luận án khơng trình bày xây dựng luật mối quan hệ từ loại tiếng Việt quan hệ nhị phân UNL Hướng nghiên cứu Luận án đưa số hướng phát triển sau: - Giải trường hợp biến thể cấu trúc tiếng Việt quan hệ nhị phân hai UW quan hệ UNL -Xây dựng luật chuyển đổi cho cấu trúc câu tiếng Việt quan hệ nhị phân UNL - Bổ sung mục từ vào từ điển tiếng Việt – UNL - Nghiên cứu phát triển hệ thống dịch tự động đa ngữ cho ngôn ngữ khác Việt Nam như: tiếng Việt, Chăm, Cơ–tu, Ba-na, Ê –đê, Jrai,… 24 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ [1] P.T.L.Thuyền, V.T.Hùng (2014),“Bổ sung liệu vào từ điển UNL – tiếng Việt công cụ UNL Explorer”, Tạp chí Khoa học Cơng nghệ Đại học Đà Nẵng, số 11(84), trang 125 – 129 [2] P.T.L.Thuyen, V.T.Hung (2015),“Results comparison of machine translation by dicrect translation and by through intermediate language”, International Journal of Advance Research in Computer Science and Management Studies, Volume 3, Issue 4, papes 1-6 [3] P.T.L.Thuyền, V.T.Hùng (2016),“Rút trích biểu thức UNL để tạo từ điển tiếng Việt – UNL”, Tạp chí Khoa học Công nghệ trường kỹ thuật, số 110, trang 86 – 90 [4] P.T.L.Thuyen,V.T.Hung(2016),“Multilingual Automatic Translation Based on UNL: A Case Study for the Vietnamese Language”, IEIE Transactions on Smart Processing and Computing, vol 5, no 2, IEIE Transactions on Smart Processing and Computing, vol 5, no 2, April 2016 http://dx.doi.org/10.5573/IEIESPC.2016.5.2.077 [5] P.T.L.Thuyền, V.T.Hùng (2016),“Chuyển đổi câu đơn tiếng Việt sang biểu thức UNL”, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX: Nghiên cứu ứng dụng Công nghệ thông tin, trang 78 – 85 [6] P.T.L.Thuyen,V.T.Hung (2016),“Automatic translation of Vietnamese simple sentences based on UNL”, The 3rd National Foundation for Science and Technology Development Conference on Infornation and Computer Science, pages 218 – 222 [7] P.T.L.Thuyền, V.T.Hùng (2016),“Phân tích động từ câu ghép tiếng Việt hệ thống dịch máy dựa UNL”, Kỷ yếu Hội thảo quốc gia lần thứ XIX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, trang 287 – 292 [8] P.T.L.Thuyền, V.T.Hùng (2017),“Phân tích ngữ pháp câu đơn tiếng Việt để xây dựng công cụ eConverter”, Kỷ yếu Hội nghị Khoa học Công nghệ quốc gia lần thứ X: Nghiên cứu ứng dụng Công nghệ thông tin, trang 749 – 759 [9] P.T.L.Thuyen,V.T.Hung(2018),“Translate UNL expressions to Vietnamese compound sentence based on Deconverter tool”, Proceeding of Fourth International Conference on INformation systems Design and Intelligent Applications-INDIA, pages 323333, ISSN 2194-5365(electronic) ... (22.82%) 158 (14 .36 %) 858 (78%) 242 (22%) 509 (46.27%) 591( 53. 73% ) 471 (42.82%) 629 (57.18%) 629(57.18%) 471(42.82%) 7 13( 64.82%) 38 7 (35 .18%) Việt EnCovie: tiếng Việt UNL Bị thay đổi 4 .3 Tiểu kết... International Conference on INformation systems Design and Intelligent Applications-INDIA, pages 32 333 3, ISSN 2194- 536 5(electronic) ... sang câu tiếng Việt tương ứng 2 .3. 3 Từ điển UNL Một mục từ từ điển chứa ba thành phần bản: HW - từ đầu mục từ ngôn ngữ cần định nghĩa, UW - định nghĩa khái niệm 13 UNL tương ứng tập thuộc tính