Bài viết Đánh giá vai trò của kho ngữ liệu đối với chất lượng dịch tự động tiếng Việt tiến hành nghiên cứu thực trạng của các kho ngữ liệu song ngữ tiếng Việt hiện nay và tổ chức xây dựng các hệ thống dịch Anh-Việt từ các kho ngữ liệu có kích thước khác nhau, sử dụng các phương pháp dịch khác nhau. Kết quả đánh giá chất lượng của các hệ thống dịch thu được cho thấy, khi sử dụng kho ngữ liệu có kích thước càng lớn thì chất lượng của hệ thống dịch càng tăng.
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 19, NO 1, 2021 47 ĐÁNH GIÁ VAI TRÒ CỦA KHO NGỮ LIỆU ĐỐI VỚI CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT EVALUATION OF THE ROLE OF CORPUS IN VIETNAMESE-RELATED MACHINE TRANSLATION QUALITY Nguyễn Văn Bình1, Huỳnh Cơng Pháp1 Trường Đại học Cơng nghệ Thông tin Truyền thông Việt-Hàn - Đại học Đà Nẵng nvbinh@vku.udn.vn; hcphap@vku.udn.vn (Nhận bài: 30/11/2020; Chấp nhận đăng: 10/01/2021) Tóm tắt - Chất lượng hệ thống dịch tự động tiếng Việt thấp so sánh với chất lượng dịch cặp ngơn ngữ phổ biến khác Có nhiều yếu tố ảnh hưởng đến chất lượng mơ hình dịch, có phương pháp dịch kho ngữ liệu Để xây dựng hệ thống dịch có chất lượng tốt, cần sử dụng kho ngữ liệu tốt chất lượng có số lượng lớn Bài báo tiến hành nghiên cứu thực trạng kho ngữ liệu song ngữ tiếng Việt tổ chức xây dựng hệ thống dịch Anh-Việt từ kho ngữ liệu có kích thước khác nhau, sử dụng phương pháp dịch khác Kết đánh giá chất lượng hệ thống dịch thu cho thấy, sử dụng kho ngữ liệu có kích thước lớn chất lượng hệ thống dịch tăng Abstract - The quality of current Vietnamese-related automatic translation systems is still low when compared with the translation quality of other popular language pairs There are many factors that affect the quality of the translation model, including the translation method and the corpus To build a good quality translation system, it is necessary to use good quality and large quantity of linguistic resources This article researches the current situation of Vietnamese bilingual corpus and builds the English-Vietnamese translation systems from corpus of different sizes, using other translation methods The results of the quality of the translation systems obtained show that, when using the larger corpus size, the quality of the translation system is increased Từ khóa - Dịch tự động; kho ngữ liệu; kho ngữ liệu song ngữ; chất lượng dịch tự động; đánh giá chất lượng hệ thống dịch Key words - Machine translation; corpus; bilingual corpus; machine translation quality; evaluation of machine translation Đặt vấn đề Dịch tự động hay gọi dịch máy nghiên cứu việc sử dụng phần mềm để dịch văn từ ngôn ngữ sang ngôn ngữ khác [1], chẳng hạn dịch văn từ tiếng Anh sang tiếng Việt Bộ máy dịch tự động chương trình máy tính có nhiệm vụ tiếp nhận văn ngôn ngữ nguồn, sau thuật tốn tốn để đưa dự đốn kết dịch ngơn ngữ đích Các thuật toán toán dịch tự động hoạt động sở tổng hợp xử lý tri thức từ ngôn ngữ tự nhiên, chẳng hạn thông qua từ điển, cặp câu dịch mẫu; Các luật ngữ pháp; Thống kê từ ngữ… Như vậy, thấy rằng, để tạo nên hệ thống dịch có chất lượng, cần có hai yếu tố then chốt nguồn liệu phương pháp dịch Nguồn liệu sử dụng cho máy dịch thuật phải đáp ứng: (1) Có chất lượng tốt, nghĩa liệu phải xác, ngữ nghĩa khơng nhập nhằng, có phân tích cú pháp, xác định ranh giới từ, xác định danh từ riêng…; (2) Có số lượng lớn, nghĩa có đầy đủ luật ngữ pháp, có số lượng cặp câu song ngữ lớn, bao phủ tất lĩnh vực, có đầy đủ từ, cụm từ ngơn ngữ tự nhiên Để giải tốn xử lý ngơn ngữ tiếng Việt, có dịch máy, nhiều nhóm nghiên cứu xây dựng kho ngữ liệu dành riêng cho tiếng Việt, đồng thời đưa giải pháp để nâng cao chất lượng kho ngữ liệu Tuy nhiên, số lượng liệu kho ngữ liệu ít, đồng thời chưa có đánh giá, so sánh cụ thể để có số liệu minh chứng ảnh hưởng chất lượng số lượng kho ngữ liệu đến chất lượng hệ thống dịch Bài báo nêu thực trạng hệ thống dịch máy nghiên cứu kết xây dựng kho ngữ liệu Sau đó, nghiên cứu thực tổng hợp kho ngữ liệu lớn sử dụng để tổ chức thực nghiệm xây dựng hệ thống dịch liệu khác phương pháp dịch khác nhằm đánh giá vai trò kho ngữ liệu chất lượng hệ thống dịch tự động cặp ngôn ngữ tiếng Anh tiếng Việt Kết nghiên cứu báo có vai trị quan trọng việc cải tiến chất lượng hệ thống dịch tự động chất lượng nguồn tài nguyên liệu xử lý ngôn ngữ tự nhiên Thực trạng chất lượng hệ thống dịch tiếng Việt Với ngơn ngữ quốc tế, có nhiều nghiên cứu đánh giá chất lượng hệ thống dịch Khi so sánh dịch máy tính dịch người thực hiện, nghiên cứu [2] cho thấy, hệ thống dịch máy cho kết dịch tốt dịch từ riêng lẻ cụm từ, câu dài phức tạp cho kết Đối với dịch thuật lĩnh vực chuyên môn, nghiên cứu [3] tiến hành đánh giá việc sử dụng hệ thống dịch lĩnh vực y tế Kết cho thấy, có 57,7% câu dịch cho kết xác, nhiều câu vơ nghĩa cho kết hoàn toàn sai với nội dung gốc Điều cho thấy, hạn chế hệ thống dịch tự động dịch chủ đề chuyên ngành hẹp Có nhiều nghiên cứu tác giả nước lĩnh vực dịch tự động liên quan đến tiếng Việt Các nhà khoa học đề xuất giải pháp nhằm nâng cao chất lượng dịch máy tiếng Việt, bao gồm The University of Danang - Vietnam-Korea University of Information and Communication Technology (Nguyen Van Binh, Huynh Cong Phap) Nguyễn Văn Bình, Huỳnh Cơng Pháp 48 giải pháp cải tiến mơ hình dịch xây dựng cải tiến kho ngữ liệu phục vụ hệ thống dịch Bên cạnh đó, cịn có nhiều thực nghiệm xây dựng hệ thống dịch tự động tiếng Anh sang tiếng Việt mơ hình dịch khác Việc phát triển hệ thống dịch tự động từ tiếng nước tiếng Việt bắt đầu nghiên cứu vào năm 60 kỉ 20 Đến nay, có số sản phẩm dịch máy ứng dụng cho chất lượng dịch nhiều hạn chế khác biệt mặt cấu trúc ngữ pháp tính nhập nhằng ngữ nghĩa ngôn ngữ tiếng Việt Một số hệ thống dịch đưa làm sản phẩm thương mại EVTran nghiên cứu phát triển từ năm 1989, Cồ Việt Công ty Cổ phần Tin học Lạc Việt, Google Translation, Bing Translator… [4] Vấn đề nâng cao chất lượng hệ thống dịch tự động tốn ln nhà nghiên cứu tập trung giải Trong 20 năm phát triển gần lĩnh vực dịch máy, có bước phát triển đáng kể đến kết hệ thống dịch máy khoảng cách xa so với dịch người thực Đối với ngôn ngữ phổ biến tiếng Anh, tiếng Pháp, hệ thống cho dịch chấp nhận số lĩnh vực thơng dụng, sử dụng để tham khảo nghĩa ngơn ngữ đích mà khơng cần đến người phiên dịch Tuy nhiên, ngôn ngữ phổ biến tiếng Việt, chất lượng câu dịch hệ thống cịn thấp, khó áp dụng rộng rãi thực tế Đặc biệt lĩnh vực chuyên ngành y tế, kỹ thuật, công nghệ, văn quy phạm pháp luật… hệ thống dịch không dịch khái niệm chuyên môn nên nhiều văn dịch trở nên khó hiểu, khơng có giá trị Dưới ví dụ trích từ nhiều kết qua khảo sát thực tế số liệu cụ thể: Câu nguồn disputing Party means a complaining Party (bản gốc từ or a responding Party; Panel means a panel Hiệp định established pursuant to Article 28.7 TPP): (Establishment of a Panel); Câu tham Bên tranh chấp Bên nguyên đơn Bên chiếu: bị đơn; Ban hội thẩm ban thành lập theo Điều 28.7 (Thành lập Ban hội thẩm); Câu dịch Bên tranh chấp có nghĩa Bên khiếu hệ thống nại Bên đáp ứng; Ban Hội thẩm Google ủy ban thành lập theo Điều 28.7 Translation (Thành lập Ban Hội thẩm); Câu dịch bên đảng có nghĩa bên khiếu nại hệ bên responding; Bảng điều khiển có nghĩa thống Bing bảng điều khiển thành lập theo quy Translator định 28.7 (thành lập bảng điều khiển) Tổ chức đánh giá chất lượng kết dịch từ tiếng Anh sang tiếng Việt phương pháp chủ quan (sử dụng bảng đánh giá mức độ khác người thực hiện) với tập liệu gồm 984 câu lĩnh vực hội thoại hàng ngày, kết thu Bảng Bảng Kết đánh giá chất lượng hệ thống dịch phương pháp chủ quan Số câu (1) Có hiểu (2) Hiểu (3) Dùng Google 984 789 687 516 Microsoft 984 517 458 308 Với kết thấy rằng, để dùng kết dịch giao tiếp thông thường, có 516 câu (đối với Google) 308 câu (đối với Microsoft), chiếm tỷ lệ 52% 30% Quan sát cụ thể liệu, có nhiều câu cịn làm cho người đọc hiểu sai ý nghĩa gốc Qua đánh giá trên, thấy rằng, hệ thống dịch tự động ứng dụng rộng rãi, để sử dụng kết dịch cần phải tiếp tục có nhiều cải tiến, đặc biệt dịch tiếng Việt Chất lượng hệ thống dịch tiếng Việt chưa tốt số nguyên nhân: - Phương pháp dịch chưa phù hợp: Các mơ hình dịch thống kê dịch dựa mạng nơ ron có nhiều ưu điểm, muốn áp dụng hiệu dịch tiếng Việt cần có thêm đánh giá nghiên cứu bổ sung Tiếng Việt khác với số ngôn ngữ khác, từ bao gồm nhiều âm tiết, hệ thống làm việc đơn vị từ đơn lẻ, làm giảm hiệu mơ hình dịch Các cơng cụ xử lý dành cho tiếng Việt nghiên cứu áp dụng công cụ tách từ vnTokenizer, Đông Du, công cụ phân tích cú pháp, cơng cụ gán nhãn từ loại VnTagger, nhiên số hạn chế Các hệ thống dịch xem xét câu nguồn để tái tạo câu đích mà chưa đặt văn dịch vào ngữ cảnh nên nhiều câu dịch không phù hợp áp dụng vào thực tế Bên cạnh đó, nhập nhằng ngữ nghĩa tiếng Việt vấn đề cần nghiên cứu có giải pháp xử lý để có ý nghĩa rõ ràng văn tiếng Việt trước hệ thống dịch - Kho ngữ liệu chưa đầy đủ: Các kho ngữ liệu sử dụng để huấn luyện cho hệ thống dịch tự động chưa đầy đủ, số lượng liệu cịn ít, số từ hệ thống chưa nhận diện Đặc biệt lĩnh vực chuyên ngành hẹp, lĩnh vực y tế, kỹ thuật, văn hành chính… khái niệm quan trọng hệ thống chưa dịch làm cho dịch trở nên khó hiểu Thực trạng kho ngữ liệu tiếng Việt dùng lĩnh vực dịch tự động Kho ngữ liệu (corpus) hiểu tập hợp văn đơn ngữ, đa ngữ hay song ngữ [5] Kho ngữ liệu song song (Parallel Corpus) tập văn (tài liệu) nhiều ngôn ngữ khác nhau, có ngơn ngữ nguồn nhiều ngơn ngữ đích dịch từ ngôn ngữ nguồn Kho ngữ liệu song ngữ tập hợp liệu gồm cặp văn dịch tương ứng 1-1 mặt ngữ nghĩa Trong ngữ liệu song ngữ, dịch tương ứng ngôn ngữ phải đặt song song với hay cịn gọi gióng hàng với (alignment) Mức độ gióng hàng cấp độ văn (text alignment), nghĩa văn ngôn ngữ nguồn gióng với văn dịch tương ứng ngơn ngữ đích Tương tự cho cấp độ đoạn (paragraph alignment), cấp độ câu (sentence alignment), cấp độ ngữ (phrase alignment) sâu cấp độ từ (word alignment) Kho ngữ liệu song ngữ chứa văn hai ngơn ngữ khác nhau, ngồi nội dung cịn có thơng tin xử lý gióng hàng, gán nhãn từ… Về bản, kho ngữ liệu chứa thông tin sau đây: • Phần liệu nguyên thủy/ thô (primary data); • Thông tin văn bản: id, title, authors…: Được gọi ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 19, NO 1, 2021 phần đầu (Header); • Thơng tin cấu trúc nội dung: Các phần (section), đoạn (paragraph), câu (sentence)…: Được gọi phần Text; • Phần giải ngơn ngữ học (linguistic annotation); • Ranh giới đoạn, câu, từ; • Từ loại từ (POS); • Gốc từ (lemma); • Thơng tin gióng hàng (alignment) Trên giới có nhiều kho ngữ liệu song ngữ song song chia sẻ miễn phí cho cộng đồng nghiên cứu Dưới vài kho ngữ liệu song ngữ song song tiêu biểu: - Kho ngữ liệu song ngữ song song xây dựng từ hỗ trợ dự án EuroMatrix Kho ngữ liệu gồm cặp ngôn ngữ khác lấy nguồn từ kỷ yếu (proceeding) Quốc hội Châu Âu (European Parliament) từ năm 1996 – 2006 Kho ngữ liệu song ngữ song song gồm 10 cặp ngôn ngữ liệt kê Bảng Bảng Dữ liệu kho ngữ liệu EuroMatrix Kho ngữ liệu song ngữ Số từ ngôn Số từ ngôn Số cặp câu (L1-L2) ngữ L1 ngữ L2 Tiếng Đan Mạch Tiếng Anh 1.304.947 34.169.707 36.225.880 Tiếng Đức - Tiếng Anh 1.313.096 34.700.362 36.663.083 Tiếng Hy Lạp Tiếng Anh 662.090 18.834.758 18.827.241 Tiếng Tây Ban Nha Tiếng Anh 1.304.116 37.870.751 36.429.274 Tiếng Phần Lan Tiếng Anh 1.257.720 24.895.790 34.802.617 Tiếng Pháp - Tiếng Anh 1.334.080 41.573.117 37.436.222 Tiếng Ý - Tiếng Anh 1.251.315 36.411.166 36.510.033 Tiếng Hà Lan Tiếng Anh 1.326.412 36.784.168 36.690.392 Tiếng Bồ Đào Nha Tiếng Anh 1.287.757 37.342.426 36.355.907 Tiếng Thụy Điển Tiếng Anh 1.164.536 28.882.142 32.053.628 - Kho ngữ liệu song ngữ song song Anh-Pháp, Canadian Hansard Corpus, hiệp hội liệu ngôn ngữ học (Linguistic Data Consortium- LDC) kho ngữ liệu gồm 2.8 triệu cặp câu [16] Dữ liệu văn chủ yếu lấy từ trang web Quốc hội Canada - Kho ngữ liệu song ngữ song song Hoa – Anh PKU 863 đại học Bắc kinh gồm 200.000 cặp câu thuộc nhiều lĩnh vực kinh tế xã hội khác [17] 49 câu lớn nhiều ngôn ngữ khác chia sẻ cho cộng đồng nghiên cứu cung cấp [13], [14] liệt kê Bảng Liên quan đến kho ngữ liệu tiếng Việt phục vụ cho máy dịch tự động, có nghiên cứu xây dựng cải tiến kho ngữ liệu Một số kho ngữ liệu song ngữ Anh – Việt tổng hợp Bảng Bảng Tổng hợp số kho ngữ liệu song ngữ Anh – Việt Đề tài KC01.01/06-10 "Nghiên cứu 80.000 cặp câu Kinh tế phát triển số sản phẩm thiết yếu Xã hội; 20.000 cặp câu xử lý tiếng nói văn tiếng Tin học Việt" (VLSP) [6] Xây dựng hệ thống dịch dựa ví 6.000 cặp câu song ngữ dụ [7] Anh-Việt Xây dựng hệ thống dịch thích ứng 100.000 cặp câu song ngữ miền dịch máy nơ ron cho cặp Anh Việt thuộc miền pháp ngôn ngữ Anh - Việt [8] lý Xây dựng hệ thống dịch chiều Anh – Việt mơ hình dịch thống kê sử dụng Moses [9] Kho ngữ liệu gồm 880.000 cặp câu song ngữ Anh – Việt Có thể thấy rằng, kho ngữ liệu tiếng Việt có số lượng câu so sánh với kho ngữ liệu ngôn ngữ phổ biến khác Trong kho ngữ liệu song ngữ tiếng Việt, liệu tổng hợp nhiều lĩnh vực khác Lượng liệu lĩnh vực chưa nhiều, đặc biệt liệu thuộc lĩnh vực hẹp, chuyên sâu lĩnh vực y tế, văn quy phạm pháp luật… xuất kho ngữ liệu nói Ngoài ra, kho ngữ liệu song ngữ chủ yếu cặp ngôn ngữ tiếng Anh tiếng Việt, có kho ngữ liệu song ngữ tiếng Việt với ngôn ngữ khác nghiên cứu xây dựng Kho ngữ liệu tảng để xây dựng, đánh giá cải tiến chất lượng hệ thống dịch tự động Nếu có kho ngữ liệu đa ngữ đủ lớn khối lượng, tốt chất lượng chắn chất lượng dịch hệ thống dịch tự động cải thiện đáng kể Đánh giá vai trò kho ngữ liệu đến chất lượng hệ thống dịch Anh – Việt Đối với toán xây dựng hệ thống dịch tự động nâng cao chất lượng hệ thống dịch, kho ngữ liệu đóng vai trị then chốt liệu đầu vào để thực q trình huấn luyện hệ thống dịch thơng qua phương pháp khác Vai trò kho ngữ liệu toán dịch tự động thể Hình Bảng Tổng hợp kho ngữ liệu đa ngôn ngữ Tên kho ngữ liệu Số ngôn ngữ Độ lớn liệu Europarl 21 30.32M Wikipedia 21 25.90M OpenSubtitles 62 3.35G TED2013 15 3.81M EUbookshop 48 173.20M Ngồi ra, có số kho ngữ liệu song ngữ với số lượng Hình Các thành phần định chất lượng hệ thống dịch tự động Nguyễn Văn Bình, Huỳnh Cơng Pháp 50 Đối với cặp ngơn ngữ phổ biến tiếng AnhPháp, có cơng trình nghiên cứu chứng minh ảnh hưởng mối quan hệ mật thiết chất lượng khối lượng kho ngữ liệu với chất lượng dịch hệ thống dịch tự động [10] Tuy nhiên, tiếng Việt chưa có số liệu đánh giá chi tiết để thể vai trò kho ngữ liệu mơ hình dịch khác Hiện nay, nghiên cứu liên quan đến toán dịch tự động chủ yếu tập trung hai phương pháp: (1) Phương pháp dịch thống kê; (2) Phương pháp dịch sử dụng mạng nơ ron Các hệ thống dịch tự động sử dụng rộng rãi Google Translation, Bing Translate… sử dụng mơ hình dịch cho kết dịch tốt so với phương pháp dịch trước Về bản, phương pháp dịch sử dụng số lượng lớn liệu cặp câu dịch, từ sử dụng mơ hình học máy để huấn luyện tạo mơ hình dịch phù hợp Các nghiên cứu liên quan đến xây dựng cải tiến hệ thống dịch tự động tiếng Việt có nhiều thực nghiệm liệu khác nhau, với kích thước kho ngữ liệu nhiều mức độ mặt số lượng Chính vậy, khó có nhìn tổng thể vai trị khối lượng kho ngữ liệu vấn đề chất lượng hệ thống dịch tiếng Việt Trong nghiên cứu này, nhóm tác giả thực nghiệm xây dựng hệ thống dịch với kho ngữ liệu có độ lớn khác nhau, sau triển khai đánh giá mơ hình dịch thu liệu đánh giá để xem xét chất lượng mơ hình dịch Nghiên cứu thực cặp ngôn ngữ Anh – Việt, xây dựng máy dịch từ tiếng Anh sang tiếng Việt Quy trình xây dựng hệ thống triển khai đánh giá thể Hình Hình Sơ đồ tổ chức đánh giá Bước 1: Chuẩn bị kho ngữ liệu Để chuẩn bị kho ngữ liệu phục vụ xây dựng hệ thống dịch, sử dụng phương pháp trích rút liệu từ tài liệu song ngữ tin cậy website song ngữ, tài liệu học tập, văn song ngữ số hóa Sau tổng hợp cặp câu song ngữ Anh – Việt, thực bước tiền xử lý văn bản, bao gồm chuyển font chữ định dạng unicode, loại bỏ cặp câu trùng lặp, xử lý ký tự đặc biệt… Kho ngữ liệu thu để sử dụng để huấn luyện kiểm thử: Gồm 500.000 cặp câu song ngữ Anh – Việt tất lĩnh vực Chi tiết liệu thể Bảng Bảng Mô tả liệu dùng cho hệ thống dịch Số lượng cặp câu Độ dài câu Độ dài câu tiếng Anh tiếng Việt Dữ liệu huấn luyện 500.000 22,16 23,48 Dữ liệu đánh giá chất lượng hệ thống dịch 2.000 20,70 22,14 Để huấn luyện hệ thống dịch thống kê, nhóm tác giả sử dụng tỷ lệ liệu cho liệu huấn luyện, liệu điều chỉnh tham số liệu đánh giá tương ứng 70%-10%-20% Ngoài ra, hệ thống dịch thống kê Moses, nghiên cứu sử dụng 2.241.987 câu tiếng Việt thu thập từ trang báo điện tử để làm kho ngữ liệu đơn ngữ phục vụ huấn luyện mơ hình ngôn ngữ tiếng Việt Bước 2: Xây dựng hệ thống dịch huấn luyện mơ hình dịch Nghiên cứu sử dụng hai mã nguồn tiếng liên quan đến phương pháp dịch thống kê phương pháp dịch sử dụng mạng nơ ron Moses OpenNMT - Moses [11] hệ dịch máy thống kê cho phép người dùng dễ dàng tạo mơ hình dịch cho cặp ngôn ngữ Moses cung cấp hai loại mơ hình dịch dựa cụm từ dựa Nó bao gồm đầy đủ thành phần để tiền xử lý liệu, huấn luyện mơ hình ngơn ngữ mơ hình dịch Moses thực chất phiên cao Pharaoh, phần mềm nhiều trường đại học, nhóm nghiên cứu tiếng xử lý ngôn ngữ tự nhiên dịch máy thống kê Edinburgh (Scotland), RWTH Aachen (Germany) [5] tham gia phát triển Đây phần mềm có chất lượng tốt, khả mở rộng cao dùng để xây dựng nhiều hệ thống dịch thử nghiệm cho nhiều cặp ngôn ngữ Anh-Czech, Anh-Trung, Anh-Pháp… Để triển khai hệ thống Moses, nghiên cứu sử dụng SRILM toolkit [18] để xây dựng mơ hình ngơn ngữ, sử dụngGIZA++ [19] để gióng hàng q trình huấn luyện mơ hình dự đốn câu dịch Các cơng cụ mã nguồn mở, tài nguyên, tài liệu, kho ngữ liệu liên quan đến dịch máy thống kê chia sẻ website http://statmt.org - OpenNMT [12] là hệ dịch sử dụng mạng nơ ron mã nguồn mở hoàn thiện, tiếng, cơng bố năm 2017 nhóm Harvard NLP SYSTRAN, cơng cụ nhiều nhóm nghiên cứu sử dụng cộng đồng dịch máy OpenNMT ứng dụng thuật toán dịch tự động tiếp tục nhà nghiên cứu phát triển OpenNMT xây dựng dựa nghiên cứu cải tiến mơ hình NMT truyền thống, cho phép mơ hình dịch tự động quan sát tồn chuỗi đầu vào để khởi tạo từ đầu ra, cho kết tốt dịch câu dài Đồng thời, OpenNMT cho phép tối ưu hóa nhớ, tăng tốc độ tính tốn sử dụng xử lý đồ họa GPU Quá trình cài đặt huấn luyện với mã nguồn này, nghiên cứu sử dụng tham số mặc định khuyến nghị với mục đích nhận quán kết Môi trường cài đặt: - Phần mềm: Hệ điều hành Ubuntu 16.04, 64 bit; - Phần cứng: Intel(R) Xeon(R) CPU E3-1220 v3 @ 3.10GHz, RAM 8Gb, GPU GeForce GTX 750 Ti/PCIe/SSE2 ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 19, NO 1, 2021 Kết bước mơ hình dịch huấn luyện theo hai phương pháp đề xuất Bước 3: Đánh giá chất lượng mô hình dịch nhận Từ mơ hình dịch nhận bước 2, tiến hành đánh giá chất lượng hệ thống dịch cách sử dụng liệu đầu vào tiếng Anh gồm 2.000 câu để nhận dịch tương ứng Bản dịch nhận so sánh với dịch chuẩn thông qua số BLEU Ở đây, BLEU [13] số dùng để đánh giá chất lượng hệ thống dịch, có giá trị từ Chỉ số BLEU cao hệ thống dịch đạt chất lượng tốt Ý tưởng phương pháp so sánh kết dịch tự động máy với dịch chuẩn dùng làm đối chiếu Quá trình so sánh thực thông qua việc thống kê trùng khớp từ hai dịch có tính đến thứ tự chúng câu (phương pháp n-grams theo từ) Sau thực nghiệm liệu cụ thể nêu trên, chất lượng mơ hình dịch nhận Bảng Bảng Chất lượng mơ hình dịch nhận Ngơn ngữ Anh → Việt Anh → Việt Anh → Việt Anh → Việt Anh → Việt Độ lớn kho ngữ Chất lượng (điểm BLEU) liệu (số cặp câu) Moses OpenNMT 100.000 17,2 15,0 200.000 19,5 19,2 300.000 22,1 22,4 400.000 23,1 23,6 500.000 23,7 25,0 Từ bảng trên, nhận biểu đồ thể số liệu tương quan độ lớn kho ngữ liệu điểm chất lượng BLEU Hình Từ kết nhận xét, xây dựng hệ thống dịch với kho ngữ liệu lớn chất lượng dịch tăng Như vậy, rõ ràng chất lượng kho ngữ liệu ảnh hưởng đến chất lượng hệ thống dịch tự động Anh – Việt Quan sát thực tế liệu thấy rằng, số lượng lớn cặp câu song ngữ làm liệu đầu vào để huấn luyện mơ hình dịch ít, kết dịch không đầy đủ nhiều từ không dịch, chất lượng kết dịch giảm lớn, chất lượng dịch tốt Chính vậy, vấn đề nâng cao chất lượng khối lượng kho ngữ liệu tiếng Việt cần quan tâm nghiên cứu nhằm góp phần xây dựng hệ thống dịch mà sản phẩm ứng dụng vào thực tiễn Lời cảm ơn: Nghiên cứu tài trợ Quỹ Phát triển Khoa học Công nghệ - Đại học Đà Nẵng đề tài có mã số B2019-DN07-05 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] Hình So sánh tương quan số lượng kho ngữ liệu chất lượng hệ thống dịch Kết luận Kết thực đánh giá phương pháp chủ quan cho thấy, chất lượng hệ thống dịch tiếng Việt nhiều hạn chế Qua thực nghiệm đánh giá phương pháp dịch thống kê phương pháp dịch sử dụng mạng nơ ron kho ngữ liệu có kích thước khác nhau, thấy khối lượng kho ngữ liệu đóng vai trị quan trọng ảnh hưởng đến chất lượng kết hệ thống dịch tự động tiếng Việt Khối lượng kho ngữ liệu 51 [14] [15] [16] [17] [18] [19] Hutchins, William John and Somers, Harold L, "An introduction to machine translation”, Academic Press London, vol 362, 1992 Haiying Li, Arthur C Graesser and Zhiqiang Cai, “Comparison of Google Translation with Human Translation”, Proceedings of the Twenty - Seventh International Florida Artificial Intelligence Research Society Conference, 2014 Sumant Patil, Patrick Davies, “Use of Google Translate in medical communication: Evaluation of accuracy”, BMJ: British medical journal, December 2014 Đào Hồng Thu, "Xây dựng hệ thống dịch tự động tiếng Việt”, Tạp chí Ngơn ngữ Đời sống, vol 11(157), 2008 Hồ Bảo Quốc, Đinh Điền, Đặng Bác Văn, Lương Vỹ Minh, Phạm Đào Duy Vũ, Báo cáo kỹ thuật Xây dựng kho ngữ liệu song ngữ Anh – Việt, Đề tài nhánh SP.74, Đề tài cấp nhà nước mã số KC.01.01.04/06-10, p 46, 2009 Hệ thống trình diễn số sản phẩm nhánh đề tài "Xử lí văn bản" phần đề tài KC01.01/06-10 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lí tiếng nói văn tiếng Việt" (VLSP), https://vlsp.hpda.vn/demo/ Minh Quang Nguyen, Dang Hung Tran and Thi Anh Le Pham, "Using example-based Machine Translation for English-Vietnamese Translation”, Faculty of IT Hanoi National University of Education Link: http://www.academia.edu/ download/ 20676214/MQEBMT pdf, truy cập ngày 01/06/2020 Luan, Pham Nghia, Vinh, Nguyen Van, and Hoang, Nguyen Huy, "Thích ứng miền dịch máy nơ ron cho cặp ngôn ngữ Anh-Việt”, Kỷ yếu Hội nghị Quốc gia lần thứ XII Nghiên cứu ứng dụng Công Nghệ thông tin (FAIR), 2019 Phuoc, Nguyen Quang and Quan, Yingxiu and Ock, Cheol-Young, "Building a bidirectional English-Vietnamese statistical machine translation system by using MOSES”, International Journal of Computer and Electrical Engineering, IACSIT Press, vol 8(2), 2016, pp 161-168 Boitet C., "Corpus pour la TA: types, tailles, et problèmes associés, selon leur usage et le type de systốme, Revue franỗaise de linguistique appliquée, vol XII–2007, 2007, pp 25-38 Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Federico, M., Bertoldi, N & Dyer, C., "Moses: Open source toolkit for statistical machine translation”, Proceedings of the 45th annual meeting of the association for computational linguistics companion volume proceedings of the demo and poster sessions, 2007, pp 177-180 Guillaume Klein, Yoon Kim, Yuntian Deng, Jean Senellart, Alexander M Rush, "OpenNMT: Open-Source Toolkit for Neural Machine Translation”, arXiv preprint arXiv:1701.02810, 2017 Papineni, Kishore and Roukos, Salim and Ward, Todd and Zhu, WeiJing, "BLEU: a method for automatic evaluation of machine translation”, Proceedings of the 40th annual meeting on association for computational linguistics, 2002, pp 311-318 “Corpus-Based Language Studies”, https://www.lancaster.ac.uk/ fass/projects/corpus/, truy cập tháng 12/2020 “Linguistic Data Consortium”, https://www.ldc.upenn.edu/, truy cập tháng 12/2020 Salim Roukos, David Graff, Dan Melamed, “Hansard French/English”, https://catalog.ldc.upenn.edu/LDC95T20, truy cập tháng 12/2020 “Corpus-Based Language Studies”, http://www.ling.lancs.ac.uk/ corplang/863parallel/, truy cập tháng 12/2020 “SRILM The SRI Language Modeling Toolkit”, http://www.speech.sri.com/projects/srilm/, truy cập tháng 12/2020 “GIZA++: Training of statistical translation models.”, http://www.statmt.org/moses/giza/GIZA++.html, truy cập tháng 12/2020 ... chắn chất lượng dịch hệ thống dịch tự động cải thiện đáng kể Đánh giá vai trò kho ngữ liệu đến chất lượng hệ thống dịch Anh – Việt Đối với toán xây dựng hệ thống dịch tự động nâng cao chất lượng. .. mật thiết chất lượng khối lượng kho ngữ liệu với chất lượng dịch hệ thống dịch tự động [10] Tuy nhiên, tiếng Việt chưa có số liệu đánh giá chi tiết để thể vai trò kho ngữ liệu mơ hình dịch khác... ngữ tiếng Việt với ngôn ngữ khác nghiên cứu xây dựng Kho ngữ liệu tảng để xây dựng, đánh giá cải tiến chất lượng hệ thống dịch tự động Nếu có kho ngữ liệu đa ngữ đủ lớn khối lượng, tốt chất lượng