Bài viết đề xuất một phương pháp thích ứng miền mới cho dịch máy nơ ron, áp dụng cho cặp ngôn ngữ Anh - Việt. Ý tưởng chính của bài báo là kết hợp dữ liệu đơn ngữ ngoài miền ở ngôn ngữ nguồn (tiếng Anh) với bản dịch của nó ở ngôn ngữ đích (tiếng Việt) để làm dữ liệu huấn luyện hệ dịch.
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII Nghiên cứu ứng dụng Công nghệ thơng tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00056 THÍCH ỨNG MIỀN TRONG DỊCH MÁY NƠ RON CHO CẶP NGÔN NGỮ ANH - VIỆT Phạm Nghĩa Luân1, Nguyễn Văn Vinh2, Nguyễn Huy Hồng3 Trường Đại học Hải Phịng Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Học viện Quản lý giáo dục luanpn@dhhp.edu.vn, vinhnv@vnu.edu.vn, huyhoangpvn@gmail.com TÓM TẮT: Dịch máy hướng nghiên cứu quan trọng xử lý ngôn ngữ tự nhiên Trong năm gần đây, dịch máy nơ ron nghiên cứu phổ biến cộng đồng dịch máy cho chất lượng dịch tốt so với phương pháp dịch máy thống kê truyền thống Tuy nhiên, dịch máy nơ ron lại cần lượng lớn liệu song ngữ để huấn luyện Hệ dịch cho chất lượng dịch tốt thử nghiệm miền với miền liệu mà huấn luyện, ngược lại chất lượng dịch bị sụt giảm, mức độ sụt giảm phụ thuộc vào mức độ khác biệt liệu miền huấn luyện liệu miền thử nghiệm Hiện nay, kĩ thuật thích ứng miền cho dịch máy nơ ron công bố chủ yếu thực số cặp ngôn ngữ phổ biến giàu tài nguyên, chưa có nhiều nghiên cứu cơng bố thích ứng miền dịch máy nơ ron cho cặp ngôn ngữ Anh - Việt Trong báo này, đề xuất phương pháp thích ứng miền cho dịch máy nơ ron, áp dụng cho cặp ngôn ngữ Anh Việt Ý tưởng báo kết hợp liệu đơn ngữ ngồi miền ngơn ngữ nguồn (tiếng Anh) với dịch ngơn ngữ đích (tiếng Việt) để làm liệu huấn luyện hệ dịch Các thực nghiệm chứng minh phương pháp đề xuất dễ thực hiện, khai thác ưu điểm liệu đơn ngữ ln có sẵn, chi phí xây dựng thấp đặc biệt chất lượng hệ dịch tăng 2,21 điểm BLEU thử nghiệm chúng tơi Từ khóa: Thích ứng miền, dịch máy nơ ron, dịch máy I GIỚI THIỆU Mục tiêu dịch máy nghiên cứu phương pháp, kĩ thuật để xây dựng hệ thống dịch tự động câu từ ngôn ngữ tự nhiên sang ngôn ngữ khác, hướng nghiên cứu quan trọng trí tuệ nhân tạo, đặc biệt xử lý ngôn ngữ tự nhiên Dịch máy nhánh nhỏ xử lý ngơn ngữ tự nhiên, xử lý ngơn ngữ tự nhiên lĩnh vực liên ngành khoa học máy tính ngơn ngữ học, đặc điểm nên nghiên cứu dịch máy chia thành hai nhóm phương pháp phương pháp dựa luật phương pháp dựa ngữ liệu Trong số đó, phương pháp dựa ngữ liệu chia thành phương pháp dựa thống kê phương pháp dựa ví dụ Trong năm gần đây, với phát triển internet, dịch máy đạt kết tốt học thuật công nghiệp Gần đây, nghiên cứu dịch máy dịch chuyển dần từ phương pháp dịch thống kê (Statistical Machine Translation) sang dịch máy nơ ron (Neural Machine Translation), coi hệ dịch cho chất lượng dịch vượt trội so với phương pháp truyền thống trước Tuy nhiên, hệ dịch nơ ron lại yêu cầu nhiều liệu song ngữ để huấn luyện hệ dịch, điều ảnh hưởng tới chất lượng dịch hệ dịch dành cho cặp ngôn ngữ phổ biến giàu tài nguyên lại thách thức lớn cặp ngơn ngữ có tài ngun Thơng thường, hệ dịch huấn luyện lượng lớn liệu song ngữ liệu đơn ngữ ngơn ngữ đích dịch máy thống kê liệu song ngữ dịch máy nơ ron, thân liệu huấn luyện bao gồm chủ đề đồng không đồng thường chủ đề có tập từ thuật ngữ riêng biệt Chất lượng dịch phụ thuộc lớn vào liệu huấn luyện, miền liệu huấn luyện miền thử nghiệm giống có tương đồng lớn chất lượng dịch thu tốt so với việc miền liệu dùng để huấn luyện miền thử nghiệm đặc biệt khác có tương đồng Ví dụ, hệ dịch huấn luyện với liệu thuộc miền tin tức dịch văn thuộc miền tin tức cho chất lượng dịch tốt, đem hệ dịch để dịch văn thuộc miền khác với miền tin tức miền y tế, tin học, luật, v.v chất lượng dịch bị giảm đột ngột, mức độ giảm tùy thuộc vào mức độ tương đồng miền liệu dùng để huấn luyện hệ dịch so với miền liệu dùng để thử nghiệm Các miền liệu song ngữ thực tế thường bị giới hạn số lượng, đặc biệt cặp ngơn ngữ phổ biến ngôn ngữ Anh - Việt, miền liệu đặc thù Để đạt chất lượng dịch tốt liệu huấn luyện phải thuộc miền, thể loại phong cách với miền mà hệ dịch áp dụng thực tế để có lượng liệu huấn luyện đủ lớn miền mà thỏa mãn đặc điểm khó, cần phải trả chi phí lớn để xây dựng liệu huấn luyện Vì vậy, báo chúng tơi trình bày phương pháp thích ứng miền cho dịch máy nơ ron, áp dụng cho cặp ngôn ngữ Anh - Việt với chiều dịch từ tiếng Anh sang tiếng Việt Các thử nghiệm tiến hành hai miền liệu miền tổng quan miền pháp lý, chất lượng dịch miền tổng quan làm sở để so sánh, đánh giá chất lượng hệ dịch áp dụng miền pháp lý đánh giá hiệu phương pháp đề xuất Qua thử nghiệm cho thấy, phương pháp Phạm Nghĩa Luân, Nguyễn Văn Vinh 437 dễ thực hiện, tận dụng lượng lớn liệu đơn ngữ có sẵn với chi phí thấp khả quan cải tiến chất lượng dịch tăng 2,21 điểm BLEU [6] (từ 22,17 điểm lên 24,38 điểm) Bài báo trình bày cấu trúc sau: Tiếp theo, phần giới thiệu nghiên cứu trước có liên quan; phần trình bày tổng quan phương pháp chúng tơi đề xuất; phần trình bày thử nghiệm kết quả; phần kết luận hướng phát triển; cuối phần số tài liệu tham khảo II CÁC NGHIÊN CỨU LIÊN QUAN Những năm gần đây, thích ứng miền chủ đề giành nhiều quan tâm nhà khoa học giới Hiện nay, có nhiều phương pháp đề xuất để thích ứng cho dịch máy thống kê dịch máy nơ ron, đề xuất chủ yếu áp dụng cho số cặp ngôn ngữ phổ biến giới Anh Pháp, Anh - Nhật, Anh - Tây Ban Nha, Các phương pháp đề xuất công bố thuộc ba hướng chính, là: (1) bổ sung thêm nhiều liệu hơn; (2) kĩ thuật để có liệu chất lượng (3) kĩ thuật để có mơ hình chất lượng Với hướng tiếp cận (1) (2), có nhiều cơng bố đề xuất sử dụng liệu đơn ngữ để cải tiến chất lượng hệ dịch dịch miền mới, đề xuất chủ yếu chứng minh thực nghiệm dịch máy thống kê, chưa có nhiều đề xuất dịch máy nơ ron Trong [2], kỹ thuật thích ứng miền đề xuất để áp dụng cho dịch máy thống kê dựa vào cụm từ nhiệm vụ Europarl1 [3], để dịch bình luận tin tức từ tiếng Pháp sang tiếng Anh Cụ thể, phần nhỏ liệu song ngữ miền khai thác để thích ứng mơ hình ngơn ngữ mơ hình dịch kỹ thuật nội suy tuyến tính Việc thích ứng mơ hình dịch, mơ hình đảo trật tự từ thực qua việc sinh thêm liệu song ngữ từ liệu đơn ngữ Công bố [9] đề xuất số phương pháp thích ứng phức tạp dựa việc bổ sung thêm liệu song ngữ tổng hợp từ tập liệu dùng để tối ưu tham số thử nghiệm Ngoài ra, [10], đề xuất phương pháp nhằm khai thác nguồn tài nguyên liệu đơn ngữ miền cách tổng hợp liệu song ngữ từ việc dịch liệu đơn ngữ miền sang ngơn ngữ đích Phương pháp chủ yếu liên quan đến kĩ thuật đề xuất [2] khác liệu dùng để thích ứng miền, cụ thể [10] sử dụng liệu đơn ngữ miền Các đề xuất công bố cho dịch máy thống kê Tuy nhiên, năm 2016 có cơng bố [11] đề xuất thích ứng miền cho dịch máy nơ ron dựa vào sinh liệu song ngữ cho hệ dịch việc dịch ngược liệu đơn ngữ miền đích Trong báo này, phương pháp chúng tơi đề xuất có phần giống với phương pháp [9] chúng tơi có sử dụng thêm tập liệu miền pháp lý để tối ưu tham số hệ dịch sở theo định hướng miền đích, liên quan nhiều đến phương pháp đề xuất [10] [11] Nhìn chung, phương pháp thích ứng miền nói chung cho dịch máy công bố phức tạp, thử nghiệm công phu sử dụng nhiều mơ hình tốn học Tuy nhiên, thử nghiệm áp dụng cho số cặp ngôn ngữ phổ biến Anh - Pháp, Anh - Nhật, Anh - Tây Ban Nha, Hiện chưa có cơng bố áp dụng cho cặp ngôn ngữ Anh - Việt III PHƯƠNG PHÁP ĐỀ XUẤT A Tổng quan dịch máy nơ ron Đối với phương pháp dịch máy truyền thống dịch máy thống kê dựa vào cụm hệ dịch thực phân tách câu nguồn thành nhiều từ cụm từ riêng biệt, sau dịch từ cụm từ xếp lại trật tự từ theo trật tự ngơn ngữ đích Vì thế, nên dịch không trôi chảy cách dịch không giống cách người dịch, để dịch, đọc trọn vẹn câu nguồn, hiểu ý nghĩa tiến hành dịch câu sang ngơn ngữ đích Dịch máy nơ ron thực dịch tương tự cách người Hình Kiến trúc Encoder - Decoder Cụ thể, hệ dịch nơ ron sử dụng mã hóa (Encoder) để đọc tồn câu nguồn mã hóa dạng vectơ biểu diễn ý nghĩa Sau đó, giải mã (Decoder) đọc giải mã vec tơ biểu diễn câu nguồn để sinh dịch tương ứng sang ngơn ngữ đích, q trình mã hóa - giải mã minh họa hình hình [5] Theo cách dịch này, hệ dịch nơ ron giải vấn đề dịch cục phương pháp dịch dựa vào cụm truyền http://www.statmt.org/europarl/ THÍCH ỨNG MIỀN TRONG DỊCH MÁY NƠ RON CHO CẶP NGÔN NGỮ ANH - VIỆT 438 thống, là: nắm bắt phụ thuộc xa ngôn ngữ tạo dịch trôi chảy nhiều so với hệ dịch thống kê dựa vào cụm truyền thống Bộ mã hóa - Bộ mã hóa đọc câu nguồn X = (x1, x2, …,xT) chuyển đổi thành chuỗi trạng thái ẩn h = (h1, h2,…,hT) sử dụng mạng nơ ron hồi quy hai chiều (bi-directional RNN) Tại thời điểm t, trạng thái ẩn ht xác định kết hợp trạng thái ẩn mạng nơ ron hồi quy theo chiều xuôi (forward RNN) theo chiều ngược (backward RNN) với điều kiện Bộ giải mã - Bộ giải mã sử dụng mạng nơ ron hồi quy khác để sinh dịch Y = (y1, y2, …,yT’) dựa trạng thái ẩn h sinh mã hóa Tại thời điểm i, xác suất có điều kiện từ y tập từ vựng Vy ngôn ngữ đích tính cơng thức: i P(yi|y