Xuất áp dụng kỹ thuật dịch ngược sử dụng ngơn ngữ trung gian

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. (Trang 58 - 59)

7. Bố cục của luận án

2.3.2. xuất áp dụng kỹ thuật dịch ngược sử dụng ngơn ngữ trung gian

Đức

Kỹ thuật dịch ngược được sử dụng để làm giàu kho ngữ liệu song ngữ với nhiều phương pháp sinh dữ liệu giả lập khác nhau. Luận án đề xuất lựa chọn phương pháp sinh dữ liệu song ngữ Việt- Anh giả lập bằng kỹ thuật dịch ngược sử dụng ngơn ngữ trung gian là tiếng Đức.

Ý tưởng chính của kỹ thuật dịch ngược sử dụng ngơn ngữ trung gian như sau: Câu đơn ngữ phía đích ban đầu được dịch sang câu đơn ngữ trong một ngơn ngữ trung gian và lại được dịch về câu đơn ngữ phía đích ban đầu. Do sự phong phú của ngơn ngữ, cũng như khả năng của các hệ thống dịch máy, câu

thu được sau khi dịch ngược thường khác (về mặt hình thức) so với câu ban đầu. Câu thu được này được kết hợp với câu đơn ngữ phía nguồn tương ứng với câu đơn ngữ phía đích ban đầu trong ngữ liệu song ngữ tạo thành cặp song ngữ giả lập.

Kỹ thuật dịch ngược sử dụng ngơn ngữ trung gian cho áp dụng cho mơ hình dịch Việt Anh sẽ được thực hiện như sau: Đầu tiên, câu tiếng Anh được dịch sang một câu ngơn ngữ trung gian và sau đĩ, câu thu được lại được dịch ngược lại tiếng Anh để sinh ra câu tiếng Anh mới. Ngơn ngữ trung gian được lựa chọn cần cĩ kho dữ liệu song ngữ (giữa ngơn ngữ đĩ và tiếng Anh) lớn để giúp cho mơ hình dịch giữa tiếng Anh và ngơn ngữ trung gian cĩ chất lượng tốt. Việc lựa chọn tiếng Đức làm ngơn ngữ trung gian dựa trên hai lý do chính: - Cặp ngơn ngữ Anh-Đức là cặp ngơn ngữ giàu tài nguyên. Các kho ngữ liệu song ngữ Anh-Đức cơng khai cĩ kích thước lớn, ví dụ trong kho ngữ liệu song ngữ ParaCrawl [5] là kho ngữ liệu song ngữ cơng khai lớn nhất được thu thâp từ các trang web sử dụng phần mềm mã nguồn mở, cặp ngơn ngữ Anh-

Đức cĩ 36.936.714 cặp câu.

- Cĩ các mơ hình dịch cặp ngơn ngữ Anh-Đức và Đức-Anh huấn luyện sẵn cho kết quả cao. Trong [81] nhĩm nghiên cứu của Nathan Ng và các cộng

sự đến từ Facebook AI Research đã cơng bố các mơ hình dịch Anh-Đức được huấn luyện sẵn với 42,7 BLEU, mơ hình dịch Đức-Anh với 40,8 BLEU

Hình 2.3 minh họa kỹ thuật dịch ngược sử dụng ngơn ngữ trung gian là tiếng Đức được nghiên cứu sinh đề xuất. Kỹ thuật này gồm hai bước:

-Bước 1: Sử dụng mơ hình dịch Anh-Đức được huấn luyện trước để dịch câu tiếng Anh sang câu tiếng Đức.

-Bước 2:Câu tiếng Đức thu được ở bước 1 lại được dịch sang câu tiếng Anh mới sử dụng mơ hình dịch Đức-Anh được huấn luyện trước.

Hình 2.3. Kỹ thuật BT với ngơn ngữ trung gian tiếng Đức

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. (Trang 58 - 59)

Tải bản đầy đủ (PDF)

(127 trang)