Kỹ thuật dịch ngược làm giàu ngữ liệu song ngữ- 123docz.net

CHƯƠNG 1 TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN

2.2. Kỹ thuật dịch ngược làm giàu ngữ liệu song ngữ

Dịch ngược là một phương pháp làm giàu ngữ liệu song ngữ được sử dụng rộng rãi với nhiều phương pháp sinh dữ liệu song ngữ giả lập khác nhau. Ý tưởng chính của dịch ngược là: các câu đơn ngữ của phía đích được dịch sang câu đơn ngữ phía nguồn, các cặp câu nhận được này tạo thành kho ngữ liệu song ngữ giả lập. Dịch ngược được Sennrich và các cộng sự [103] sử dụng lần đầu tiên vào năm 2016 cho NMT và đã cho thấy hiệu quả đáng kể trong việc cải thiện hiệu suất dịch thuật. Trong cơng trình của mình, họ đã sử dụng 4,4 triệu cặp câu dữ liệu song ngữ được chuyên gia xác thực để huấn luyện hệ thống

NMT từ tiếng Anh sang tiếng Đức, sử dụng mơ hình này để dịch 3,6 triệu câu

tiếng Đức và 4,2 triệu câu phía đích tiếng Anh. Dữ liệu này được trộn với dữ liệu ban đầu để tạo kho ngữ liệu song ngữ dùng để đào tạo các mơ hình mới. Do những kết quả tốt đã thu được, việc dịch ngược đã trở thành phương pháp phổ biến được sử dụng để tăng cường dữ liệu huấn luyện cho các mơ hình dịch máy, đặc biệt trong trường hợp dữ liệu song ngữ hạn chế, kỹ thuật dịch ngược BT được áp dụng để tận dụng dữ liệu đơn ngữ làm giàu dữ liệu huấn luyện cho các mơ hình dịch máy.

Gần đây nhiều nghiên cứu cũng đã chứng minh việc sử dụng kỹ thuật dịch ngược có tác động tốt hơn đến hiệu suất NMT. Năm 2017, Park và cộng sự [92] đã xây dựng mơ hình NMT chỉ sử dụng dữ liệu song ngữ giả lập từ cả ngơn ngữ nguồn và ngơn ngữ đích. Trong nghiên cứu của mình, họ huấn luyện các mơ hình NMT với kho ngữ liệu song ngữ bao gồm: (i) dữ liệu giả lập chỉ ở phía nguồn; (ii) dữ liệu giả lập chỉ ở phía đích; và (iii) phối hợp các câu song ngữ mà cả phía nguồn và phía đích là dữ liệu giả lập. Năm 2018, Edunov và các cộng sự [36] đã nghiên cứu một số phương pháp để tạo ra các câu nguồn

giả lập và các ảnh hưởng tương ứng của chúng trong NMT. Thử nghiệm của họ đã đạt được 35 điểm BLEU trên bộ dữ liệu WMT’14 English-German. Poncelas và các cộng sự [97] đã xây dựng lộ trình thực nghiệm để đánh giá ảnh hưởng của việc tăng cường dữ liệu BT đến hiệu suất của hệ thống cuối cùng. Họ tiếp tục áp dụng kỹ thuật này cho SMT, NMT và phối hợp cả hai. Kết quả cho thấy, các mơ hình đạt được hiệu suất tốt nhất khi tập dữ liệu huấn luyện được tăng cường với dữ liệu dịch ngược được tạo ra bằng cách kết hợp các phương pháp tiếp cận MT khác nhau [96]. Nghiên cứu của Cong Duy Vu Hoang và các cộng sự [45] chỉ ra rằng việc huấn luyện BT lặp lại nhiều lần có thể mang lại hiệu quả cho hệ thống dịch máy. Nghiên cứu này cũng chỉ ra rằng chất lượng của hệ thống dịch máy được sử dụng trong q trình BT có ý nghĩa quan trọng trong việc nâng cao chất lượng bộ dữ liệu huấn luyện áp dụng cho cả cặp ngôn ngữ giàu cũng như nghèo tài nguyên, từ đó nâng cao chất lượng hệ thống dịch máy.

Mặc dù BT rất hữu ích, nghiên cứu của Stahlberg [110] và một số tác giả khác cũng cho thấy hiệu suất sẽ giảm sau khi kích thước của dữ liệu BT đạt đến giới hạn nhất định. Có thể nói, ngồi tăng số lượng thì chất lượng các cặp song ngữ được bổ sung từ BT cũng đóng vai trị quan trọng. Trong [103], các tác giả đã phân tích sự phụ thuộc giữa chất lượng của mơ hình dịch và chất lượng của các câu dịch ngược, họ phát hiện ra rằng: việc tăng 6 điểm BLEU của các câu dịch ngược sẽ làm tăng 0,6 điểm BLEU của mơ hình dịch.

Kỹ thuật dịch ngược được nghiên cứu và thử nghiệm trên rất nhiều cặp ngôn ngữ khác nhau, trong đó việc sinh ra dữ liệu giả lập để làm giàu dữ liệu huấn luyện được thực hiện bằng các cách khác nhau:

- Sử dụng các phương pháp khác nhau trong quá trình giải mã (decode)

dữ liệu (beam search, TopK probability search, Sampling probability search...)

- Lựa chọn dữ liệu đơn ngữ để đưa vào huấn luyện BT: theo chủ đề, theo

độ dài câu, theo số lượng từ hiếm trong dữ liệu huấn luyện, lựa chọn ngẫu nhiên theo một phép phân tích và ước lượng ...

- Dữ liệu giả lập được sinh ra trên các mơ hình dịch khác nhau để thu được dữ liệu phong phú và đa dạng cũng như tận dụng được thế mạnh của các mơ hình dịch khác.

- Cách lựa chọn ngữ liệu giả lập để đưa vào dữ liệu huấn luyện song ngữ

nhằm làm giàu dữ liệu huấn luyện để từ đó nâng cao chất lượng hệ thống dịch

máy: Đưa toàn bộ ngữ liệu giả lập được sinh ra, lựa chọn theo độ dài câu....

Mơ hình hệ thống dịch máy thống kê sử dụng kỹ thuật dịch ngược tăng cường dữ liệu huấn luyện được trình bày trong Hình 2.1.

Các bước chính trong một hệ thống dịch máy thống kê có sử dụng dịch ngược tăng cường dữ liệu như sau: sử dụng mơ hình dịch đã được huấn luyện để dịch các câu đơn ngữ của phía đích sang ngơn ngữ nguồn, các cặp câu nhận được này tạo thành một kho ngữ liệu song ngữ giả lập. Kho ngữ liệu song ngữ thật và kho dữ liệu song ngữ giả lập được trộn lẫn và mơ hình dịch chính được huấn luyện trên kho ngữ liệu song song và khơng có sự phân biệt giữa chúng trong q trình huấn luyện. Ngồi ra do việc bổ sung toàn kho ngữ liệu song ngữ giả lập đã sinh có thể làm cho hệ thống dịch kém đi, do đó cần có bước lựa chọn ra những câu “tốt” để bổ sung làm giàu dữ liệu huấn luyện song ngữ.

Hình 2.1. Dịch ngược sử dụng ngôn ngữ trung gian để huấn luyện mơ hình SMT

Kỹ thuật dịch ngược làm giàu ngữ liệu song ngữ

Bộ mã hóa tự động

Gióng hàng từ trong dịch máy thống kê