7. Bố cục của luận án
1.5.3. Huấn luyện hai chiều
Phương pháp này khơng tạo ngữ liệu song ngữ giả một cách rõ ràng như phương pháp BT. Thay vào đĩ, nĩ tận dụng ý tưởng về bộ mã hĩa tự động để tạo ra cặp câu song ngữ giả và tái tạo lại nĩ. Bộ mã hĩa tự động gồm 2 phần mã hĩa và giải mã. Vai trị của phần mã hĩa là trích rút các đặc trưng của đầu vào, và vai trị của phần giải mã là tái tạo lại đầu vào từ các đặc trưng được trích rút bởi phần mã hĩa. Phương pháp được đề xuất bởi Cheng và các cộng sự [19] sử dụng bộ mã hĩa tự động để khai thác kho ngữ liệu đơn ngữ. Ý tưởng như sau: Cĩ hai mơ hình dịch máy, mơ hình thứ nhất với hướng dịch từ phía nguồn sang phía đích gọi là mơ hình nguồn-đích và mơ hình thứ hai với hướng dịch từ phía đích sang phía nguồn gọi là mơ hình đích-nguồn. Cĩ thể xem mơ hình nguồn-đích là phần mã hĩa, mơ hình đích nguồn là phần decoder của một bộ mã hĩa tự động. Một bộ mã hĩa tự động cĩ thể được xây dựng theo hướng ngược lại, trong đĩ mơ hình đích-nguồn được coi là phần mã hĩa và mơ hình nguồn-đích được coi phần giải mã của bộ mã hĩa tự động. Mục tiêu của quá trình huấn luyện là cực đại hĩa khả năng của các mơ hình nguồn-đích và đích-
nguồn trên kho ngữ liệu song ngữ và khả năng tái tạo lại các câu đích trên kho ngữ liệu đơn ngữ.
Hình 1.9 minh họa bộ mã hĩa tự động trên cặp song ngữ Trung-Anh. Các tác giả đã đánh giá phương pháp trên cặp song ngữ Trung-Anh sử dụng mơ hình dịch NMT dựa trên mạng RNN. Dữ liệu huấn luyện gồm 2,56 triệu cặp câu song song, 18,75 triệu câu tiếng Trung và 22,32 triệu câu tiếng Anh.
Hình 1.9. Bộ mã hĩa tự động
Các tác giả phát hiện ra rằng việc sử dụng cả dữ liệu đơn ngữ nguồn và dữ liệu đơn ngữ đích khơng mang lại những cải thiện đáng kể. Sử dụng kho ngữ liệu song ngữ và ngữ liệu đơn ngữ tiếng Anh, các tác giả đã đạt được cải tiến thêm +4,7 BLEU cho hướng dịch Trung-Anh. Kết quả tương tự với việc sử dụng kho ngữ liệu song ngữ và đơn ngữ tiếng Trung cho hướng dịch Anh- Trung. Phương pháp này cũng hoạt động tốt hơn Back-Translation +1,8BLEU cho hướng Trung-Anh và +1.0 BLEU cho hướng Anh-Trung.