CHƯƠNG 1 TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN
1.5. Tăng cường dữ liệu huấn luyện cho hệ thống dịch máy
Chất lượng của các hệ thống học máy phụ thuộc rất nhiều vào dữ liệu huấn luyện. Hệ thống học máy chỉ thực sự có hiệu quả khi có đủ lượng dữ liệu để máy học, không đủ dữ liệu sẽ dẫn tới một số vấn đề:
- Thiếu tính tổng qt: mơ hình rất dễ q khớp, kết quả trên tập huấn luyện cao, kết quả trên tập kiểm thử thấp.
- Khó huấn luyện mơ hình: khơng đủ dữ liệu mơ hình rất khó hội tụ về giá trị tối ưu.
- Chất lượng dự đốn sẽ khơng ổn định: Một số trường hợp kết quả sai khác rất nhiều và khi có nhiễu đầu vào sẽ ảnh hưởng lớn tới chất lượng dự đoán.
Một trong những kỹ thuật để giải quyết vấn đề khơng đủ dữ liệu đó là
tăng cường dữ liệu là kỹ thuật tăng số lượng dữ liệu huấn luyện bằng các phép
huấn luyện đã được quan tâm và áp dụng trong nhiều mơ hình học máy khác nhau. Trong học máy cho nhận dạng hình ảnh, các kỹ thuật tăng cường ảnh giúp mở rộng kích thước của tập dữ liệu huấn luyện thơng qua việc áp dụng một loạt thay đổi ngẫu nhiên trên các mẫu ảnh, từ đó tạo ra các mẫu huấn luyện
tuy tương tự nhưng vẫn có sự khác biệt. Việc thay đổi ngẫu nhiên các mẫu dùng
cho huấn luyện sẽ làm giảm sự phụ thuộc của mơ hình vào một số thuộc tính nhất định. Do đó, giúp cải thiện năng lực khái qt hóa của mơ hình. Chẳng hạn, có thể cắt tập ảnh theo các cách khác nhau, để các đối tượng ta quan tâm xuất hiện ở các vị trí khác nhau, vì vậy giảm sự phụ thuộc của mơ hình vào vị trí xuất hiện của đối tượng. Hoặc cũng thể điều chỉnh độ sáng, màu sắc, và các yếu tố khác để giảm độ nhạy màu sắc của mơ hình [116].
Đối với dịch máy, việc tăng chất lượng dữ liệu huấn luyện song ngữ phục vụ huấn luyện mơ hình đã và đang được quan tâm nghiên cứu nhằm mang lại những hệ thống dịch máy tốt hơn bên cạnh việc nghiên cứu cải tiến và áp dụng mơ hình mới. Ý tưởng chính của tăng cường dữ liệu cho hệ thống dịch máy là khai thác sức mạnh của dữ liệu đơn ngữ, thường là dễ kiếm hơn và số lượng lớn hơn đáng kể so với dữ liệu song ngữ để làm giàu kho ngữ liệu song ngữ. Các phương pháp làm giàu dữ liệu song ngữ có thể phân thành hai nhóm lớn:
các phương pháp độc lập với kiến trúc là nhóm các phương pháp có thể được
sử dụng với mơ hình dịch bất kỳ để cải thiện chất lượng dịch, mơ hình dịch được coi là một hộp đen; và các phương pháp phụ thuộc vào kiến trúc là nhóm các phương pháp yêu cầu những thay đổi trong mơ hình ngơn ngữ cụ thể và có thể hoặc không thể được điều chỉnh cho phù hợp với các mơ hình dịch khác
nhau [41].
Trong luận án này NCS tập trung vào nghiên cứu các phương pháp tăng cường dữ liệu độc lập với kiến trúc theo hướng tiếp cận là tạo kho ngữ liệu song ngữ giả lập/tổng hợp bằng cách sử dụng ngữ liệu đơn ngữ. Ý tưởng chính của các hướng tiệp cận này là sinh ngữ liệu song ngữ giả lập bằng cách sử dụng dữ liệu đơn ngữ. Sau đó, các ngữ liệu song ngữ giả lập sẽ được kết hợp với ngữ liệu song ngữ thật để huấn luyện mơ hình dịch máy và khơng có sự phân biệt giữa chúng trong q trình huấn luyện. Có thể sinh câu phía nguồn hoặc câu phía đích từ các câu đơn ngữ phía tương ứng. Lợi ích của ngữ liệu song ngữ giả
lập là mơ hình dịch máy sẽ học tốt hơn cấu trúc của ngơn ngữ đích hoặc ngơn ngữ nguồn, tùy thuộc vào dữ liệu đơn ngữ ở phía tương ứng. Hạn chế là các câu chất lượng thấp được tạo có thể làm suy giảm cấu trúc đã học của phía tương ứng, vì vậy trong một số trường hợp, cần phải giới hạn ngữ liệu song ngữ giả lập dùng cho huấn luyện. Phần sau sẽ trình bày một số phương pháp tạo ngữ liệu song ngữ giả lập tăng cường dữ liệu huấn luyện cho mơ hình dịch máy.
1.5.1. Dịch ngược
Dịch ngược (BT- Back Translation) là phương pháp tạo ngữ liệu song ngữ giả lập do Sennrich [104] đề xuất với ý tưởng huấn luyện một mơ hình dịch máy đảo ngược bổ sung sử dụng kho ngữ liệu song song có sẵn theo hướng từ đích đến nguồn, tức là phía đích và phía nguồn đối nghịch với mơ hình dịch chính. Hướng ngược lại này rất quan trọng vì phía đích vẫn ngun vẹn. Sau đó, sử dụng mơ hình đảo ngược đã được huấn luyện để dịch các câu đơn ngữ của phía đích sang ngơn ngữ nguồn, các cặp câu nhận được này tạo thành một kho ngữ liệu song ngữ giả mới. Kho ngữ liệu song ngữ thật và kho dữ liệu song ngữ giả lập được trộn lẫn và mơ hình dịch chính được huấn luyện trên kho ngữ liệu song song kết hợp. Phương pháp này được đánh giá trên tập ngôn ngữ
nghèo tài nguyên Anh-Thổ Nhĩ Kỳ sử dụng mơ hình dịch máy bằng mạng nơ-
ron dựa trên RNN. Dữ liệu huấn luyện mơ hình gồm 300 nghìn cặp câu song ngữ và 3,2 triệu cặp câu song ngữ giả lập, được dịch ngược từ các câu đơn ngữ. Việc bổ sung dữ liệu huấn luyện giả lập dẫn đến điểm BLEU của mơ hình dịch tăng trung bình là 2,7.
Các nghiên cứu gần đây đã chứng minh việc sử dụng BT có tác động tốt hơn đến hiệu suất của các mơ hình dịch máy NMT. Đặc biệt trong trường hợp dữ liệu song ngữ hạn chế, BT được sử dụng rộng rãi để tận dụng dữ liệu đơn ngữ làm giàu dữ liệu huấn luyện.
1.5.2. Sao chép dữ liệu đơn ngữ
Phương pháp này tạo kho ngữ liệu song ngữ giả lập một cách rõ ràng, nhưng khác với Dịch ngược, khơng có mơ hình dịch bổ sung nào được sử dụng. Phương pháp được Currey và cộng sự [28] đề xuất chuyển đổi dữ liệu đơn ngữ phía đích sang kho ngữ liệu song ngữ giả lập bằng cách sao chép các câu của
phía đích sang phía nguồn. Để biểu diễn các từ nguồn và từ đích trong cùng một từ điển, họ sử dụng mã hóa cặp byte. Ngữ liệu song ngữ thật được trộn với ngữ liệu song ngữ giả lập và khơng có sự phân biệt giữa chúng trong q trình huấn luyện. Các tác giả coi phương pháp này như một hệ thống đa nhiệm trong đó một mơ hình NMT kết hợp nhiều hướng dịch. Phương pháp này kết hợp hai hướng dịch Anh-Anh và Thổ Nhĩ Kỳ-Anh để cải thiện chất lượng dịch từ tiếng Thổ Nhĩ Kỳ sang tiếng Anh. Các đánh giá thử nghiệm được thực hiện trên cặp ngôn ngữ
Anh-Thổ Nhĩ Kỳ và mơ hình dịch dựa trên RNN. Dữ liệu huấn luyện bao gồm
207 nghìn cặp câu song ngữ, 414 nghìn câu tiếng Anh và 414 nghìn câu tiếng Thổ Nhĩ Kỳ. Phương pháp đã cải thiện được 1,2 điểm BLEU so với mơ hình cơ bản. Việc tăng tỷ lệ câu đơn ngữ được sao chép sang ngữ liệu song ngữ có thể làm tăng điểm BLEU: với tỉ lệ 3:1 sẽ làm tăng 0,8 điểm BLEU so với tỉ lệ 1:1 cho cặp Anh-Thổ Nhĩ Kỳ. Tuy nhiên, cần có các thử nghiệm bổ sung với tỷ lệ câu đơn ngữ được sao chép sang song ngữ tăng lên, vì mơ hình có thể sẽ giảm chất lượng với tỷ lệ cao hơn.
1.5.3. Huấn luyện hai chiều
Phương pháp này không tạo ngữ liệu song ngữ giả một cách rõ ràng như phương pháp BT. Thay vào đó, nó tận dụng ý tưởng về bộ mã hóa tự động để tạo ra cặp câu song ngữ giả và tái tạo lại nó. Bộ mã hóa tự động gồm 2 phần mã hóa và giải mã. Vai trị của phần mã hóa là trích rút các đặc trưng của đầu vào, và vai trò của phần giải mã là tái tạo lại đầu vào từ các đặc trưng được trích rút bởi phần mã hóa. Phương pháp được đề xuất bởi Cheng và các cộng sự [19] sử dụng bộ mã hóa tự động để khai thác kho ngữ liệu đơn ngữ. Ý tưởng như sau: Có hai mơ hình dịch máy, mơ hình thứ nhất với hướng dịch từ phía nguồn sang phía đích gọi là mơ hình nguồn-đích và mơ hình thứ hai với hướng dịch từ phía đích sang phía nguồn gọi là mơ hình đích-nguồn. Có thể xem mơ hình nguồn-đích là phần mã hóa, mơ hình đích nguồn là phần decoder của một bộ mã hóa tự động. Một bộ mã hóa tự động có thể được xây dựng theo hướng ngược lại, trong đó mơ hình đích-nguồn được coi là phần mã hóa và mơ hình nguồn-đích được coi phần giải mã của bộ mã hóa tự động. Mục tiêu của quá trình huấn luyện là cực đại hóa khả năng của các mơ hình nguồn-đích và đích-
nguồn trên kho ngữ liệu song ngữ và khả năng tái tạo lại các câu đích trên kho ngữ liệu đơn ngữ.
Hình 1.9 minh họa bộ mã hóa tự động trên cặp song ngữ Trung-Anh. Các
tác giả đã đánh giá phương pháp trên cặp song ngữ Trung-Anh sử dụng mơ hình dịch NMT dựa trên mạng RNN. Dữ liệu huấn luyện gồm 2,56 triệu cặp câu song song, 18,75 triệu câu tiếng Trung và 22,32 triệu câu tiếng Anh.
Hình 1.9. Bộ mã hóa tự động
Các tác giả phát hiện ra rằng việc sử dụng cả dữ liệu đơn ngữ nguồn và dữ liệu đơn ngữ đích khơng mang lại những cải thiện đáng kể. Sử dụng kho ngữ liệu song ngữ và ngữ liệu đơn ngữ tiếng Anh, các tác giả đã đạt được cải tiến thêm +4,7 BLEU cho hướng dịch Trung-Anh. Kết quả tương tự với việc sử dụng kho ngữ liệu song ngữ và đơn ngữ tiếng Trung cho hướng dịch Anh- Trung. Phương pháp này cũng hoạt động tốt hơn Back-Translation +1,8BLEU
cho hướng Trung-Anh và +1.0 BLEU cho hướng Anh-Trung.
1.5.4. Tự huấn luyện đảo chiều
Ý tưởng làm giàu ngữ liệu huấn luyện bằng đơn ngữ tương tự như dịch ngược được giới thiệu trong bài [10], các tác giả sử dụng kỹ thuật được gọi là tự huấn luyện đảo chiều. Trong kỹ thuật này, các tác giả sử dụng ngữ liệu song ngữ để huấn luyện mơ hình dịch đích-nguồn, sau đó sử dụng mơ hình này để dịch một số lượng lớn dữ liệu đơn ngữ đích sang dữ liệu nguồn, cặp câu đích -
nguồn này được coi là ngữ liệu song ngữ dùng để huấn luyện mơ hình dịch mới (mơ hình “giả lập”). Đồng thời, các tác giả cũng sử dụng ngữ liệu song ngữ ban đầu để huấn luyện mơ hình dịch “thật”. Mơ hình dịch “thật” và mơ hình “giả lập” được kết hợp với nhau một cách cân bằng bằng phương pháp MERT [84] để được mơ hình dịch tốt hơn.