1 4 Phương pháp tự động
15 Tăng cường dữ liệu huấn luyện cho hệ thống dịch máy
Chất lượng của các hệ thống học máy phụ thuộc rất nhiều vào dữ liệu huấn luyện Hệ thống học máy chỉ thực sự cĩ hiệu quả khi cĩ đủ lượng dữ liệu để máy học, khơng đủ dữ liệu sẽ dẫn tới một số vấn đề:
- Thiếu tính tổng qt: mơ hình rất dễ q khớp, kết quả trên tập huấn luyện cao, kết quả trên tập kiểm thử thấp
- Khĩ huấn luyện mơ hình: khơng đủ dữ liệu mơ hình rất khĩ hội tụ về giá trị tối ưu
- Chất lượng dự đốn sẽ khơng ổn định: Một số trường hợp kết quả sai khác rất nhiều và khi cĩ nhiễu đầu vào sẽ ảnh hưởng lớn tới chất lượng dự đốn
Một trong những kỹ thuật để giải quyết vấn đề khơng đủ dữ liệu đĩ là
tăng cường dữ liệu là kỹ thuật tăng số lượng dữ liệu huấn luyện bằng các phép
huấn luyện đã được quan tâm và áp dụng trong nhiều mơ hình học máy khác nhau Trong học máy cho nhận dạng hình ảnh, các kỹ thuật tăng cường ảnh giúp mở rộng kích thước của tập dữ liệu huấn luyện thơng qua việc áp dụng một loạt thay đổi ngẫu nhiên trên các mẫu ảnh, từ đĩ tạo ra các mẫu huấn luyện tuy tương tự nhưng vẫn cĩ sự khác biệt Việc thay đổi ngẫu nhiên các mẫu dùng cho huấn luyện sẽ làm giảm sự phụ thuộc của mơ hình vào một số thuộc tính nhất định Do đĩ, giúp cải thiện năng lực khái quát hĩa của mơ hình Chẳng hạn, cĩ thể cắt tập ảnh theo các cách khác nhau, để các đối tượng ta quan tâm xuất hiện ở các vị trí khác nhau, vì vậy giảm sự phụ thuộc của mơ hình vào vị trí xuất hiện của đối tượng Hoặc cũng thể điều chỉnh độ sáng, màu sắc, và các yếu tố khác để giảm độ nhạy màu sắc của mơ hình [116]
Đối với dịch máy, việc tăng chất lượng dữ liệu huấn luyện song ngữ phục vụ huấn luyện mơ hình đã và đang được quan tâm nghiên cứu nhằm mang lại những hệ thống dịch máy tốt hơn bên cạnh việc nghiên cứu cải tiến và áp dụng mơ hình mới Ý tưởng chính của tăng cường dữ liệu cho hệ thống dịch máy là khai thác sức mạnh của dữ liệu đơn ngữ, thường là dễ kiếm hơn và số lượng lớn hơn đáng kể so với dữ liệu song ngữ để làm giàu kho ngữ liệu song ngữ Các phương pháp làm giàu dữ liệu song ngữ cĩ thể phân thành hai nhĩm lớn: các phương pháp độc lập với kiến trúc là nhĩm các phương pháp cĩ thể được sử dụng với mơ hình dịch bất kỳ để cải thiện chất lượng dịch, mơ hình dịch được coi là một hộp đen; và các phương pháp phụ thuộc vào kiến trúc là nhĩm các phương pháp yêu cầu những thay đổi trong mơ hình ngơn ngữ cụ thể và cĩ thể hoặc khơng thể được điều chỉnh cho phù hợp với các mơ hình dịch khác nhau [41]
Trong luận án này NCS tập trung vào nghiên cứu các phương pháp tăng cường dữ liệu độc lập với kiến trúc theo hướng tiếp cận là tạo kho ngữ liệu song ngữ giả lập/tổng hợp bằng cách sử dụng ngữ liệu đơn ngữ Ý tưởng chính của các hướng tiệp cận này là sinh ngữ liệu song ngữ giả lập bằng cách sử dụng dữ liệu đơn ngữ Sau đĩ, các ngữ liệu song ngữ giả lập sẽ được kết hợp với ngữ liệu song ngữ thật để huấn luyện mơ hình dịch máy và khơng cĩ sự phân biệt giữa chúng trong q trình huấn luyện Cĩ thể sinh câu phía nguồn hoặc câu phía đích từ các câu đơn ngữ phía tương ứng Lợi ích của ngữ liệu song ngữ giả
lập là mơ hình dịch máy sẽ học tốt hơn cấu trúc của ngơn ngữ đích hoặc ngơn ngữ nguồn, tùy thuộc vào dữ liệu đơn ngữ ở phía tương ứng Hạn chế là các câu chất lượng thấp được tạo cĩ thể làm suy giảm cấu trúc đã học của phía tương ứng, vì vậy trong một số trường hợp, cần phải giới hạn ngữ liệu song ngữ giả lập dùng cho huấn luyện Phần sau sẽ trình bày một số phương pháp tạo ngữ liệu song ngữ giả lập tăng cường dữ liệu huấn luyện cho mơ hình dịch máy