Đánh giá chất lượng các hệ thống dịch cĩ thể được thực hiện bằng 2 phương pháp: (1) thủ cơng hoặc (2) tự động
Quá trình đánh giá thủ cơng cho điểm cho các câu dịch dựa trên sự trơi chảy và chính xác của chúng Phần lớn mọi người cho rằng đây là phương pháp đánh giá chính xác nhất Tuy nhiên cơng việc đánh giá thủ cơng này lại tiêu tốn quá nhiều thời gian và chi phí, đặc biệt khi cần so sánh nhiều mơ hình ngơn ngữ, nhiều hệ thống khác nhau Mỗi phương pháp đánh giá đều cĩ ưu nhược điểm riêng Tuy đánh giá tự động khơng thể phản ánh được hết mọi khía cạnh của chất lượng dịch, nhưng nĩ cĩ thể nhanh chĩng cho ta biết: chất lượng của hệ dịch ở tầm nào, cĩ tăng lên hay khơng sau khi cải tiến hoặc thay đổi một tham số nào đĩ Trong thực tế, hai phương pháp này vẫn được sử dụng đồng thời, và điểm BLEU là độ đo chất lượng hệ dịch phổ biến nhất hiện nay, được đề xuất bởi Papineni [91]
1 4 1 Phương pháp tự động
Độ đo được sử dụng phổ biến nhất để đánh giá các hệ thống dịch máy là điểm BLEU [91] Điểm BLEU được tính bằng cách đối chiếu kết quả dịch tự động với bản dịch do chuyên gia dịch (bản dịch tham chiếu) Ý tưởng chính
của điểm BLEU là dựa vào việc so sánh các cụm từ (càng dài càng tốt) trong kết quả dịch tự động với bản dịch tham chiếu, bản dịch này càng giống với bản dịch tham khảo thì hệ dịch cĩ chất lượng càng tốt Điểm số BLEU được tính bởi cơng thức (1 4)
���� = �� × ���(∑��=1 �� ��� �� ) (1 4)
Trong đĩ:
BP là điểm phạt theo độ dài câu (brevity penalty), bao gồm các tham số c là số lượng các từ trong bản dịch cần đánh giá từ hệ thống dịch máy, r là tổng số từ trong bản dịch tham khảo và được tính theo cơng thức (1 5):
�� = { 1 � (1−�/�)�ế� � > � �ế� � ≤ � (1 5)
pn là tham số modified n-gram biểu diễn mức độ trùng khớp của
bản dịch cần đánh giá từ hệ thống dịch máy so với các bản dịch tham khảo và được tính theo cơng thức (1 6):
�� = ∑ � {∑� { ����������∈ ∈����������} ∑�−���� } ∑ � − ���� �∈ �����∈� ����� (�−���� ) ���� ( � − ���� ) (1 6) Trong đĩ:
o Countclip(n-gram) là số lượng các cụm cĩ n từ liên tiếp (n- gram) trùng nhau giữa bản dịch cần đánh giá và bản dịch
tham khảo;
o Count (n-gram) là số lượng các cụm cĩ n từ liên tiếp trong
bản dịch của hệ thống dịch máy
N là độ dài tối đa của n-gram được so khớp, trọng số �� = 1/� Thơng thường, các thử nghiệm chọn N=4 để cơng bố kết quả Điểm BLEU cĩ giá trị nằm trong khoảng [0,1] Tuy nhiên trong các cơng bố, điểm BLEU thường được biểu diễn dưới dạng tỷ lệ % với khoảng giá trị [0,100], điểm càng gần 100 thì chất lượng dịch càng tốt
Mặc dù Callison-Burch chỉ ra rằng điểm BLEU thường khơng thực sự tương quan với đánh giá thủ cơng của con người với các loại hệ thống khác nhau (đặc biệt với hệ thống dịch dựa vào luật), thế nhưng vẫn cĩ thể khá chính xác để đánh giá các hệ thống dịch máy Chính vì vậy, trong phạm vi luận án này, NCS sử dụng điểm BLEU làm giá trị đánh giá chất lượng dịch của các hệ thống dịch máy tự động Việt - Anh
1 4 2 Phương pháp thủ cơng
Sự lưu lốt và trơi trảy trong văn bản dịch thường đề cập tới mức độ bản dịch đĩ là tốt theo ngữ pháp của ngơn ngữ cần dịch ra Dựa theo cách đánh giá dự án dịch các ngơn ngữ châu Âu “EuroMatrix” [18], thơng thường cĩ 5 mức độ để các chuyên gia đánh giá văn bản dịch:
Mức 1: Bản dịch hồn hảo, Mức 2: Bản dịch tốt,
Mức 3: Bản dịch hiểu được,
Mức 4: Bản dịch hiểu được một phần, Mức 5: Bản dịch khơng hiểu được
1 5 Tăng cường dữ liệu huấn luyện cho hệ thống dịch máy
Chất lượng của các hệ thống học máy phụ thuộc rất nhiều vào dữ liệu huấn luyện Hệ thống học máy chỉ thực sự cĩ hiệu quả khi cĩ đủ lượng dữ liệu để máy học, khơng đủ dữ liệu sẽ dẫn tới một số vấn đề:
- Thiếu tính tổng qt: mơ hình rất dễ q khớp, kết quả trên tập huấn luyện cao, kết quả trên tập kiểm thử thấp
- Khĩ huấn luyện mơ hình: khơng đủ dữ liệu mơ hình rất khĩ hội tụ về giá trị tối ưu
- Chất lượng dự đốn sẽ khơng ổn định: Một số trường hợp kết quả sai khác rất nhiều và khi cĩ nhiễu đầu vào sẽ ảnh hưởng lớn tới chất lượng dự đốn
Một trong những kỹ thuật để giải quyết vấn đề khơng đủ dữ liệu đĩ là
tăng cường dữ liệu là kỹ thuật tăng số lượng dữ liệu huấn luyện bằng các phép
huấn luyện đã được quan tâm và áp dụng trong nhiều mơ hình học máy khác nhau Trong học máy cho nhận dạng hình ảnh, các kỹ thuật tăng cường ảnh giúp mở rộng kích thước của tập dữ liệu huấn luyện thơng qua việc áp dụng một loạt thay đổi ngẫu nhiên trên các mẫu ảnh, từ đĩ tạo ra các mẫu huấn luyện tuy tương tự nhưng vẫn cĩ sự khác biệt Việc thay đổi ngẫu nhiên các mẫu dùng cho huấn luyện sẽ làm giảm sự phụ thuộc của mơ hình vào một số thuộc tính nhất định Do đĩ, giúp cải thiện năng lực khái quát hĩa của mơ hình Chẳng hạn, cĩ thể cắt tập ảnh theo các cách khác nhau, để các đối tượng ta quan tâm xuất hiện ở các vị trí khác nhau, vì vậy giảm sự phụ thuộc của mơ hình vào vị trí xuất hiện của đối tượng Hoặc cũng thể điều chỉnh độ sáng, màu sắc, và các yếu tố khác để giảm độ nhạy màu sắc của mơ hình [116]
Đối với dịch máy, việc tăng chất lượng dữ liệu huấn luyện song ngữ phục vụ huấn luyện mơ hình đã và đang được quan tâm nghiên cứu nhằm mang lại những hệ thống dịch máy tốt hơn bên cạnh việc nghiên cứu cải tiến và áp dụng mơ hình mới Ý tưởng chính của tăng cường dữ liệu cho hệ thống dịch máy là khai thác sức mạnh của dữ liệu đơn ngữ, thường là dễ kiếm hơn và số lượng lớn hơn đáng kể so với dữ liệu song ngữ để làm giàu kho ngữ liệu song ngữ Các phương pháp làm giàu dữ liệu song ngữ cĩ thể phân thành hai nhĩm lớn: các phương pháp độc lập với kiến trúc là nhĩm các phương pháp cĩ thể được sử dụng với mơ hình dịch bất kỳ để cải thiện chất lượng dịch, mơ hình dịch được coi là một hộp đen; và các phương pháp phụ thuộc vào kiến trúc là nhĩm các phương pháp yêu cầu những thay đổi trong mơ hình ngơn ngữ cụ thể và cĩ thể hoặc khơng thể được điều chỉnh cho phù hợp với các mơ hình dịch khác nhau [41]
Trong luận án này NCS tập trung vào nghiên cứu các phương pháp tăng cường dữ liệu độc lập với kiến trúc theo hướng tiếp cận là tạo kho ngữ liệu song ngữ giả lập/tổng hợp bằng cách sử dụng ngữ liệu đơn ngữ Ý tưởng chính của các hướng tiệp cận này là sinh ngữ liệu song ngữ giả lập bằng cách sử dụng dữ liệu đơn ngữ Sau đĩ, các ngữ liệu song ngữ giả lập sẽ được kết hợp với ngữ liệu song ngữ thật để huấn luyện mơ hình dịch máy và khơng cĩ sự phân biệt giữa chúng trong q trình huấn luyện Cĩ thể sinh câu phía nguồn hoặc câu phía đích từ các câu đơn ngữ phía tương ứng Lợi ích của ngữ liệu song ngữ giả
lập là mơ hình dịch máy sẽ học tốt hơn cấu trúc của ngơn ngữ đích hoặc ngơn ngữ nguồn, tùy thuộc vào dữ liệu đơn ngữ ở phía tương ứng Hạn chế là các câu chất lượng thấp được tạo cĩ thể làm suy giảm cấu trúc đã học của phía tương ứng, vì vậy trong một số trường hợp, cần phải giới hạn ngữ liệu song ngữ giả lập dùng cho huấn luyện Phần sau sẽ trình bày một số phương pháp tạo ngữ liệu song ngữ giả lập tăng cường dữ liệu huấn luyện cho mơ hình dịch máy
1 5 1 Dịch ngược
Dịch ngược (BT- Back Translation) là phương pháp tạo ngữ liệu song ngữ giả lập do Sennrich [104] đề xuất với ý tưởng huấn luyện một mơ hình dịch máy đảo ngược bổ sung sử dụng kho ngữ liệu song song cĩ sẵn theo hướng từ đích đến nguồn, tức là phía đích và phía nguồn đối nghịch với mơ hình dịch chính Hướng ngược lại này rất quan trọng vì phía đích vẫn ngun vẹn Sau đĩ, sử dụng mơ hình đảo ngược đã được huấn luyện để dịch các câu đơn ngữ của phía đích sang ngơn ngữ nguồn, các cặp câu nhận được này tạo thành một kho ngữ liệu song ngữ giả mới Kho ngữ liệu song ngữ thật và kho dữ liệu song ngữ giả lập được trộn lẫn và mơ hình dịch chính được huấn luyện trên kho ngữ liệu song song kết hợp Phương pháp này được đánh giá trên tập ngơn ngữ nghèo tài nguyên Anh-Thổ Nhĩ Kỳ sử dụng mơ hình dịch máy bằng mạng nơ- ron dựa trên RNN Dữ liệu huấn luyện mơ hình gồm 300 nghìn cặp câu song ngữ và 3,2 triệu cặp câu song ngữ giả lập, được dịch ngược từ các câu đơn ngữ Việc bổ sung dữ liệu huấn luyện giả lập dẫn đến điểm BLEU của mơ hình dịch tăng trung bình là 2,7
Các nghiên cứu gần đây đã chứng minh việc sử dụng BT cĩ tác động tốt hơn đến hiệu suất của các mơ hình dịch máy NMT Đặc biệt trong trường hợp dữ liệu song ngữ hạn chế, BT được sử dụng rộng rãi để tận dụng dữ liệu đơn ngữ làm giàu dữ liệu huấn luyện
1 5 2 Sao chép dữ liệu đơn ngữ
Phương pháp này tạo kho ngữ liệu song ngữ giả lập một cách rõ ràng, nhưng khác với Dịch ngược, khơng cĩ mơ hình dịch bổ sung nào được sử dụng Phương pháp được Currey và cộng sự [28] đề xuất chuyển đổi dữ liệu đơn ngữ phía đích sang kho ngữ liệu song ngữ giả lập bằng cách sao chép các câu của
phía đích sang phía nguồn Để biểu diễn các từ nguồn và từ đích trong cùng một từ điển, họ sử dụng mã hĩa cặp byte Ngữ liệu song ngữ thật được trộn với ngữ liệu song ngữ giả lập và khơng cĩ sự phân biệt giữa chúng trong quá trình huấn luyện Các tác giả coi phương pháp này như một hệ thống đa nhiệm trong đĩ một mơ hình NMT kết hợp nhiều hướng dịch Phương pháp này kết hợp hai hướng dịch Anh-Anh và Thổ Nhĩ Kỳ-Anh để cải thiện chất lượng dịch từ tiếng Thổ Nhĩ Kỳ sang tiếng Anh Các đánh giá thử nghiệm được thực hiện trên cặp ngơn ngữ Anh-Thổ Nhĩ Kỳ và mơ hình dịch dựa trên RNN Dữ liệu huấn luyện bao gồm 207 nghìn cặp câu song ngữ, 414 nghìn câu tiếng Anh và 414 nghìn câu tiếng Thổ Nhĩ Kỳ Phương pháp đã cải thiện được 1,2 điểm BLEU so với mơ hình cơ bản Việc tăng tỷ lệ câu đơn ngữ được sao chép sang ngữ liệu song ngữ cĩ thể làm tăng điểm BLEU: với tỉ lệ 3:1 sẽ làm tăng 0,8 điểm BLEU so với tỉ lệ 1:1 cho cặp Anh-Thổ Nhĩ Kỳ Tuy nhiên, cần cĩ các thử nghiệm bổ sung với tỷ lệ câu đơn ngữ được sao chép sang song ngữ tăng lên, vì mơ hình cĩ thể sẽ giảm chất lượng với tỷ lệ cao hơn
1 5 3 Huấn luyện hai chiều
Phương pháp này khơng tạo ngữ liệu song ngữ giả một cách rõ ràng như phương pháp BT Thay vào đĩ, nĩ tận dụng ý tưởng về bộ mã hĩa tự động để tạo ra cặp câu song ngữ giả và tái tạo lại nĩ Bộ mã hĩa tự động gồm 2 phần mã hĩa và giải mã Vai trị của phần mã hĩa là trích rút các đặc trưng của đầu vào, và vai trị của phần giải mã là tái tạo lại đầu vào từ các đặc trưng được trích rút bởi phần mã hĩa Phương pháp được đề xuất bởi Cheng và các cộng sự [19] sử dụng bộ mã hĩa tự động để khai thác kho ngữ liệu đơn ngữ Ý tưởng như sau: Cĩ hai mơ hình dịch máy, mơ hình thứ nhất với hướng dịch từ phía nguồn sang phía đích gọi là mơ hình nguồn-đích và mơ hình thứ hai với hướng dịch từ phía đích sang phía nguồn gọi là mơ hình đích-nguồn Cĩ thể xem mơ hình nguồn-đích là phần mã hĩa, mơ hình đích nguồn là phần decoder của một bộ mã hĩa tự động Một bộ mã hĩa tự động cĩ thể được xây dựng theo hướng ngược lại, trong đĩ mơ hình đích-nguồn được coi là phần mã hĩa và mơ hình nguồn-đích được coi phần giải mã của bộ mã hĩa tự động Mục tiêu của quá trình huấn luyện là cực đại hĩa khả năng của các mơ hình nguồn-đích và đích-
nguồn trên kho ngữ liệu song ngữ và khả năng tái tạo lại các câu đích trên kho ngữ liệu đơn ngữ
Hình 1 9 minh họa bộ mã hĩa tự động trên cặp song ngữ Trung-Anh Các tác giả đã đánh giá phương pháp trên cặp song ngữ Trung-Anh sử dụng mơ hình dịch NMT dựa trên mạng RNN Dữ liệu huấn luyện gồm 2,56 triệu cặp câu song song, 18,75 triệu câu tiếng Trung và 22,32 triệu câu tiếng Anh
Hình 1 9 Bộ mã hĩa tự động
Các tác giả phát hiện ra rằng việc sử dụng cả dữ liệu đơn ngữ nguồn và dữ liệu đơn ngữ đích khơng mang lại những cải thiện đáng kể Sử dụng kho ngữ liệu song ngữ và ngữ liệu đơn ngữ tiếng Anh, các tác giả đã đạt được cải tiến thêm +4,7 BLEU cho hướng dịch Trung-Anh Kết quả tương tự với việc sử dụng kho ngữ liệu song ngữ và đơn ngữ tiếng Trung cho hướng dịch Anh- Trung Phương pháp này cũng hoạt động tốt hơn Back-Translation +1,8BLEU cho hướng Trung-Anh và +1 0 BLEU cho hướng Anh-Trung
1 5 4 Tự huấn luyện đảo chiều
Ý tưởng làm giàu ngữ liệu huấn luyện bằng đơn ngữ tương tự như dịch ngược được giới thiệu trong bài [10], các tác giả sử dụng kỹ thuật được gọi là tự huấn luyện đảo chiều Trong kỹ thuật này, các tác giả sử dụng ngữ liệu song ngữ để huấn luyện mơ hình dịch đích-nguồn, sau đĩ sử dụng mơ hình này để dịch một số lượng lớn dữ liệu đơn ngữ đích sang dữ liệu nguồn, cặp câu đích -
nguồn này được coi là ngữ liệu song ngữ dùng để huấn luyện mơ hình dịch mới (mơ hình “giả lập”) Đồng thời, các tác giả cũng sử dụng ngữ liệu song ngữ ban đầu để huấn luyện mơ hình dịch “thật” Mơ hình dịch “thật” và mơ hình “giả lập” được kết hợp với nhau một cách cân bằng bằng phương pháp MERT [84] để được mơ hình dịch tốt hơn
1 6 Giĩng hàng từ trong dịch máy thống kê
Giĩng hàng từ là một nhiệm vụ xác định sự tương ứng giữa các từ trong các cặp câu song ngữ [67] Đây là bước đầu tiên trong hầu hết các cách tiếp cận hiện tại của SMT Ayan và cộng sự [3] đã chỉ ra rằng, chất lượng của giĩng hàng từ đĩng vai trị rất quan trọng cho sự thành cơng của một hệ thống SMT Các phương pháp khác nhau đã được đề xuất để xác định giĩng hàng từ trong các văn bản song ngữ Hình 1 10 minh họa một kết quả giĩng hàng từ cho cặp câu Việt - Anh: câu tiếng Việt “Shaffer đã nĩi với CNN vào hơm thứ bảy ” và câu tiếng Anh “Shaffer told CNN on Saturday ” Các từ tiếng Anh được nối với các từ tiếng Việt tương ứng trong cặp câu Hình 1 11 minh họa giĩng hàng này được biểu diễn dưới dạng bảng
Nĩi chung, các phương pháp giĩng hàng từ cĩ thể được phân chia thành hai loại: (i) cách tiếp cận dựa trên mơ hình phân biệt và (ii) cách tiếp cận dựa trên mơ hình sinh
Cách tiếp cận thứ nhất (i) dựa vào quá trình huấn luyện trên một tập các đặc trưng, điển hình là các nghiên cứu của Moore [77] và Liu [67] Cách tiếp cận này cĩ ưu điểm là linh hoạt trong việc kết hợp các đặc trưng mới [71] Tuy nhiên, hạn chế của cách tiếp cận này là dữ liệu huấn luyện cần phải được gán nhãn; cơng việc này địi hỏi nhiều thời gian, chi phí để thực hiện và nĩ khơng sẵn cĩ với hầu hết các cặp ngơn ngữ [69] Ngồi ra, rất khĩ khăn để chọn dữ