Dữ liệu đánh giá Loại Google Microsoft
BLEU NIST WER BLEU NIST WER
tst2013 vi-en 32 7,61 0,47 26 6,54 0,56
1000-cau vi-en 29 5,59 0,49 21 4,55 0,59
tpp-tomtat vi-en 30 6,73 0,55 23 5,67 0,66
tpp-chuong28 vi-en 39 6,84 0,48 29 5,56 0,58
Qua các số liệu này, có thể thấy chất lượng các bản dịch tương đối tốt so với các hệ thống đã được xây dựng trong những nghiên cứu trước đây, tuy nhiên còn rất thấp so với các đánh giá chất lượng dịch các cặp câu thông dụng như tiếng Anh – tiếng Pháp hoặc một số ngôn ngữ khác. Hệ thống dịch của Google đều mang lại điểm số tốt hơn hệ thống dịch của Microsoft trong tất cả các tập dữ liệu. Chất lượng dịch từ tiếng Anh sang tiếng Việt tốt hơn dịch từ tiếng Việt sang tiếng Anh ở cả hai hệ thống. Bên cạnh đó, xem xét cụ thể các bản dịch, có thể thấy:
- Chiều dài trung bình của bản dịch gần tương đồng với bản tham khảo (tỷ lệ chiều dài trung bình của bản dịch so với chiều dài trung bình của bản tham chiếu ở kết quả của Google là 0,99 và của Microsoft là 1,04), có thể thấy được các hệ thống
này dịch được khá đầy đủ các từ có trong câu nguồn. Tuy nhiên hệ thống dịch của Microsoft chưa nhận ra được một số từ và vẫn giữ nguyên tiếng Anh (hoặc tiếng Việt), chứng tỏ kho ngữ liệu sử dụng để dịch vẫn chưa đầy đủ.
- Ở các câu hội thoại ngắn, các chỉ số BLEU nhận được khá thấp. Nguyên nhân là do sự nhập nhằng trong ngữ nghĩa tiếng Việt và ở các hội thoại ngắn thì có nhiều cách dùng các từ hoàn toàn khác nhau để thể hiện cùng một nội dung, chẳng hạn đối với các đại từ nhân xưng nên bản dịch khó trùng khớp với câu tham khảo, mặc dù trong một số trường hợp hệ thống cho kết quả dịch chính xác. Ví dụ: bản tham khảo là “Bạn khỏe không?”, trong khi bản dịch là “Anh khỏe không?” hoặc “Anh thế nào?” đã làm cho chỉ số đo được không phản ánh đúng kết quả. Nghiên cứu đã sử dụng các chỉ số BLEU có làm mịn (như BLEU-1) [47] nhưng kết quả khơng cải thiện. Bên cạnh đó, trong các câu hội thoại ngắn thường sử dụng một số cụm từ nghĩa bóng, thành ngữ, trong khi kết quả dịch thường theo nghĩa đen nên không đúng. - Đối với các câu trong lĩnh vực văn bản hành chính, mặc dù các câu có chiều dài lớn
nhưng chất lượng nhận được khá tốt khi đánh giá. Lý do là các câu trong lĩnh vực văn bản hành chính thường có văn phạm và ngữ pháp đơn giản, rõ ràng, không nhập nhằng về mặt ngữ nghĩa. Tuy nhiên xem xét thực tế kết quả dịch, nhiều thuật ngữ chuyên ngành bị dịch sai. Như vậy trong bản dịch có nhiều từ (thơng dụng) được dịch đúng, nhưng những từ quan trọng (chuyên ngành) lại dịch sai, làm cho bản dịch trở nên khó hiểu.
Như vậy, các chỉ số BLEU, NIST, WER đã phản ánh độ tương đồng của bản dịch do các hệ thống dịch máy cung cấp khi so sánh với một bản dịch tham khảo, tuy nhiên trong nhiều trường hợp các chỉ số này vẫn chưa cung cấp được thực trạng về chất lượng của các bản dịch.
2.2.1.2. Đánh giá theo phương pháp chủ quan
Để nghiên cứu chi tiết hơn về chất lượng của các hệ thống dịch hiện nay, NCS thực hiện quá trình đánh giá kết quả nhờ sự hỗ trợ của con người. Bài kiểm tra này là một bảng hỏi tương tự như các bài đánh giá chủ quan được đề xuất tại [19]. Trong phương pháp đánh giá chủ quan với sự trợ giúp của con người thường sử dụng 2 thang đo là mức độ đầy đủ thông tin (adequacy) và mức độ trôi chảy của bản dịch (fluency).
Các thang đo này được được đánh giá ở 5 cấp độ từ thấp đến cao. Mức độ đầy đủ thể hiện bản dịch có mang lại đầy đủ các thơng tin có trong câu nguồn khơng, gồm: (5) Có tất cả thơng tin, (4) Có hầu như đầy đủ thơng tin, (3) Có nhiều thơng tin, (2) Có một ít thơng tin, (1) Hồn tồn khơng. Mức độ trơi chảy thể hiện bản dịch có tự nhiên và trơi chảy như ngơn ngữ đích khơng, gồm: (5) Hồn tồn trơi chảy, (4) Khá trôi chảy, (3) Không được tự nhiên, (2) Không trôi chảy, (1) Không thể hiểu được.
Để đơn giản và với mục đích minh họa thêm cho các số liệu ở trên, luận án chỉ tiến hành đánh giá đối với các cặp câu song ngữ tiếng Anh - tiếng Việt của bộ dữ liệu “câu hội thoại thông dụng”. Bài đánh giá sử dụng các bản dịch từ tiếng Anh sang tiếng Việt của hai hệ thống dịch nói trên. Người tham gia chỉ được cung cấp câu tiếng Việt đã được dịch và phải trả lời câu hỏi “(1) Bạn có hiểu ý câu này nói gì khơng?”, bỏ qua mọi quy tắc về ngữ pháp, sự trôi chảy, và người tham gia phải cố gắng để hiểu được, giống như đang giao tiếp với một người mới học tiếng Việt. Sau đó, nếu trả lời là “Hiểu” thì người tham gia sẽ được xem câu tham chiếu (câu tiếng Việt đã dịch đúng) và trả lời câu hỏi “(2) Bạn có hiểu đúng ý khơng?”. Cuối cùng, người tham gia sẽ trả lời thêm một câu hỏi khác là “(3) Người Việt có nói như vậy khơng?” với mục đích kiểm tra xem các bản dịch có được trơi chảy, tự nhiên và có thể dùng được trong thực tế không. Hệ thống câu hỏi như vậy giúp cho người tham gia thực hiện đơn giản, nhưng chính xác, không gặp rắc rối khi cho điểm ở nhiều mức khác nhau, đồng thời kết quả nhận được rõ ràng, dễ hình dùng khi đề cập đến mức độ hồn thiện của bản dịch để áp dụng vào thực tế. Kết quả thể hiện ở Bảng 2.4.
Đánh giá kết quả dịch tiếng Anh sang tiếng Việt bằng phương pháp chủ quan do con người thực hiện