BLEU là một phương pháp để đánh giá chất lượng của các tài liệu được dịch tự động bằng máy, do IBM đề xuất vào năm 2002 và được sử dụng làm phương pháp đánh giá chính cho nghiên cứu dịch máy. Nguyên lý ban đầu của phương pháp này là so sánh hai tài liệu được dịch tự động bằng máy và được các chuyên gia ngôn ngữ dịch. Việc so sánh được thực hiện bằng cách phân tích thống kê sự trùng khớp ngẫu nhiên của các từ trong hai tài liệu có tính đến thứ tự các từ trong các câu sử dụng n-grams. Cụ thể, điểm BLEU được tính bằng cách phân tích thống kê mức độ trùng hợp giữa n-gram của các tài liệu được dịch tự động bằng máy và bằng tay được dịch bởi các chuyên gia ngôn ngữ chất lượng cao.
Điểm số BLEU có thể được tính như sau:
- NRj: số n-gram trong phân đoạn j trong bản dịch tham khảo (theo chuyên gia) với một tham số tham chiếu phù hợp xảy ra trong phân đoạn
- NTj: số n-gram trong đoạn j trong bản dịch (bằng máy) đang được đánh giá.
- wi = N1
- Lref: số từ trong bản dịch tham chiếu (theo chuyên gia) có độ dài gần nhất đối với bản dịch được ghi.
- Ltra: Số từ trong bản dịch (bằng máy) được ghi.
Giá trị score đánh giá mức độ tương ứng giữa hai bản dịch và nó được thực hiện trên từng phân đoạn, ở đây phân đoạn được hiểu là đơn vị tối thiểu trong các bản dịch, thông thường mỗi đoạn thường là một hoặc vài câu. Các số liệu thống kê n-gram đồng xuất hiện, dựa trên bộ n-gram cho các phân đoạn thử nghiệm và tham khảo, được tính cho mỗi phân đoạn này và sau đó được tích lũy trên tất cả các phân đoạn. Sản lượng của BLEU luôn là một số từ 0 đến 1. Giá trị này cho thấy văn bản ứng cử viên tương tự như thế nào với các tài liệu tham khảo, với các giá trị gần 1 đại diện cho nhiều văn bản tương tự hơn.
3.3.3. Kết quả đánh giá thực nghiệm rút gọn văn bản.
Với dữ liệu 200 câu đầu vào, 200 câu rút gọn chuẩn được tham khảo từ tài liệu dùng cho người điếc do các chuyên gia ngôn ngữ ký hiệu cung cấp, chúng tôi sử dụng thuật toán rút gọn được trình bày ở trên để có được 200 câu tương ứng rút gọn tự động. Sau đó chúng tôi dựa trên phương pháp đánh giá
bảng 3.2). Tỉ lệ các câu rút gọn đúng (tương ứng với điểm BLEU = 1) chiếm 97.5%. Các trường hợp còn lại rút gọn chưa đạt do tính phức tạp trong vấn đề nhập nhằng ngữ nghĩa chưa được giải quyết hoàn toàn.
Bảng 3.1. Điểm số của BLEU
ID Sentence Linput NRj NTj Lref Ltra BLEU score
1 3 7 7 3 3 1.000 2 5 12 12 4 4 1.000 3 8 15 15 6 6 1.000 4 9 26 20 9 7 0.7515 5 5 14 14 5 5 1.0000 … … … … 99 7 22 16 7 6 0.8465 100 8 24 24 8 8 1.0000 … … … … 199 7 23 23 7 7 1.000 200 6 13 18 5 6 0.9762
Với kết quả được đánh giá phía trên, chúng tôi đã phân tích và cài đặt thành công thuật toán rút gọn văn bản văn bản tiếng Việt sang dạng văn bản giản lược của ngôn ngữ kí hiệu. Tuy nhiên, thời gian nghiên cứu có hạn nên chúng tôi chỉ mới đánh giá được trên tập dữ liệu nhỏ.
Kết quả của nghiên cứu này là tiền đề cho việc xây dựng hệ thống dịch tự động văn bản tiếng Việt sang dạng văn bản đúng chuẩn cú pháp của ngôn ngữ kí hiệu. Trong đó bao gồm việc chuyển đổi cú pháp văn bản tiếng Việt dựa trên đặc tính quan trọng thứ 2, đó là trật tự từ trong ngôn ngữ kí hiệu mang những đặc điểm riêng, khác biệt so với tiếng Việt thông thường.