Giới thiệu BLEU

Một phần của tài liệu XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA TRONG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ (Trang 50)

C(SU )= {pЄ P| p(ƒ )= (ƒ) với tất cả các ƒЄ SU }

5.3.1.1 Giới thiệu BLEU

BLEU (Bilingual Evaluation Understudy) là một thuật toán dùng để đánh giá chất lượng của một văn bản mà được dịch bằng máy từ ngôn ngữ này sang ngôn ngữ khác. BLEU được đề xuất bới IBM tại hội nghị ACL ở Philadelphia vào tháng 7-2001 [12]. Chất lượng ở đây được đánh giá bởi sự tương ứng giữa kết quả được đưa ra bởi hệ thống dịch máy và kết quả được đưa ra bởi con người. [10] phát biểu rằng, “bản dịch của máy càng gần với bản dịch của con người thì nó càng tốt”.

BLEU là một trong những metric đầu tiên đã đạt được sự tương quan cao với đánh giá chất lượng của con người. Ngoài ra nó còn là một trong những phương pháp đánh giá phổ biến nhất. Phương pháp tính điểm BLEU được thiết kế để xấp xỉ đánh giá của con người ở cấp độ ngữ liệu chứ không phải dùng để đánh giá chất lượng của từng câu riêng lẻ.

Điểm BLEU luôn nằm trong khoảng 0 và 1. Giá trị này cho chúng ta biết mức độ giống giữa output của hệ dịch máy với bản dịch tham khảo của con người. Giá trị này càng gần 1 thì bản dịch máy càng gần với bản dịch được đưa ra bởi con người.

5.3.1.2 Phương pháp

Việc đánh giá được thực hiện trên kết quả thống kê mức độ trùng khớp các n-grams từ kho dữ liệu của kết quả dịch và kho các bản dịch tham khảo có chất lượng cao [13]. Giải thuật của IBM đánh giá chất lượng của hệ thống dịch qua việc trùng khớp của các n-grams đồng thời nó cũng dựa trên cả việc so sánh độ dài của các bản dịch.

Công thức để tính điểm đánh giá của IBM là như sau:

- ∑ ∑ = j j j j i NT NR P

- NRj: là số lượng các n-grams trong phân đoạn j của bản dịch dùng để tham khảo.

- NTj: là số lượng các n-grams trong phân đoạn j của bản dịch bằng máy. - wi= n-1(n thường đươc lấy bằng 4)

- Lref: là số lượng các từ trong bản dịch tham khảo, độ dài của nó thường là gần bằng độ dài của bản dịch bằng máy.

- Ltra: là số lượng các từ trong bản dịch bằng máy.

Giá trị score đánh giá mức độ tương ứng giữa hai bản dịch và nó được thực hiện trên từng phân đoạn, ở đây phân đoạn được hiểu là đơn vị tối thiểu trong các bản dịch, thông thường mỗi phân đoạn là một câu hoặc một đoạn. Việc thống kê độ trùng khớp của các n-grams dựa trên tập hợp các n-grams trên các phân đoạn, trước hết là nó được tính trên từng phân đoạn, sau đó tính lại giá trị này trên tất cả các phân đoạn và trên toàn văn bản. Chú ý rằng, BLEU không sử dụng sự đúng đắn về mặt ngữ pháp để so sánh giữa các bản dịch [28].

5.3.2 Dữ liệu

Bảng 4. Thống kê về kho ngữ liệu song ngữ dùng để training

Số câu Độ dài câu

trung bình Số từ

Kích thước từ vựng

Anh 54.642 11.3 622.965 23.867

Việt 54.642 10.7 588.554 24.105

Bảng 4 trình bày các thống kê về kho ngữ liệu song ngữ mà chúng tôi đã sử dụng trong luận văn. Kho ngữ liệu này được thu thập từ nhiều nguồn: sách dạy tiếng Anh, báo song ngữ, các câu ví dụ trong từ điển song ngữ. Nói chung kho ngữ liệu này có các câu tương đối ngắn.

Bảng 5. Thống kê về dữ liệu dùng để testing WSD

Số câu Độ dài câutrung bình Số từ Kích thước từvựng

100 10.32 1032 559

5.3.3 Các công cụ

Ngoài phương pháp tính điểm BLEU, chúng tôi đã sử dụng một số công cụ khác cho các thí nghiệm của mình. Để tách từ cho văn bản tiếng Việt chúng tôi sử dụng công cụ mô tả trong [22]. Để huấn luyện các mô hình dịch cụm từ chúng tôi sử dụng mô-đun huấn luyện của Pharaoh. Công cụ dóng hàng từ là GIZA++ [7]. Về mô hình ngôn ngữ, chúng tôi sử dụng SRILM. Để phân tích hình thái từ tiếng Anh chúng tôi sử dụng một mô-đun được mô tả trong [26]. Chúng tôi sử

dụng một decoder cho hệ dịch dựa vào cụm từ được mô tả trong [25]. Chất lượng dịch của decoder này là khá tốt, có thể dùng để kiểm tra độ chính xác cũng như hiệu quả của WSD.

Một phần của tài liệu XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA TRONG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ (Trang 50)