7. Bố cục của luận án
1.4.1. Phương pháp tự động
Độ đo được sử dụng phổ biến nhất để đánh giá các hệ thống dịch máy là điểm BLEU [91]. Điểm BLEU được tính bằng cách đối chiếu kết quả dịch tự động với bản dịch do chuyên gia dịch (bản dịch tham chiếu). Ý tưởng chính
của điểm BLEU là dựa vào việc so sánh các cụm từ (càng dài càng tốt) trong kết quả dịch tự động với bản dịch tham chiếu, bản dịch này càng giống với bản dịch tham khảo thì hệ dịch cĩ chất lượng càng tốt. Điểm sốBLEU được tính bởi cơng thức (1.4)
𝐵𝐿𝐸𝑈 = 𝐵𝑃 × 𝑒𝑥𝑝(∑𝑁𝑛=1𝑤𝑛𝑙𝑜𝑔𝑝𝑛) (1.4)
Trong đĩ:
• BP là điểm phạt theo độ dài câu (brevity penalty), bao gồm các tham số c là số lượng các từ trong bản dịch cần đánh giá từ hệ
thống dịch máy, r là tổng số từ trong bản dịch tham khảo và được tính theo cơng thức (1.5):
𝐵𝑃 = {1𝑛ế𝑢𝑐 > 𝑟
𝑒(1−𝑟/𝑐)𝑛ế𝑢𝑐 ≤ 𝑟 (1.5)
• pn là tham số modified n-gram biểu diễn mức độ trùng khớp của bản dịch cần đánh giá từ hệ thống dịch máy so với các bản dịch tham khảo và được tính theo cơng thức (1.6):
𝑝𝑛 = ∑∑𝐶 ∈{𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒𝑠}∑∑𝑛−𝑔𝑟𝑎𝑚 ∈𝐶𝐶𝑜𝑢𝑛𝑡𝑐𝑙𝑖𝑝(𝑛−𝑔𝑟𝑎𝑚 ) 𝐶𝑜𝑢𝑛𝑡(𝑛−𝑔𝑟𝑎𝑚 ) 𝑛−𝑔𝑟𝑎𝑚 ∈𝐶 𝐶 ∈{𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒𝑠} (1.6) Trong đĩ:
o Countclip(n-gram) là số lượng các cụm cĩ n từ liên tiếp (n- gram) trùng nhau giữa bản dịch cần đánh giá và bản dịch tham khảo;
o Count (n-gram) là số lượng các cụm cĩ n từ liên tiếp trong bản dịch của hệ thống dịch máy
• N là độ dài tối đa của n-gram được so khớp, trọng số 𝑤𝑛 = 1/𝑁.
Thơng thường, các thử nghiệm chọn N=4 để cơng bố kết quả.
Điểm BLEU cĩ giá trịnằm trong khoảng [0,1]. Tuy nhiên trong các cơng
bố, điểm BLEU thường được biểu diễn dưới dạng tỷ lệ % với khoảng giá trị [0,100], điểm càng gần 100 thì chất lượng dịch càng tốt.
Mặc dù Callison-Burch chỉ ra rằng điểm BLEU thường khơng thực sự tương quan với đánh giá thủ cơng của con người với các loại hệ thống khác nhau (đặc biệt với hệ thống dịch dựa vào luật), thế nhưng vẫn cĩ thể khá chính xác để đánh giá các hệ thống dịch máy. Chính vì vậy, trong phạm vi luận án
này, NCS sử dụng điểm BLEU làm giá trị đánh giá chất lượng dịch của các hệ thống dịch máy tự động Việt - Anh.