Adequacy (Tính đầy đủ thơng tin) Fluency (Tính trơi chảy)
5 all meaning 5 flawless English
4 most meaning 4 good English
3 much meaning 3 non-native English 2 little meaning 2 disfluent English
Tính trơi chảy xác định bản dịch có trơi chảy ở ngơn ngữ đích hay khơng, sử dụng đúng ngữ pháp và từ ngữ hay khơng. Tính trơi chảy được thể hiện thơng qua thang đo gồm 5 mức độ: hoàn thiện (flawless) - tốt (good) - không tự nhiên (non- native) - không trôi chảy (disfluent) - không thể hiểu được (incomprehensible).
Mặc dù hai chỉ số đánh giá chất lượng dịch này được đánh giá độc lập với nhau, nhưng nghiên cứu tại [18] chỉ ra rằng có sự liên hệ chặt chẽ giữa số đo tính đầy đủ và tính trơi chảy của những người đánh giá bản dịch. Trên thực tế, người đánh giá khó xác định được thơng tin của bản dịch nếu bản dịch đó khơng trơi chảy, điều này dẫn đến điểm của tính đầy đủ nhận được sẽ thấp. Ngược lại, một bản dịch thể hiện được đầy đủ thông tin từ câu nguồn, thông thường là một bản dịch trôi chảy, đúng ngữ pháp. Việc tách bạch hai chỉ số về tính đầy đủ và tính trơi chảy sẽ dẫn đến những khó khăn khi kết hợp điểm đánh giá để cho ra một số liệu duy nhất trong trường hợp cần thiết. Nghiên cứu của NIST Open Machine Translation Evaluation [19] đề xuất chỉ sử dụng chỉ số tính đầy đủ thơng tin, nhưng mở rộng thang đo thành 7 mức độ để cho phép kết quảđánh giá thể hiện chi tiết hơn.
b. Đánh giá bằng hình thức xếp hạng
Phương pháp đánh giá bằng hình thức xếp hạng được giới thiệu tại WMT 2007 [18] nhằm khắc phục một số hạn chế khi đánh giá bởi chỉ số tính đầy đủ và tính trơi chảy. Phương pháp này thay thế các thang điểm bằng sự đánh giá tương quan giữa các bản dịch thông qua việc xếp hạng. Đối với phương pháp này, người đánh giá nhận được một bản dịch tham chiếu chính xác (reference translation) và các bản dịch máy cần đánh giá. Người đánh giá thực hiện việc xếp hạng các bản dịch từ tốt nhất đến tệ nhất. Trong một số trường hợp, có thể đưa ra hai bản dịch và yêu cầu người đánh giá chọn bản dịch tốt nhất khi so sánh với bản dịch tham chiếu. Phương pháp này trong nhiều trường hợp cho thấy kết quả đánh giá nhất quán hơn, theo thực nghiệm tại [25].