Đánh giá kết quả tóm tắt văn bản là một việc làm khó khăn trong thời điểm hiện tại. Việc sử dụng ý kiến đánh giá của các chuyên gia ngôn ngữđược xem là cách đánh giá tốt nhất, tuy nhiên, cách làm này lại tốn rất nhiều chi phí. Bên cạnh các phương pháp đánh giá thủ công do các chuyên gia thực hiện, vấn đềđánh giá tựđộng kết quả tóm tắt cũng nhận được nhiều sự chú ý hiện nay. NIST1 kể từ năm 2000 đã tổ chức hội nghị DUC mỗi năm một lần để thực hiện việc đánh giá với quy mô lớn các hệ thống tóm tắt văn bản.Việc đánh giá tựđộng này nhằm mục đích là tìm ra được một độ đo đánh giá tóm tắt gần với những đánh giá của con người nhất.
Độ hồi tưởng (recall) tại các tỷ lệ nén khác nhau chính là thước đo đánh giá hợp lý, mặc dù nó không chỉ ra được sự khác nhau về hiệu suất của hệ thống. Vì vậy độđo về sự bao phủđược tính theo công thức:
C = R × E
Ởđây, R là độ hồi tưởng câu được trả về bởi công thức R = Sốđơn vị bao phủ/ Tổng sốđơn vị trong mô hình tóm tắt.
E là tỷ lệ hoàn thành nằm trong khoảng từ 0 đến 1 (1 là hoàn thành tất cả, ¾ là một phần, ½ là một số, ¼ là khó, 0 là không có)
DUC 2002 đã sử dụng một phiên bản đểđiều chỉnh chiều dài của thước đo bao phủ, C’:
Với B là sự ngắn gọn và α là tham số phản tầm quan trọng. Các loại nhãn cho E cũng đã được thay đổi thành 100%, 80%, 60%, 40%, 20%, và 0% tương ứng.
16
Phương pháp ROUGE
BiLingual Evaluation Understudy (BLEU) [KST02] là một phương pháp của cộng động dịch máy đưa ra đểđánh giá tự động các hệ thống dịch máy. Phương pháp này có hiểu qua nhanh, độc lập với ngôn ngữ và sự liên quan với các đánh giá của con người. Recall Oriented Understudy of Gisting Evaluation (ROUGE) [LH03] là một phương pháp do Lin và Hovy đưa ra vào năm 2003 cũng dựa trên các khái niệm tương tự. Phương pháp này sử dụng n-gram đểđánh giá sự tương quan giữa các kết quả của mô hình tóm tắt và tập dữ liệu đánh giá. Phương pháp này đã cho ra kết quả khả quan và được sựđánh giá cao của cộng đồng nghiên cứu tóm tắt văn bản.