Phương pháp Heuristic

Mặc dù bài toán tóm tắt văn bản được quan tâm đặc biệt sau sự bùng nổ thông tin trên Internet, những nghiên cứu đầu tiên đã bắt đầu từ những năm 50 bởi Luhn [57] và sau đó được Edmundson phát triển thành tiếp cận có hệ thống cho bài toán tóm tắt [28]. Các câu trong văn bản được xếp hạng theo một vài hoặc cả bốn đặc trưng heuristic đơn giản của câu:

 Ngữ chỉ thị: Ngữ chỉ thị (cue) là những từ mang ý nghĩa đánh dấu như hầu như không, không thể, hay những từ làm tăng ý nghĩa như do đó, vì thế,

cho nên, kết quả là, những từ làm giảm ý nghĩa như trái lại, nhưng, tuy nhiên và những từ không làm thay đổi ý nghĩa như trợ động từ, hư từ như

thì, là, cái. Độ quan trọng của câu là tổng hợp giá trị của các từ trong câu. Khi tính độ quan trọng của câu, ta lần lượt so sánh các từ xuất hiện trong câu với từ điển ngữ chỉ thị. Các từ làm tăng nghĩa và các từ đánh dấu sẽ có trọng số cao hơn các từ loại khác.

 Tần suất từ: Những từ thường xuyên xuất hiện trong văn bản có thể là những từ có ý nghĩa. Vì vậy, độ quan trọng của câu được xác định dựa trên tần suất xuất hiện trong văn bản của các từ thuộc câu đó. Sau đó những câu

có độ quan trọng lớn nhất sẽ đưa vào bản tóm tắt. Phương pháp này cho kết quả khá tốt tuy nhiên thời gian xử lý chậm.

 Nhan đề: Các câu có chứa từ của câu nhan đề (title) hoặc câu tiêu đề (heading) sẽ có độ quan trọng cao và độ quan trọng của câu chứa từ thuộc nhan đề cao hơn câu có chứa từ của tiêu đề. Tuy nhiên phương pháp này phụ thuộc khá nhiều vào cấu trúc của văn bản. Chúng ta sẽ gặp rất nhiều khó khăn trong việc tóm tắt văn bản mà không có câu nhan đề.

 Vị trí: điều này phụ thuộc vào loại tài liệu. Ví dụ trong các tài liệu kỹ thuật, những câu nằm ở đoạn cuối có trọng số cao ngược lại với bài báo tin tức thì các câu đầu tiên là quan trọng.

Độ quan trọng của câu (hay trọng số của câu) được tính như sau:

Si= w1* Ci+ w2* Ki+ w3* Ti+ w4* Li (1. 8)

Trong đó: Si là độ quan trọng của câu thứ i. Ci, Ki và Ti là trọng số của câu i dựa trên các từ ngữ chỉ thị, tần suất từ và từ thuộc tiêu đề có trong câu. Li là trọng số của câu dựa vào vị trí trong văn bản. w1, w2, w3, w4 là hệ số tuyến tính thể hiện sự đóng góp của từng trọng số.

Phương pháp này phụ thuộc vào cấu trúc và dạng của văn bản. Bên cạnh đó vấn đề trùng lắp thông tin trong bản tóm tắt chưa được xem xét đến.

Bài toán gom cụm văn bản

Bài toán tóm tắt văn bản