Các phương pháp tĩm tắt văn bản

Một phần của tài liệu Tóm tắt văn bản tiếng việt (Trang 31 - 32)

Mặc dù cĩ 2 loại tĩm tắt là tĩm tắt rút trích (extraction) và tĩm tắt tĩm lược (abstraction), tuy nhiên để thực hiện tĩm lược cần cĩ một lượng tri thức đầy đủ về lĩnh vực cần tĩm tắt. Điều này hiện nay cịn hạn chế nhiều, do đĩ các hướng tiếp cận đa số tập trung vào dạng tĩm tắt rút trích câu.

2.3.1. Phương pháp thống kê

Hầu hết các nghiên cứu đầu tiên cho tĩm tắt đơn văn bản đều tập trung trên những văn bản kỹ thuật (các bài báo khoa học). Các phương pháp cổ điển thường tập trung vào các đặc trưng hình thái để tính điểm cho các câu và rút trích các câu quan trọng để đưa vào tĩm tắt.

Ý tưởng chính của hướng tiếp cận: Thu tập ngữ liệu.

Tạo các bản tĩm tắt thủ cơng.

Thiết kế các cơng thức tốn hay logic để tính điểm cho các câu.

Lặp cho đến khi tĩm tắt tự động đạt được tính tương đương với tĩm tắt thủ cơng :

o Tính điểm cho từng câu để tạo ra bản tĩm tắt cho từng văn bản trong ngữ liệu dựa vào các đặc trưng về hình thái.

o So sánh tĩm tắt được tạo tự động với tĩm tắt được tạo thủ cơng. o Cải thiện lại phương thức tính điểm cho câu.

Các nghiên cứu đại điện cho phương pháp này: Luhn (1958)

Baxendale (1958)

o Sử dụng các đặc trưng như : sentence position.

o Thử nghiệm 200 đoạn văn, 85% các câu đầu là câu chính và 7% các câu cuối và câu chính.

o Phương pháp khá chính xác nhưng quá chủ quan và ngây ngơ. Phương pháp này được xử dụng khá nhiều vào các hệ thống máy học sau này.

Edmundson (1969)

o Điển hình nhất trong phương pháp cổ điển.

o Sử dụng các đặc trưng như : word frequency, stop words, position, title . o Thử nghiệm với 400 văn bản kỹ thuật và kết quả đạt 44%.

Một phần của tài liệu Tóm tắt văn bản tiếng việt (Trang 31 - 32)