Phương pháp vị trí (Position-Based)

Một phần của tài liệu Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 40 - 41)

Phương pháp vị trí bao gồm các phương pháp xác định độ quan trọng dựa trên thống kê về vị trí của từ, ngữ hay câu trong văn bản. Các thống kê này tất nhiên phụ

thuộc vào thể loại văn bản…

Phương pháp này dựa trên quan niệm cho rằng các câu xuất hiện ở đầu văn bản thường quan trọng hơn những câu xuất hiện ở giữa hay ở cuối cùng của văn bản. Với phương pháp tóm tắt đơn giản này, để tạo ra một văn bản tóm tắt, chúng ta chọn ra những câu đầu tiên trong văn bản tùy theo kích thước hay độ dài mong muốn của văn bản tóm tắt. Mặc dầu hiệu năng của phương pháp này thay đổi rất nhiều tùy theo loại của văn bản cần tóm tắt (tin tức, khoa học, v.v…), tuy nhiên nó luôn luôn chứng tỏ được vào khoảng 33% câu quan trọng trong văn bản thường nằm ở các vị trí quy định.

• Chủđề - Tiêu đề ( Title-based )

quan trọng trong văn bản hơn là những câu không quan trọng, nói cách khác câu có chứa tiêu đề thường là những câu quan trọng. Do đó sử dụng tiêu đề được xem như

là một phương pháp để xác định các câu quan trọng đối với một văn bản cho trước. • Đầu - cuối đoạn ( First - Last Sentence )

Xác suất câu đầu đoạn hay câu cuối đoạn chứa ý chính của cả đoạn là rất lớn,

đặc biệt là câu đầu đoạn. Ngoài ra, các đoạn đầu và cuối trong văn bản cũng quan trọng hơn các đoạn giữa.

• Minh họa - Chú thích ( Comments )

Trong các câu chú thích, câu minh họa cho ảnh hay đồ thị thường chứa các thông tin quan trọng. Tuy nhiên, các câu này thường chỉ được dùng để đánh giá độ

quan trọng của các câu khác liên quan, chứ không được chọn làm đầu vào cho pha tiếp.

Một phần của tài liệu Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 40 - 41)