Phương Pháp dựa trên vị trí

Một phần của tài liệu Nghiên cứu các cách tiếp cận trong tóm tắt văn bản và thử nghiệm (Trang 47 - 48)

Phương pháp này được phát triển từ cuối thập niên 50 (Baxendale, 1958, Luhn, 1958)[22]. Tư tưởng của phương pháp là câu quan trọng nhất nằm ở phân

đầu và phần cuối của tài liệu, trong câu đầu tiền và câu cuối của đoạn văn, và cũng nằm ngay dưới đoạn tiều đề ( heading) hoặc nằm ở trong phần giới thiệu hay phần kết luận của văn bản. Edmudson, 1969 gán điểm cho các câu tuy theo vị trí của câu trong văn bản. Cho điểm cao nhất cho những câu đầu tiên của đoạn văn đầu tiền và câu cuối của đoạn văn cuối.

Trong tóm tắt văn bản phương pháp này sẽ đi theo bước như sau: Để chỉ định hiệu lực của phương pháp dựa trên vị trí, ta chỉ định vị trí tối ưu của câu trong văn bản gốc, việc đo dựa vào các từ khoá chủ đề. Tiếp theo xếp loại vị trí của câu dựa vào kết quả vị trí tối ưu để tạo ra chính sách vị trí tối ưu cho thể loại vị trí chủ đề. Cuối cùng ta so sánh bản tóm tắt đi kèm với văn bản, ta đo mức độ

bao phủ của một câu trích rút từ chính sách. Mức độ bao phủ cao chỉ định hiệu lực của phương pháp dựa trên vị trí này.

Xác định vị trí tối ưu: ta chỉ định vị trí tối ưu như sau cho một văn bản T và danh sách từ khoá chủ đề ti của T, ta gán mỗi câu của T với số thứ tự cụm từ và câu của nó ( Pm, Sn). Sau đó loại bỏ stop words từ văn bản. Câu hỏi đặt ra dữ liệu

nào phù hợp cho việc chỉđịnh vị trí tối ưu ? Ta chọn giữa từ khoá chủ đề với lời tóm tắt ( abstract) có trong văn bản corpus. Cả các từ khoá và abstract chứa các cụm từ có và các từ cũng có trong văn bản gốc, với giả thiết rằng các cụm từ và các từ này quan trọng hơn các cụm từ và các từ khác trong văn bản, ta có thể gán mức độ quan trọng cao hơn cho những câu chứa nhiều các cụm từ và các từ đó. Ta thường dùng từ khoá hơn là abstract để xếp loại các cầu. Ta tính toán vị trí tối ưumỗi vị trí của câu trong văn bản bằng cách đếm số từ khoá chủ đề khác nhau chứa trong các câu thích hợp trong văn bản, sau đó tính trung bình trên mọi văn bản.

Một phần của tài liệu Nghiên cứu các cách tiếp cận trong tóm tắt văn bản và thử nghiệm (Trang 47 - 48)

Tải bản đầy đủ (PDF)

(114 trang)