Các phương pháp khác

Một phần của tài liệu Toàn văn luận án Tiếp cận đồ thị biểu diễn , khai thác văn bản và ứng dụng (Trang 35)

Phương pháp thống kê thuần túy: Phương pháp thống kê chủ yếu sử dụng sự phân bố của các câu, từ trong văn bản. Phương pháp này tạo bản tóm tắt bằng cách phân tích, tổng hợp, thống kê dựa trên các mối quan hệ, các liên kết nội tại của văn bản. Cấu trúc và liên kết giữa các đoạn của văn bản được phân tích, rút trích những đoạn quan trọng nhất và biểu diễn thành bản tóm tắt [79]. Với mô hình ngôn ngữ, các tác giả [19] chọn ra những thuật ngữ nên xuất hiện trong bản tóm tắt, sau đó kết hợp các thuật ngữ lại bằng mô hình ngôn ngữ

Thống kê kết hợp ngôn ngữ: Phương pháp này kết hợp kỹ thuật thống kê và các tri thức về ngôn ngữ học khi tạo bản tóm tắt. Bản tóm tắt được tạo ra dựa trên việc thống kê nhiều yếu tố khác nhau như: trọng số của thuật ngữ, câu truy vấn mở rộng, từ điển đồng nghĩa-phản nghĩa mở rộng, lề cực đại tương ứng (MMR) [22], hay sự đồng hiện, độ chính xác, sự không trùng lắp [83]. Các tri thức về ngôn ngữ hỗ trợ quá trình phân tích nghĩa của từ, phân tích cấu trúc văn bản,… Trọng số của các thuật ngữ còn xác định trọng tâm nội dung của văn bản [46]. Sau đó, các câu thỏa mãn những tiêu chí cho trước được tổng hợp, bố trí cho đúng cấu trúc ngữ pháp và tạo thành bản tóm tắt.

Phương pháp máy học: Phương pháp này mô hình hóa bài toán tóm tắt thành bài toán phân lớp [50] và sử dụng các thuật toán máy học như mô hình Markov ẩn [24], mô hình độ hỗn loạn tối đa (Maximum Entropy) [77] hay SVM [39] nhằm mục đích chọn lọc ra các câu tốt nhất đưa vào bản tóm tắt. Phương pháp này có ưu điểm là ít phụ thuộc vào kiến trúc ngôn ngữ và cũng không đòi hỏi những tri thức sâu về lĩnh vực ngôn ngữ, nhưng lại yêu cầu khá nhiều dữ liệu huấn luyện có chất lượng mới có thể cho ra một bản tóm tắt hoàn chỉnh.

Phương pháp dựa trên đồ thị: Phương pháp này mô hình hoá văn bản thành đồ thị với đỉnh biểu diễn đoạn văn [79], hay câu [29], [67], [95], [109], hay thuật ngữ hoặc cụm từ trong văn bản [53], [59] và cạnh nối giữa hai đỉnh thể hiện mối quan hệ giữa chúng. Từ đồ thị, ta có thể xác định các đỉnh đại diện cho những thành phần mang thông tin chính yếu của văn bản. Các đỉnh này có thể là các đỉnh trung tâm của đồ thị, hay là trọng tâm của các cụm đỉnh được phân chia trên đồ thị, hoặc cũng có thể là các đỉnh xếp thứ hạng cao về độ quan trọng. Ưu điểm của phương pháp này là không yêu cầu những kiến thức sâu về mặt ngôn ngữ và không cần tập dữ liệu huấn luyện.

Mỗi phương pháp tóm tắt văn bản trình bày trên đây đều có ưu điểm và nhược điểm riêng. Vì vậy, trong thực tế, một hệ thống tóm tắt thường là sự kết hợp của

nhiều phương pháp khác nhau để khai thác các ưu điểm, đồng thời khắc phục các nhược điểm của từng phương pháp để tạo ra một hệ thống tóm tắt hoàn chỉnh nhất.

Một phần của tài liệu Toàn văn luận án Tiếp cận đồ thị biểu diễn , khai thác văn bản và ứng dụng (Trang 35)

Tải bản đầy đủ (PDF)

(162 trang)