5 Kết luận và hướng phát triển
3.1 Mô hình tóm tắt đa văn bản tóm lược
3.2 Mô hình tóm tắt đa văn bản theo hướng trích rútBài toán tóm tắt đa trích rút tiến hành chọn ra chỉ những câu quan trọng để tạo ra Bài toán tóm tắt đa trích rút tiến hành chọn ra chỉ những câu quan trọng để tạo ra một bản tóm tắt ngắn ngọn nhưng vẫn bao gồm nội dung chính của tập tài liệu đầu vào. Ngoài ra, với đặc điểm của một bài toán tóm tắt đa văn bản đã đề cập ở chương 1, mục tiêu của mô hình tóm tắt đa trích rút trong phạm vi luận văn này cần tránh được sự chồng chéo thông tin giữa các tài liệu đầu vào với nhau. Cùng với đó, độ dài bản tóm tắt đầu ra cũng là một vấn đề sẽ được giải quyết trong phần này.
3.2.1 Hướng tiếp cận cho mô hình tóm tắt đa văn bản trích rútĐể giải quyết bài toán tóm tắt đa văn bản theo hướng trích rút, có hai hướng tiếp cận Để giải quyết bài toán tóm tắt đa văn bản theo hướng trích rút, có hai hướng tiếp cận thường được cộng đồng nghiên cứu sử dụng là:
• Hướng tiếp cận thứ nhất: tiến hành tóm tắt từng tài liệu một cách độc lập, rồi sau đó các bản tóm tắt đầu ra được kết hợp lại với nhau để thu được bản tóm tắt cuối cùng.
• Hướng tiếp cận thứ hai: biến tập tài liệu đầu vào thành một tài liệu duy nhất bằng cách nối các tài liệu đầu vào lại với nhau. Sau đó, bài toán tóm tắt đa văn bản trở thành bài toán tóm tắt đơn văn bản.
Các tài liệu đầu vào với những thông tin khác nhau là rất khó nắm bắt khi thực hiện cách tiếp cận đầu tiên. Trong khi kết hợp các tài liệu với nhau thì có thể giải quyết được
nhược điểm này. Với lý do này, mô hình cho bài toán tóm tắt đa trích rút trong phạm vi luận văn này sử dụng cách tiếp cận thứ hai.
Trong phạm vi luận văn này, ý tưởng chung của hệ thống tóm tắt đa văn bản trích rút có thể được bắt đầu từ mô hình đơn giản sau: