5 Kết luận và hướng phát triển
3.5 Mô hình tóm tắt đa văn bản sử dụng K-means kết hợp Position[19]
Qua khảo sát thực tế trong các tập dữ liệu sử dụng, em thấy rằng đa phần các tài liệu đều được viết theo cách thức diễn dịch. Tức là phần chủ đề đứng ở đầu tài liệu, các câu còn lại của tài liệu giúp triển khai rõ ràng ý nghĩa của câu chủ đề. Với đặc điểm này, các câu sẽ được xếp hạng theo thứ tự tăng dần trọng sốPositon. Hay nói cách khác, các câu nằm ở phần đầu của các tài liệu đầu vào sẽ có khả năng cao hơn được chọn để đưa vào bản tóm tắt.
Cùng với đó, đặc trưng Position cũng giúp bản tóm tắt đầu ra có một trình tự thời gian hợp lý hơn. Vì khi một tài liệu có nhiều câu được chọn để đưa vào bản tóm tắt thì rõ ràng những câu này sẽ được đưa vào bản tóm tắt theo đúng thứ tự như trong tài liệu gốc.
3.2.4 K-means kết hợp MMR và Position
Như đã đề cập trong mục 3.2.2, khi sử dụng phân cụm K-means cho bài toán tóm tắt rõ ràng là ta cần cố định số lượng cụm được khởi tạo ban đầu để lựa chọn chính xác số câu đó cho bản tóm tắt. Nhưng như vậy, với số lượng cụm là khá nhỏ thường làm cho kết quả của phân cụm K-means bị hạn chế bởi vì khi mà số lượng cụm nhỏ thì các câu trong cùng một cụm có thể có những điểm khác nhau nhưng vẫn sẽ bị nhóm chung vào một cụm. Từ đó rõ ràng ta cần tăng số lượng cụm lên để giải quyết vấn đề này.
Mặt khác, khi số lượng cụm tăng lên thì ta phải đối mặt với một bài toán khác là chỉ nên lựa chọn những câu từ cụm nào. Để tránh chồng chéo thông tin thì việc loại bỏ đi những câu tương tự nhất với các câu đã được lựa chọn để đưa vào bản tóm tắt là cách đơn giản nhất. Với những lợi thế của phương pháp MMR đã trình bày trong mục 2.3.4, em quyết định lựa chọn phương pháp MMR nhằm giải quyết hạn chế này. Như vậy, mô hình cho bài toán tóm tắt đa văn bản trích rút được biểu diễn lại qua hình 3.6: