5 Kết luận và hướng phát triển
3.2 Mô hình cơ sở cho bài toán tóm tắt đa trích rút[19]
Từ hình 3.2, ta có:
• Phần đầu tiên: biến dữ liệu đầu vào thành các véc tơ đặc trưng (trích chọn đặc trưng). + Bước một: một tài liệu đầu vào được tạo bằng cách nối các tài liệu đầu vào lại với nhau.
+ Bước hai: loại bỏ các ký tự đặc biệt, lấy gốc từ (cho tiếng Anh), tách từ (cho tiếng Việt), tách câu,. . . Biến các câu đã tách thành các véc tơ đặc trưng.
• Phần thứ hai: tập các véc tơ câu được lấy làm đầu vào cho mô hình tóm tắt đa văn bản trích rút để tạo nên bản tóm tắt.
Chi tiết phần thứ hai của mô hình sẽ được em trình bày trong các phần tiếp theo. 3.2.2 K-means sử dụng vị trí tương đối
Như đã trình bày trong mục 3.2.1, đầu vào của mô hình tóm tắt đa văn bản trích rút là một tập các véc tơ của các câu. Với giả định rằng các câu trong tập tài liệu có thể mang những thông tin tương tự với nhau. Với ý tưởng này, rõ ràng là các câu này có thể được phân về từng cụm sao cho mỗi cụm chứa những câu "tương đồng" với nhau. Mặt khác, tập dữ liệu cho bài toán tóm tắt đa văn bản là rất hạn chế về mặt số lượng, chính vì vậy việc áp dụng một mô hình học không giám sát là một lựa chọn khả quan.
Từ các lý do này, em áp dụng K-means cho việc phân cụm các câu đầu vào vì K-means là một trong những phương pháp phân cụm đơn giản nhưng cho ra hiệu suất tốt nhất, đặc biệt K-means cũng là thuật toán học không giám sát nên rất phù hợp cho bài toán này.