5 Kết luận và hướng phát triển
2.16 Giải thuật Beam Search[28]
Chương 3
Hướng tiếp cận và mô hình đề xuất Bài toán tóm tắt đa văn bản theo hướng tóm lược gặp phải vấn đề khó khăn nhất là không có lượng dữ liệu chuẩn đủ lớn để có thể huấn luyện một mô hình học sâu tiêu chuẩn. Vấn đề này không chỉ cộng đồng nghiên cứu tại Việt Nam gặp phải đối với dữ liệu tiếng Việt mà còn là khó khăn trong toàn bộ các nhà nghiên cứu khác trên thế giới. Việc khan hiếm dữ liệu cho bài toán tóm tắt đa văn bản xảy ra do quá trình tạo ra bộ dữ liệu này đòi hỏi công sức rất lớn từ những người có kinh nghiệm và như thực tế đã chứng minh rằng chưa hề tồn tại một bộ dữ liệu đủ lớn cho bài toán tóm tắt đa văn bản theo hướng tóm lược. Chính vì vậy, trong chương này, em sẽ đề xuất một mô hình để giải quyết khó khăn về việc khan hiếm dữ liệu này.
3.1 Mô hình đề xuất
Nhận thấy rằng dữ liệu cho bài toán tóm tắt đa văn bản theo hướng tóm lược tiếng Việt chỉ có một vài bộ và với số lượng khá ít về tài liệu. Tuy nhiên, tập dữ liệu cho bài toán tóm tắt đơn văn bản tóm lược lại có rất nhiều và với số lượng tài liệu đủ lớn cho các mô hình học sâu. Với thực tế này, việc xây dựng một mô hình duy nhất cho bài toán tóm tắt đa văn bản tóm lược là không khả thi, trong khi việc xây dựng một mô hình cho tóm tắt đơn văn bản tóm lược lại tương đối khả quan. Nhận thức được tính khả thi này, em quyết định chia nhỏ bài toán của mình ra thành hai mô đun, thay vì trực tiếp xây dựng một mô hình lớn cho bài toán tóm tắt đa văn bản tóm lược thì em sẽ chia nhỏ ra thành hai mô đun chính.
Mô hình đề xuất cho bài toán tóm tắt đa văn bản tóm lược (hình 3.1) được kết hợp từ hai mô hình tóm tắt văn bản mà em sẽ trình bày trong mục 3.2 và 3.3:
Từ hình 3.1, mô hình có thể được mô tả theo luồng dưới đây:
• Bước 1: tập các văn bản đầu vào được gộp thành một văn bản duy nhất.
• Bước 2: văn bản duy nhất này được tiền xử lý để loại bỏ nhiễu.
• Bước 3: véc tơ hóa văn bản đầu vào thành các véc tơ câu để máy tính có thể hiểu được.
• Bước 4: cho các véc tơ câu đã thu được ở trên qua mô hình tóm tắt đa văn bản hướng trích rút để thu được một bản tóm tắt trích rút (chi tiết được trình bày trong mục 3.2).
• Bước 5: bản tóm tắt trích rút ở trên tiếp tục cho qua mô hình tóm tắt đơn văn bản hướng tóm lược để thu được bản tóm tắt tóm lược cuối cùng (chi tiết được trình bày trong mục 3.3).