Chương 2 CÁC KIẾN THỨC NỀN TẢNG
2.6. Kết luận chương 2
Trong chương này, luận án đã trình bày một số kiến thức nền tảng liên quan đến đề tài nghiên cứu như sau:
- Các kỹ thuật học sâu cơ sở được sử dụng để phát triển các mơ hình tóm tắt văn bản hiệu quả. Các kỹ thuật này cho thấy khả năng và thế mạnh của các mơ hình học sâu sử dụng trong bài tốn tóm tắt văn bản.
- Các mơ hình ngơn ngữ dựa trên học sâu được huấn luyện trước như phương pháp word2vec, mơ hình BERT và các phiên bản của mơ hình BERT.
- Các kỹ thuật học tăng cường Deep Q-Learning, tìm kiếm Beam, phương pháp MMR loại bỏ thơng tin trùng lặp trong bản tóm tắt. Các phương pháp này được sử dụng trong các giai đoạn huấn luyện mơ hình, sinh bản tóm tắt và đánh giá chất lượng của bản tóm tắt của các phương pháp tóm tắt văn bản được đề xuất.
Các kiến thức nền tảng liên quan trong chương 2 được trình bày trong các cơng trình nghiên cứu đã cơng bố của luận án. Các kiến thức trình bày trong chương này là cơ sở nền tảng để luận án đề xuất và phát triển các nghiên cứu trong các chương tiếp theo. Trong chương 3, luận án sẽ nghiên cứu và đề xuất phát triển các mơ hình tóm tắt đơn văn bản hướng trích rút áp dụng cho tóm tắt văn bản tiếng Anh và tiếng Việt.
Chương 3. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN HƯỚNG TRÍCH RÚT
Trong chương này, luận án đề xuất phát triển ba mơ hình tóm tắt đơn văn bản hướng trích rút sử dụng các mơ hình học sâu BERT – mơ hình biểu diễn ngơn ngữ huấn luyện trước được sử dụng để sinh các véc tơ biểu diễn cho các câu của văn bản cần tóm tắt. Luận án đề xuất kết hợp mơ hình BERT với mơ hình phân loại sử dụng mạng nơ ron như MLP, CNN, mơ hình seq2seq kết hợp với các đặc trưng của văn bản để dự đoán các câu quan trọng hoặc không quan trọng dựa trên xác suất được chọn của câu. Các câu đầu ra của mơ hình phân loại tiếp tục được đánh giá, loại bỏ trùng lặp sử dụng các đặc trưng của văn bản và phương pháp MMR để lựa chọn câu đưa vào bản tóm tắt. Hai mơ hình được xây dựng dựa trên các ý tưởng trên được đặt tên là RoPhoBERT_MLP_ESDS và mBERT_CNN_ESDS. Bên cạnh hai mơ hình trên, luận án đề xuất một phương pháp kết hợp kỹ thuật học tăng cường Deep Q- Learning vào mơ hình tóm tắt văn bản sử dụng kỹ thuật học sâu để tối ưu hàm mục tiêu trong quá trình huấn luyện. Mơ hình này có tên là mBERT-
Tiny_seq2seq_DeepQL_ESDS. Ba mơ hình tóm tắt đề xuất được thử nghiệm trên
các bộ dữ liệu CNN/Daily Mail cho tóm tắt văn bản tiếng Anh và Baomoi cho tóm tắt văn bản tiếng Việt.