Chương 2 CÁC KIẾN THỨC NỀN TẢNG
2.6. Kết luận chương 2
Trong chương này, luận ỏn đó trỡnh bày một số kiến thức nền tảng liờn quan đến đề tài nghiờn cứu như sau:
- Cỏc kỹ thuật học sõu cơ sở được sử dụng để phỏt triển cỏc mụ hỡnh túm tắt văn bản hiệu quả. Cỏc kỹ thuật này cho thấy khả năng và thế mạnh của cỏc mụ hỡnh học sõu sử dụng trong bài toỏn túm tắt văn bản.
- Cỏc mụ hỡnh ngụn ngữ dựa trờn học sõu được huấn luyện trước như phương phỏp word2vec, mụ hỡnh BERT và cỏc phiờn bản của mụ hỡnh BERT.
- Cỏc kỹ thuật học tăng cường Deep Q-Learning, tỡm kiếm Beam, phương phỏp MMR loại bỏ thụng tin trựng lặp trong bản túm tắt. Cỏc phương phỏp này được sử dụng trong cỏc giai đoạn huấn luyện mụ hỡnh, sinh bản túm tắt và đỏnh giỏ chất lượng của bản túm tắt của cỏc phương phỏp túm tắt văn bản được đề xuất.
Cỏc kiến thức nền tảng liờn quan trong chương 2 được trỡnh bày trong cỏc cụng trỡnh nghiờn cứu đó cụng bố của luận ỏn. Cỏc kiến thức trỡnh bày trong chương này là cơ sở nền tảng để luận ỏn đề xuất và phỏt triển cỏc nghiờn cứu trong cỏc chương tiếp theo. Trong chương 3, luận ỏn sẽ nghiờn cứu và đề xuất phỏt triển cỏc mụ hỡnh túm tắt đơn văn bản hướng trớch rỳt ỏp dụng cho túm tắt văn bản tiếng Anh và tiếng Việt.
Chương 3. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TểM TẮT ĐƠN VĂN BẢN HƯỚNG TRÍCH RÚT
Trong chương này, luận ỏn đề xuất phỏt triển ba mụ hỡnh túm tắt đơn văn bản hướng trớch rỳt sử dụng cỏc mụ hỡnh học sõu BERT – mụ hỡnh biểu diễn ngụn ngữ huấn luyện trước được sử dụng để sinh cỏc vộc tơ biểu diễn cho cỏc cõu của văn bản cần túm tắt. Luận ỏn đề xuất kết hợp mụ hỡnh BERT với mụ hỡnh phõn loại sử dụng mạng nơ ron như MLP, CNN, mụ hỡnh seq2seq kết hợp với cỏc đặc trưng của văn bản để dự đoỏn cỏc cõu quan trọng hoặc khụng quan trọng dựa trờn xỏc suất được chọn của cõu. Cỏc cõu đầu ra của mụ hỡnh phõn loại tiếp tục được đỏnh giỏ, loại bỏ trựng lặp sử dụng cỏc đặc trưng của văn bản và phương phỏp MMR để lựa chọn cõu đưa vào bản túm tắt. Hai mụ hỡnh được xõy dựng dựa trờn cỏc ý tưởng trờn được đặt tờn là RoPhoBERT_MLP_ESDS và mBERT_CNN_ESDS. Bờn cạnh hai mụ hỡnh
trờn, luận ỏn đề xuất một phương phỏp kết hợp kỹ thuật học tăng cường Deep Q- Learning vào mụ hỡnh túm tắt văn bản sử dụng kỹ thuật học sõu để tối ưu hàm mục tiờu trong quỏ trỡnh huấn luyện. Mụ hỡnh này cú tờn là mBERT- Tiny_seq2seq_DeepQL_ESDS. Ba mụ hỡnh túm tắt đề xuất được thử nghiệm trờn
cỏc bộ dữ liệu CNN/Daily Mail cho túm tắt văn bản tiếng Anh và Baomoi cho túm tắt văn bản tiếng Việt.