Với mục tiờu của đề tài, chương này đó trỡnh bày một số kiến thức cơ sở liờn quan đến đề tài nghiờn cứu như sau:
26
- Tổng quan về bài toỏn túm tắt văn bản và một số vấn đề liờn quan như phõn loại bài toỏn túm tắt văn bản gồm túm tắt đơn văn bản, túm tắt đa văn bản, túm tắt văn bản hướng trớch rỳt, túm tắt văn bản hướng túm lược, cỏc bước thực hiện trong túm tắt văn bản, một số đặc trưng của văn bản thường được sử dụng trong cỏc hệ thống túm tắt văn bản. Cỏc vấn đề này đó mở ra định hướng nghiờn cứu cho luận ỏn.
- Một số phương phỏp đỏnh giỏ văn bản túm tắt tự động. - Cỏc phương phỏp ghộp văn bản trong túm tắt đa văn bản.
- Cỏc phương phỏp túm tắt văn bản hướng trớch rỳt cơ sở được sử dụng để so sỏnh với cỏc mụ hỡnh túm tắt văn bản đề xuất.
- Cuối cựng, luận ỏn giới thiệu và phõn tớch cỏc bộ dữ liệu được sử dụng để thử nghiệm cho cỏc mụ hỡnh túm tắt văn bản đề xuất.
Cỏc kiến thức cơ sở liờn quan trong chương 1 được trỡnh bày trong cỏc cụng trỡnh nghiờn cứu đó cụng bố của luận ỏn. Cỏc kiến thức trỡnh bày trong chương này là cơ sở để đề xuất và phỏt triển cỏc nghiờn cứu của luận ỏn. Trong chương 2, luận ỏn sẽ trỡnh bày cỏc kiến thức nền tảng được sử dụng để phỏt triển cỏc phương phỏp túm tắt văn bản đề xuất.
27
Chương 2. CÁC KIẾN THỨC NỀN TẢNG
Chương này trỡnh bày cỏc kiến thức nền tảng sử dụng để phỏt triển cỏc phương phỏp túm tắt văn bản trong luận ỏn bao gồm cỏc kỹ thuật học sõu cơ sở như mạng Perceptron nhiều lớp, mạng nơ ron tớch chập, mạng nơ ron hồi quy và cỏc biến thể của mạng nơ ron hồi quy, cơ chế chỳ ý, mụ hỡnh Transformer, cỏc mụ hỡnh ngụn ngữ dựa trờn học sõu được huấn luyện trước như phương phỏp word2vec, mụ hỡnh BERT, BERT đa ngụn ngữ, cỏc mụ hỡnh tối ưu của BERT, BERT thu nhỏ để vộc tơ húa văn bản. Chương này cũng trỡnh bày cỏc thuật toỏn được sử dụng trong cỏc mụ hỡnh túm tắt đề xuất như học tăng cường Deep Q-Learning, tỡm kiếm Beam, phương phỏp MMR loại bỏ thụng tin trựng lặp. Những kiến thức trỡnh bày trong chương này là cơ sở cho việc phỏt triển cỏc đề xuất trong cỏc chương tiếp theo.