Kết luận chương 3

Trong chương này, luận ỏn đó đề xuất phỏt triển ba mụ hỡnh túm tắt đơn văn bản hướng trớch rỳt ỏp dụng hiệu quả cho túm tắt văn bản tiếng Anh và tiếng Việt sử

dụng cỏc kỹ thuật học sõu kết hợp với cỏc kỹ thuật hiệu quả khỏc trong túm tắt văn bản. Cỏc kết quả đạt được cụ thể như sau:

 Mụ hỡnh túm tắt RoPhoBERT_MLP_ESDS:

- Vộc tơ húa văn bản đầu vào sử dụng cỏc mụ hỡnh tối ưu RoBERTa (tiếng Anh), PhoBERT (tiếng Việt) làm đầu vào cho mụ hỡnh phõn loại sử dụng MLP. - Kết hợp đặc trưng vị trớ cõu vào mụ hỡnh túm tắt.

- Cải tiến phương phỏp MMR và sử dụng để lựa chọn cõu đưa vào bản túm tắt. - Thử nghiệm và đỏnh giỏ kết quả mụ hỡnh đề xuất RoPhoBERT_MLP_ESDS cho túm tắt đơn văn bản tiếng Anh, tiếng Việt trờn bộ dữ liệu CNN, Baomoi tương ứng.

 Mụ hỡnh túm tắt mBERT_CNN_ESDS:

- Vộc tơ húa văn bản đầu vào sử dụng mụ hỡnh BERT đa ngụn ngữ được huấn luyện trước.

- Đề xuất và tinh chỉnh mạng CNN sử dụng một hàm kớch hoạt mới để trớch chọn cỏc đặc trưng của cõu.

- Đề xuất mụ hỡnh seq2seq với bộ mó húa và bộ giải mó sử dụng mạng biLSTM 2 chiều để liờn kết ngữ cảnh của cỏc cõu trong văn bản.

- Kết hợp đặc trưng TF-IDF vào mụ hỡnh.

- Đề xuất sử dụng một lớp kết nối đầy đủ FC với hàm kớch hoạt softmax để phõn loại cỏc cõu được chọn đưa vào bản túm tắt.

- Sử dụng phương phỏp MMR để loại bỏ thụng tin dư thừa cho bản túm tắt. - Thử nghiệm và đỏnh giỏ kết quả mụ hỡnh đề xuất mBERT_CNN_ESDS cho túm tắt đơn văn bản tiếng Anh, tiếng Việt trờn bộ dữ liệu CNN, Baomoi tương ứng.

 Mụ hỡnh túm tắt mBERT-Tiny_seq2seq_DeepQL_ESDS:

- Vộc tơ húa văn bản đầu vào sử dụng mụ hỡnh BERT-Tiny cho tiếng Anh và mụ hỡnh mBERT cho tiếng Việt.

- Đề xuất sử dụng mạng CNN để trớch rỳt đặc trưng của văn bản để trớch xuất cỏc đặc trưng của cõu.

- Đề xuất mụ hỡnh seq2seq với bộ mó húa sử dụng mạng biGRU để mó húa văn bản và bộ giải mó sử dụng mạng GRU để trớch rỳt cõu.

- Đề xuất sử dụng mạng FC với hàm kớch hoạt softmax để phõn loại cỏc cõu được chọn đưa vào bản túm.

- Huấn luyện bộ trớch rỳt cõu sử dụng kỹ thuật học tăng cường Deep Q-Learing để tăng hiệu quả cho mụ hỡnh tớnh xỏc suất được chọn của cõu.

- Sử dụng phương phỏp MMR để loại bỏ thụng tin dư thừa cho bản túm tắt. - Thử nghiệm và đỏnh giỏ kết quả mụ hỡnh đề xuất mBERT- Tiny_seq2seq_DeepQL_ESDS cho túm tắt đơn văn bản tiếng Anh, tiếng Việt trờn bộ dữ liệu CNN, Baomoi tương ứng.

Cỏc kết quả đạt được của chương đó được cụng bố trong cỏc cụng trỡnh [CT3], [CT4], [CT5]. Trong chương tiếp theo, luận ỏn sẽ nghiờn cứu đề xuất mụ hỡnh túm tắt đơn văn bản hướng túm lược cho văn bản tiếng Anh và tiếng Việt.

Chương 4. PHÁT TRIỂN PHƯƠNG PHÁP TểM TẮT ĐƠN VĂN BẢN HƯỚNG TểM LƯỢC

Cỏc kỹ thuật học sõu đó đạt được hiệu quả cao trong cỏc nhiệm vụ xử lý ngụn ngữ tự nhiờn khi dữ liệu mẫu sẵn cú lớn. Tuy nhiờn, trong bài toỏn túm tắt văn bản hướng túm lược, một vấn đề khú khăn gặp phải là dữ liệu mẫu sẵn cú khụng đủ lớn để cú thể huấn luyện mụ hỡnh học sõu hiệu quả. Việc thiếu dữ liệu này chủ yếu do quỏ trỡnh tạo ra cỏc bộ dữ liệu đũi hỏi phải tiờu tốn nhiều cụng sức từ những chuyờn gia cú kinh nghiệm, chuyờn mụn sõu trong lĩnh vực và thực tế cho thấy hiện nay chưa cú một bộ dữ liệu nào đủ lớn để đỏp ứng hiệu quả cho bài toỏn túm tắt văn bản theo hướng túm lược. Vấn đề này gõy ra khú khăn đối với cỏc nghiờn cứu trờn thế giới núi chung và cỏc nghiờn cứu tại Việt Nam núi riờng. Tuy nhiờn, yờu cầu đặt ra đối với cỏc hệ thống túm tắt văn bản là vẫn phải phải đạt được hiệu quả cao. Để giải quyết vấn đề này, trong chương này luận ỏn đề xuất một phương phỏp túm tắt đơn văn bản hướng túm lược sử dụng cỏc mụ hỡnh học sõu cú thể ỏp dụng hiệu quả cho túm tắt văn bản, đú là mụ hỡnh PG_Feature_ASDS. Mụ hỡnh đề xuất được thử nghiệm trờn cỏc bộ dữ liệu CNN/Daily Mail cho túm tắt văn bản tiếng Anh và Baomoi cho túm tắt văn bản tiếng Việt.

4.1. Giới thiệu bài toỏn và hướng tiếp cận

Túm tắt đơn văn bản hướng túm lược sinh ra một văn bản túm tắt ngắn gọn, cụ đọng, nắm bắt được nội dung chớnh của văn bản nguồn. Để sinh bản túm tắt, túm tắt hướng túm lược thực hiện viết lại và nộn văn bản nguồn (tương tự như cỏch con người túm tắt văn bản) thay vỡ lựa chọn cỏc cõu quan trọng từ văn bản đầu vào như trong túm tắt đơn văn bản hướng trớch rỳt.

Bài toỏn túm tắt đơn văn bản hướng túm lược được phỏt biểu như sau: Cho một văn bản D gồm N cõu được biểu diễn là D( , ,..., ,....,s s1 2 si sN) với i 1,N, si là cõu thứ i trong văn bản hay văn bản được biểu diễn dưới dạng

1 2

( , ,..., ,...., )

 i J

X x x x x ; trong đú: xi là từ thứ i trong văn bản, J là số lượng từ của văn bản. Nhiệm vụ của bài toỏn túm tắt đơn văn bản hướng túm lược là sinh ra bản túm tắt gồm T từ được biểu diễn là Y ( ,y y1 2,...,yj,....,yT) (với j 1,T) biểu diễn nội dung chớnh của văn bản X (T < J), trong đú: yj là cỏc từ cú thể thuộc văn bản nguồn (yjX) hoặc khụng thuộc văn bản nguồn (yjX ) khi đú nú sẽ thuộc bộ từ vựng.

Luận ỏn tiếp cận theo hướng đưa bài toỏn túm tắt đơn văn bản hướng túm lược về bài toỏn sinh văn bản. Ở mỗi bước, một mụ hỡnh sẽ sinh ra 1 từ dựa vào cỏc từ đó được sinh ra trước đú. Với văn bản đầu vào X ( ,x x1 2,..., ,....,xi xJ), mụ hỡnh sẽ ước lượng xỏc suất cú điều kiện p y y( ,1 2,....,yT |x x1, 2,....,xJ) với: x x1, 2,....,xJ là

cỏc từ trong chuỗi đầu vào và y y1, 2,....,yT là cỏc từ của chuỗi đầu ra tương ứng, được tớnh theo cụng thức: 1 2 1 2 1 2 1 1 ( , ,...., | , ,...., ) ( | , , , ,...., )  T T J t t t p y y y x x x p y v y y y (4.1) trong đú:

+ θ là tập tham số của mụ hỡnh cần xõy dựng.

+ v là trạng thỏi ẩn đại diện cho chuỗi từ đầu vào x x1, 2,....,xJ.

+ p y( t | , , , v y y1 2,....,yt1) là phõn bố xỏc suất của cỏc từ trong bộ từ vựng ở bước t.

Sau đú, từ tập cỏc phõn bố xỏc suất này kết hợp với chiến lược tỡm kiếm để sinh ra bản túm tắt túm lược cuối cựng (trong luận ỏn sử dụng kỹ thuật tỡm kiếm Beam).

Mục tiờu đặt ra là đi xõy dựng và huấn luyện mụ hỡnh để tỡm tập tham số  sao cho xỏc suất p y( t | , , ,  y y1 2,....,yt1) lớn nhất với yt Y tại bước t. Điều này tương đương với việc tối thiểu húa hàm mất mỏt cross - entropy:

1 2 1 1 ( ) log ( | , ,  , ,....,  )   T t t t L p y y y y (4.2) Cỏc nghiờn cứu gần đõy thường sử dụng mụ hỡnh seq2seq để phỏt triển cỏc mụ hỡnh giải quyết vấn đề này nhằm xõy dựng cỏc hệ thống túm tắt văn bản hướng túm lược hiệu quả. Rush và cộng sự [115] đó ỏp dụng mụ hỡnh seq2seq với bộ mó húa sử dụng mạng CNN kết hợp với cơ chế chỳ ý theo ngữ cảnh để sinh ra bản túm tắt túm lược. Nallapati và cộng sự [128] đó sử dụng mạng seq2seq với cơ chế chỳ ý để sinh bản túm tắt dài hơn. Gu và cộng sự [130] đề xuất một mạng CopyNet dựa trờn mạng sinh từ - sao chộp từ (Pointer - Generator) [131] để khắc phục vấn đề thiếu từ trong bộ từ vựng để sinh bản túm tắt. Bằng việc sử dụng mạng Pointer - Generator [131] và cơ chế phõn tỏn [132], See và cộng sự [43] đó cải tiến mạng trong [128] để tạo ra một hệ thống túm tắt tốt hơn để giải quyết vấn đề thiếu từ trong bộ từ vựng và lỗi lặp từ để sinh bản túm tắt túm lược. Tuy nhiờn, kiến trỳc ban đầu của mụ hỡnh seq2seq nhận văn bản đầu vào ngắn vỡ seq2seq là "bộ nhớ ngắn hạn", nghĩa là mụ hỡnh thường xử lý cỏc cõu "gần" nhưng lại "quờn" cỏc cõu ở xa hơn. Do đú, hầu hết cỏc mụ hỡnh túm tắt văn bản sử dụng mụ hỡnh seq2seq này cú xu hướng bỏ qua phần đầu của văn bản nếu văn bản đầu vào dài. Đõy là thỏch thức đặt ra đối với cỏc mụ hỡnh túm tắt mà mục tiờu xử lý là cỏc bài bỏo với cỏc thụng tin quan trọng thường nằm ở phần đầu của bài bỏo.

Trong chương này, luận ỏn đề xuất phỏt triển một mụ hỡnh túm tắt đơn văn bản hướng túm lược cú thể xem xột toàn bộ văn bản đầu vào và sinh ra một bản túm tắt gồm nhiều cõu. Dựa trờn mụ hỡnh túm tắt hướng túm lược cơ sở [128] - mụ hỡnh sử dụng mụ hỡnh seq2seq cú bộ mó húa sử dụng mạng biLSTM và bộ giải mó sử dụng mạng LSTM với cơ chế chỳ ý; cơ chế sao chộp từ - sinh từ và cơ chế bao phủ (Coverage) [43], luận ỏn nghiờn cứu cải tiến mụ hỡnh bằng việc đề xuất thờm cỏc đặc trưng vị trớ cõu (POSI) và tần suất xuất hiện của từ (TF) trong văn bản cho mụ hỡnh. Mụ hỡnh đề xuất được thử nghiệm và đỏnh giỏ trờn hai bộ dữ liệu CNN/Daily Mail cho túm tắt văn bản tiếng Anh và Baomoi cho túm tắt văn bản tiếng Việt. Cỏc thử nghiệm cho thấy mụ hỡnh đề xuất cho kết quả tốt hơn so với mụ hỡnh cơ sở và cỏc phương phỏp hiện cú trờn cựng cỏc bộ dữ liệu thử nghiệm.

Sau đõy, luận ỏn sẽ trỡnh bày và phõn tớch mụ hỡnh của Nallapati và cộng sự [128], được sử dụng làm mụ hỡnh cơ sở để phỏt triển mụ hỡnh túm tắt đề xuất. Sau đú, sẽ trỡnh bày hai cơ chế sử dụng trong [43] để khắc phục cỏc điểm yếu của mụ hỡnh cơ sở [128]. Cuối cựng, luận ỏn đề xuất giải phỏp giải quyết điểm yếu của mụ hỡnh trong [43] để nõng cao hiệu quả cho mụ hỡnh túm tắt.

Cỏc bộ dữ liệu văn bản tiếng Việt

Cỏc biến thể của RNN