Kết luận chuong 2

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 66)

Trong chuong này, luận ỏn dó trỡnh bày một số kiến thức nền tảng liờn quan dến dề tài nghiờn cứu nhu sau:

- Cỏc kỹ thuật học sõu co sở duợc sử dụng dể phỏt triển cỏc mụ hỡnh túm tắt van bản hiệu quả. Cỏc kỹ thuật này cho thấy khả nang và thế mạnh của cỏc mụ hỡnh học sõu sử dụng trong bài toỏn túm tắt van bản.

- Cỏc mụ hỡnh ngụn ngữ dựa trờn học sõu duợc huấn luyện truớc nhu phuong phỏp word2vec, mụ hỡnh BERT và cỏc phiờn bản của mụ hỡnh BERT.

- Cỏc kỹ thuật học tang cuờng Deep Q-Learning, tỡm kiếm Beam, phuong phỏp MMR loại bỏ thụng tin trựng lặp trong bản túm tắt. Cỏc phuong phỏp này duợc sử dụng trong cỏc giai doạn huấn luyện mụ hỡnh, sinh bản túm tắt và dỏnh giỏ chất luợng của bản túm tắt của cỏc phuong phỏp túm tắt van bản duợc dề xuất.

Cỏc kiến thức nền tảng liờn quan trong chuong 2 duợc trỡnh bày trong cỏc cụng trỡnh nghiờn cứu dó cụng bố của luận ỏn. Cỏc kiến thức trỡnh bày trong chuong này là co sở nền tảng dể luận ỏn dề xuất và phỏt triển cỏc nghiờn cứu trong cỏc chuong tiếp theo. Trong chuong 3, luận ỏn sẽ nghiờn cứu và dề xuất phỏt triển cỏc mụ hỡnh túm tắt don van bản huớng trớch rỳt ỏp dụng cho túm tắt van bản tiếng Anh và tiếng Việt.

Chuong 3. PHÁT TRIỂN CÁC PHUONG PHÁP TểM TẮT ĐON VAN BẢN HUỚNG TRÍCH RÚT

Trong chuong này, luận ỏn dề xuất phỏt triển ba mụ hỡnh túm tắt don van bản huớng trớch rỳt sử dụng cỏc mụ hỡnh học sõu BERT – mụ hỡnh biểu diễn ngụn ngữ huấn luyện truớc duợc sử dụng dể sinh cỏc vộc to biểu diễn cho cỏc cõu của van bản cần túm tắt. Luận ỏn dề xuất kết hợp mụ hỡnh BERT với mụ hỡnh phõn loại sử dụng mạng no ron nhu MLP, CNN, mụ hỡnh seq2seq kết hợp với cỏc dặc trung của van bản dể dự doỏn cỏc cõu quan trọng hoặc khụng quan trọng dựa trờn xỏc suất duợc chọn của cõu. Cỏc cõu dầu ra của mụ hỡnh phõn loại tiếp tục duợc dỏnh giỏ, loại bỏ trựng lặp sử dụng cỏc dặc trung của van bản và phuong phỏp MMR dể lựa chọn cõu dua vào bản túm tắt. Hai mụ hỡnh duợc xõy dựng dựa trờn cỏc ý tuởng trờn duợc dặt tờn là RoPhoBERT_MLP_ESDS

mBERT_CNN_ESDS. Bờn cạnh hai mụ hỡnh trờn, luận ỏn dề xuất một phuong phỏp kết hợp kỹ thuật học tang cuờng Deep Q- Learning vào mụ hỡnh túm tắt van bản sử dụng kỹ thuật học sõu dể tối uu hàm mục tiờu

trong quỏ trỡnh huấn luyện. Mụ hỡnh này cú tờn là mBERT-

Tiny_seq2seq_DeepQL_ESDS. Ba mụ hỡnh túm tắt dề xuất duợc thử nghiệm trờn cỏc bộ dữ liệu CNN/Daily Mail cho túm tắt van bản tiếng Anh và Baomoi cho túm

tắt van bản tiếng Việt.

3.1. Giới thiệu bài toỏn và huớng tiếp cận

Túm tắt don van bản huớng trớch rỳt tạo bản túm tắt bằng cỏch trớch xuất ra những cõu quan trọng, mang dầy dủ thụng tin của van bản nguồn. Bản túm tắt cần

ngắn gọn, cụ dọng và cung cấp cỏc thụng tin phự hợp nhất, giỳp con nguời nắm bắt duợc nội dung của van bản mà khụng cần phải dọc nú.

Bài toỏn túm tắt don van bản huớng trớch rỳt duợc phỏt biểu nhu sau: Cho một van bản D duợc biểu diễn là D =( , ,..., ,s s 1 2 s i ...., )sN , trong dú i =1,N , s i là cõu thứ i trong van bản, N là số cõu của van bản (hay dộ dài của van bản). Nhiệm vụ của bài toỏn túm tắt don van bản huớng trớch rỳt là tạo ra một bản túm tắt S gồm o M cõu

1 2 ( , ,..., , ...., ) = o o o o o i M S s s s s , trong dú: o∈ =, 1,M i

s D i biểu diễn nội dung chớnh của van bản (M < N).

Luận ỏn tiếp cận theo huớng xem bài toỏn túm tắt don van bản huớng trớch rỳt nhu bài toỏn phõn loại van bản. Với mỗi cõu ∈ s D i , sẽ dự doỏn nhón yi∈{0,1} với: nhón “1” biểu diễn cõu

o i

s S ( sithuộc van bản túm tắt dầu ra), nhón “0” biểu diễn cõu

o i

s S. Gọi p y s D( | , , )i i θ là xỏc suất chọn nhón y i với diều kiện dầu vào

i

s D và θ là tập tham số của mụ hỡnh cần xõy dựng. Mụ hỡnh duợc huấn luyện dể uớc luợng xỏc suất ( | , , )p y s Di i θ thỏa món diều kiện nếu cõu s i cú dộ tuong quan với van bản D lớn hon dộ tuong quan của cõu s với van bản j D thỡ

(1| , , ) i θ > (1| , , )j θ

này duợc xõy dựng dựa trờn mạng no ron nhõn tạo. Sau dú, bản túm tắt 1 2 ( , ,..., , ...., ) = o o o o o i M

S s s s s duợc tạo ra bằng việc chọn tập gồm M cõu cú diểm MMR cao

nhất duợc tớnh toỏn dựa trờn xỏc suất (1| , , )p s Di θ .

Mục tiờu dặt ra là xõy dựng và huấn luyện mụ hỡnh dể tỡm θ sao cho xỏc suất (1| , , )i θ

p s D lớn nhất với

o i

s S. Điều này tuong duong với việc tối thiểu húa hàm mất mỏt cross - entropy sau:

1 ( ) θ log ( | , , ) θ = = −∑N i i i L p y s D (3.1)

Cỏc nghiờn cứu gần dõy thuờng sử dụng cỏc kỹ thuật học sõu dể phỏt triển cỏc mụ hỡnh giải quyết vấn dề này nhằm xõy dựng cỏc hệ thống túm tắt van bản cú dộ chớnh xỏc cao. Tuy nhiờn, vấn dề biểu diễn van bản dầu vào là một yếu tố quan trọng quyết dịnh hiệu quả của cỏc mụ hỡnh túm tắt van bản.

Trong cỏc mụ hỡnh biểu diễn van bản, BERT là mụ hỡnh hiệu quả nhất do nú dựa trờn mụ hỡnh học thụng tin 2 chiều và co chế chỳ ý của Transformer. Cỏc mụ hỡnh BERT huấn luyện truớc (pre-trained BERT) [102] duợc huấn luyện với cỏc tập ngữ liệu lớn của ngụn ngữ, cho phộp học ra duợc mụ hỡnh ngụn ngữ một cỏch chớnh xỏc nhất. Trờn co sở dú, cỏc ứng dụng xử lý ngụn ngữ dựa trờn học sõu khụng cần phải huấn luyện lại với bộ ngữ liệu lớn nữa mà cú thể tận dụng mụ hỡnh BERT huấn luyện truớc dể dua ra biểu diễn giàu thụng tin nhất của van bản dầu vào. Cỏc mụ hỡnh túm tắt van bản dựa trờn học sõu khi sử dụng BERT dể biểu diễn van bản dầu vào dều dem lại hiệu quả cao nhu

[117,118,119]. Vỡ lý do dú, BERT cung duợc sử dụng trong cỏc mụ hỡnh dề xuất dể vộc to húa van bản.

Một vấn dề dặt ra với cỏc mụ hỡnh túm tắt trớch rỳt là việc trựng lặp cõu trong bản túm tắt. Lý do là khi một cõu duợc xỏc dịnh là quan trọng thỡ cõu cú nội dung tuong tự với nú cung là cõu quan trọng. Vỡ vậy, mụ hỡnh cần cú co chế loại bỏ cõu trựng lặp. Phuong phỏp MMR duợc sử dụng dể loại bỏ thụng tin trựng lặp và lựa chọn cõu dua vào bản túm tắt.

Do dú, luận ỏn dề xuất khung xử lý chung cho cỏc mụ hỡnh túm tắt don van bản huớng trớch rỳt bao gồm cỏc mụ dun sau:

Hỡnh 3.1. Khung xử lý chung cho cỏc mụ hỡnh túm tắt don van bản huớng trớch rỳt dề xuất

Trong chuong này, luận ỏn sẽ phỏt triển ba mụ hỡnh phõn loại dựa trờn cỏc kỹ thuật học sõu khỏc nhau, dể từ dú phỏt triển ba mụ hỡnh túm tắt don van bản huớng trớch rỳt tuong ứng. Cỏc mụ hỡnh dú duợc trỡnh bày chi tiết trong cỏc phần duới dõy.

3.2. Mụ hỡnh túm tắt don van bản huớng trớch rỳt RoPhoBERT_MLP_ESDS

3.2.1. Giới thiệu mụ hỡnh

Cỏc cỏch tiếp cận học mỏy và học sõu thuờng quy bài toỏn túm tắt don van bản huớng trớch rỳt về bài toỏn phõn loại cõu với cõu cú nhón 1 là cõu duợc dua vào bản túm tắt và 0 nếu nguợc lại. Vỡ vậy, việc xỏc dịnh tập dặc trung của cõu trong bài toỏn này dúng vai trũ quan trọng. Cỏc cỏch tiếp cận học sõu giải quyết bài toỏn này bằng cỏch vộc to húa cỏc cõu của van bản dầu vào dựa trờn một mụ hỡnh ngụn ngữ dó duợc huấn luyện truớc nào dú; sau dú sử dụng cỏc mụ hỡnh học sõu phự hợp dể trớch ra duợc cỏc dặc trung cõu. Một mụ hỡnh ngụn ngữ duợc huấn luyện truớc trờn tập ngữ liệu lớn cỏc van bản trờn một ngụn ngữ cho phộp hiểu duợc ngữ nghia của từ và biểu diễn từ trong khụng gian vộc to ngữ nghia của ngụn ngữ dú. Hai mụ hỡnh ngụn ngữ sử dụng phổ biến hiện nay là word2vec và BERT. Nhuợc diểm của cỏc mụ hỡnh huấn luyện dựa trờn word2vec là cú thể sinh ra vộc to biểu diễn ngữ nghia cho một từ dầu vào mà khụng phụ thuộc dến ngữ cảnh xuất hiện từ dú. Vỡ một từ khi xuất hiện trong ngữ cảnh khỏc nhau cú thể cú nghia khỏc nhau nờn cỏch tiếp cận trờn cú thể dua ra cỏch biểu diễn từ khụng chớnh xỏc, dẫn dến ảnh huởng dến kết quả túm tắt của hệ thống. Trong khi dú, mụ hỡnh BERT khụng sinh ra vộc to ngữ nghia của một từ dứng dộc lập mà chỉ sinh ra vộc to ngữ nghia của cõu, dựa trờn việc học mối liờn hệ hai chiều giữa cỏc từ trong cõu dú. Vỡ vậy, vộc to ngữ nghia của cõu duợc sinh ra bởi mụ hỡnh BERT sẽ cú dộ tin cậy cao hon so với khi sử dụng word2vec. Trong cỏc ứng dụng về xử lý ngụn ngữ tự nhiờn, việc sử dụng BERT thuờng dem lại kết quả vuợt trội so với cỏc cỏch tiếp cận khỏc. Vỡ vậy luận ỏn sử dụng cỏc mụ hỡnh tối uu của BERT dể biểu diễn cõu dầu vào trong cỏc mụ hỡnh túm tắt van bản bao gồm mụ hỡnh RoBERTa [106] cho tiếng Anh và mụ hỡnh PhoBERT [110] cho tiếng Việt.

Với mụ hỡnh túm tắt van bản, vộc to dặc trung của cỏc cõu dầu vào này cần di qua một bộ phõn loại dể xỏc dịnh cỏc cõu quan trọng. Phuong phỏp SVM và MLP là cỏc phuong phỏp phõn loại dựa trờn học mỏy dạt hiệu quả cao. Do MLP thuờng duợc sử dụng với dầu vào là vộc to cú kớch thuớc lớn, khỏ phự hợp với dầu vào là vộc to dặc trung cõu núi trờn nờn mụ hỡnh dề xuất sử dụng MLP trong bài toỏn này. Một vấn dề cú thể xảy ra với kết quả dầu ra của bộ phõn loại trờn là nhiều cõu cú nội dung gần tuong dồng dều cú dộ quan trong cao, dẫn dến trựng lặp nội dung trong bản túm tắt. Để giải quyết vấn dề dú, luận ỏn sử dụng phuong phỏp MMR dể loại bỏ cỏc thụng tin trựng lặp dú. Bản túm tắt duợc sinh ra dựa trờn cỏc cõu quan trọng dó loại bỏ trựng lặp, duợc sắp xếp theo vị trớ xuất hiện cõu trong van bản gốc. Dựa trờn ý tuởng dú, luận ỏn dề xuất mụ hỡnh túm tắt van bản duợc trỡnh bày trong phần 3.2.2 duới dõy.

3.2.2. Mụ hỡnh túm tắt van bản dề xuất

Mụ hỡnh túm tắt van bản dề xuất gồm 3 mụ dun chớnh: Vộc to húa van bản, phõn loại cõu và sinh van bản túm tắt. Mụ hỡnh dề xuất duợc biểu diễn chi tiết trong

Hỡnh 3.2. Mụ hỡnh túm tắt don van bản huớng trớch rỳt RoPhoBERT_MLP_ESDS

3.2.2.1. Vộc to húa van bản

Mụ dun thực hiện mó húa cỏc cõu của van bản dầu vào sử dụng cỏc mụ hỡnh tối uu của mụ hỡnh pre-trained BERT, dú là mụ hỡnh RoBERTa [106] dối với tiếng Anh, mụ hỡnh PhoBERT [110] dối với tiếng Việt. Truớc hết, mụ dun xử lý tỏch cõu của van bản dầu vào và gỏn nhón cho cỏc cõu. Tập cỏc cõu này duợc xử lý bằng cụng cụ tokenizer của mụ hỡnh RoBERTa (tiếng Anh), PhoBERT (tiếng Việt) dể tạo ra cỏc vộc to chỉ mục (index vector) của cỏc từ (token) của cõu. Sau dú, cỏc vộc to chỉ mục này duợc dua vào mụ hỡnh RoBERTa (tiếng Anh), PhoBERT (tiếng Việt) dể thu duợc cỏc vộc to từ (token embedding) của cỏc cõu tuong ứng. Cuối cựng, cỏc vộc to từ của mỗi cõu (dối với cả 2 bộ dữ liệu) duợc xử lý bởi phộp toỏn Average Pooling dể sinh ra 1 vộc to mó húa cõu tuong ứng cho mỗi cõu dầu vào, duợc sửdụng làm dầu vào cho mụ hỡnh phõn loại sử dụng mạng MLP của mụ dun huấn luyện.

4 https://huggingface.co/transformers

5 https://github.com/VinAIResearch/PhoBERT

Với tiếng Anh, mụ hỡnh dề xuất sử dụng mụ hỡnh RoBERTaBASE duợc kế thừa từ kho luu trữ của thu viện Transformers4, dộ dài vộc to cõu duợc lấy tối da là 256 từ hay vộc to cõu cú 256 chiều (nếu cõu cú dộ dài < 256 sẽ duợc xử lý dệm thờm cho dủ dộ dài bằng 256), kớch thuớc lụ dữ liệu (batch size) là 256. Trong quỏ trỡnh huấn luyện, mụ hỡnh RoBERTa duợc dúng bang và chỉ tinh chỉnh bằng cỏch huấn luyện tiếp trờn bộ dữ liệu thử nghiệm CNN.

Với tiếng Việt, mụ hỡnh dề xuất sử dụng mụ hỡnh PhoBERTBASE duợc kế thừa từ kho luu trữ của thu viện PhoBert with Transformers5, dộ dài vộc to cõu cung

duợc lấy tối da là 256 từ, batch size là 256. Trong quỏ trỡnh huấn luyện, mụ hỡnh RoBERTa cung duợc dúng bang và chỉ tinh chỉnh bằng cỏch huấn luyện tiếp mụ hỡnh trờn bộ dữ liệu thử nghiệm Baomoi.

3.2.2.2. Phõn loại cõu

Mụ dun thực hiện tớnh xỏc suất của cỏc cõu dầu vào duợc chọn dua vào bản túm tắt. Mụ hỡnh sử dụng mạng no ron MLP duợc học bởi giải thuật lan truyền nguợc [120,121]. Kiến trỳc mạng và cỏc tham số tối uu của mạng MLP của mụ hỡnh phõn loại duợc xõy dựng dựa vào thực nghiệm (Hỡnh 3.3) bao gồm:

 Một lớp vào cú 768 chiều khụng cú hàm kớch hoạt tại mỗi no ron dể tuong thớch với số chiều dầu ra của cỏc mụ hỡnh RoBERTa và PhoBERT.

 Một lớp ẩn cú 256 no ron với hàm kớch hoạt ReLU tại mỗi no ron.  Một lớp ra gồm 2 no ron sử dụng hàm kớch hoạt softmax dể trả ra xỏc suất

duợc chọn của cỏc cõu.

Hỡnh 3.3. Kiến trỳc mạng MLP dề xuất của mụ hỡnh

Mụ hỡnh duợc huấn luyện bởi thuật toỏn tối uu AdamW [122] sử dụng cỏc giỏ trị mặc dịnh của cỏc tham số của thuật toỏn tối uu dó cài dặt là β 1=; 0,9

2 0,999

6

https://stanfordnlp.github.io/CoreNLP

7 https://github.com/google-research/google- research/tree/master/rouge

3.2.2.3. Sinh van bản túm tắt

Trong van bản tin tức, cỏc cõu ở vị trớ dầu van bản thuờng mang nhiều thụng tin quan trọng hon, cỏc cõu càng về cuối thỡ càng mang ớt thụng tin. Mụ hỡnh dề xuất sử dụng phuong phỏp MMR duợc dịnh nghia lại cho mụ hỡnh này dựa trờn cỏc dặc trung vị trớ cõuxỏc suất duợc chọn của cõu bằng cỏch thay dại luợng xỏc suất probabilityi của cõu si trong cụng thức (2.44) ở chuong 2 bằng thuong của xỏc suất duợc chọn của cõu

chia cho dặc trung vị trớ cõu dể tận dụng lợi thế của vị trớ cõu xỏc suất duợc chọn của cõu và thử nghiệm dó cho kết quả tốt hon so với cỏch lựachọn theo xỏc suất của cụng thức MMR ban dầu. Phuong phỏp MMR mới dề xuất ỏp dụng cho mụ hỡnh túm tắt duợc dịnh nghia lại theo cụng thức sau:

() 2()

\

1

arg max .λ . 1 λ max ,

∈ ∈   =  − −   ji i i j s S s D S i MMR probability Sim s s position (3.2)

với: probabilityi, positioni tuong ứng là xỏc suất duợc chọn, vị trớ cõu của cõu si và giỏ trị của tham số λ duợc chọn bằng 0,5.

Cú thể thấy vị trớ cõuxỏc suất duợc chọn của cõu khụng liờn quan dến dại luợng tớnh toỏn dộ tuong dồng dể cú thể dua vào cựng một biểu thức tớnh toỏn nhung cụng thức tớnh MMR dề xuất này dó cho kết quả tốt hon so với cụng thức tớnh MMR ban dầu trong thực nghiệm. Do dú, mụ hỡnh sẽ sử dụng cụng thức MMR dề xuất này khi lựa chọn cõu dua vào bản túm tắt.

3.2.3. Thử nghiệm mụ hỡnh

3.2.3.1. Dữ liệu thử nghiệm

Mụ hỡnh RoPhoBERT_MLP_ESDS dề xuất duợc thử nghiệm trờn bộ dữ liệu CNN dối với tiếng Anh và bộ dữ liệu Baomoi dối với tiếng Việt (chi tiết cỏc bộ dữ liệu này duợc trỡnh bày trong chuong 1).

3.2.3.2. Tiền xử lý dữ liệu

Truớc tiờn, cả hai bộ dữ liệu CNN và Baomoi duợc xử lý tỏch riờng phần tiờu

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 66)