Giới thiệu bài toỏn và hướng tiếp cận

Một phần của tài liệu (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 67 - 69)

Túm tắt đơn văn bản hướng trớch rỳt tạo bản túm tắt bằng cỏch trớch xuất ra những cõu quan trọng, mang đầy đủ thụng tin của văn bản nguồn. Bản túm tắt cần ngắn gọn, cụ đọng và cung cấp cỏc thụng tin phự hợp nhất, giỳp con người nắm bắt được nội dung của văn bản mà khụng cần phải đọc nú.

Bài toỏn túm tắt đơn văn bản hướng trớch rỳt được phỏt biểu như sau: Cho một văn bản D được biểu diễn là D( , ,..., ,....,s s1 2 si sN), trong đú i 1,N, si là cõu thứ i trong văn bản, N là số cõu của văn bản (hay độ dài của văn bản). Nhiệm vụ của bài toỏn túm tắt đơn văn bản hướng trớch rỳt là tạo ra một bản túm tắt o

S gồm M cõu 1 2 ( , ,..., ,...., )  o o o o o i M S s s s s , trong đú: o , 1,M i

s D i biểu diễn nội dung chớnh của văn bản (M < N).

Luận ỏn tiếp cận theo hướng xem bài toỏn túm tắt đơn văn bản hướng trớch rỳt như bài toỏn phõn loại văn bản. Với mỗi cõu siD, sẽ dự đoỏn nhón yi{0,1} với: nhón “1” biểu diễn cõu  o

i

s S (si thuộc văn bản túm tắt đầu ra), nhón “0” biểu diễn cõu  o

i

s S . Gọi p y s D( i| , , )i  là xỏc suất chọn nhón yi với điều kiện đầu vào 

i

s D và  là tập tham số của mụ hỡnh cần xõy dựng. Mụ hỡnh được huấn luyện để ước lượng xỏc suất ( | , , )p y s Di i  thỏa món điều kiện nếu cõu si cú độ tương quan với văn bản D lớn hơn độ tương quan của cõu sj với văn bản D thỡ

(1| , , )i   (1| j, , )

55

này được xõy dựng dựa trờn mạng nơ ron nhõn tạo. Sau đú, bản túm tắt

1 2

( , ,..., ,...., ) 

o o o o o i M

S s s s s được tạo ra bằng việc chọn tập gồm M cõu cú điểm MMR cao nhất được tớnh toỏn dựa trờn xỏc suất (1| , , )p s Di  .

Mục tiờu đặt ra là xõy dựng và huấn luyện mụ hỡnh để tỡm  sao cho xỏc suất (1| , , )i

p s D lớn nhất với  o i

s S . Điều này tương đương với việc tối thiểu húa hàm mất mỏt cross - entropy sau:

1 ( ) log ( | , , )   N i i i L p y s D (3.1) Cỏc nghiờn cứu gần đõy thường sử dụng cỏc kỹ thuật học sõu để phỏt triển cỏc mụ hỡnh giải quyết vấn đề này nhằm xõy dựng cỏc hệ thống túm tắt văn bản cú độ chớnh xỏc cao. Tuy nhiờn, vấn đề biểu diễn văn bản đầu vào là một yếu tố quan trọng quyết định hiệu quả của cỏc mụ hỡnh túm tắt văn bản.

Trong cỏc mụ hỡnh biểu diễn văn bản, BERT là mụ hỡnh hiệu quả nhất do nú dựa trờn mụ hỡnh học thụng tin 2 chiều và cơ chế chỳ ý của Transformer. Cỏc mụ hỡnh BERT huấn luyện trước (pre-trained BERT) [102] được huấn luyện với cỏc tập ngữ liệu lớn của ngụn ngữ, cho phộp học ra được mụ hỡnh ngụn ngữ một cỏch chớnh xỏc nhất. Trờn cơ sở đú, cỏc ứng dụng xử lý ngụn ngữ dựa trờn học sõu khụng cần phải huấn luyện lại với bộ ngữ liệu lớn nữa mà cú thể tận dụng mụ hỡnh BERT huấn luyện trước để đưa ra biểu diễn giàu thụng tin nhất của văn bản đầu vào. Cỏc mụ hỡnh túm tắt văn bản dựa trờn học sõu khi sử dụng BERT để biểu diễn văn bản đầu vào đều đem lại hiệu quả cao như [117,118,119]. Vỡ lý do đú, BERT cũng được sử dụng trong cỏc mụ hỡnh đề xuất để vộc tơ húa văn bản.

Một vấn đề đặt ra với cỏc mụ hỡnh túm tắt trớch rỳt là việc trựng lặp cõu trong bản túm tắt. Lý do là khi một cõu được xỏc định là quan trọng thỡ cõu cú nội dung tương tự với nú cũng là cõu quan trọng. Vỡ vậy, mụ hỡnh cần cú cơ chế loại bỏ cõu trựng lặp. Phương phỏp MMR được sử dụng để loại bỏ thụng tin trựng lặp và lựa chọn cõu đưa vào bản túm tắt.

Do đú, luận ỏn đề xuất khung xử lý chung cho cỏc mụ hỡnh túm tắt đơn văn bản hướng trớch rỳt bao gồm cỏc mụ đun sau:

Hỡnh 3.1. Khung xử lý chung cho cỏc mụ hỡnh túm tắt đơn văn bản hướng trớch rỳt đề xuất

Trong chương này, luận ỏn sẽ phỏt triển ba mụ hỡnh phõn loại dựa trờn cỏc kỹ thuật học sõu khỏc nhau, để từ đú phỏt triển ba mụ hỡnh túm tắt đơn văn bản hướng trớch rỳt tương ứng. Cỏc mụ hỡnh đú được trỡnh bày chi tiết trong cỏc phần dưới đõy.

56

Một phần của tài liệu (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 67 - 69)