Chương 2 CÁC KIẾN THỨC NỀN TẢNG
3.1. Giới thiệu bài toán và hướng tiếp cận
Tóm tắt đơn văn bản hướng trích rút tạo bản tóm tắt bằng cách trích xuất ra những câu quan trọng, mang đầy đủ thông tin của văn bản nguồn. Bản tóm tắt cần ngắn gọn, cơ đọng và cung cấp các thông tin phù hợp nhất, giúp con người nắm bắt được nội dung của văn bản mà không cần phải đọc nó.
Bài tốn tóm tắt đơn văn bản hướng trích rút được phát biểu như sau: Cho một văn bản D được biểu diễn là D( , ,..., ,...., )s s1 2 si sN , trong đó i 1,N, si là câu thứ
i trong văn bản, N là số câu của văn bản (hay độ dài của văn bản). Nhiệm vụ của bài tốn tóm tắt đơn văn bản hướng trích rút là tạo ra một bản tóm tắt So gồm M câu
1 2 ( , ,..., ,...., ) o o o o o i M S s s s s , trong đó: o� , 1,M i
s D i biểu diễn nội dung chính của
văn bản (M < N).
Luận án tiếp cận theo hướng xem bài tốn tóm tắt đơn văn bản hướng trích rút như bài tốn phân loại văn bản. Với mỗi câu si�D, sẽ dự đoán nhãn yi�{0,1} với: nhãn “1” biểu diễn câu � o
i
s S (si thuộc văn bản tóm tắt đầu ra), nhãn “0” biểu diễn câu � o
i
s S . Gọi ( | , , )p y s Di i là xác suất chọn nhãn yi với điều kiện đầu vào
�
i
s D và là tập tham số của mơ hình cần xây dựng. Mơ hình được huấn luyện để ước lượng xác suất ( | , , )p y s Di i thỏa mãn điều kiện nếu câu si có độ tương quan
với văn bản D lớn hơn độ tương quan của câu sj với văn bản D thì
(1| , , )i (1| , , )j
p s D p s D . Mơ hình sử dụng để ước lượng xác suất ( | , , )p y s Di i
này được xây dựng dựa trên mạng nơ ron nhân tạo. Sau đó, bản tóm tắt 1 2
( , ,..., ,...., )
o o o o o
i M
S s s s s được tạo ra bằng việc chọn tập gồm M câu có điểm MMR cao nhất được tính tốn dựa trên xác suất (1| , , )p s Di .
Mục tiêu đặt ra là xây dựng và huấn luyện mơ hình để tìm sao cho xác suất (1| , , )i
p s D lớn nhất với � o i
s S . Điều này tương đương với việc tối thiểu hóa hàm mất mát cross - entropy sau:
1 ( ) log ( | , , ) �N i i i L p y s D (3.1) Các nghiên cứu gần đây thường sử dụng các kỹ thuật học sâu để phát triển các mơ hình giải quyết vấn đề này nhằm xây dựng các hệ thống tóm tắt văn bản có độ chính xác cao. Tuy nhiên, vấn đề biểu diễn văn bản đầu vào là một yếu tố quan trọng quyết định hiệu quả của các mơ hình tóm tắt văn bản.
Trong các mơ hình biểu diễn văn bản, BERT là mơ hình hiệu quả nhất do nó dựa trên mơ hình học thơng tin 2 chiều và cơ chế chú ý của Transformer. Các mơ hình BERT huấn luyện trước (pre-trained BERT) [102] được huấn luyện với các tập ngữ liệu lớn của ngôn ngữ, cho phép học ra được mơ hình ngơn ngữ một cách chính xác nhất. Trên cơ sở đó, các ứng dụng xử lý ngôn ngữ dựa trên học sâu không cần phải huấn luyện lại với bộ ngữ liệu lớn nữa mà có thể tận dụng mơ hình BERT huấn luyện trước để đưa ra biểu diễn giàu thông tin nhất của văn bản đầu vào. Các mơ hình tóm tắt văn bản dựa trên học sâu khi sử dụng BERT để biểu diễn văn bản đầu vào đều đem lại hiệu quả cao như [117,118,119]. Vì lý do đó, BERT cũng được sử dụng trong các mơ hình đề xuất để véc tơ hóa văn bản.
Một vấn đề đặt ra với các mơ hình tóm tắt trích rút là việc trùng lặp câu trong bản tóm tắt. Lý do là khi một câu được xác định là quan trọng thì câu có nội dung tương tự với nó cũng là câu quan trọng. Vì vậy, mơ hình cần có cơ chế loại bỏ câu trùng lặp. Phương pháp MMR được sử dụng để loại bỏ thông tin trùng lặp và lựa chọn câu đưa vào bản tóm tắt.
Do đó, luận án đề xuất khung xử lý chung cho các mơ hình tóm tắt đơn văn bản hướng trích rút bao gồm các mơ đun sau:
Hình 3.1. Khung xử lý chung cho các mơ hình tóm tắt đơn văn bản hướng trích rút đề xuất
Trong chương này, luận án sẽ phát triển ba mơ hình phân loại dựa trên các kỹ thuật học sâu khác nhau, để từ đó phát triển ba mơ hình tóm tắt đơn văn bản hướng trích rút tương ứng. Các mơ hình đó được trình bày chi tiết trong các phần dưới đây.