Chương 2 CÁC KIẾN THỨC NỀN TẢNG
3.5. So sánh đánh giá ba mơ hình tóm tắt đơn văn bản hướng trích rút
trích rút đề xuất
Sau đây là kết quả so sánh đánh giá 3 mơ hình tóm tắt đơn văn bản hướng trích rút đã đề xuất theo hai tiêu chí độ chính xác và thời gian thực hiện trên các bộ dữ liệu thử nghiệm cho tóm tắt văn bản tiếng Anh và tiếng Việt.
Bảng 3.18 dưới đây trình bày kết quả độ chính xác của 3 mơ hình đề xuất.
Mơ hình CNN Baomoi R-1 R-2 R-L R-1 R-2 R-L RoPhoBERT_MLP_ESDS 32,18 12,31 28,87 52,511 24,696 37,796 mBERT_CNN_ESDS 32,67 13,04 29,53 54,67 25,26 37,48 mBERT- Tiny_seq2seq_DeepQL_ESDS 31,36 12,84 28,33 51,95 24,38 37,56
Bảng 3.18. So sánh đánh giá độ chính xác của 3 mơ hình đề xuất
Bảng 3.18 cho thấy cả ba mơ hình tóm tắt đề xuất đã đạt được hiệu quả cao cho bài tốn tóm tắt đơn văn bản hướng trích rút (kết quả của mỗi mơ hình đã được đánh giá và so sánh với các hệ thống khác trên cùng các bộ dữ liệu tương ứng khi thử nghiệm). Có thể nói, mơ hình mBERT_CNN_ESDS với việc sử dụng mơ hình BERT đa ngơn ngữ để mã hóa văn bản đầu vào và mơ hình phân loại câu được xây dựng bằng việc kết hợp nhiều mơ hình học sâu để tận dụng ưu điểm của các mơ hình học sâu này đã cho kết quả cao nhất trong hầu hết các độ đo. Mơ hình RoPhoBERT_MLP_ESDS mặc dù đã sử dụng các mơ hình BERT tối ưu để mã hóa văn bản đầu vào nhưng cho kết quả độ chính xác không cao bằng mơ hình mBERT_CNN_ESDS (trừ độ đo R-L cho tiếng Việt), lý do là do mơ hình phân loại câu chỉ sử dụng mạng MLP (mơ hình phân loại của mơ hình này là đơn giản nhất trong 3 mơ hình đề xuất). Mơ hình mBERT-Tiny_seq2seq_DeepQL_ESDS mặc dù mơ hình phân loại câu đã sử dụng nhiều kỹ thuật học sâu và kết hợp với kỹ thuật học tăng cường để cải thiện độ chính xác của mơ hình tính xác suất của câu được chọn nhưng vẫn cho kết quả thấp nhất trong 3 mơ hình đề xuất là do mơ hình này sử dụng mơ hình BERT thu nhỏ để mã hóa văn bản đầu vào (hiệu quả của các mơ hình
BERT thu nhỏ thấp hơn, nhưng thời gian thực thi lại nhanh hơn nhiều so với các mơ hình BERT, BERT tối ưu). Do đó, mơ hình mBERT-Tiny_seq2seq_DeepQL_ESDS có thể đáp ứng được các yêu cầu ràng buộc về tài nguyên bị hạn chế và thời gian thực thi nhanh.
Để đánh giá hiệu quả về thời gian thực thi, ba mơ hình đề xuất được thực hiện đánh giá trên tập gồm 100 văn bản được lấy ngẫu nhiên từ 2 bộ dữ liệu CNN/Daily Mail và bộ dữ liệu Baomoi (mỗi bộ dữ liệu được lấy ngẫu nhiên 100 văn bản để đánh giá) để ghi nhận tổng thời gian thực hiện của từng mơ hình, sau đó tính trung bình số lượng văn bản thực thi trong 1 giây của mỗi mơ hình. Bảng 3.19 dưới đây trình bày chi tiết hiệu quả về thời gian thực hiện của ba mơ hình. Có thể thấy rằng, mơ hình mBERT-Tiny_seq2seq_DeepQL_ESDS với việc sử dụng mơ hình BERT thu nhỏ (BERT-Tiny) để mã hóa văn bản tiếng Anh đầu vào (mơ hình này vẫn dùng mBERT cho mã hóa văn bản tiếng Việt do mơ hình BERT-Tiny khơng hỗ trợ cho tiếng Việt) có thời gian thực hiện tóm tắt nhanh nhất. Cụ thể như sau: Trong 1 giây, mơ hình này có thể tóm tắt được trung bình 22,1 văn bản, trong khi đó 2 mơ hình cịn lại RoPhoBERT_MLP_ESDS, mBERT_CNN_ESDS tương ứng chỉ tóm tắt được trung bình 1,30 văn bản và 0,62 văn bản. Như vậy, có thể nói mơ hình mBERT-Tiny_seq2seq_DeepQL_ESDS thực hiện nhanh hơn 2 mơ hình RoPhoBERT_MLP_ESDS và mBERT_CNN_ESDS tương ứng là 17 lần và 35,65 lần. Khi đánh giá đối với tiếng Việt thì 3 mơ hình cho hiệu quả thời gian xấp xỉ nhau, chỉ có mơ hình RoPhoBERT_MLP_ESDS là nhanh hơn là do bộ phân loại câu được xây dựng có kiến trúc đơn giản nhất trong 3 mơ hình (chỉ gồm MLP).
Ngoài ra, để đánh giá một cách khách quan hiệu quả thời gian thực hiện của mơ hình mBERT-Tiny_seq2seq_DeepQL_ESDS, luận án cũng thử nghiệm mơ hình này bằng cách sử dụng mơ hình mBERT thay cho BERT-Tiny khi mã hóa cho văn bản tiếng Anh và kết quả thu được là 0,63 văn bản/1 giây.
Phương pháp Ngơn ngữ Mơ hình mã
hóa văn bản
Số lượng văn bản trung bình/1 giây
RoPhoBERT_MLP_ESDS Tiếng Anh RoBERTa 1,30
mBERT_CNN_ESDS Tiếng Anh mBERT 0,62
mBERT-
Tiny_seq2seq_DeepQL_ESDS Tiếng Anh BERT-Tiny 22,1 RoPhoBERT_MLP_ESDS Tiếng Việt PhoBERT 3,64
mBERT_CNN_ESDS Tiếng Việt mBERT 2,61
mBERT-
Tiny_seq2seq_DeepQL_ESDS Tiếng Việt mBERT 2,61 mBERT-
Tiny_seq2seq_DeepQL_ESDS Tiếng Anh mBERT 0,63
Bảng 3.19. So sánh đánh giá thời gian thực hiện của 3 mơ hình đề xuất
Như vậy, có thể nói mơ hình mBERT-Tiny_seq2seq_DeepQL_ESDS mặc dù cho kết quả độ chính xác khơng cao bằng 2 mơ hình cịn lại, nhưng mơ hình lại có hiệu quả về thời gian và có thể đáp ứng được các yêu cầu về tài nguyên hạn chế.
3.6. Kết luận chương 3
Trong chương này, luận án đã đề xuất phát triển ba mơ hình tóm tắt đơn văn bản hướng trích rút áp dụng hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt sử dụng các kỹ thuật học sâu kết hợp với các kỹ thuật hiệu quả khác trong tóm tắt văn bản. Các kết quả đạt được cụ thể như sau:
Mơ hình tóm tắt RoPhoBERT_MLP_ESDS:
- Véc tơ hóa văn bản đầu vào sử dụng các mơ hình tối ưu RoBERTa (tiếng Anh), PhoBERT (tiếng Việt) làm đầu vào cho mơ hình phân loại sử dụng MLP. - Kết hợp đặc trưng vị trí câu vào mơ hình tóm tắt.
- Cải tiến phương pháp MMR và sử dụng để lựa chọn câu đưa vào bản tóm tắt. - Thử nghiệm và đánh giá kết quả mơ hình đề xuất RoPhoBERT_MLP_ESDS cho tóm tắt đơn văn bản tiếng Anh, tiếng Việt trên bộ dữ liệu CNN, Baomoi tương ứng.
Mơ hình tóm tắt mBERT_CNN_ESDS:
- Véc tơ hóa văn bản đầu vào sử dụng mơ hình BERT đa ngôn ngữ được huấn luyện trước.
- Đề xuất và tinh chỉnh mạng CNN sử dụng một hàm kích hoạt mới để trích chọn các đặc trưng của câu.
- Đề xuất mơ hình seq2seq với bộ mã hóa và bộ giải mã sử dụng mạng biLSTM 2 chiều để liên kết ngữ cảnh của các câu trong văn bản.
- Kết hợp đặc trưng TF-IDF vào mơ hình.
- Đề xuất sử dụng một lớp kết nối đầy đủ FC với hàm kích hoạt softmax để phân loại các câu được chọn đưa vào bản tóm tắt.
- Sử dụng phương pháp MMR để loại bỏ thơng tin dư thừa cho bản tóm tắt. - Thử nghiệm và đánh giá kết quả mơ hình đề xuất mBERT_CNN_ESDS cho tóm tắt đơn văn bản tiếng Anh, tiếng Việt trên bộ dữ liệu CNN, Baomoi tương ứng.
Mơ hình tóm tắt mBERT-Tiny_seq2seq_DeepQL_ESDS:
- Véc tơ hóa văn bản đầu vào sử dụng mơ hình BERT-Tiny cho tiếng Anh và mơ hình mBERT cho tiếng Việt.
- Đề xuất sử dụng mạng CNN để trích rút đặc trưng của văn bản để trích xuất các đặc trưng của câu.
- Đề xuất mơ hình seq2seq với bộ mã hóa sử dụng mạng biGRU để mã hóa văn bản và bộ giải mã sử dụng mạng GRU để trích rút câu.
- Đề xuất sử dụng mạng FC với hàm kích hoạt softmax để phân loại các câu được chọn đưa vào bản tóm.
- Huấn luyện bộ trích rút câu sử dụng kỹ thuật học tăng cường Deep Q-Learing để tăng hiệu quả cho mơ hình tính xác suất được chọn của câu.
- Sử dụng phương pháp MMR để loại bỏ thơng tin dư thừa cho bản tóm tắt. - Thử nghiệm và đánh giá kết quả mơ hình đề xuất mBERT- Tiny_seq2seq_DeepQL_ESDS cho tóm tắt đơn văn bản tiếng Anh, tiếng Việt trên bộ dữ liệu CNN, Baomoi tương ứng.
Các kết quả đạt được của chương đã được cơng bố trong các cơng trình [CT3], [CT4], [CT5]. Trong chương tiếp theo, luận án sẽ nghiên cứu đề xuất mơ hình tóm tắt đơn văn bản hướng tóm lược cho văn bản tiếng Anh và tiếng Việt.
Chương 4. PHÁT TRIỂN PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN HƯỚNG TÓM LƯỢC
Các kỹ thuật học sâu đã đạt được hiệu quả cao trong các nhiệm vụ xử lý ngôn ngữ tự nhiên khi dữ liệu mẫu sẵn có lớn. Tuy nhiên, trong bài tốn tóm tắt văn bản hướng tóm lược, một vấn đề khó khăn gặp phải là dữ liệu mẫu sẵn có khơng đủ lớn để có thể huấn luyện mơ hình học sâu hiệu quả. Việc thiếu dữ liệu này chủ yếu do quá trình tạo ra các bộ dữ liệu địi hỏi phải tiêu tốn nhiều cơng sức từ những chun gia có kinh nghiệm, chun mơn sâu trong lĩnh vực và thực tế cho thấy hiện nay chưa có một bộ dữ liệu nào đủ lớn để đáp ứng hiệu quả cho bài tốn tóm tắt văn bản theo hướng tóm lược. Vấn đề này gây ra khó khăn đối với các nghiên cứu trên thế giới nói chung và các nghiên cứu tại Việt Nam nói riêng. Tuy nhiên, yêu cầu đặt ra đối với các hệ thống tóm tắt văn bản là vẫn phải phải đạt được hiệu quả cao. Để giải quyết vấn đề này, trong chương này luận án đề xuất một phương pháp tóm tắt đơn văn bản hướng tóm lược sử dụng các mơ hình học sâu có thể áp dụng hiệu quả cho tóm tắt văn bản, đó là mơ hình PG_Feature_ASDS. Mơ hình đề xuất được thử nghiệm trên các bộ dữ liệu CNN/Daily Mail cho tóm tắt văn bản tiếng Anh và Baomoi cho tóm tắt văn bản tiếng Việt.
4.1. Giới thiệu bài tốn và hướng tiếp cận
Tóm tắt đơn văn bản hướng tóm lược sinh ra một văn bản tóm tắt ngắn gọn, cơ đọng, nắm bắt được nội dung chính của văn bản nguồn. Để sinh bản tóm tắt, tóm tắt hướng tóm lược thực hiện viết lại và nén văn bản nguồn (tương tự như cách con người tóm tắt văn bản) thay vì lựa chọn các câu quan trọng từ văn bản đầu vào như trong tóm tắt đơn văn bản hướng trích rút.
Bài tốn tóm tắt đơn văn bản hướng tóm lược được phát biểu như sau: Cho một văn bản D gồm N câu được biểu diễn là D( , ,..., ,...., )s s1 2 si sN với i 1,N, si là
câu thứ i trong văn bản hay văn bản được biểu diễn dưới dạng 1 2
( , ,..., ,...., )
i J
X x x x x ; trong đó: xi là từ thứ i trong văn bản, J là số lượng từ của
văn bản. Nhiệm vụ của bài tốn tóm tắt đơn văn bản hướng tóm lược là sinh ra bản tóm tắt gồm T từ được biểu diễn là Y ( , ,..., ,...., )y y1 2 yj yT (với j 1,T) biểu diễn nội dung chính của văn bản X (T < J), trong đó: yj là các từ có thể thuộc văn bản
nguồn (yj�X) hoặc không thuộc văn bản nguồn ( yj�X ) khi đó nó sẽ thuộc bộ từ
vựng.
Luận án tiếp cận theo hướng đưa bài tốn tóm tắt đơn văn bản hướng tóm lược về bài tốn sinh văn bản. Ở mỗi bước, một mơ hình sẽ sinh ra 1 từ dựa vào các từ đã được sinh ra trước đó. Với văn bản đầu vào X ( , ,..., ,...., )x x1 2 xi xJ , mơ hình sẽ
các từ trong chuỗi đầu vào và y y1, ,....,2 yT là các từ của chuỗi đầu ra tương ứng,
được tính theo cơng thức:
1 2 1 2 1 2 1 1 ( , ,...., | , ,...., ) ( | , , , ,...., ) �T T J t t t p y y y x x x p y v y y y (4.1) trong đó:
+ θ là tập tham số của mơ hình cần xây dựng.
+ v là trạng thái ẩn đại diện cho chuỗi từ đầu vào x x1, ,....,2 xJ .
+ p y( | , , , ,....,t v y y1 2 yt1) là phân bố xác suất của các từ trong bộ từ vựng ở bước t.
Sau đó, từ tập các phân bố xác suất này kết hợp với chiến lược tìm kiếm để sinh ra bản tóm tắt tóm lược cuối cùng (trong luận án sử dụng kỹ thuật tìm kiếm Beam).
Mục tiêu đặt ra là đi xây dựng và huấn luyện mơ hình để tìm tập tham số sao cho xác suất p y( | , , , ,....,t y y1 2 yt1) lớn nhất với yt �Y tại bước t. Điều này tương đương với việc tối thiểu hóa hàm mất mát cross - entropy:
1 2 1 1 ( ) log ( | , , , ,...., ) �T t t t L p y y y y (4.2)
Các nghiên cứu gần đây thường sử dụng mơ hình seq2seq để phát triển các mơ hình giải quyết vấn đề này nhằm xây dựng các hệ thống tóm tắt văn bản hướng tóm lược hiệu quả. Rush và cộng sự [115] đã áp dụng mơ hình seq2seq với bộ mã hóa sử dụng mạng CNN kết hợp với cơ chế chú ý theo ngữ cảnh để sinh ra bản tóm tắt tóm lược. Nallapati và cộng sự [128] đã sử dụng mạng seq2seq với cơ chế chú ý để sinh bản tóm tắt dài hơn. Gu và cộng sự [130] đề xuất một mạng CopyNet dựa trên mạng sinh từ - sao chép từ (Pointer - Generator) [131] để khắc phục vấn đề thiếu từ trong bộ từ vựng để sinh bản tóm tắt. Bằng việc sử dụng mạng Pointer - Generator [131] và cơ chế phân tán [132], See và cộng sự [43] đã cải tiến mạng trong [128] để tạo ra một hệ thống tóm tắt tốt hơn để giải quyết vấn đề thiếu từ trong bộ từ vựng và lỗi lặp từ để sinh bản tóm tắt tóm lược. Tuy nhiên, kiến trúc ban đầu của mơ hình seq2seq nhận văn bản đầu vào ngắn vì seq2seq là "bộ nhớ ngắn hạn", nghĩa là mơ hình thường xử lý các câu "gần" nhưng lại "quên" các câu ở xa hơn. Do đó, hầu hết các mơ hình tóm tắt văn bản sử dụng mơ hình seq2seq này có xu hướng bỏ qua phần đầu của văn bản nếu văn bản đầu vào dài. Đây là thách thức đặt ra đối với các mơ hình tóm tắt mà mục tiêu xử lý là các bài báo với các thông tin quan trọng thường nằm ở phần đầu của bài báo.
Trong chương này, luận án đề xuất phát triển một mơ hình tóm tắt đơn văn bản hướng tóm lược có thể xem xét tồn bộ văn bản đầu vào và sinh ra một bản tóm tắt gồm nhiều câu. Dựa trên mơ hình tóm tắt hướng tóm lược cơ sở [128] - mơ hình sử dụng mơ hình seq2seq có bộ mã hóa sử dụng mạng biLSTM và bộ giải mã sử dụng mạng LSTM với cơ chế chú ý; cơ chế sao chép từ - sinh từ và cơ chế bao phủ (Coverage) [43], luận án nghiên cứu cải tiến mơ hình bằng việc đề xuất thêm các đặc trưng vị trí câu (POSI) và tần suất xuất hiện của từ (TF) trong văn bản cho mơ hình. Mơ hình đề xuất được thử nghiệm và đánh giá trên hai bộ dữ liệu CNN/Daily Mail cho tóm tắt văn bản tiếng Anh và Baomoi cho tóm tắt văn bản tiếng Việt. Các thử nghiệm cho thấy mơ hình đề xuất cho kết quả tốt hơn so với mơ hình cơ sở và các phương pháp hiện có trên cùng các bộ dữ liệu thử nghiệm.
Sau đây, luận án sẽ trình bày và phân tích mơ hình của Nallapati và cộng sự [128], được sử dụng làm mơ hình cơ sở để phát triển mơ hình tóm tắt đề xuất. Sau đó, sẽ trình bày hai cơ chế sử dụng trong [43] để khắc phục các điểm yếu của mơ hình cơ sở [128]. Cuối cùng, luận án đề xuất giải pháp giải quyết điểm yếu của mơ hình trong [43] để nâng cao hiệu quả cho mơ hình tóm tắt.
4.2. Mơ hình tóm tắt cơ sở
Các thành phần chính của mơ hình tóm tắt đơn văn bản hướng tóm lược cơ sở [128] được biểu diễn như Hình 4.1 dưới đây.
Hình 4.1. Mơ hình tóm tắt đơn văn bản hướng tóm lược cơ sở [128]
4.2.1. Mơ hình seq2seq của mơ hình
Trong mơ hình seq2seq, giai đoạn mã hóa sẽ đọc văn bản đầu vào
1, , ,..., ,...,2 3
i J
x x x x x x và mã hóa thành các trạng thái ẩn mã hóa
1, , ,..., ,...,2 3
e e e e e e
j J
h h h h h h
, các trạng thái ẩn mã hóa này sẽ là đầu vào cho giai đoạn giải mã để sinh bản tóm tắt đầu ra yy y y1, , ,..., ,...,2 3 yj yT
, trong đó: - ��, �� tương ứng là véc tơ của các từ của văn bản đầu vào và văn bản tóm tắt. - �, � tương ứng là số lượng các từ của văn bản đầu vào và văn bản tóm tắt.