Chương 2 CÁC KIẾN THỨC NỀN TẢNG
3.4. Mơ hình tóm tắt đơn văn bản hướng trích rút mBERT-Tiny_
3.4.3. Huấn luyện mơ hình với kỹ thuật học tăng cường
Trước hết, mơ hình phân loại câu được huấn luyện để đảm bảo trạng thái ẩn đầu vào có đầy đủ các thơng tin cần thiết của mơ hình. Sau đó, bộ trích rút câu được huấn luyện tiếp để tăng tính hiệu quả cho mơ hình tính xác suất được chọn của các câu sử dụng kỹ thuật học tăng cường Deep Q-Learning [114] đã trình bày ở Chương 2 với các siêu tham số được cài đặt như trong Bảng 3.12 sau đây.
Siêu tham số Giá trị Diễn giải
lrdecay 0,9995 Tham số điều chỉnh quá trình khám phá và tối ưu
0,05 Tham số để tránh chọn những câu quá khác biệt sovới bản tóm tắt tham chiếu
batch size 64 Kích thước lô dữ liệu
(discount factor) 0,95 Hệ số tiêu hao
Bảng 3.12. Bảng giá trị các siêu tham số cài đặt cho mơ hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning
Mơ hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning đề xuất được thiết lập như Hình 3.8 dưới đây. Các yếu tố quyết định trong học tăng cường là thông tin về trạng thái hiện tại, hành động tương ứng, điểm thưởng và chiến lược học được cài đặt như sau:
Trạng thái: Mỗi trạng thái st biểu diễn cho câu đang xét gồm hai thành phần: ht
là trạng thái ẩn mã hóa cho các trạng thái trước cũng như các hành động trước đó, được tạo bởi mạng GRU của tác tử đang tương tác với môi trường; xt là mã hóa trạng thái đang xét, là véc tơ mã hóa câu đầu ra sau phép tốn Average Pooling.
Hành động: Có 2 hành động tương ứng dựa trên xác suất đầu ra của lớp FC đối
Điểm thưởng: Ở trạng thái t, nếu khơng chọn câu đang xét sentt thì nhận điểm
thưởng bằng 0. Nếu chọn câu đang xét sentt thì sẽ nhận điểm thưởng Rt bằng điểm
R-L (ký hiệu Rouge_L) của câu đang xét sentt so với bản tóm tắt hiện có D trừ đi
một giá trị δ (để tránh chọn các câu quá khác biệt so với bản tóm tắt hiện có), được tính theo cơng thức: Rt Rouge L sent D_ ( t, ) (3.5)
Chiến lược: Ở trạng thái st, tác tử thực hiện một hành động để chuyển đến trạng
thái st+1, nhận điểm thưởng Rt từ mơi trường và mục tiêu là tìm chiến lược có tổng điểm thưởng lớn nhất.
Hình 3.8. Mơ hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning
3.4.4. Thử nghiệm mơ hình
3.4.4.1. Các bộ dữ liệu thử nghiệm
Mơ hình mBERT-Tiny_seq2seq_DeepQL_ESDS đề xuất được thử nghiệm trên bộ dữ liệu CNN cho tóm tắt văn bản tiếng Anh và bộ dữ liệu Baomoi cho tóm tắt văn bản tiếng Việt (chi tiết các bộ dữ liệu này được trình bày trong chương 1).
3.4.4.2. Tiền xử lý dữ liệu
Trước hết, các bộ dữ liệu CNN và Baomoi được xử lý tách riêng phần nội dung, tóm tắt và đánh số thứ tự cho các câu. Các thư viện Stanford CoreNLP, VnCoreNLP được sử dụng để tách câu của văn bản đầu vào cho bộ dữ liệu CNN, Baomoi tương ứng. Tiếp theo, các câu của mỗi bộ dữ liệu được gán nhãn dựa trên tối đa tổng của R-2 và R-L sử dụng thư viện rouge-score 0.0.4. Sau đó, các câu này được đưa vào mơ hình BERT-Tiny, mBERT tương ứng để thu được các véc tơ mã hóa từ của các câu. Đồng thời, các véc tơ mã hóa từ của mỗi câu được xử lý sử dụng thư viện PyTorch thu được véc tơ mã hóa câu 128 chiều, 768 chiều cho tiếng Anh, tiếng Việt tương ứng để làm đầu vào cho mơ hình phân loại câu.
3.4.4.3. Thiết kế thử nghiệm
Luận án triển khai xây dựng bốn mơ hình và thử nghiệm trên hai bộ dữ liệu CNN và Baomoi để lựa chọn mơ hình tóm tắt hiệu quả nhất cho phương pháp đề xuất. Chi tiết các mơ hình được trình bày như sau đây.
(i) Mơ hình 1 (BERT-Tiny/mBERT + CNN + seq2seq): Sử dụng mơ hình BERT-
Tiny (với bộ dữ liệu CNN), mBERT (với bộ dữ liệu Baomoi) kết hợp với mạng CNN và mạng seq2seq để huấn luyện mơ hình tính xác suất được chọn của các câu đưa vào bản tóm tắt.
(ii) Mơ hình 2 (BERT-Tiny/mBERT + CNN + seq2seq + MMR): Mơ hình 1 kết
hợp với phương pháp MMR để lựa chọn câu đưa vào bản tóm tắt. Mơ hình này nhằm đánh giá hiệu quả của phương pháp MMR trong việc loại bỏ thông tin trùng lặp cho bản tóm tắt.
(iii) Mơ hình 3 (BERT-Tiny/mBERT + CNN + seq2seq + DeepQL): Mơ hình 1
kết hợp với kỹ thuật học tăng cường Deep Q-Learning để huấn luyện bộ trích rút câu để lựa chọn câu đưa vào bản tóm tắt. Mơ hình này nhằm đánh giá hiệu quả của việc kết hợp kỹ thuật học tăng cường Deep Q-Learning cho mơ hình tóm tắt.
(iv) Mơ hình 4 (BERT-Tiny/mBERT + CNN + seq2seq + DeepQL + MMR): Mơ
hình 3 kết hợp với phương pháp MMR để lựa chọn câu đưa vào bản tóm tắt.
Thư viện Transformers được sử dụng để kế thừa các mơ hình BERT-Tiny, mBERT và mơ hình phân loại câu được xây dựng sử dụng thư viện PyTorch. Các mơ hình được huấn luyện sử dụng Google Colab với cấu hình máy chủ GPU V100, 25GB RAM được cung cấp bởi Google. Trước hết, các mơ hình được huấn luyện với các siêu tham số được cài đặt và thời gian huấn luyện (giờ) được trình bày trong Bảng 3.13 dưới đây. Tiếp theo, bộ trích rút câu trong các mơ hình 3 và mơ hình 4 được huấn luyện tiếp với kỹ thuật học tăng cường Deep Q-Learning qua 100.000 bước, batch size là 32, thời gian huấn luyện xấp xỉ 13 giờ trên bộ dữ liệu CNN; và huấn luyện qua 70.000 bước, batch size là 4, thời gian huấn luyện xấp xỉ 80 giờ trên bộ dữ liệu Baomoi.
Mơ hình Epochs Batch size Bộ dữ
liệu Thời gian huấn luyện Mơ hình 1 (BERT-Tiny/mBERT + CNN + seq2seq) 5 80 CNN 5 Mơ hình 2 (BERT-Tiny/mBERT + CNN + seq2seq + MMR) 5 80 CNN 5 Mơ hình 3 (BERT-Tiny/mBERT + CNN + seq2seq + DeepQL) 5 80 CNN 5 Mơ hình 4 (BERT-Tiny/mBERT + CNN + seq2seq + DeepQL + MMR) 5 80 CNN 5 Mơ hình 1 (BERT-Tiny/mBERT + CNN + seq2seq) 3 8 Baomoi 30 Mơ hình 2 (BERT-Tiny/mBERT + CNN + seq2seq + MMR) 3 8 Baomoi 30 Mơ hình 3 (BERT-Tiny/mBERT + CNN + seq2seq + DeepQL) 3 8 Baomoi 30 Mơ hình 4 (BERT-Tiny/mBERT +
Bảng 3.13. Giá trị các siêu tham số và thời gian huấn luyện các mơ hình xây dựng
Các kết quả thử nghiệm của các mơ hình thu được như trong Bảng 3.14 dưới đây. Mơ hình R-1 CNNR-2 R-L R-1 BaomoiR-2 R-L BERT-Tiny/mBERT + CNN + seq2seq 29,55 11,67 27,12 51,17 23,83 36,54 BERT-Tiny/mBERT + CNN + seq2seq + MMR 30,09 11,95 27,80 51,41 24,01 36,92 BERT-Tiny/mBERT + CNN + seq2seq + DeepQL 30,49 12,22 27,89 51,73 24,10 37,18 BERT-Tiny/mBERT + CNN + seq2seq + DeepQL + MMR 31,36 12,84 28,33 51,95 24,38 37,5 6
Bảng 3.14. Kết quả thử nghiệm của các mơ hình xây dựng
Với các kết quả thử nghiệm trình bày trong Bảng 3.14, mặc dù mơ hình 1 chưa xử lý loại bỏ các câu trùng lặp nhưng đã cho kết quả khả quan và tốt hơn các phương pháp như LexRank, TextRank, LEAD (Bảng 3.1) trên cả hai bộ dữ liệu CNN, Baomoi tương ứng. Trong mô hình 2, phương pháp MMR được kết hợp vào mơ hình tóm tắt để loại bỏ các thơng tin trùng lặp đã cho kết quả tốt hơn mơ hình 1. Mơ hình 3 mặc dù chưa xử lý loại bỏ các thông tin trùng lặp nhưng việc kết hợp kỹ thuật học tăng cường Deep Q-Learning đã cho kết quả tốt hơn so với mơ hình 1 và thậm chí tốt hơn cả mơ hình 2, điều này chứng tỏ mơ hình tóm tắt kết hợp với kỹ thuật học tăng cường đã cho kết quả tốt. Với việc sử dụng phương pháp MMR, mơ hình 4 đã cho các kết quả tốt hơn rõ rệt so với mơ hình 3 trên cả hai bộ dữ liệu CNN và Baomoi.
Có thể thấy rằng, kết quả thử nghiệm của mơ hình 4 là tốt nhất trong các mơ hình xây dựng và mơ hình 4 được chọn cho phương pháp tóm tắt đề xuất mBERT-
Tiny_seq2seq_DeepQL_ESDS.
Bảng 3.15 biểu diễn một mẫu tóm tắt gồm bản tóm tắt tham chiếu của con người và bản tóm tắt đầu ra của phương pháp tóm tắt đề xuất mBERT- Tiny_seq2seq_DeepQL_ESDS trên bộ dữ liệu CNN. Văn bản nguồn của mẫu tóm tắt này xem Phụ lục C.3 trong phần Phụ lục.
Bản tóm tắt tham chiếu
“The Shariya refugee camp opened around six months ago, made up of 4,000 tents and counting . The vast majority of the camp's occupants are from the town of Sinjar and fled an ISIS assault . But Ahlam, her children and their grandparents were taken captive. ”
Bản tóm tắt của phương pháp mBERT-Tiny_seq2seq_DeepQL_ESDS
“The Shariya refugee camp opened around six months ago , made up of some 4,000 tents and counting . The vast majority of the camp 's occupants are from the town of Sinjar , which is near the border with Syrian Kurdistan , and fled the ISIS assault there back in August . The fighters separated the young women and girls , some as
young as 8 years old , to be sold as slaves , for their " masters " to use as concubines. ”
Bảng 3.15. Một mẫu tóm tắt trên bộ dữ liệu CNN
Bảng 3.16 biểu diễn một mẫu tóm tắt gồm bản tóm tắt tham chiếu của con người và bản tóm tắt đầu ra của mơ hình tóm tắt đề xuất mBERT- Tiny_seq2seq_DeepQL_ESDS trên bộ dữ liệu Baomoi. Văn bản nguồn của mẫu tóm tắt này xem Phụ lục C.3 trong phần Phụ lục.
Bản tóm tắt tham chiếu
“Có thể nói , tâm điểm của vịng đấu này chính là SVĐ San Siro , khi mà ở đây sẽ chứng kiến màn ra mắt lần đầu tiên của Clarence Seedorf trên băng ghế huấn luyện của AC Milan. Cựu cầu thủ từng 3 lần vô địch cúp C1 châu Âu với 3 CLB khác nhau này , sẽ lần đầu tiên dẫn dắt đội bóng áo đỏ đen thành Milan.”
Bản tóm tắt của phương pháp mBERT-Tiny_seq2seq_DeepQL_ESDS
“Chắc chắn rằng SVĐ San Siro sẽ lại rực sáng khi mà các tifosi của họ sẽ chứng kiến màn ra mắt đầu tiên của cựu cầu thủ Clarence Seedorf trong cương vị HLV trưởng của AC Milan . Vì vậy , thày trị ơng Antonio Conte hồn toan tự tin sẽ có trận thắng thứ 18 trong mùa giải này trong trận đấu vào đêm thứ Bảy tới.”
Bảng 3.16. Một mẫu tóm tắt trên bộ dữ liệu Baomoi
Như vậy, các kết quả thực nghiệm trên hai bộ dữ liệu CNN và Baomoi cho thấy phương pháp tóm tắt đề xuất mBERT-Tiny_seq2seq_DeepQL_ESDS đã cho kết quả tốt cho tóm tắt văn bản tiếng Anh và tiếng Việt.
3.4.5. Đánh giá và so sánh kết quả
Kết quả thử nghiệm của phương pháp tóm tắt đề xuất được so sánh với kết quả thử nghiệm của các phương pháp mà nghiên cứu sinh đã thử nghiệm và các phương pháp hiện đại khác đã công bố trên cùng các bộ dữ liệu thử nghiệm. Kết quả so sánh và đánh giá được trình bày như trong Bảng 3.17 dưới đây.
Phương pháp R-1 CNNR-2 R-L R-1 BaomoiR-2 R-L LexRank* 22,9 6,6 17,2 38,5 17,0 28,9 TextRank* 26,0 7,3 19,2 44,7 19,2 32,9 LEAD* 29,0 10,7 19,3 46,5 20,3 30,8 Cheng và Lapata (2016) [125] 28,4 10,0 25,0 - - - REFRESH [125] 30,4 11,7 26,9 - - - BERT-Tiny/mBERT + CNN + seq2seq§ 29,55 11,67 27,12 51,17 23,83 36,54 BERT-Tiny/mBERT + CNN + seq2seq + MMR§ 30,09 11,95 27,80 51,41 24,01 36,92 BERT-Tiny/mBERT + CNN + seq2seq + DeepQL§ 30,49 12,22 27,89 51,73 24,10 37,18
BERT-Tiny/mBERT + CNN +
seq2seq + DeepQL + MMR§ 31,36 12,84 28,33 51,95 24,38 37,56
Bảng 3.17. So sánh và đánh giá kết quả các phương pháp
(các ký hiệu ‘*’, ‘-’ và ‘§' trong Bảng 3.17 ở trên biểu diễn các phương pháp đã thử nghiệm, khơng thử nghiệm và các mơ hình xây dựng thử nghiệm trên các bộ dữ liệu tương ứng)
Kết quả trong Bảng 3.17 cho thấy phương pháp tóm tắt đề xuất có kết quả tốt hơn đáng kể so với các hệ thống hiện đại khác trên hai bộ dữ liệu CNN và Baomoi tương ứng. Điều này chứng tỏ phương pháp tóm tắt đề xuất mBERT- Tiny_seq2seq_DeepQL_ESDS đã đạt hiệu quả tốt cho tóm tắt văn bản tiếng Anh và tiếng Việt.