Huấn luyện mụ hỡnh với kỹ thuật học tăng cường- 123docz.net

Trước hết, mụ hỡnh phõn loại cõu được huấn luyện để đảm bảo trạng thỏi ẩn đầu vào cú đầy đủ cỏc thụng tin cần thiết của mụ hỡnh. Sau đú, bộ trớch rỳt cõu được huấn luyện tiếp để tăng tớnh hiệu quả cho mụ hỡnh tớnh xỏc suất được chọn của cỏc cõu sử dụng kỹ thuật học tăng cường Deep Q-Learning [114] đó trỡnh bày ở Chương 2 với cỏc siờu tham số được cài đặt như trong Bảng 3.12 sau đõy.

Siờu tham số Giỏ trị Diễn giải

lrdecay 0,9995 Tham số điều chỉnh quỏ trỡnh khỏm phỏ và tối ưu

 0,05 Tham số để trỏnh chọn những cõu quỏ khỏc biệt so với bản túm tắt tham chiếu

batch size 64 Kớch thước lụ dữ liệu

 (discount factor) 0,95 Hệ số tiờu hao

Bảng 3.12. Bảng giỏ trị cỏc siờu tham số cài đặt cho mụ hỡnh huấn luyện với kỹ thuật học tăng cường Deep Q-Learning

Mụ hỡnh huấn luyện với kỹ thuật học tăng cường Deep Q-Learning đề xuất được thiết lập như Hỡnh 3.8 dưới đõy. Cỏc yếu tố quyết định trong học tăng cường là thụng tin về trạng thỏi hiện tại, hành động tương ứng, điểm thưởng và chiến lược học được cài đặt như sau:

Trạng thỏi: Mỗi trạng thỏi st biểu diễn cho cõu đang xột gồm hai thành phần: ht

là trạng thỏi ẩn mó húa cho cỏc trạng thỏi trước cũng như cỏc hành động trước đú, được tạo bởi mạng GRU của tỏc tử đang tương tỏc với mụi trường; xt là mó húa trạng thỏi đang xột, là vộc tơ mó húa cõu đầu ra sau phộp toỏn Average Pooling.

Hành động: Cú 2 hành động tương ứng dựa trờn xỏc suất đầu ra của lớp FC đối với một trạng thỏi: “1” - chọn cõu đang xột, “0” - khụng chọn cõu đang xột.

Điểm thưởng: Ở trạng thỏi t, nếu khụng chọn cõu đang xột sentt thỡ nhận điểm thưởng bằng 0. Nếu chọn cõu đang xột sentt thỡ sẽ nhận điểm thưởng Rt bằng điểm

R-L (ký hiệu Rouge_L) của cõu đang xột sentt so với bản túm tắt hiện cú D trừ đi một giỏ trị δ (để trỏnh chọn cỏc cõu quỏ khỏc biệt so với bản túm tắt hiện cú), được tớnh theo cụng thức: Rt  Rouge L sent D_ ( t, ) (3.5)

Chiến lược: Ở trạng thỏi st, tỏc tử thực hiện một hành động để chuyển đến trạng thỏi st+1, nhận điểm thưởng Rt từ mụi trường và mục tiờu là tỡm chiến lược cú tổng điểm thưởng lớn nhất.

Hỡnh 3.8. Mụ hỡnh huấn luyện với kỹ thuật học tăng cường Deep Q-Learning

3.4.4. Thử nghiệm mụ hỡnh

3.4.4.1. Cỏc bộ dữ liệu thử nghiệm

Mụ hỡnh mBERT-Tiny_seq2seq_DeepQL_ESDS đề xuất được thử nghiệm trờn bộ dữ liệu CNN cho túm tắt văn bản tiếng Anh và bộ dữ liệu Baomoi cho túm tắt văn bản tiếng Việt (chi tiết cỏc bộ dữ liệu này được trỡnh bày trong chương 1).

3.4.4.2. Tiền xử lý dữ liệu

Trước hết, cỏc bộ dữ liệu CNN và Baomoi được xử lý tỏch riờng phần nội dung, túm tắt và đỏnh số thứ tự cho cỏc cõu. Cỏc thư viện Stanford CoreNLP, VnCoreNLP được sử dụng để tỏch cõu của văn bản đầu vào cho bộ dữ liệu CNN, Baomoi tương ứng. Tiếp theo, cỏc cõu của mỗi bộ dữ liệu được gỏn nhón dựa trờn tối đa tổng của R-2 và R-L sử dụng thư viện rouge-score 0.0.4. Sau đú, cỏc cõu này được đưa vào mụ hỡnh BERT-Tiny, mBERT tương ứng để thu được cỏc vộc tơ mó húa từ của cỏc cõu. Đồng thời, cỏc vộc tơ mó húa từ của mỗi cõu được xử lý sử dụng thư viện PyTorch thu được vộc tơ mó húa cõu 128 chiều, 768 chiều cho tiếng Anh, tiếng Việt tương ứng để làm đầu vào cho mụ hỡnh phõn loại cõu.

3.4.4.3. Thiết kế thử nghiệm

Luận ỏn triển khai xõy dựng bốn mụ hỡnh và thử nghiệm trờn hai bộ dữ liệu CNN và Baomoi để lựa chọn mụ hỡnh túm tắt hiệu quả nhất cho phương phỏp đề xuất. Chi tiết cỏc mụ hỡnh được trỡnh bày như sau đõy.

(i) Mụ hỡnh 1 (BERT-Tiny/mBERT + CNN + seq2seq): Sử dụng mụ hỡnh BERT-Tiny (với bộ dữ liệu CNN), mBERT (với bộ dữ liệu Baomoi) kết hợp với mạng CNN và mạng seq2seq để huấn luyện mụ hỡnh tớnh xỏc suất được chọn của cỏc cõu đưa vào bản túm tắt.

(ii) Mụ hỡnh 2 (BERT-Tiny/mBERT + CNN + seq2seq + MMR): Mụ hỡnh 1 kết hợp với phương phỏp MMR để lựa chọn cõu đưa vào bản túm tắt. Mụ hỡnh này nhằm đỏnh giỏ hiệu quả của phương phỏp MMR trong việc loại bỏ thụng tin trựng lặp cho bản túm tắt.

(iii) Mụ hỡnh 3 (BERT-Tiny/mBERT + CNN + seq2seq + DeepQL): Mụ hỡnh 1 kết hợp với kỹ thuật học tăng cường Deep Q-Learning để huấn luyện bộ trớch rỳt cõu để lựa chọn cõu đưa vào bản túm tắt. Mụ hỡnh này nhằm đỏnh giỏ hiệu quả của việc kết hợp kỹ thuật học tăng cường Deep Q-Learning cho mụ hỡnh túm tắt.

(iv) Mụ hỡnh 4 (BERT-Tiny/mBERT + CNN + seq2seq + DeepQL + MMR): Mụ hỡnh 3 kết hợp với phương phỏp MMR để lựa chọn cõu đưa vào bản túm tắt.

Thư viện Transformers được sử dụng để kế thừa cỏc mụ hỡnh BERT-Tiny, mBERT và mụ hỡnh phõn loại cõu được xõy dựng sử dụng thư viện PyTorch. Cỏc mụ hỡnh được huấn luyện sử dụng Google Colab với cấu hỡnh mỏy chủ GPU V100, 25GB RAM được cung cấp bởi Google. Trước hết, cỏc mụ hỡnh được huấn luyện với cỏc siờu tham số được cài đặt và thời gian huấn luyện (giờ) được trỡnh bày trong Bảng 3.13 dưới đõy. Tiếp theo, bộ trớch rỳt cõu trong cỏc mụ hỡnh 3 và mụ hỡnh 4 được huấn luyện tiếp với kỹ thuật học tăng cường Deep Q-Learning qua 100.000 bước, batch size là 32, thời gian huấn luyện xấp xỉ 13 giờ trờn bộ dữ liệu CNN; và huấn luyện qua 70.000 bước, batch size là 4, thời gian huấn luyện xấp xỉ 80 giờ trờn bộ dữ liệu Baomoi.

Mụ hỡnh Epochs Batch size Bộ dữ

liệu huấn luyệnThời gian

Mụ hỡnh 1 (BERT-Tiny/mBERT + CNN + seq2seq) 5 80 CNN 5 Mụ hỡnh 2 (BERT-Tiny/mBERT + CNN + seq2seq + MMR) 5 80 CNN 5 Mụ hỡnh 3 (BERT-Tiny/mBERT + CNN + seq2seq + DeepQL) 5 80 CNN 5 Mụ hỡnh 4 (BERT-Tiny/mBERT + CNN + seq2seq + DeepQL + MMR) 5 80 CNN 5 Mụ hỡnh 1 (BERT-Tiny/mBERT + CNN + seq2seq) 3 8 Baomoi 30 Mụ hỡnh 2 (BERT-Tiny/mBERT + CNN + seq2seq + MMR) 3 8 Baomoi 30 Mụ hỡnh 3 (BERT-Tiny/mBERT +

CNN + seq2seq + DeepQL) 3 8 Baomoi 30 Mụ hỡnh 4 (BERT-Tiny/mBERT +

CNN + seq2seq + DeepQL + MMR)

3 8 Baomoi 30

Bảng 3.13. Giỏ trị cỏc siờu tham số và thời gian huấn luyện cỏc mụ hỡnhxõy dựng

Cỏc kết quả thử nghiệm của cỏc mụ hỡnh thu được như trong Bảng 3.14 dưới đõy.

77 Mụ hỡnh CNN Baomoi R-1 R-2 R-L R-1 R-2 R-L BERT-Tiny/mBERT + CNN + seq2seq 29,55 11,67 27,12 51,17 23,83 36,54 BERT-Tiny/mBERT + CNN + seq2seq + MMR 30,09 11,95 27,80 51,41 24,01 36,92 BERT-Tiny/mBERT + CNN + seq2seq + DeepQL 30,49 12,22 27,89 51,73 24,10 37,18 BERT-Tiny/mBERT + CNN + seq2seq + DeepQL + MMR 31,36 12,84 28,33 51,95 24,38 37,56

Bảng 3.14. Kết quả thử nghiệm của cỏc mụ hỡnh xõy dựng

Với cỏc kết quả thử nghiệm trỡnh bày trong Bảng 3.14, mặc dự mụ hỡnh 1 chưa xử lý loại bỏ cỏc cõu trựng lặp nhưng đó cho kết quả khả quan và tốt hơn cỏc phương phỏp như LexRank, TextRank, LEAD (Bảng 3.1) trờn cả hai bộ dữ liệu CNN, Baomoi tương ứng. Trong mụ hỡnh 2, phương phỏp MMR được kết hợp vào mụ hỡnh túm tắt đểloại bỏ cỏc thụng tin trựng lặp đó cho kết quả tốt hơn mụ hỡnh 1. Mụ hỡnh 3 mặc dự chưa xử lý loại bỏ cỏc thụng tin trựng lặp nhưng việc kết hợp kỹ thuật học tăng cường Deep Q-Learning đó cho kết quả tốt hơn so với mụ hỡnh 1 và thậm chớ tốt hơn cả mụ hỡnh 2, điều này chứng tỏ mụ hỡnh túm tắt kết hợp với kỹ thuật học tăng cường đó cho kết quả tốt. Với việc sử dụng phương phỏp MMR, mụ hỡnh 4 đó cho cỏc kết quả tốt hơn rừ rệt so với mụ hỡnh 3 trờn cả hai bộ dữ liệu CNN và Baomoi.

Cú thể thấy rằng, kết quả thử nghiệm của mụ hỡnh 4 là tốt nhất trong cỏc mụ hỡnh xõy dựng và mụ hỡnh 4 được chọn cho phương phỏp túm tắt đề xuất mBERT- Tiny_seq2seq_DeepQL_ESDS.

Bảng 3.15 biểu diễn một mẫu túm tắt gồm bản túm tắt tham chiếu của con người và bản túm tắt đầu ra của phương phỏp túm tắt đề xuất mBERT- Tiny_seq2seq_DeepQL_ESDS trờn bộ dữ liệu CNN. Văn bản nguồn của mẫu túm tắt này xem Phụ lục C.3 trong phần Phụ lục.

Bản túm tắt tham chiếu

“The Shariya refugee camp opened around six months ago, made

up of 4,000 tents and counting . The vast majority of the camp's occupants are from the town of Sinjar and fled an ISIS assault . But Ahlam, her children and their

grandparents were taken captive.”

Bản túm tắt của phương phỏp mBERT-Tiny_seq2seq_DeepQL_ESDS

“The Shariya refugee camp opened around six months ago ,

made up of some 4,000 tents and counting . The vast majority of the camp 's occupants are from the town of Sinjar , which is near the border with Syrian Kurdistan , and fled the ISIS assault there back in August . The fighters separated the young women and girls , some as young as 8 years old , to be sold as slaves , for their "

masters " to use as concubines.”

Bảng 3.16 biểu diễn một mẫu túm tắt gồm bản túm tắt tham chiếu của con người và bản túm tắt đầu ra của mụ hỡnh túm tắt đề xuất mBERT- Tiny_seq2seq_DeepQL_ESDS trờn bộ dữ liệu Baomoi. Văn bản nguồn của mẫu túm tắt này xem Phụ lục C.3 trong phần Phụ lục.

Bản túm tắt tham chiếu

“Cú thể núi , tõm điểm của vũng đấu này chớnh là SVĐ San

Siro , khi mà ở đõy sẽ chứng kiến màn ra mắt lần đầu tiờn

của Clarence Seedorf trờn băng ghế huấn luyện của AC Milan.

Cựu cầu thủ từng 3 lần vụ địch cỳp C1 chõu Âu với 3 CLB khỏc nhau này , sẽ lần đầu tiờn dẫn dắt đội búng ỏo đỏ đen

thành Milan.”

Bản túm tắt của phương phỏp mBERT-Tiny_seq2seq_DeepQL_ESDS

“Chắc chắn rằng SVĐ San Siro sẽ lại rực sỏng khi mà cỏc

tifosi của họ sẽ chứng kiến màn ra mắt đầu tiờn của cựu cầu thủ Clarence Seedorf trong cương vị HLV trưởng của AC Milan . Vỡ vậy , thày trũ ụng Antonio Conte hoàn toan tự tin sẽ cú trận thắng thứ 18 trong mựa giải này trong trận đấu vào

đờm thứ Bảy tới.”

Bảng 3.16. Một mẫu túm tắt trờn bộ dữ liệu Baomoi

Như vậy, cỏc kết quả thực nghiệm trờn hai bộ dữ liệu CNN và Baomoi cho thấy phương phỏp túm tắt đề xuất mBERT-Tiny_seq2seq_DeepQL_ESDS đó cho kết quả tốt cho túm tắt văn bản tiếng Anh và tiếng Việt.

3.4.5. Đỏnh giỏ và so sỏnh kết quả

Kết quả thử nghiệm của phương phỏp túm tắt đề xuất được so sỏnh với kết quả thử nghiệm của cỏc phương phỏp mà nghiờn cứu sinh đó thử nghiệm và cỏc phương phỏp hiện đại khỏc đó cụng bố trờn cựng cỏc bộ dữ liệu thử nghiệm. Kết quả so sỏnh và đỏnh giỏ được trỡnh bày như trong Bảng 3.17 dưới đõy.

Phương phỏp R-1 CNN R-2 R-L R-1 Baomoi R-2 R-L LexRank* 22,9 6,6 17,2 38,5 17,0 28,9 TextRank* 26,0 7,3 19,2 44,7 19,2 32,9 LEAD* 29,0 10,7 19,3 46,5 20,3 30,8 Cheng và Lapata (2016) [125] 28,4 10,0 25,0 - - - REFRESH [125] 30,4 11,7 26,9 - - - BERT-Tiny/mBERT + CNN + seq2seqĐ 29,55 11,67 27,12 51,17 23,83 36,54 BERT-Tiny/mBERT + CNN + seq2seq + MMRĐ 30,09 11,95 27,80 51,41 24,01 36,92 BERT-Tiny/mBERT + CNN + seq2seq + DeepQLĐ 30,49 12,22 27,89 51,73 24,10 37,18 BERT-Tiny/mBERT + CNN + seq2seq + DeepQL + MMRĐ 31,36 12,84 28,33 51,95 24,38 37,56

(cỏc ký hiệu ‘*’, ‘-’ và ‘Đ' trong Bảng 3.17 ở trờn biểu diễn cỏc phương phỏpđó thử nghiệm, khụng thử nghiệm và cỏc mụ hỡnh xõy dựng thử nghiệm trờn cỏc bộ dữ liệu tương ứng)

Kết quả trong Bảng 3.17 cho thấy phương phỏp túm tắt đề xuất cú kết quả tốt hơn đỏng kể so với cỏc hệ thống hiện đại khỏc trờn hai bộ dữ liệu CNN và Baomoi tương ứng. Điều này chứng tỏ phương phỏp túm tắt đề xuất mBERT- Tiny_seq2seq_DeepQL_ESDS đó đạt hiệu quả tốt cho túm tắt văn bản tiếng Anh và tiếng Việt.

Huấn luyện mụ hỡnh với kỹ thuật học tăng cường

Phõn loại bài toỏn túm tắt văn bản

Cỏc bộ dữ liệu văn bản tiếng Anh