Kết quả thử nghiệm của cỏc mụ hỡnh xõy dựng

Một phần của tài liệu (Luận án tiến sĩ) nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 90 - 91)

Với cỏc kết quả thử nghiệm trỡnh bày trong Bảng 3.14, mặc dự mụ hỡnh 1 chưa xử lý loại bỏ cỏc cõu trựng lặp nhưng đó cho kết quả khả quan và tốt hơn cỏc phương phỏp như LexRank, TextRank, LEAD (Bảng 3.1) trờn cả hai bộ dữ liệu CNN, Baomoi tương ứng. Trong mụ hỡnh 2, phương phỏp MMR được kết hợp vào mụ hỡnh túm tắt để loại bỏ cỏc thụng tin trựng lặp đó cho kết quả tốt hơn mụ hỡnh 1. Mụ hỡnh 3 mặc dự chưa xử lý loại bỏ cỏc thụng tin trựng lặp nhưng việc kết hợp kỹ thuật học tăng cường Deep Q-Learning đó cho kết quả tốt hơn so với mụ hỡnh 1 và thậm chớ tốt hơn cả mụ hỡnh 2, điều này chứng tỏ mụ hỡnh túm tắt kết hợp với kỹ thuật học tăng cường đó cho kết quả tốt. Với việc sử dụng phương phỏp MMR, mụ hỡnh 4 đó cho cỏc kết quả tốt hơn rừ rệt so với mụ hỡnh 3 trờn cả hai bộ dữ liệu CNN và Baomoi.

Cú thể thấy rằng, kết quả thử nghiệm của mụ hỡnh 4 là tốt nhất trong cỏc mụ hỡnh xõy dựng và mụ hỡnh 4 được chọn cho phương phỏp túm tắt đề xuất mBERT-

Tiny_seq2seq_DeepQL_ESDS.

Bảng 3.15 biểu diễn một mẫu túm tắt gồm bản túm tắt tham chiếu của con người và bản túm tắt đầu ra của phương phỏp túm tắt đề xuất mBERT- Tiny_seq2seq_DeepQL_ESDS trờn bộ dữ liệu CNN. Văn bản nguồn của mẫu túm tắt này xem Phụ lục C.3 trong phần Phụ lục.

Bản túm tắt tham chiếu

“The Shariya refugee camp opened around six months ago, made

up of 4,000 tents and counting . The vast majority of the camp's occupants are from the town of Sinjar and fled an ISIS assault . But Ahlam, her children and their

grandparents were taken captive. ”

Bản túm tắt của phương phỏp mBERT-Tiny_seq2seq_DeepQL_ESDS

“The Shariya refugee camp opened around six months ago ,

made up of some 4,000 tents and counting . The vast majority of the camp 's occupants are from the town of Sinjar , which is near the border with Syrian Kurdistan , and fled the ISIS assault there back in August . The fighters separated the young women and girls , some as young as 8 years old , to be sold as slaves , for their "

Bảng 3.16 biểu diễn một mẫu túm tắt gồm bản túm tắt tham chiếu của con người và bản túm tắt đầu ra của mụ hỡnh túm tắt đề xuất mBERT- Tiny_seq2seq_DeepQL_ESDS trờn bộ dữ liệu Baomoi. Văn bản nguồn của mẫu túm tắt này xem Phụ lục C.3 trong phần Phụ lục.

Bản túm tắt tham chiếu

“Cú thể núi , tõm điểm của vũng đấu này chớnh là SVĐ San

Siro , khi mà ở đõy sẽ chứng kiến màn ra mắt lần đầu tiờn của Clarence Seedorf trờn băng ghế huấn luyện của AC Milan. Cựu cầu thủ từng 3 lần vụ địch cỳp C1 chõu Âu với 3 CLB khỏc nhau này , sẽ lần đầu tiờn dẫn dắt đội búng ỏo đỏ đen

thành Milan.”

Bản túm tắt của phương phỏp mBERT-Tiny_seq2seq_DeepQL_ESDS

“Chắc chắn rằng SVĐ San Siro sẽ lại rực sỏng khi mà cỏc

tifosi của họ sẽ chứng kiến màn ra mắt đầu tiờn của cựu cầu thủ Clarence Seedorf trong cương vị HLV trưởng của AC Milan . Vỡ vậy , thày trũ ụng Antonio Conte hoàn toan tự tin sẽ cú trận thắng thứ 18 trong mựa giải này trong trận đấu vào

đờm thứ Bảy tới.”

Bảng 3.16. Một mẫu túm tắt trờn bộ dữ liệu Baomoi

Như vậy, cỏc kết quả thực nghiệm trờn hai bộ dữ liệu CNN và Baomoi cho thấy phương phỏp túm tắt đề xuất mBERT-Tiny_seq2seq_DeepQL_ESDS đó cho kết quả tốt cho túm tắt văn bản tiếng Anh và tiếng Việt.

3.4.5. Đỏnh giỏ và so sỏnh kết quả

Kết quả thử nghiệm của phương phỏp túm tắt đề xuất được so sỏnh với kết quả thử nghiệm của cỏc phương phỏp mà nghiờn cứu sinh đó thử nghiệm và cỏc phương phỏp hiện đại khỏc đó cụng bố trờn cựng cỏc bộ dữ liệu thử nghiệm. Kết quả so sỏnh và đỏnh giỏ được trỡnh bày như trong Bảng 3.17 dưới đõy.

Phương phỏp CNN Baomoi R-1 R-2 R-L R-1 R-2 R-L LexRank* 22,9 6,6 17,2 38,5 17,0 28,9 TextRank* 26,0 7,3 19,2 44,7 19,2 32,9 LEAD* 29,0 10,7 19,3 46,5 20,3 30,8 Cheng và Lapata (2016) [125] 28,4 10,0 25,0 - - - REFRESH [125] 30,4 11,7 26,9 - - - BERT-Tiny/mBERT + CNN + seq2seqĐ 29,55 11,67 27,12 51,17 23,83 36,54 BERT-Tiny/mBERT + CNN + seq2seq + MMRĐ 30,09 11,95 27,80 51,41 24,01 36,92 BERT-Tiny/mBERT + CNN + seq2seq + DeepQLĐ 30,49 12,22 27,89 51,73 24,10 37,18 BERT-Tiny/mBERT + CNN + seq2seq + DeepQL + MMRĐ 31,36 12,84 28,33 51,95 24,38 37,56

Một phần của tài liệu (Luận án tiến sĩ) nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 90 - 91)

Tải bản đầy đủ (PDF)

(181 trang)