Thử nghiệm mơ hình

Một phần của tài liệu LATS-TuanLM (Trang 72 - 76)

Chương 2 CÁC KIẾN THỨC NỀN TẢNG

3.2. Mơ hình tóm tắt đơn văn bản hướng trích rút

3.2.3. Thử nghiệm mơ hình

3.2.3.1. Dữ liệu thử nghiệm

Mơ hình RoPhoBERT_MLP_ESDS đề xuất được thử nghiệm trên bộ dữ liệu CNN đối với tiếng Anh và bộ dữ liệu Baomoi đối với tiếng Việt (chi tiết các bộ dữ liệu này được trình bày trong chương 1).

3.2.3.2. Tiền xử lý dữ liệu

Trước tiên, cả hai bộ dữ liệu CNN và Baomoi được xử lý tách riêng phần tiêu đề, phần tóm tắt, nội dung.

Với bộ dữ liệu CNN, văn bản đầu vào được tách câu sử dụng thư viện Stanford

CoreNLP6. Để gán nhãn cho các câu, các câu này được so sánh với bản tóm tắt mẫu dựa vào tối đa tổng độ đo R-2 và R-L (vì thử nghiệm cho kết quả tốt hơn so với tổng độ đo R-1 và R-2) sử dụng thư viện rouge-score 0.0.47. Tiếp theo, tập các câu này được xử lý bằng tokenizer của mơ hình pre-trained RoBERTa để tạo ra các véc tơ chỉ mục (index) của các từ (token) của câu, sau đó các véc tơ chỉ mục này được đưa vào mơ hình pre-trained RoBERTa để thu được các véc tơ từ (token embeddings) của các câu.

6 https://stanfordnlp.github.io/CoreNLP

7 https://github.com/google-research/google-research/tree/master/rouge

8 https://github.com/vncorenlp/VnCoreNLP

Với bộ dữ liệu Baomoi, mơ hình sử dụng thư viện VnCoreNLP8 để tách câu của văn bản đầu vào. Để gán nhãn cho các câu, các câu này cũng được so sánh với bản tóm tắt mẫu dựa vào tối đa tổng độ đo R-2 và R-L sử dụng thư viện rouge-score

0.0.4. Sau đó, tập các câu này được xử lý bằng cơng cụ tokenizer của mơ hình pre- trained PhoBERT để tạo ra các véc tơ chỉ mục của các token của câu, sau đó các véc tơ chỉ mục này được đưa vào mơ hình pre-trained PhoBERT để thu được các véc tơ mã hóa từ của các câu.

Cuối cùng, các véc tơ mã hóa từ của mỗi câu được xử lý sử dụng hàm

avgPooling1d của thư viện PyTorch9 để sinh ra một véc tơ câu 768 chiều được sử dụng làm đầu vào cho mơ hình phân loại sử dụng mạng MLP.

3.2.3.3. Thiết kế thử nghiệm

a) Thử nghiệm một số phương pháp tóm tắt văn bản cơ bản

Trước hết, luận án thực hiện cài đặt thử nghiệm một số phương pháp tóm tắt văn bản cơ bản trên cả hai bộ dữ liệu CNN và Baomoi để có cơ sở so sánh với mơ hình đề xuất. Đây là các phương pháp tóm tắt đơn văn hướng trích rút đã cơng bố cho kết quả khá tốt. Thư viện rouge-score 0.0.4 được sử dụng để đánh giá hiệu quả của các mơ hình tóm tắt. Kết qủa thử nghiệm thu được như ở Bảng 3.1 dưới đây.

Phương pháp R-1 CNNR-2 R-L R-1 BaomoiR-2 R-L

LexRank* 22,9 6,6 17,2 38,5 17,0 28,9 TextRank* 26,0 7,3 19,2 44,7 19,2 32,9

LEAD* 29,0 10,7 19,3 46,5 20,3 30,8

Bảng 3.1. Kết quả thử nghiệm một số phương pháp tóm tắt văn bản cơ sở. Ký hiệu ‘*’ thể hiện phương pháp được triển khai thử nghiệm trên các bộ dữ liệu tương ứng b) Thử nghiệm các mơ hình xây dựng

Luận án triển khai xây dựng bốn mơ hình tóm tắt sử dụng các mơ hình được huấn luyện trước để mã hóa văn bản đầu vào, đó là mơ hình mã hóa câu phổ biến (USE - Universal Sentence Encoder) (sử dụng mơ hình USE dựa trên kiến trúc Transformer (USE_T) vì mơ hình này cho kết quả tốt hơn các mơ hình cịn lại trong các nghiên cứu [123,124]) và các mơ hình tối ưu của mơ hình BERT (RoBERTa cho tiếng Anh, PhoBERT cho tiếng Việt). Chi tiết các mơ hình xây dựng như sau:

9 https://github.com/pytorch/pytorch

10 https://www.tensorflow.org/hub/

(i) Mơ hình 1 (USE_T + MLP): Sử dụng mơ hình USE_T kết hợp với mạng

MLP để huấn luyện mơ hình tính xác suất được chọn của các câu đầu vào để lựa chọn các câu đưa vào bản tóm tắt.

(ii) Mơ hình 2 (USE_T + MLP + MMR + Vị trí câu): Mơ hình 1 kết hợp với

MMR và đặc trưng vị trí câu để lựa chọn câu đưa vào bản tóm tắt.

(iii) Mơ hình 3 (RoBERTa/PhoBERT + MLP): Sử dụng mơ hình RoBERTa (đối

với CNN) và PhoBERT (đối với Baomoi) kết hợp với mạng MLP để huấn luyện mơ hình tính xác suất được chọn của các câu đầu vào để lựa chọn các câu đưa vào bản tóm tắt.

(iv) Mơ hình 4 (RoBERTa/PhoBERT + MLP + MMR + Vị trí câu): Mơ hình 3

kết hợp với MMR và vị trí câu để lựa chọn câu đưa vào bản tóm tắt.

Bốn mơ hình này được triển khai thử nghiệm, trong đó mơ hình 1 và 2 được thử nghiệm trên bộ dữ liệu CNN (do USE_T không hỗ trợ cho tiếng Việt). Mô hình 3 và

4 được thử nghiệm trên cả hai bộ dữ liệu CNN và Baomoi, để lựa chọn mơ hình tốt nhất làm mơ hình đề xuất. Thư viện Tensorflow10 được sử dụng để kế thừa mơ hình USE_T, thư viện Transformers để kế thừa mô hình RoBERTa, PhoBert with Transformers để kế thừa mơ hình PhoBERT và thư viện PyTorch để xây dựng mơ hình phân loại MLP. Mơ hình MLP được huấn luyện với hệ số học khởi tạo ban đầu là 2.10-3. Sau mỗi epoch, hệ số học sẽ được tự động giảm 10% sử dụng cơ chế

scheduling của thư viện PyTorch cho đến hết epoch cuối cùng. Các mơ hình được

huấn luyện sử dụng Google Colab với cấu hình máy chủ GPU V100, 25GB RAM được cung cấp bởi Google. Các siêu tham số được cài đặt và thời gian huấn luyện (giờ) của các mơ hình được trình bày trong Bảng 3.2 dưới đây.

Mơ hình Epochs Batch size Bộ dữ

liệu Thời gian huấn luyện Mơ hình 1 (USE_T + MLP) 6 50 CNN 6 Mơ hình 2 (USE_T + MLP + MMR + Vị trí câu) 6 50 CNN 6 Mơ hình 3 (RoBERTa/PhoBERT + MLP) 6 256 CNN 8 Mơ hình 4 (RoBERTa/PhoBERT + MLP + MMR + Vị trí câu) 6 256 CNN 8 Mơ hình 3 (RoBERTa/PhoBERT + MLP) 7 256 Baomoi 48 Mơ hình 4 (RoBERTa/PhoBERT + MLP + MMR + Vị trí câu) 7 256 Baomoi 48

Bảng 3.2. Giá trị các siêu tham số và thời gian huấn luyện các mơ hình xây dựng

Kết quả thử nghiệm của các mơ hình được trình bày như trong Bảng 3.3 dưới đây. Mơ hình R-1 CNNR-2 R-L R-1 BaomoiR-2 R-L USE_T + MLP 28,9 10,3 19,3 - - - USE_T + MLP + MMR + Vị trí câu 30,1 11,5 20,1 - - - RoBERTa/PhoBERT + MLP 31,36 11,69 28,22 52,509 24,695 37,794 RoBERTa/PhoBERT + MLP + MMR + Vị trí câu 32,18 12,31 28,87 52,511 24,696 37,796

Bảng 3.3. Kết quả thử nghiệm của các mơ hình xây dựng. Ký hiệu ‘-’ biểu diễn mơ hình mà luận án khơng thử nghiệm trên bộ dữ liệu tương ứng

Với kết quả thử nghiệm của các mô hình, mặc dù mơ hình tóm tắt đơn văn bản sử dụng mơ hình USE_T và MLP (mơ hình 1) chưa xử lý loại bỏ các câu trùng lặp nhưng đã cho kết quả khả quan và tốt hơn các phương pháp tóm tắt cơ bản như LexRank, TextRank trên cùng bộ dữ liệu CNN. Việc kết hợp phương pháp MMR, vị trí câu để loại bỏ các câu trùng lặp của mơ hình 2 đã cho kết quả tốt hơn mơ hình 1. Mơ hình 3 sử dụng mơ hình RoBERTa/PhoBERT (tương ứng với các bộ dữ liệu CNN và Baomoi) và MLP, mặc dù chưa xử lý loại bỏ các câu trùng lặp nhưng đã

cho kết quả tốt hơn nhiều so với các mơ hình 1 và 2, chứng tỏ mơ hình tóm tắt sử dụng mơ hình RoBERTa/PhoBERT hiệu quả hơn so với mơ hình sử dụng mơ hình USE_T trên cùng bộ dữ liệu CNN. Bên cạnh đó, mơ hình 3 cũng đã cho kết quả tốt hơn so với các mơ hình tóm tắt cơ bản LexRank, TextRank và LEAD đã được cài đặt thử nghiệm trên bộ dữ liệu Baomoi (Bảng 3.1). Mơ hình tóm tắt văn bản sử dụng mơ hình RoBERTa/PhoBERT, MLP, MMR và đặc trưng vị trí câu (mơ hình 4) đã loại bỏ được các thông tin trùng lặp và cho các kết quả tốt hơn rõ rệt so với mơ hình 3 trên cả 2 bộ dữ liệu CNN ch tiếng Anh và Baomoi cho tiếng Việt.

Các kết quả thử nghiệm cho thấy rằng mơ hình 4 cho kết quả tốt nhất trong các mơ hình đã thử nghiệm. Các độ đo R-1, R-2 và R-L tương ứng tăng lần lượt là 0,82%; 0,62% và 0,65% trên bộ CNN và 0,002%, 0,001% và 0,002% trên bộ dữ liệu Baomoi so với kết quả của mơ hình 3. Trên bộ Baomoi, ta thấy các kết quả thử nghiệm của mơ hình 4 chỉ tăng một tỷ lệ nhỏ so với mơ hình 3 là do mơ hình đã chọn số lượng câu cho bản tóm tắt nhỏ (do đặc điểm của bộ dữ liệu Baomoi nên mơ hình chọn số câu cho bản tóm tắt là 2 câu), nhưng dù sao kết quả cũng cho thấy mơ hình 4 là mơ hình tốt nhất và được chọn làm mơ hình tóm tắt đơn văn bản đề xuất.

Bảng 3.4 biểu diễn một mẫu tóm tắt gồm bản tóm tắt tham chiếu của con người và bản tóm tắt đầu ra của mơ hình tóm tắt đề xuất RoPhoBERT_MLP_ESDS trên bộ dữ liệu CNN. Văn bản nguồn của mẫu tóm tắt này xem Phụ lục C.1 trong phần Phụ lục.

Bản tóm tắt tham chiếu

“Beloved children's performer Lois Lilienstein has died . She was a member of CBC and Nickelodeon TV stars Sharon , Lois and Bram . CNN independently confirmed with Sharon and Bram's manager that Lilienstein passed away at 78 of a rare cancer.”

Bản tóm tắt của mơ hình RoPhoBERT_MLP_ESDS

“Lois Lilienstein, co-star of "Sharon, Lois & Bram's Elephant Show" — the Canadian preschool show that ran on Nickelodeon during the early 1990s — has died, aged 78. Her son, David Lilienstein, told CBC News that his mother died in Toronto on Wednesday night from a rare form of cancer first diagnosed last October. "She knew it was happening, she was at peace with it, and she died very peacefully and not in pain," he told the Canadian broadcaster. ”

Bảng 3.4. Một mẫu tóm tắt trên bộ dữ liệu CNN

Bảng 3.5 biểu diễn một mẫu tóm tắt gồm bản tóm tắt tham chiếu của con người và bản tóm tắt đầu ra của mơ hình tóm tắt đề xuất RoPhoBERT_MLP_ESDS trên bộ dữ liệu Baomoi. Văn bản nguồn của mẫu tóm tắt này xem Phụ lục C.1 trong phần Phụ lục.

Bản tóm tắt tham chiếu

“Bước sang ngày làm việc thứ hai, vòng đàm phán hạt nhân giữa Iran và Nhóm P 5+1 (gồm năm nước uỷ viên thường trực Hội đồng Bảo an Liên hợp quốc là Nga, Mỹ, Trung Quốc, Anh và Pháp với Đức) tại Vienne (Áo) đã nhận được nhiều đánh giá tích cực, trái ngược với những ý kiến không mấy lạc quan đưa ra trước đó. ”

Bản tóm tắt của mơ hình RoPhoBERT_MLP_ESDS

“Theo thoả thuận tạm thời ký kết hồi tháng 11/2013, Iran đồng ý giảm hoặc đóng băng một số hoạt động hạt nhân trong sáu tháng để đổi lại việc phương Tây giảm bớt trừng phạt hiện nay và không áp đặt thêm trừng phạt mới. Đàm phán giữa Iran với Nhóm P 5+1 từ ngày 18-20/2 tại Vienne là nỗ lực của sáu cường quốc trong việc tìm kiếm một thoả thuận toàn diện cuối cùng liên quan tới chương trình hạt nhân gây tranh cãi của Tehran trước thời điểm thoả thuận sơ bộ hết hiệu lực vào tháng Bảy tới. ”

Bảng 3.5. Một mẫu tóm tắt trên bộ dữ liệu Baomoi

Như vậy, các kết quả thử nghiệm trên hai bộ dữ liệu CNN và Baomoi cho thấy mơ hình tóm tắt đơn văn bản hướng trích rút đề xuất RoPhoBERT_MLP_ESDS đã cho kết quả tốt cho tóm tắt văn bản tiếng Anh và tiếng Việt.

Một phần của tài liệu LATS-TuanLM (Trang 72 - 76)

Tải bản đầy đủ (DOCX)

(194 trang)
w