Chương 2 CÁC KIẾN THỨC NỀN TẢNG
3.3. Mơ hình tóm tắt đơn văn bản hướng trích rút mBERT_CNN_ESDS
mBERT_CNN_ESDS
3.3.1. Giới thiệu mơ hình
Các kỹ thuật học dựa trên mạng nơ ron sâu được áp dụng cho các mơ hình tóm tắt văn bản hướng trích rút tạo ra các bản tóm tắt chất lượng cao với lượng dữ liệu mẫu lớn. Tuy nhiên, khi lượng dữ liệu mẫu không đủ lớn, các mơ hình này đã bộc lộ những hạn chế nhất định ảnh hưởng đến chất lượng của bản tóm tắt đầu ra. Trong phần này, với mục tiêu phát triển một mơ hình tóm tắt văn bản duy nhất có thể áp dụng hiệu quả cho cả tóm tắt văn bản tiếng Anh và tiếng Việt, luận án sử dụng cùng một mơ hình để véc tơ hóa các câu của văn bản đầu vào một cách tốt nhất cho cả văn bản tiếng Anh và tiếng Việt để tạo điều kiện thuận lợi cho mơ hình phân loại chính xác. Mơ hình đề xuất tận dụng lợi thế véc tơ hóa từ theo ngữ cảnh của mơ hình BERT đa ngơn ngữ (mBERT) [105] được huấn luyện trước để tạo ra các véc tơ từ và kết hợp đặc trưng TF-IDF làm đầu vào cho mơ hình phân loại câu gồm mạng nơ ron tích chập, mơ hình seq2seq và lớp mạng nơ ron kết nối đầy đủ (FC - Fully Connected). Các kết quả đầu ra của mơ hình phân loại câu được xử lý loại bỏ các thông tin dư thừa bằng phương pháp MMR để tạo ra bản tóm tắt cuối cùng. Mơ hình đề xuất được thử nghiệm tóm tắt cho văn bản tiếng Anh và tiếng Việt trên hai bộ dữ liệu CNN và Baomoi tương ứng. Các kết quả thử nghiệm cho thấy mơ hình đề xuất đạt kết quả tốt hơn so với các phương pháp hiện đại khác được thử nghiệm trên cùng bộ dữ liệu tương ứng.
3.3.2. Mơ hình tóm tắt văn bản đề xuất
Mơ hình tóm tắt đơn văn bản hướng trích rút đề xuất gồm ba mơ đun chính: Véc tơ hóa từ, phân loại câu và sinh bản tóm tắt, được biểu diễn như trong Hình 3.4.
3.3.2.1. Véc tơ hóa từ
Trước tiên, mô đun xử lý tách câu của văn bản nguồn đầu vào, xử lý lấy 32 câu đầu tiên của mỗi văn bản để biểu diễn cho văn bản. Mỗi câu được xử lý lấy 64 từ đầu tiên để biểu diễn cho câu (nếu văn bản dài hơn sẽ được cắt bỏ phần sau, còn nếu ngắn hơn sẽ được đệm thêm). Tập các câu này được xử lý bằng công cụ tokenizer của mơ hình pre-trained mBERT sử dụng thư viện Transformersđể tạo ra các véc tơ chỉ mục (index) của các từ của câu, sau đó các véc tơ chỉ mục này được đưa vào mơ hình mBERT thu được các véc mã hóa từ của các câu (với cả 2 bộ dữ liệu). Mơ hình sử dụng mơ hình mBERT dựa trên kiến trúc của mơ hình BERT-Base, Multilingual
Cased tương ứng (L = 12, H = 768, A = 12, 110 triệu tham số) hỗ trợ cho 104 ngơn
ngữ, trong đó có ngơn ngữ tiếng Việt. Trong q trình huấn luyện, mơ hình mBERT được đóng băng, khơng huấn luyện lại từ đầu mà chỉ huấn luyện tiếp mơ hình (tinh chỉnh) trên các bộ dữ liệu thử nghiệm CNN và Baomoi tương ứng để có được biểu diễn tốt nhất cho văn bản nguồn đầu vào.
Các véc tơ từ này được sử dụng làm đầu vào cho lớp tích chập (lớp Convolution) của mơ đun phân loại câu.
3.3.2.2. Phân loại câu
Mơ đun này thực hiện tính xác suất của câu đầu vào được chọn đưa vào bản tóm tắt. Mơ hình đề xuất sử dụng mạng CNN, kết hợp mơ hình seq2seq (kiến trúc Encoder-Decoder), lớp dropout, lớp FC và kết hợp đặc trưng TF-IDF cho mơ hình phân loại câu. Chi tiết mơ hình phân loại được trình bày dưới đây.
Lớp Convolution và lớp k-Max Pooling: Do mơ hình BERT chỉ trích rút được
các đặc trưng của các từ trong một câu đưa vào mà khơng trích rút được các đặc trưng của cụm các câu liền nhau vì vậy mơ hình đề xuất sử dụng mạng CNN để khắc phục vấn đề này vì cửa sổ trượt của mạng CNN sẽ trượt trên cụm các câu liền nhau để trích rút đặc trưng của cụm các câu để trích rút đặc trưng của văn bản. Mơ hình sử dụng kiến trúc CNN [85] đã trình bày trong chương 2 và tinh chỉnh để áp dụng cho mơ hình tóm tắt đơn văn bản đề xuất. Đầu vào của lớp Convolution là 1 tensor có định dạng (n, 1, D*L, H); trong đó: n là kích thước lơ dữ liệu (batch size),
D là số lượng câu của văn bản, L là độ dài của 1 câu, H là số chiều của 3 lớp ẩn cuối
cùng của mBERT (do cho kết quả tốt nhất trong thực nghiệm).
Lớp Convolution sử dụng trong mơ hình có n = 32, D = 32, L = 64, H = 3*768 (giá trị 768 là số chiều của véc tơ đầu ra của mơ hình mBERT). Kích thước của các cửa sổ h (window size) sử dụng trong mơ hình là 5 và 10 với bước trượt (stride window) là 1. Số lượng bộ lọc (filter) là 100 tương ứng với mỗi cửa sổ trượt ở trên. Lớp Convolution được tinh chỉnh sử dụng hàm kích hoạt mới mish11 được đề xuất trong [126], hàm này được chứng minh là có xu hướng cải thiện hiệu quả kiến trúc mạng nơ ron, được tính tốn theo công thức (3.3) sau đây.
( ) tanh( ( )) tanh(ln(1 x))
f x x softplus x x e (3.3)
với: softplus x( ) ln(1 ex) (3.4)
Sau đó, cho qua lớp k-Max Pooling (áp dụng phép toán k-Max Pooling trong [127] thay vì phép tốn Max Pooling trong [86]). Phép toán k-Max Pooling được áp dụng trên mỗi bản đồ đặc trưng (feature map) để chọn ra k giá trị lớn nhất (đề xuất
lấy giá trị k = 2) là đặc trưng tương ứng với mỗi bộ lọc, được véc tơ đầu ra có 400 chiều.
Kiến trúc CNN với k-Max Pooling (k = 2) cho câu “I would like to have a cup
of tea” được trình bày như Hình 3.5 dưới đây.
11 https://github.com/digantamisra98/Mish
Hình 3.5. Kiến trúc lớp Convolution với k-Max Pooling (k = 2)
Mơ hình Encoder-Decoder: Mơ hình được xây dựng sử dụng kiến trúc bộ mã
hóa - giải mã [92] với bộ mã hóa và giải mã sử dụng mạng biLSTM (mạng biLSTM đã trình bày trong chương 2). Mỗi biLSTM có 512 trạng thái ẩn x 2 chiều = 1.024 trạng thái ẩn để liên kết ngữ cảnh các câu trong văn bản. Các véc tơ đầu ra của lớp
k-Max Pooling ( , ,..., )s s1 2 sm được đưa qua bộ Encoder-Decoder và nhận được các
véc tơ câu đầu ra ( , ,..., )s s1 2' ' sm' có 1.024 chiều. Kiến trúc Encoder-Decoder đề xuất
của mơ hình được biểu diễn như trong Hình 3.6 dưới đây.
Lớp Dropout: Lớp FC dễ bị hiện tượng quá khớp nên mơ hình xử lý đưa các
véc tơ câu đầu ra của bộ Encoder-Decoder qua một lớp Dropout với tỉ lệ dropout p được chọn bằng 0,2 (p = 0,2) để giảm hiện tượng quá khớp trước khi véc tơ này được ghép nối với véc tơ đầu ra của lớp FC’ để đưa vào lớp FC tiếp theo sau trong mơ hình phân loại câu.
Đặc trưng TF-IDF và lớp FC’: Nallapati và cộng sự [128] cho thấy hiệu quả
của các đặc trưng sử dụng trong các mơ hình tóm tắt văn bản nên đặc trưng TF-IDF được thêm cho mơ hình để nâng cao hiệu quả của mơ hình tóm tắt đề xuất. Do véc tơ TF-IDF có kích thước lớn (bằng kích thước của bộ từ vựng) nên mơ hình sử dụng một lớp FC khơng có hàm kích hoạt (ký hiệu là lớp FC’) để giảm chiều của véc tơ TF-IDF (được xem như phép chiếu để giảm chiều của véc tơ TF-IDF) nhằm giảm độ phức tạp tính tốn của mơ hình. Do mơ hình đề xuất giới hạn bộ từ vựng chỉ lấy 40.000 từ có tần suất xuất hiện cao nhất nên véc tơ TF-IDF cũng sẽ có số chiều là 40.000. Lớp FC’ có đầu vào bằng 40.000 tương ứng với số chiều của véc tơ TF-IDF, đầu ra là véc tơ có 128 chiều. Hệ thống sử dụng thư viện sklearn12 để tạo các véc tơ TF-IDF cho bộ dữ liệu đầu vào và thư viện Pytorch để xây dựng lớp FC’.
Phép toán ghép nối: Véc tơ đầu ra của lớp FC’ được ghép nối tiếp với véc tơ
đầu ra của lớp Dropout bởi phép toán ghép nối (ký hiệu ) được một véc tơ có 1.152 chiều (bằng 1.024 + 128) là véc tơ đầu vào cho lớp FC với hàm kích hoạt
softmax để thu được véc tơ đầu ra có 2 chiều là xác suất trả ra của hai nhãn ‘0’ –
biểu diễn câu không được chọn và ‘1’ – biểu diễn câu được chọn.
Lớp FC: Mơ hình sử dụng lớp FC có 1.152 chiều với hàm kích hoạt softmax để
thu được véc tơ đầu ra có 2 chiều là xác suất được chọn của các câu.
3.3.2.3. Sinh bản tóm tắt
Các câu của văn bản đầu vào được sắp xếp theo thứ tự giảm dần theo xác suất được chọn. Các câu này được chọn để đưa vào tóm tắt cho đến khi đạt đến độ dài giới hạn tối đa của bản tóm tắt. Để loại bỏ thơng tin dư thừa, mơ hình sử dụng phương pháp MMR đề xuất theo công thức (2.44) trình bày ở chương 2 (với được chọn bằng 0,5) để đo độ tương đồng giữa các câu và loại bỏ các câu có độ tương đồng so với các câu hiện có trong văn bản tóm tắt lớn hơn một ngưỡng nhất định.
3.3.3. Thử nghiệm mơ hình
3.3.3.1. Các bộ dữ liệu thử nghiệm
Mơ hình được triển khai thử nghiệm cho hai ngơn ngữ khác nhau là tiếng Anh và tiếng Việt. Các bộ dữ liệu thử nghiệm đối với tiếng Anh gồm: DUC 2001 [72], DUC 2002 [73] và CNN [74]. Mục đích của việc thử nghiệm trên các bộ dữ liệu DUC 2001/DUC 2002 (bộ dữ liệu DUC 2001 sử dụng để huấn luyện, bộ dữ liệu DUC 2002 sử dụng để đánh giá mơ hình) để có cơ sở so sánh với một phương pháp hiện đại khác gần với mơ hình đề xuất nhất đã thử nghiệm trên hai bộ dữ liệu này. Mơ hình thử nghiệm trên bộ dữ liệu CNN là để so sánh kết quả mơ hình đề xuất với các mơ hình hiện đại khác trong tóm tắt đơn văn bản hướng trích rút vì hiện nay các mơ hình tóm tắt đơn văn bản hướng trích rút thường được thử nghiệm trên bộ dữ liệu CNN/Daily Mail. Việc thử nghiệm mơ hình trên bộ dữ liệu Baomoi để đánh giá
hiệu quả mơ hình đề xuất đối với tóm tắt văn bản tiếng Việt và đảm bảo tính tổng qt của mơ hình đề xuất đối với tóm tắt ngơn ngữ khác.
3.3.3.2. Tiền xử lý dữ liệu
Trước hết, các bộ dữ liệu CNN và Baomoi xử lý tách riêng phần tiêu đề, phần nội dung, phần tóm tắt và đánh số thứ tự cho các câu. Các bộ dữ liệu tiếng Anh (DUC 2001, DUC 2002 và CNN) được xử lý tách câu sử dụng thư viện nltk13, bộ dữ liệu Baomoi được xử lý tách câu sử dụng thư viện VnCoreNLP. Sau đó, các câu của mỗi bộ dữ liệu được gán nhãn dựa vào tối đa tổng R-2 và R-L (vì thực nghiệm cho độ chính xác tốt hơn so với tối đa tổng R-1 và R-2) sử dụng thư viện rouge- score 0.0.4.
3.3.3.3. Thiết kế thử nghiệm
a) Thử nghiệm mơ hình cơng bố trên các bộ dữ liệu DUC 2001 và DUC 2002
Trước hết, luận án thử nghiệm lại mơ hình trong [129] trên 2 bộ dữ liệu DUC 2001 and DUC 2002 (bộ dữ liệu DUC 2001 sử dụng để huấn luyện, bộ DUC 2002 sử dụng để đánh giá mơ hình) để ghi nhận các kết quả của mơ hình đã cơng bố trong cùng điều kiện hạ tầng cơ sở thử nghiệm với mơ hình đề xuất vì đây là mơ hình tóm tắt giống với mơ hình tóm tắt đề xuất. Các kết quả độ đo R-1, R-2 thu được tương ứng là 41,83%, 16,78% (mơ hình trong [129] không đánh giá độ đo R-L nên luận án không ghi nhận lại kết quả độ đo R-L khi thử nghiệm).
b) Thử nghiệm các mơ hình xây dựng
Luận án triển khai xây dựng bốn mơ hình để lựa chọn mơ hình tóm tắt văn bản đề xuất. Mơ hình ban đầu với việc sử dụng mơ hình mBERT được huấn luyện trước để véc tơ hóa văn bản đầu vào (mơ hình mBERT hỗ trợ cho cả tiếng Anh và tiếng Việt), mạng CNN để trích rút các đặc trưng của câu, lớp FC để tính tốn xác suất các câu được chọn và đặc trưng TF-IDF. Chi tiết các mơ hình như sau đây.
(i) Mơ hình 1 (mBERT + CNN + FC + TF-IDF): Sử dụng mơ hình mBERT kết
hợp với mạng CNN, lớp FC và đặc trưng TF-IDF để huấn luyện mơ hình tính xác suất được chọn của các câu đưa vào bản tóm tắt.
(ii) Mơ hình 2 (mBERT + CNN + Encoder-Decoder + FC+TF-IDF): Mơ hình 1
kết hợp với bộ Encoder-Decoder để liên kết các câu trong cùng một văn bản nhằm đánh giá hiệu quả của việc sử dụng kết hợp bộ Encoder-Decoder trong mơ hình.
(iii) Mơ hình 3 (mBERT + CNN + FC + TF-IDF + MMR): Mơ hình 1 kết hợp
với phương pháp MMR để loại bỏ các thông tin trùng lặp để đánh giá hiệu quả của việc sử dụng phương pháp MMR trong mơ hình (mơ hình này được xây dựng sử dụng mơ hình 1 để giảm độ phức tạp cho mơ hình).
(iv) Mơ hình 4 (mBERT + CNN + Encoder-Decoder + FC + TF-IDF + MMR):
Mơ hình 2 kết hợp với phương pháp MMR để loại bỏ các thơng tin trùng lặp.
Các mơ hình này được thử nghiệm trên bộ dữ liệu CNN để lựa chọn mơ hình tốt nhất làm mơ hình tóm tắt văn bản đề xuất. Các mơ hình được huấn luyện sử dụng Google Colab với cấu hình máy chủ 25GB RAM, GPU V100 được cung cấp bởi hãng Google. Các mơ hình này được huấn luyện với hệ số học khởi tạo ban đầu là 2.10-3 qua 10 epoch, batch size là 32, thời gian huấn luyện xấp xỉ 29 tiếng (với bộ
dữ liệu CNN) và xấp xỉ 63 tiếng (với bộ dữ liệu Baomoi). Sau mỗi epoch, hệ số học sẽ được tự động giảm 10% sử dụng cơ chế scheduling của thư viện PyTorch cho đến epoch cuối cùng.
Các kết quả thử nghiệm của các mơ hình thu được như ở Bảng 3.7 dưới đây.
Mơ hình CNN
R-1 R-2 R-L
Mơ hình 1 (mBERT + CNN + FC + TF-IDF) 31,62 12,01 28,57 Mơ hình 2 (mBERT + CNN + Encoder-Decoder + FC
+ TF-IDF) 31,95 12,69 28,76
Mơ hình 3 (mBERT + CNN + FC + TF-IDF + MMR) 32,54 12,60 29,52 Mơ hình 4 (mBERT + CNN + Encoder-Decoder + FC
+ TF-IDF + MMR) 32,67 13,04 29,53
Bảng 3.7. Các kết quả thử nghiệm của các mơ hình xây dựng
Với các kết quả thử nghiệm của các mơ hình xây dựng, có thể thấy mơ hình tóm tắt văn bản sử dụng mBERT, CNN, lớp FC và đặc trưng TF-IDF (mơ hình 1) đã cho kết quả khả quan và tốt hơn các phương pháp như LexRank, TextRank, LEAD trên cùng bộ dữ liệu CNN (Bảng 3.1). Trong mơ hình 2, bộ Encoder-Decoder được kết hợp vào mơ hình đã cho kết quả tốt hơn (các độ đo R-1, R-2 và R-L tương ứng tăng lần lượt là 0,33%; 0,68% và 0,16%). Trong mơ hình 3, việc kết hợp MMR vào mơ hình 1 để loại bỏ thơng tin dư thừa trong bản tóm tắt đã cho kết quả tốt hơn so với mơ hình 1, thậm chí kết quả R-1, R-L cũng tốt hơn so với mơ hình 2. Trong mơ hình 4, với việc kết hợp MMR vào mơ hình 2 đã cho kết quả tốt hơn so với mơ hình 2. Những điều này cho thấy việc sử dụng bộ Encoder-Decoder, đặc trưng TF-IDF, kết hợp phương pháp MMR đã làm tăng hiệu quả cho mơ hình tóm tắt. Các kết quả thử nghiệm trong Bảng 3.7 cho thấy vai trò quan trọng của đặc trưng TF-IDF, bộ Decoder-Encoder, MMR trong mơ hình tóm tắt văn bản. Các kết quả này chứng tỏ mơ hình tóm tắt văn bản đề xuất sử dụng mBERT, CNN, Decoder-Encoder, FC, đặc trưng TF-IDF và MMR (mơ hình 4) cho các kết quả tốt hơn rõ rệt so với các mơ hình cịn lại, do đó mơ hình 4 được chọn làm mơ hình tóm tắt đề xuất.
c) Thử nghiệm mơ hình đề xuất trên bộ dữ liệu DUC 2001 và DUC 2002
Tiếp theo, mơ hình đề xuất được triển khai thử nghiệm trên hai bộ dữ liệu DUC 2001 và DUC 2002 để đánh giá và so sánh hiệu quả của mơ hình đề xuất với các mơ hình hiện đại khác trên cùng các bộ dữ liệu (bộ dữ liệu DUC 2001 được sử dụng để huấn luyện, bộ dữ liệu DUC 2002 được sử dụng để đánh giá mơ hình). Các kết quả độ đo R-1, R-2 và R-L thu được tương ứng là 48,29%; 23,40% và 43,80%. Bảng 3.8 dưới đây trình bày kết quả thử nghiệm của mơ hình đề xuất và các mơ hình hiện đại khác trên hai bộ dữ liệu DUC 2001 and DUC 2002. Các kết quả trong bảng này cho