Mụ hỡnh túm tắt đơn văn bản hướng trớch rỳt mBERT_CNN_ESDS

Một phần của tài liệu (Luận án tiến sĩ) nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 77 - 84)

Chương 2 CÁC KIẾN THỨC NỀN TẢNG

3.3. Mụ hỡnh túm tắt đơn văn bản hướng trớch rỳt mBERT_CNN_ESDS

mBERT_CNN_ESDS

3.3.1. Giới thiệu mụ hỡnh

Cỏc kỹ thuật học dựa trờn mạng nơ ron sõu được ỏp dụng cho cỏc mụ hỡnh túm tắt văn bản hướng trớch rỳt tạo ra cỏc bản túm tắt chất lượng cao với lượng dữ liệu mẫu lớn. Tuy nhiờn, khi lượng dữ liệu mẫu khụng đủ lớn, cỏc mụ hỡnh này đó bộc lộ những hạn chế nhất định ảnh hưởng đến chất lượng của bản túm tắt đầu ra. Trong phần này, với mục tiờu phỏt triển một mụ hỡnh túm tắt văn bản duy nhất cú thể ỏp dụng hiệu quả cho cả túm tắt văn bản tiếng Anh và tiếng Việt, luận ỏn sử dụng cựng một mụ hỡnh để vộc tơ húa cỏc cõu của văn bản đầu vào một cỏch tốt nhất cho cả văn bản tiếng Anh và tiếng Việt để tạo điều kiện thuận lợi cho mụ hỡnh phõn loại chớnh xỏc. Mụ hỡnh đề xuất tận dụng lợi thế vộc tơ húa từ theo ngữ cảnh của mụ hỡnh BERT đa ngụn ngữ (mBERT) [105] được huấn luyện trước để tạo ra cỏc vộc tơ từ và kết hợp đặc trưng TF-IDF làm đầu vào cho mụ hỡnh phõn loại cõu gồm mạng nơ ron tớch chập, mụ hỡnh seq2seq và lớp mạng nơ ron kết nối đầy đủ (FC - Fully Connected). Cỏc kết quả đầu ra của mụ hỡnh phõn loại cõu được xử lý loại bỏ cỏc thụng tin dư thừa bằng phương phỏp MMR để tạo ra bản túm tắt cuối cựng. Mụ hỡnh đề xuất được thử nghiệm túm tắt cho văn bản tiếng Anh và tiếng Việt trờn hai bộ dữ liệu CNN và Baomoi tương ứng. Cỏc kết quả thử nghiệm cho thấy mụ hỡnh đề xuất đạt kết quả tốt hơn so với cỏc phương phỏp hiện đại khỏc được thử nghiệm trờn cựng bộ dữ liệu tương ứng.

3.3.2. Mụ hỡnh túm tắt văn bản đề xuất

Mụ hỡnh túm tắt đơn văn bản hướng trớch rỳt đề xuất gồm ba mụ đun chớnh: Vộc tơ húa từ, phõn loại cõu và sinh bản túm tắt, được biểu diễn như trong Hỡnh 3.4.

Hỡnh 3.4. Mụ hỡnh túm tắt văn bản hướng trớch rỳt mBERT_CNN_ESDS

3.3.2.1. Vộc tơ húa từ

Trước tiờn, mụ đun xử lý tỏch cõu của văn bản nguồn đầu vào, xử lý lấy 32 cõu đầu tiờn của mỗi văn bản để biểu diễn cho văn bản. Mỗi cõu được xử lý lấy 64 từ đầu tiờn để biểu diễn cho cõu (nếu văn bản dài hơn sẽ được cắt bỏ phần sau, cũn nếu

ngắn hơn sẽ được đệm thờm). Tập cỏc cõu này được xử lý bằng cụng cụ tokenizer của mụ hỡnh pre-trained mBERT sử dụng thư viện Transformersđể tạo ra cỏc vộc tơ chỉ mục (index) của cỏc từ của cõu, sau đú cỏc vộc tơ chỉ mục này được đưa vào mụ hỡnh mBERT thu được cỏc vộc mó húa từ của cỏc cõu (với cả 2 bộ dữ liệu). Mụ hỡnh sử dụng mụ hỡnh mBERT dựa trờn kiến trỳc của mụ hỡnh BERT-Base, Multilingual

Cased tương ứng (L = 12, H = 768, A = 12, 110 triệu tham số) hỗ trợ cho 104 ngụn

ngữ, trong đú cú ngụn ngữ tiếng Việt. Trong quỏ trỡnh huấn luyện, mụ hỡnh mBERT được đúng băng, khụng huấn luyện lại từ đầu mà chỉ huấn luyện tiếp mụ hỡnh (tinh chỉnh) trờn cỏc bộ dữ liệu thử nghiệm CNN và Baomoi tương ứng để cú được biểu diễn tốt nhất cho văn bản nguồn đầu vào.

Cỏc vộc tơ từ này được sử dụng làm đầu vào cho lớp tớch chập (lớp Convolution) của mụ đun phõn loại cõu.

3.3.2.2. Phõn loại cõu

Mụ đun này thực hiện tớnh xỏc suất của cõu đầu vào được chọn đưa vào bản túm tắt. Mụ hỡnh đề xuất sử dụng mạng CNN, kết hợp mụ hỡnh seq2seq (kiến trỳc Encoder-Decoder), lớp dropout, lớp FC và kết hợp đặc trưng TF-IDF cho mụ hỡnh phõn loại cõu. Chi tiết mụ hỡnh phõn loại được trỡnh bày dưới đõy.

Lớp Convolution và lớp k-Max Pooling: Do mụ hỡnh BERT chỉ trớch rỳt được

cỏc đặc trưng của cỏc từ trong một cõu đưa vào mà khụng trớch rỳt được cỏc đặc trưng của cụm cỏc cõu liền nhau vỡ vậy mụ hỡnh đề xuất sử dụng mạng CNN để khắc phục vấn đề này vỡ cửa sổ trượt của mạng CNN sẽ trượt trờn cụm cỏc cõu liền nhau để trớch rỳt đặc trưng của cụm cỏc cõu để trớch rỳt đặc trưng của văn bản. Mụ hỡnh sử dụng kiến trỳc CNN [85] đó trỡnh bày trong chương 2 và tinh chỉnh để ỏp dụng cho mụ hỡnh túm tắt đơn văn bản đề xuất. Đầu vào của lớp Convolution là 1 tensor cú định dạng (n, 1, D*L, H); trong đú: n là kớch thước lụ dữ liệu (batch size),

D là số lượng cõu của văn bản, L là độ dài của 1 cõu, H là số chiều của 3 lớp ẩn cuối

cựng của mBERT (do cho kết quả tốt nhất trong thực nghiệm).

Lớp Convolution sử dụng trong mụ hỡnh cú n = 32, D = 32, L = 64, H = 3*768 (giỏ trị 768 là số chiều của vộc tơ đầu ra của mụ hỡnh mBERT). Kớch thước của cỏc cửa sổ h (window size) sử dụng trong mụ hỡnh là 5 và 10 với bước trượt (stride window) là 1. Số lượng bộ lọc (filter) là 100 tương ứng với mỗi cửa sổ trượt ở trờn. Lớp Convolution được tinh chỉnh sử dụng hàm kớch hoạt mới mish11 được đề xuất trong [126], hàm này được chứng minh là cú xu hướng cải thiện hiệu quả kiến trỳc mạng nơ ron, được tớnh toỏn theo cụng thức (3.3) sau đõy.

( ) tanh( ( )) tanh(ln(1 x))

f xx softplus xxe (3.3) với: softplus x( )ln(1ex) (3.4) Sau đú, cho qua lớp k-Max Pooling (ỏp dụng phộp toỏn k-Max Pooling trong

[127] thay vỡ phộp toỏn Max Pooling trong [86]). Phộp toỏn k-Max Pooling được ỏp dụng trờn mỗi bản đồ đặc trưng (feature map) để chọn ra k giỏ trị lớn nhất (đề xuất lấy giỏ trị k = 2) là đặc trưng tương ứng với mỗi bộ lọc, được vộc tơ đầu ra cú 400 chiều.

Kiến trỳc CNN với k-Max Pooling (k = 2) cho cõu “I would like to have a cup

Hỡnh 3.5. Kiến trỳc lớp Convolution với k-Max Pooling (k = 2)

Mụ hỡnh Encoder-Decoder: Mụ hỡnh được xõy dựng sử dụng kiến trỳc bộ mó

húa - giải mó [92] với bộ mó húa và giải mó sử dụng mạng biLSTM (mạng biLSTM đó trỡnh bày trong chương 2). Mỗi biLSTM cú 512 trạng thỏi ẩn x 2 chiều = 1.024 trạng thỏi ẩn để liờn kết ngữ cảnh cỏc cõu trong văn bản. Cỏc vộc tơ đầu ra của lớp

k-Max Pooling ( , ,...,s s1 2 sm) được đưa qua bộ Encoder-Decoder và nhận được cỏc vộc tơ cõu đầu ra ( ,s s1' 2' ,...,s'm) cú 1.024 chiều. Kiến trỳc Encoder-Decoder đề xuất của mụ hỡnh được biểu diễn như trong Hỡnh 3.6 dưới đõy.

Hỡnh 3.6. Kiến trỳc mụ hỡnh Encoder-Decoder đề xuất

Lớp Dropout: Lớp FC dễ bị hiện tượng quỏ khớp nờn mụ hỡnh xử lý đưa cỏc

vộc tơ cõu đầu ra của bộ Encoder-Decoder qua một lớp Dropout với tỉ lệ dropout p được chọn bằng 0,2 (p = 0,2) để giảm hiện tượng quỏ khớp trước khi vộc tơ này

được ghộp nối với vộc tơ đầu ra của lớp FC’ để đưa vào lớp FC tiếp theo sau trong mụ hỡnh phõn loại cõu.

Đặc trưng TF-IDF và lớp FC’: Nallapati và cộng sự [128] cho thấy hiệu quả

của cỏc đặc trưng sử dụng trong cỏc mụ hỡnh túm tắt văn bản nờn đặc trưng TF-IDF được thờm cho mụ hỡnh để nõng cao hiệu quả của mụ hỡnh túm tắt đề xuất. Do vộc tơ TF-IDF cú kớch thước lớn (bằng kớch thước của bộ từ vựng) nờn mụ hỡnh sử dụng một lớp FC khụng cú hàm kớch hoạt (ký hiệu là lớp FC’) để giảm chiều của vộc tơ TF-IDF (được xem như phộp chiếu để giảm chiều của vộc tơ TF-IDF) nhằm giảm độ phức tạp tớnh toỏn của mụ hỡnh. Do mụ hỡnh đề xuất giới hạn bộ từ vựng chỉ lấy 40.000 từ cú tần suất xuất hiện cao nhất nờn vộc tơ TF-IDF cũng sẽ cú số chiều là 40.000. Lớp FC’ cú đầu vào bằng 40.000 tương ứng với số chiều của vộc tơ TF- IDF, đầu ra là vộc tơ cú 128 chiều. Hệ thống sử dụng thư viện sklearn12

để tạo cỏc vộc tơ TF-IDF cho bộ dữ liệu đầu vào và thư viện Pytorch để xõy dựng lớp FC’.

Phộp toỏn ghộp nối: Vộc tơ đầu ra của lớp FC’ được ghộp nối tiếp với vộc tơ

đầu ra của lớp Dropout bởi phộp toỏn ghộp nối (ký hiệu ) được một vộc tơ cú

1.152 chiều (bằng 1.024 + 128) là vộc tơ đầu vào cho lớp FC với hàm kớch hoạt

softmax để thu được vộc tơ đầu ra cú 2 chiều là xỏc suất trả ra của hai nhón ‘0’ –

biểu diễn cõu khụng được chọn và ‘1’ – biểu diễn cõu được chọn.

Lớp FC: Mụ hỡnh sử dụng lớp FC cú 1.152 chiều với hàm kớch hoạt softmax để

thu được vộc tơ đầu ra cú 2 chiều là xỏc suất được chọn của cỏc cõu.

3.3.2.3. Sinh bản túm tắt

Cỏc cõu của văn bản đầu vào được sắp xếp theo thứ tự giảm dần theo xỏc suất được chọn. Cỏc cõu này được chọn để đưa vào túm tắt cho đến khi đạt đến độ dài giới hạn tối đa của bản túm tắt. Để loại bỏ thụng tin dư thừa, mụ hỡnh sử dụng phương phỏp MMR đề xuất theo cụng thức (2.44) trỡnh bày ở chương 2 (với  được chọn bằng 0,5) để đo độ tương đồng giữa cỏc cõu và loại bỏ cỏc cõu cú độ tương đồng so với cỏc cõu hiện cú trong văn bản túm tắt lớn hơn một ngưỡng nhất định.

3.3.3. Thử nghiệm mụ hỡnh

3.3.3.1. Cỏc bộ dữ liệu thử nghiệm

Mụ hỡnh được triển khai thử nghiệm cho hai ngụn ngữ khỏc nhau là tiếng Anh và tiếng Việt. Cỏc bộ dữ liệu thử nghiệm đối với tiếng Anh gồm: DUC 2001 [72], DUC 2002 [73] và CNN [74]. Mục đớch của việc thử nghiệm trờn cỏc bộ dữ liệu DUC 2001/DUC 2002 (bộ dữ liệu DUC 2001 sử dụng để huấn luyện, bộ dữ liệu DUC 2002 sử dụng để đỏnh giỏ mụ hỡnh) để cú cơ sở so sỏnh với một phương phỏp hiện đại khỏc gần với mụ hỡnh đề xuất nhất đó thử nghiệm trờn hai bộ dữ liệu này. Mụ hỡnh thử nghiệm trờn bộ dữ liệu CNN là để so sỏnh kết quả mụ hỡnh đề xuất với cỏc mụ hỡnh hiện đại khỏc trong túm tắt đơn văn bản hướng trớch rỳt vỡ hiện nay cỏc mụ hỡnh túm tắt đơn văn bản hướng trớch rỳt thường được thử nghiệm trờn bộ dữ liệu CNN/Daily Mail. Việc thử nghiệm mụ hỡnh trờn bộ dữ liệu Baomoi để đỏnh giỏ hiệu quả mụ hỡnh đề xuất đối với túm tắt văn bản tiếng Việt và đảm bảo tớnh tổng quỏt của mụ hỡnh đề xuất đối với túm tắt ngụn ngữ khỏc.

3.3.3.2. Tiền xử lý dữ liệu

Trước hết, cỏc bộ dữ liệu CNN và Baomoi xử lý tỏch riờng phần tiờu đề, phần nội dung, phần túm tắt và đỏnh số thứ tự cho cỏc cõu. Cỏc bộ dữ liệu tiếng Anh (DUC 2001, DUC 2002 và CNN) được xử lý tỏch cõu sử dụng thư viện nltk13, bộ dữ liệu Baomoi được xử lý tỏch cõu sử dụng thư viện VnCoreNLP. Sau đú, cỏc cõu của mỗi bộ dữ liệu được gỏn nhón dựa vào tối đa tổng R-2 và R-L (vỡ thực nghiệm cho độ chớnh xỏc tốt hơn so với tối đa tổng R-1 và R-2) sử dụng thư viện rouge- score 0.0.4.

3.3.3.3. Thiết kế thử nghiệm

a) Thử nghiệm mụ hỡnh cụng bố trờn cỏc bộ dữ liệu DUC 2001 và DUC 2002

Trước hết, luận ỏn thử nghiệm lại mụ hỡnh trong [129] trờn 2 bộ dữ liệu DUC 2001 and DUC 2002 (bộ dữ liệu DUC 2001 sử dụng để huấn luyện, bộ DUC 2002 sử dụng để đỏnh giỏ mụ hỡnh) để ghi nhận cỏc kết quả của mụ hỡnh đó cụng bố trong cựng điều kiện hạ tầng cơ sở thử nghiệm với mụ hỡnh đề xuất vỡ đõy là mụ hỡnh túm tắt giống với mụ hỡnh túm tắt đề xuất. Cỏc kết quả độ đo R-1, R-2 thu được tương ứng là 41,83%, 16,78% (mụ hỡnh trong [129] khụng đỏnh giỏ độ đo R-L nờn luận ỏn khụng ghi nhận lại kết quả độ đo R-L khi thử nghiệm).

b) Thử nghiệm cỏc mụ hỡnh xõy dựng

Luận ỏn triển khai xõy dựng bốn mụ hỡnh để lựa chọn mụ hỡnh túm tắt văn bản đề xuất. Mụ hỡnh ban đầu với việc sử dụng mụ hỡnh mBERT được huấn luyện trước để vộc tơ húa văn bản đầu vào (mụ hỡnh mBERT hỗ trợ cho cả tiếng Anh và tiếng Việt), mạng CNN để trớch rỳt cỏc đặc trưng của cõu, lớp FC để tớnh toỏn xỏc suất cỏc cõu được chọn và đặc trưng TF-IDF. Chi tiết cỏc mụ hỡnh như sau đõy.

(i) Mụ hỡnh 1 (mBERT + CNN + FC + TF-IDF): Sử dụng mụ hỡnh mBERT kết

hợp với mạng CNN, lớp FC và đặc trưng TF-IDF để huấn luyện mụ hỡnh tớnh xỏc suất được chọn của cỏc cõu đưa vào bản túm tắt.

(ii) Mụ hỡnh 2 (mBERT + CNN + Encoder-Decoder + FC+TF-IDF): Mụ hỡnh

1 kết hợp với bộ Encoder-Decoder để liờn kết cỏc cõu trong cựng một văn bản nhằm đỏnh giỏ hiệu quả của việc sử dụng kết hợp bộ Encoder-Decoder trong mụ hỡnh.

(iii) Mụ hỡnh 3 (mBERT + CNN + FC + TF-IDF + MMR): Mụ hỡnh 1 kết hợp

với phương phỏp MMR để loại bỏ cỏc thụng tin trựng lặp để đỏnh giỏ hiệu quả của việc sử dụng phương phỏp MMR trong mụ hỡnh (mụ hỡnh này được xõy dựng sử dụng mụ hỡnh 1 để giảm độ phức tạp cho mụ hỡnh).

(iv) Mụ hỡnh 4 (mBERT + CNN + Encoder-Decoder + FC + TF-IDF + MMR):

Mụ hỡnh 2 kết hợp với phương phỏp MMR để loại bỏ cỏc thụng tin trựng lặp.

Cỏc mụ hỡnh này được thử nghiệm trờn bộ dữ liệu CNN để lựa chọn mụ hỡnh tốt nhất làm mụ hỡnh túm tắt văn bản đề xuất. Cỏc mụ hỡnh được huấn luyện sử dụng Google Colab với cấu hỡnh mỏy chủ 25GB RAM, GPU V100 được cung cấp bởi hóng Google. Cỏc mụ hỡnh này được huấn luyện với hệ số học khởi tạo ban đầu là 2.10-3 qua 10 epoch, batch size là 32, thời gian huấn luyện xấp xỉ 29 tiếng (với bộ dữ liệu CNN) và xấp xỉ 63 tiếng (với bộ dữ liệu Baomoi). Sau mỗi epoch, hệ số học sẽ được tự động giảm 10% sử dụng cơ chế scheduling của thư viện PyTorch cho đến epoch cuối cựng.

Cỏc kết quả thử nghiệm của cỏc mụ hỡnh thu được như ở Bảng 3.7 dưới đõy. Mụ hỡnh CNN R-1 R-2 R-L Mụ hỡnh 1 (mBERT + CNN + FC + TF-IDF) 31,62 12,01 28,57 Mụ hỡnh 2 (mBERT + CNN + Encoder-Decoder + FC + TF-IDF) 31,95 12,69 28,76 Mụ hỡnh 3 (mBERT + CNN + FC + TF-IDF + MMR) 32,54 12,60 29,52 Mụ hỡnh 4 (mBERT + CNN + Encoder-Decoder + FC + TF-IDF + MMR) 32,67 13,04 29,53

Bảng 3.7. Cỏc kết quả thử nghiệm của cỏc mụ hỡnh xõy dựng

Với cỏc kết quả thử nghiệm của cỏc mụ hỡnh xõy dựng, cú thể thấy mụ hỡnh túm tắt văn bản sử dụng mBERT, CNN, lớp FC và đặc trưng TF-IDF (mụ hỡnh 1) đó cho kết quả khả quan và tốt hơn cỏc phương phỏp như LexRank, TextRank, LEAD trờn cựng bộ dữ liệu CNN (Bảng 3.1). Trong mụ hỡnh 2, bộ Encoder-Decoder được kết hợp vào mụ hỡnh đó cho kết quả tốt hơn (cỏc độ đo R-1, R-2 và R-L tương ứng tăng lần lượt là 0,33%; 0,68% và 0,16%). Trong mụ hỡnh 3, việc kết hợp MMR vào mụ hỡnh 1 để loại bỏ thụng tin dư thừa trong bản túm tắt đó cho kết quả tốt hơn so với mụ hỡnh 1, thậm chớ kết quả R-1, R-L cũng tốt hơn so với mụ hỡnh 2. Trong mụ hỡnh 4, với việc kết hợp MMR vào mụ hỡnh 2 đó cho kết quả tốt hơn so với mụ hỡnh 2. Những điều này cho thấy việc sử dụng bộ Encoder-Decoder, đặc trưng TF-IDF, kết hợp phương phỏp MMR đó làm tăng hiệu quả cho mụ hỡnh túm tắt. Cỏc kết quả thử nghiệm trong Bảng 3.7 cho thấy vai trũ quan trọng của đặc trưng TF-IDF, bộ Decoder-Encoder, MMR trong mụ hỡnh túm tắt văn bản. Cỏc kết quả này chứng tỏ mụ hỡnh túm tắt văn bản đề xuất sử dụng mBERT, CNN, Decoder-Encoder, FC, đặc trưng TF-IDF và MMR (mụ hỡnh 4) cho cỏc kết quả tốt hơn rừ rệt so với cỏc mụ hỡnh cũn lại, do đú mụ hỡnh 4 được chọn làm mụ hỡnh túm tắt đề xuất.

c) Thử nghiệm mụ hỡnh đề xuất trờn bộ dữ liệu DUC 2001 và DUC 2002

Tiếp theo, mụ hỡnh đề xuất được triển khai thử nghiệm trờn hai bộ dữ liệu DUC 2001 và DUC 2002 để đỏnh giỏ và so sỏnh hiệu quả của mụ hỡnh đề xuất với cỏc mụ hỡnh hiện đại khỏc trờn cựng cỏc bộ dữ liệu (bộ dữ liệu DUC 2001 được sử dụng để huấn luyện, bộ dữ liệu DUC 2002 được sử dụng để đỏnh giỏ mụ hỡnh). Cỏc kết quả độ đo R-1, R-2 và R-L thu được tương ứng là 48,29%; 23,40% và 43,80%. Bảng 3.8 dưới đõy trỡnh bày kết quả thử nghiệm của mụ hỡnh đề xuất và cỏc mụ hỡnh hiện đại khỏc trờn hai bộ dữ liệu DUC 2001 and DUC 2002. Cỏc kết quả trong bảng này cho thấy mụ hỡnh đề xuất hiệu quả hơn so với cỏc mụ hỡnh cũn lại.

Một phần của tài liệu (Luận án tiến sĩ) nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 77 - 84)

Tải bản đầy đủ (PDF)

(181 trang)