Chương 2 CÁC KIẾN THỨC NỀN TẢNG
4.3. Mơ hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS
4.3.2. Mơ hình tóm tắt đơn văn bản hướng tóm lược đề xuất
Kiến trúc mơ hình đề xuất bao gồm mơ hình seq2seq với bộ mã hóa sử dụng mạng biLSTM và bộ giải mã sử dụng mạng LSTM, cơ chế chú ý được sử dụng nhằm giúp mơ hình tập trung vào các thơng tin chính của văn bản. Mặc dù, mơ hình seq2seq có sử dụng cơ chế chú ý nhưng vẫn tồn tại các nhược điểm là lỗi lặp từ, lặp câu và mất mát thơng tin. Do đó, mơ hình đề xuất sử dụng 2 cơ chế trong [43] đã giải quyết được các vấn đề trên là:
- Cơ chế bao phủ: Khắc phục lỗi lặp từ, lặp câu.
- Cơ chế sao chép từ - sinh từ: Khắc phục lỗi mất mát thông tin.
Tuy nhiên, trong quá trình thử nghiệm tóm tắt cho tiếng Anh (bộ dữ liệu CNN/Daily Mail) và tiếng Việt (bộ dữ liệu Baomoi), mơ hình cho kết quả chưa cao như mong muốn, nhiều mẫu thử nghiệm đưa ra kết quả chưa chính xác nên luận án đề xuất thêm mới 2 đặc trưng của văn bản vào mơ hình là: Đặc trưng vị trí câu trong văn bản (POSI) và tần suất xuất hiện của từ trong văn bản (TF).
Mơ hình đề xuất với các đặc trưng POSI và TF thêm mới được biểu diễn như trong Hình 4.2 dưới đây.
Hình 4.2. Mơ hình tóm tắt đơn văn bản hướng tóm lược đề xuất PG_Feature_ASDS
4.4. Thử nghiệm mơ hình
4.4.1. Các bộ dữ liệu thử nghiệm
Mơ hình đề xuất được thử nghiệm trên hai bộ dữ liệu CNN/Daily Mail cho tiếng Anh và Baomoi cho tiếng Việt. Mục đích của việc thử nghiệm trên bộ dữ liệu CNN/Daily Mail là để so sánh kết quả của mơ hình đề xuất với kết quả của các hệ thống tóm tắt văn bản hướng tóm lược cho tiếng Anh trên cùng bộ dữ liệu gần đây. Việc thử nghiệm trên bộ dữ liệu Baomoi để đánh giá hiệu quả của mơ hình đề xuất đối với một ngôn ngữ khác là tiếng Việt và để đảm bảo tính tổng quát của phương pháp tiếp cận tóm tắt hướng tóm lược đã đề xuất.
4.4.2. Tiền xử lý dữ liệu
Trước hết, bộ dữ liệu văn bản đầu vào được xử lý tách từ sử dụng thư viện Stanford CoreNLP đối với văn bản tiếng Anh, thư viện UETSegment14 đối với văn bản tiếng Việt. Với các văn bản của bộ dữ liệu Baomoi, xóa các từ khơng có ý nghĩa ở nhiều văn bản (ví dụ như: vov.vn, dantri,vn, baodautu.vn,…) vì các từ này khơng đóng góp vào nội dung của văn bản, loại bỏ những văn bản khơng có phần tóm tắt hoặc khơng có phần nội dung, các bài viết q ngắn (nhỏ hơn 50 ký tự) cũng bị loại bỏ. Sau đó, mỗi đơn vị dữ liệu (bao gồm 1 phần tóm tắt và 1 phần nội dung) được định dạng theo kiểu dữ liệu quy định trong Tensorflow (đối với cả hai bộ dữ liệu). Kiểu dữ liệu này được định dạng cho cả 3 tập dữ liệu: Tập dữ liệu huấn luyện (train), tập dữ liệu kiểm tra (validate) và tập dữ liệu đánh giá (test). Đồng thời, dựa vào dữ liệu huấn luyện tạo một bộ từ vựng (vocab) với kích thước là 50.000 từ.
4.4.3. Thiết kế thử nghiệm
Luận án triển khai thử nghiệm bốn mơ hình khác nhau trên các bộ dữ liệu CNN/Daily Mail và Baomoi như sau:
(i) Mơ hình 1: Mơ hình seq2seq cơ bản với cơ chế attention [128]. (ii) Mơ hình 2: Mạng Pointer - Generator với cơ chế Coverage [43].
(iii) Mơ hình 3: Hệ thống đề xuất dựa trên [43] và thêm đặc trưng vị trí câu. (iv) Mơ hình 4: Hệ thống đề xuất dựa trên [43] và bổ sung thêm các đặc trưng vị trí câu và tần suất xuất hiện của từ.
Hai mơ hình 1 và 2 được thử nghiệm bởi mã nguồn trong [43] trên hai bộ dữ liệu CNN/Daily Mail và Baomoi. Hai mơ hình 3 và 4 do luận án thực hiện cài đặt để lựa chọn mơ hình tóm tắt đề xuất.
Đầu vào của mơ hình là một chuỗi các từ của bài báo, mỗi từ được biểu diễn dưới dạng một véc tơ. Kích thước bộ từ vựng trong các thử nghiệm là 50.000 từ cho tiếng Anh và tiếng Việt. Đối với các thử nghiệm, mơ hình có trạng thái ẩn 256 chiều và véc tơ mã hóa từ 128 chiều, kích thước lơ dữ liệu (batch size) được giới hạn là 16 và độ dài văn bản đầu vào là 800 từ đối với tiếng Anh và 550 từ đối với tiếng Việt (do các văn bản tiếng Anh có độ dài nhỏ hơn 800 từ và các văn bản tiếng Việt có độ dài nhỏ hơn 550 từ nên độ dài văn bản được giới hạn như vậy là hợp lý). Mơ hình sử dụng bộ tối ưu hóa Adagrad [135] với hệ số học là 0,15 và giá trị tích lũy ban đầu là 0,1. Khi tinh chỉnh mơ hình, giá trị hàm mất mát (loss) được sử dụng để dừng mơ hình sớm. Trong giai đoạn đánh giá, độ dài bản tóm tắt được giới hạn tối đa là 100 từ cho cả hai bộ dữ liệu.
Ngoài ra, hệ thống cũng triển khai thử nghiệm mơ hình của See và cộng sự [43] trên bộ dữ liệu CNN/Daily Mail để đánh giá hiệu quả của việc sử dụng 400 từ đầu tiên của văn bản làm đầu vào cho hệ thống.
4.5. Đánh giá và so sánh kết quả
Bảng 4.1 dưới đây biểu diễn các kết quả thử nghiệm trên bộ dữ liệu CNN/Daily Mail. Các độ đo R-1, R-2 và R-L được sử dụng để đánh giá và so sánh hiệu quả của các mơ hình.
Mơ hình CNN/Daily Mail
R-1 R-2 R-L
Mơ hình 1 (Seq2seq + attention) [128] 27,21 10,09 24,48 Mơ hình 2 (Pointer-Generator + Coverage) [43] (*) 29,71 12,13 28,05 Mơ hình 3 ((*) + POSI) 31,16 12,66 28,61
Mơ hình 4 ((*) + POSI + TF) 31,89 13,01 29,97
Bảng 4.1. Kết quả thử nghiệm của các mơ hình trên bộ dữ liệu CNN/Daily Mail. Ký hiệu ‘(*)’ là mơ hình của See và cộng sự [43]
Khi lặp lại thử nghiệm trong [43] sử dụng 400 từ đầu tiên của bài báo làm đầu vào thì nhận được điểm R-1 là 35,87%. Tuy nhiên, khi sử dụng tồn bộ bài báo làm
đầu vào thì độ đo R-1 giảm xuống còn 29,71%. Điều này là do khi cung cấp một văn bản dài cho mơ hình, phần đầu của văn bản bị hệ thống "quên" mà nội dung chính của bài báo thường nằm ở phần đầu. Tuy nhiên, các bài báo được tóm tắt theo cách này sẽ làm giảm tính tổng quát của hệ thống cũng như trong các trường hợp thơng tin quan trọng có thể khơng nằm ở 400 từ đầu tiên của văn bản.
Bảng 4.1 cho thấy khi sử dụng toàn bộ văn bản của bài báo làm đầu vào, cả hai mơ hình đề xuất (mơ hình 3 và mơ hình 4) đều cho kết quả tốt hơn các hệ thống trong [128] và [43] trong cả ba độ đo R-1, R-2 và R-L. Kết quả thử nghiệm cho thấy rằng đặc trưng vị trí câu là thông tin quan trọng trong việc sinh ra một bản tóm tắt chất lượng và tần suất xuất hiện của từ là một chỉ báo tốt cho các nhiệm vụ tóm tắt văn bản sử dụng các kỹ thuật học sâu. Khi thơng tin về vị trí câu và tần suất xuất hiện của từ được thêm vào mơ hình, độ đo R-1 được cải thiện đáng kể, cao hơn 2,18% so với độ đo R-1 của hệ thống trong [43].
Bảng 4.2 dưới đây biểu diễn các kết quả thử nghiệm trên bộ dữ liệu Baomoi.
Mơ hình Baomoi
R-1 R-2 R-L
Mơ hình 1 (Seq2seq + attn baseline) [128] 26,68 9.34 16,49 Mơ hình 2 (Pointer-Generator + Coverage) [43] (*) 28,34 11,06 18,55 Mơ hình 3 ((*) + POSI) 29,47 11,31 18,85
Mơ hình 4 ((*) + POSI + TF) 30,59 11,53 19,45
Bảng 4.2. Kết quả thử nghiệm của các mơ hình trên bộ dữ liệu Baomoi. Ký hiệu ‘(*)’ là mơ hình của See và cộng sự [43]
Kết quả trong Bảng 4.2 cũng chỉ ra rằng cả hai mơ hình đề xuất đều đạt các điểm R-1, R-2, R-L cao hơn so với hai hệ thống cịn lại. Mơ hình đề xuất tốt nhất thu được độ đo R-1 cao hơn 2,25% so với độ đo R-1 của mơ hình trong [43] và cao hơn 3,91% so với độ đo R-1 của mơ hình cơ bản trong [128].
Bảng 4.3 biểu diễn một mẫu thử nghiệm bao gồm bản tóm tắt tham chiếu, bản tóm tắt của mơ hình [43] và bản tóm tắt của mơ hình đề xuất PG_Feature_ASDS. Văn bản nguồn của mẫu thử nghiệm này xem Phụ lục C.4 trong phần Phụ lục.
Bản tóm tắt tham chiếu
“Mary Todd Lowrance, teacher at Moises e Molina high school, turned herself into Dallas independent school district police on Thursday morning. Dallas isd police said she had been in a relationship with student, who is older than 17 years old, for a couple of months. She confided in coworker who alerted authorities and police eventually got arrest warrant. Lowrance was booked into county jail on $ 5,000 bond and has been released from the Dallas county jail, according to county records. She has been on leave for several weeks while investigators worked on the case, police said.”
“Lowrance Lowrance was accused of a male school on a $ 5,000 bond. Lowrance has been on leave for several weeks while investigators worked on the case. The student has been offered counseling warrant.”
Bản tóm tắt của mơ hình PG_Feature_ASDS
“Mary Todd Lowrance, 49, arrested after being accused of having an improper relationship with a male student older than 17 years old. Miller said the teacher had been in a relationship with the student for a couple of months. Officers learned of the alleged relationship after Lowrance disclosed details to a coworker who then alerted a Dallas isd officer.”
Bảng 4.3. Mẫu tóm tắt gồm bản tóm tắt tham chiếu, bản tóm tắt của mơ hình trong [43] và bản tóm tắt của mơ hình đề xuất trên bộ dữ liệu CNN/Daily Mail
Như có thể thấy trong Bảng 4.3, bản tóm tắt của hệ thống đề xuất đưa ra nhiều thông tin hơn so với bản tóm tắt của mơ hình trong [43] và các từ khơng bị lặp lại.
Một mẫu tóm tắt với một bài báo của bộ dữ liệu Baomoi được biểu diễn trong Bảng 4.4 bên dưới. Văn bản nguồn của mẫu thử nghiệm này xem Phụ lục C.4 trong phần Phụ lục.
Bản tóm tắt tham chiếu
“Một xưởng sản xuất phi pháp tại Tức Mặc, Thanh đảo, Trung quốc vừa bị phát hiện sử dụng 1.000 kg dầu bẩn để chế biến bánh trung thu.”
Bản tóm tắt của mơ hình Pointer-Generator, Coverage [43]
“Sự việc bị phanh phui vào ngày 30/8 vừa qua. Cơ quan an
tồn thực phẩm, phịng cơng thương, cơng an và chính quyền thị xã đã phối hợp điều tra sự việc bị phanh phui vào ngày 30/8 vừa qua.”
Bản tóm tắt của mơ hình PG_Feature_ASDS
“1.000 kg dầu bẩn vừa được chuyển tới bởi một xe tải chở hàng. Theo nguồn tin thân cậy, số dầu này có xuất xứ từ một xưởng chế biến tại mã điếm, Giao Châu. Ngày 31/8, một tổ công tác gồm phịng an tồn thực phẩm, công an và chính quyền thị xã đã phối hợp điều tra sự việc này.”
Bảng 4.4. Mẫu tóm tắt gồm bản tóm tắt tham chiếu, bản tóm tắt của mơ hình trong [43] và bản tóm tắt của mơ hình đề xuất trên bộ dữ liệu Baomoi
Trong Bảng 4.4, có thể thấy thơng tin chính của văn bản là: “1.000 kg dầu bẩn
vừa được chuyển tới bởi một xe tải chở hàng. Theo nguồn tin thân cậy, số dầu này có xuất xứ từ một xưởng chế biến tại mã điếm, Giao Châu. Ngày 31/8, một tổ cơng tác gồm phịng an tồn thực phẩm, cơng an và chính quyền thị xã đã phối hợp điều tra sự việc này”. Bản tóm tắt tham chiếu chứa hầu hết các thơng tin trên. Bản tóm
tắt do mơ hình trong [43] sinh ra không chứa thông tin quan trọng là “1.000 kg dầu
tắt đầu ra của mơ hình trong [43] ngắn và thiếu thơng tin chính, cụm từ “sự việc bị
phanh phui vào ngày 30/8 vừa qua” bị lặp lại hai lần. Trong khi đó, bản tóm tắt
được sinh ra bởi mơ hình đề xuất PG_Feature_ASDS đã cung cấp nhiều thơng tin hơn so với mơ hình trong [43] và khơng chứa các cụm từ lặp lại.
Như vậy, có thể thấy bản tóm tắt đầu ra của mơ hình đề xuất dễ hiểu và khơng có lỗi ngữ pháp đối với cả hai bộ dữ liệu tiếng Anh và tiếng Việt.
4.6. Kết luận chương 4
Trong chương này, luận án đã đề xuất phát triển một mơ hình tóm tắt đơn văn bản hướng tóm lược hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt sử dụng các kỹ thuật học sâu, các kỹ thuật hiệu quả khác và kết hợp các đặc trưng của văn bản cho mơ hình tóm tắt. Các kết quả đạt được cụ thể như sau:
- Véc tơ hóa văn bản đầu vào sử dụng phương pháp word2vec.
- Sử dụng mạng seq2seq với bộ mã hóa sử dụng mạng biLSTM và bộ giải mã sử dụng mạng LSTM kết hợp cơ chế chú ý, cơ chế sinh từ - sao chép từ và cơ chế bao phủ cho mơ hình tóm tắt.
- Kết hợp các đặc trưng vị trí câu và tần suất xuất hiện của từ vào mơ hình tóm tắt.
- Thử nghiệm và đánh giá kết quả mơ hình tóm tắt đề xuất PG_Feature_ASDS cho tóm tắt văn bản tiếng Anh, tiếng Việt sử dụng các bộ dữ liệu CNN/Daily Mail, Baomoi tương ứng.
Kết quả đạt được của chương đã được cơng bố trong cơng trình [CT2]. Trong chương tiếp theo, luận án sẽ nghiên cứu đề xuất một mơ hình tóm tắt đa văn bản hướng trích rút và các mơ hình tóm tắt đa văn bản hướng tóm lược cho tóm tắt văn bản tiếng Anh và tiếng Việt.
Chương 5. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐA VĂN BẢN
Trong chương này, trước hết luận án đề xuất phát triển một mơ hình tóm tắt đa văn bản hướng trích rút Kmeans_Centroid_EMDS cho tóm tắt tiếng Anh và tiếng Việt sử dụng kỹ thuật phân cụm K-means, phương pháp dựa trên trung tâm (Centroid-based), MMR và đặc trưng vị trí câu để tạo bản tóm tắt. Mơ hình
Kmeans_Centroid_EMDS được thử nghiệm trên bộ dữ liệu DUC 2007 (tiếng Anh)
và Corpus_TMV (tiếng Việt). Sau đó, luận án đề xuất phát triển mơ hình tóm tắt đa văn bản hướng tóm lược PG_Feature_AMDS dựa trên mơ hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước đã phát triển ở chương 4 và tinh chỉnh mơ hình tóm tắt đơn văn bản này bằng việc huấn luyện tiếp trên các bộ dữ liệu tóm tắt đa văn bản tương ứng để mơ hình đề xuất PG_Feature_AMDS đạt được hiệu quả tốt hơn. Mơ hình PG_Feature_AMDS được thử nghiệm sử dụng các bộ dữ liệu DUC 2007 và DUC 2004 (tiếng Anh); các bộ dữ liệu ViMs và bộ dữ liệu Corpus_TMV (tiếng Việt). Cuối cùng, luận án đề xuất phát triển mơ hình tóm tắt đa văn bản hướng tóm lược Ext_Abs_AMDS-mds-mmr dựa trên mơ hình tóm tắt hỗn hợp được xây dựng từ các mơ hình tóm tắt đơn văn bản được huấn luyện trước đã phát triển ở chương 3, chương 4 và tinh chỉnh mơ hình tóm tắt hỗn hợp này bằng việc huấn luyện tiếp trên các bộ dữ liệu tóm tắt đa văn bản tương ứng để mơ hình đề xuất
Ext_Abs_AMDS-mds-mmr cho kết quả tốt hơn. Mơ hình Ext_Abs_AMDS-mds-mmr
cũng được thử nghiệm sử dụng các bộ dữ liệu DUC 2007 và DUC 2004 (tiếng Anh); các bộ dữ liệu ViMs và bộ dữ liệu Corpus_TMV (tiếng Việt).