Kiến trỳc mụ hỡnh đề xuất bao gồm mụ hỡnh seq2seq với bộ mó húa sử dụng mạng biLSTM và bộ giải mó sử dụng mạng LSTM, cơ chế chỳ ý được sử dụng nhằm giỳp mụ hỡnh tập trung vào cỏc thụng tin chớnh của văn bản. Mặc dự, mụ hỡnh seq2seq cú sử dụng cơ chế chỳ ý nhưng vẫn tồn tại cỏc nhược điểm là lỗi lặp từ, lặp cõu và mất mỏt thụng tin. Do đú, mụ hỡnh đề xuất sử dụng 2 cơ chế trong [43] đó giải quyết được cỏc vấn đề trờn là:
- Cơ chế bao phủ: Khắc phục lỗi lặp từ, lặp cõu.
- Cơ chế sao chộp từ - sinh từ: Khắc phục lỗi mất mỏt thụng tin.
Tuy nhiờn, trong quỏ trỡnh thử nghiệm túm tắt cho tiếng Anh (bộ dữ liệu CNN/Daily Mail) và tiếng Việt (bộ dữ liệu Baomoi), mụ hỡnh cho kết quả chưa cao như mong muốn, nhiều mẫu thử nghiệm đưa ra kết quả chưa chớnh xỏc nờn luận ỏn đề xuất thờm mới 2 đặc trưng của văn bản vào mụ hỡnh là: Đặc trưng vị trớ cõu trong văn bản (POSI) và tần suất xuất hiện của từ trong văn bản (TF).
Mụ hỡnh đề xuất với cỏc đặc trưng POSI và TF thờm mới được biểu diễn như trong Hỡnh 4.2 dưới đõy.
Hỡnh 4.2. Mụ hỡnh túm tắt đơn văn bản hướng túm lược đề xuất PG_Feature_ASDS
4.4. Thử nghiệm mụ hỡnh
4.4.1. Cỏc bộ dữ liệu thử nghiệm
Mụ hỡnh đề xuất được thử nghiệm trờn hai bộ dữ liệu CNN/Daily Mail cho tiếng Anh và Baomoi cho tiếng Việt. Mục đớch của việc thử nghiệm trờn bộ dữ liệu
90
CNN/Daily Mail là để so sỏnh kết quả của mụ hỡnh đề xuất với kết quả của cỏc hệ thống túm tắt văn bản hướng túm lược cho tiếng Anh trờn cựng bộ dữ liệu gần đõy. Việc thử nghiệm trờn bộ dữ liệu Baomoi để đỏnh giỏ hiệu quả của mụ hỡnh đề xuất đối với một ngụn ngữ khỏc là tiếng Việt và để đảm bảo tớnh tổng quỏt của phương phỏp tiếp cận túm tắt hướng túm lược đó đề xuất.
4.4.2. Tiền xử lý dữ liệu
Trước hết, bộ dữ liệu văn bản đầu vào được xử lý tỏch từ sử dụng thư viện Stanford CoreNLP đối với văn bản tiếng Anh, thư viện UETSegment14 đối với văn bản tiếng Việt. Với cỏc văn bản của bộ dữ liệu Baomoi, xúa cỏc từ khụng cú ý nghĩa ở nhiều văn bản (vớ dụ như: vov.vn, dantri,vn, baodautu.vn,…) vỡ cỏc từ này khụng đúng gúp vào nội dung của văn bản, loại bỏ những văn bản khụng cú phần túm tắt hoặc khụng cú phần nội dung, cỏc bài viết quỏ ngắn (nhỏ hơn 50 ký tự) cũng bị loại bỏ. Sau đú, mỗi đơn vị dữ liệu (bao gồm 1 phần túm tắt và 1 phần nội dung) được định dạng theo kiểu dữ liệu quy định trong Tensorflow (đối với cả hai bộ dữ liệu). Kiểu dữ liệu này được định dạng cho cả 3 tập dữ liệu: Tập dữ liệu huấn luyện (train), tập dữ liệu kiểm tra (validate) và tập dữ liệu đỏnh giỏ (test). Đồng thời, dựa vào dữ liệu huấn luyện tạo một bộ từ vựng (vocab) với kớch thước là 50.000 từ.
4.4.3. Thiết kế thử nghiệm
Luận ỏn triển khai thử nghiệm bốn mụ hỡnh khỏc nhau trờn cỏc bộ dữ liệu CNN/Daily Mail và Baomoi như sau:
(i) Mụ hỡnh 1: Mụ hỡnh seq2seq cơ bản với cơ chế attention [128]. (ii) Mụ hỡnh 2: Mạng Pointer - Generator với cơ chế Coverage [43].
(iii) Mụ hỡnh 3: Hệ thống đề xuất dựa trờn [43] và thờm đặc trưng vị trớ cõu. (iv) Mụ hỡnh 4: Hệ thống đề xuất dựa trờn [43] và bổ sung thờm cỏc đặc trưng vị trớ cõu và tần suất xuất hiện của từ.
Hai mụ hỡnh 1 và 2 được thử nghiệm bởi mó nguồn trong [43] trờn hai bộ dữ liệu CNN/Daily Mail và Baomoi. Hai mụ hỡnh 3 và 4 do luận ỏn thực hiện cài đặt để lựa chọn mụ hỡnh túm tắt đề xuất.
Đầu vào của mụ hỡnh là một chuỗi cỏc từ của bài bỏo, mỗi từ được biểu diễn dưới dạng một vộc tơ. Kớch thước bộ từ vựng trong cỏc thử nghiệm là 50.000 từ cho tiếng Anh và tiếng Việt. Đối với cỏc thử nghiệm, mụ hỡnh cú trạng thỏi ẩn 256 chiều và vộc tơ mó húa từ 128 chiều, kớch thước lụ dữ liệu (batch size) được giới hạn là 16 và độ dài văn bản đầu vào là 800 từ đối với tiếng Anh và 550 từ đối với tiếng Việt (do cỏc văn bản tiếng Anh cú độ dài nhỏ hơn 800 từ và cỏc văn bản tiếng Việt cú độ dài nhỏ hơn 550 từ nờn độ dài văn bản được giới hạn như vậy là hợp lý). Mụ hỡnh sử dụng bộ tối ưu húa Adagrad [135] với hệ số học là 0,15 và giỏ trị tớch lũy ban đầu là 0,1. Khi tinh chỉnh mụ hỡnh, giỏ trị hàm mất mỏt (loss) được sử dụng để dừng mụ hỡnh sớm. Trong giai đoạn đỏnh giỏ, độ dài bản túm tắt được giới hạn tối đa là 100 từ cho cả hai bộ dữ liệu.
Ngoài ra, hệ thống cũng triển khai thử nghiệm mụ hỡnh của See và cộng sự [43] trờn bộ dữ liệu CNN/Daily Mail để đỏnh giỏ hiệu quả của việc sử dụng 400 từ đầu tiờn của văn bản làm đầu vào cho hệ thống.
91
4.5. Đỏnh giỏ và so sỏnh kết quả
Bảng 4.1 dưới đõy biểu diễn cỏc kết quả thử nghiệm trờn bộ dữ liệu CNN/Daily Mail. Cỏc độ đo R-1, R-2 và R-L được sử dụng để đỏnh giỏ và so sỏnh hiệu quả của cỏc mụ hỡnh. Mụ hỡnh CNN/Daily Mail R-1 R-2 R-L Mụ hỡnh 1 (Seq2seq + attention) [128] 27,21 10,09 24,48 Mụ hỡnh 2 (Pointer-Generator + Coverage) [43] (*) 29,71 12,13 28,05 Mụ hỡnh 3 ((*) + POSI) 31,16 12,66 28,61 Mụ hỡnh 4 ((*) + POSI + TF) 31,89 13,01 29,97
Bảng 4.1. Kết quả thử nghiệm của cỏc mụ hỡnh trờn bộ dữ liệu CNN/Daily Mail. Ký hiệu ‘(*)’ là mụ hỡnh của See và cộng sự [43]
Khi lặp lại thử nghiệm trong [43] sử dụng 400 từ đầu tiờn của bài bỏo làm đầu vào thỡ nhận được điểm R-1 là 35,87%. Tuy nhiờn, khi sử dụng toàn bộ bài bỏo làm đầu vào thỡ độ đo R-1 giảm xuống cũn 29,71%. Điều này là do khi cung cấp một văn bản dài cho mụ hỡnh, phần đầu của văn bản bị hệ thống "quờn" mà nội dung chớnh của bài bỏo thường nằm ở phần đầu. Tuy nhiờn, cỏc bài bỏo được túm tắt theo cỏch này sẽ làm giảm tớnh tổng quỏt của hệ thống cũng như trong cỏc trường hợp thụng tin quan trọng cú thể khụng nằm ở 400 từ đầu tiờn của văn bản.
Bảng 4.1 cho thấy khi sử dụng toàn bộ văn bản của bài bỏo làm đầu vào, cả hai mụ hỡnh đề xuất (mụ hỡnh 3 và mụ hỡnh 4) đều cho kết quả tốt hơn cỏc hệ thống trong [128] và [43] trong cả ba độ đo R-1, R-2 và R-L. Kết quả thử nghiệm cho thấy rằng đặc trưng vị trớ cõu là thụng tin quan trọng trong việc sinh ra một bản túm tắt chất lượng và tần suất xuất hiện của từ là một chỉ bỏo tốt cho cỏc nhiệm vụ túm tắt văn bản sử dụng cỏc kỹ thuật học sõu. Khi thụng tin về vị trớ cõu và tần suất xuất hiện của từ được thờm vào mụ hỡnh, độ đo R-1 được cải thiện đỏng kể, cao hơn 2,18% so với độ đo R-1 của hệ thống trong [43].
Bảng 4.2 dưới đõy biểu diễn cỏc kết quả thử nghiệm trờn bộ dữ liệu Baomoi.
Mụ hỡnh Baomoi
R-1 R-2 R-L
Mụ hỡnh 1 (Seq2seq + attn baseline) [128] 26,68 9.34 16,49 Mụ hỡnh 2 (Pointer-Generator + Coverage) [43] (*) 28,34 11,06 18,55 Mụ hỡnh 3 ((*) + POSI) 29,47 11,31 18,85
Mụ hỡnh 4 ((*) + POSI + TF) 30,59 11,53 19,45
Bảng 4.2. Kết quả thử nghiệm của cỏc mụ hỡnh trờn bộ dữ liệu Baomoi. Ký hiệu ‘(*)’ là mụ hỡnh của See và cộng sự [43]
Kết quả trong Bảng 4.2 cũng chỉ ra rằng cả hai mụ hỡnh đề xuất đều đạt cỏc điểm R-1, R-2, R-L cao hơn so với hai hệ thống cũn lại. Mụ hỡnh đề xuất tốt nhất thu được độ đo R-1 cao hơn 2,25% so với độ đo R-1 của mụ hỡnh trong [43] và cao hơn 3,91% so với độ đo R-1 của mụ hỡnh cơ bản trong [128].
92
Bảng 4.3 biểu diễn một mẫu thử nghiệm bao gồm bản túm tắt tham chiếu, bản túm tắt của mụ hỡnh [43] và bản túm tắt của mụ hỡnh đề xuất PG_Feature_ASDS. Văn bản nguồn của mẫu thử nghiệm này xem Phụ lục C.4 trong phần Phụ lục.
Bản túm tắt tham chiếu
“Mary Todd Lowrance, teacher at Moises e Molina high school, turned herself into Dallas independent school district police on Thursday morning. Dallas isd police said she had been in a relationship with student, who is older than 17 years old, for a couple of months. She confided in coworker who alerted authorities and police eventually got arrest warrant. Lowrance was booked into county jail on $ 5,000 bond and has been released from the Dallas county jail, according to county records. She has been on leave for several weeks while investigators worked on the case, police said.”
Bản túm tắt của mụ hỡnh Pointer-Generator, Coverage [43]
“Lowrance Lowrance was accused of a male school on a $ 5,000 bond. Lowrance has been on leave for several weeks while investigators worked on the case. The student has been offered counseling warrant.”
Bản túm tắt của mụ hỡnh PG_Feature_ASDS
“Mary Todd Lowrance, 49, arrested after being accused of having an improper relationship with a male student older than 17 years old. Miller said the teacher had been in a relationship with the student for a couple of months. Officers learned of the alleged relationship after Lowrance disclosed details to a coworker who then alerted a Dallas isd officer.”
Bảng 4.3. Mẫu túm tắt gồm bản túm tắt tham chiếu, bản túm tắt của mụ hỡnh trong [43] và bản túm tắt của mụ hỡnh đề xuất trờn bộ dữ liệu CNN/Daily Mail
Như cú thể thấy trong Bảng 4.3, bản túm tắt của hệ thống đề xuất đưa ra nhiều thụng tin hơn so với bản túm tắt của mụ hỡnh trong [43] và cỏc từ khụng bị lặp lại.
Một mẫu túm tắt với một bài bỏo của bộ dữ liệu Baomoi được biểu diễn trong Bảng 4.4 bờn dưới. Văn bản nguồn của mẫu thử nghiệm này xem Phụ lục C.4 trong phần Phụ lục.
Bản túm tắt tham chiếu
“Một xưởng sản xuất phi phỏp tại Tức Mặc, Thanh đảo, Trung quốc vừa bị phỏt hiện sử dụng 1.000 kg dầu bẩn để chế biến bỏnh trung thu.”
Bản túm tắt của mụ hỡnh Pointer-Generator, Coverage [43]
“Sự việc bị phanh phui vào ngày 30/8 vừa qua. Cơ quan an toàn thực phẩm, phũng cụng thương, cụng an và chớnh quyền thị xó đó phối hợp điều tra sự việc bị phanh phui vào ngày 30/8 vừa qua.”
93
Bản túm tắt của mụ hỡnh PG_Feature_ASDS
“1.000 kg dầu bẩn vừa được chuyển tới bởi một xe tải chở hàng. Theo nguồn tin thõn cậy, số dầu này cú xuất xứ từ một xưởng chế biến tại mó điếm, Giao Chõu. Ngày 31/8, một tổ cụng tỏc gồm phũng an toàn thực phẩm, cụng an và chớnh quyền thị xó đó phối hợp điều tra sự việc này.”
Bảng 4.4. Mẫu túm tắt gồm bản túm tắt tham chiếu, bản túm tắt của mụ hỡnh trong [43] và bản túm tắt của mụ hỡnh đề xuất trờn bộ dữ liệu Baomoi
Trong Bảng 4.4, cú thể thấy thụng tin chớnh của văn bản là: “1.000 kg dầu bẩn vừa được chuyển tới bởi một xe tải chở hàng. Theo nguồn tin thõn cậy, số dầu này cú xuất xứ từ một xưởng chế biến tại mó điếm, Giao Chõu. Ngày 31/8, một tổ cụng tỏc gồm phũng an toàn thực phẩm, cụng an và chớnh quyền thị xó đó phối hợp điều tra sự việc này”. Bản túm tắt tham chiếu chứa hầu hết cỏc thụng tin trờn. Bản túm tắt do mụ hỡnh trong [43] sinh ra khụng chứa thụng tin quan trọng là “1.000 kg dầu bẩn” và chỉ cung cấp một phần thụng tin cần thiết. Ngoài ra, mặc dự văn bản túm tắt đầu ra của mụ hỡnh trong [43] ngắn và thiếu thụng tin chớnh, cụm từ “sự việc bị phanh phui vào ngày 30/8 vừa qua” bị lặp lại hai lần. Trong khi đú, bản túm tắt được sinh ra bởi mụ hỡnh đề xuất PG_Feature_ASDS đó cung cấp nhiều thụng tin hơn so với mụ hỡnh trong [43] và khụng chứa cỏc cụm từ lặp lại.
Như vậy, cú thể thấy bản túm tắt đầu ra của mụ hỡnh đề xuất dễ hiểu và khụng cú lỗi ngữ phỏp đối với cả hai bộ dữ liệu tiếng Anh và tiếng Việt.
4.6. Kết luận chương 4
Trong chương này, luận ỏn đó đề xuất phỏt triển một mụ hỡnh túm tắt đơn văn bản hướng túm lược hiệu quả cho túm tắt văn bản tiếng Anh và tiếng Việt sử dụng cỏc kỹ thuật học sõu, cỏc kỹ thuật hiệu quả khỏc và kết hợp cỏc đặc trưng của văn bản cho mụ hỡnh túm tắt. Cỏc kết quả đạt được cụ thể như sau:
- Vộc tơ húa văn bản đầu vào sử dụng phương phỏp word2vec.
- Sử dụng mạng seq2seq với bộ mó húa sử dụng mạng biLSTM và bộ giải mó sử dụng mạng LSTM kết hợp cơ chế chỳ ý, cơ chế sinh từ - sao chộp từ và cơ chế bao phủ cho mụ hỡnh túm tắt.
- Kết hợp cỏc đặc trưng vị trớ cõu và tần suất xuất hiện của từ vào mụ hỡnh túm tắt.
- Thử nghiệm và đỏnh giỏ kết quả mụ hỡnh túm tắt đề xuất PG_Feature_ASDS cho túm tắt văn bản tiếng Anh, tiếng Việt sử dụng cỏc bộ dữ liệu CNN/Daily Mail, Baomoi tương ứng.
Kết quả đạt được của chương đó được cụng bố trong cụng trỡnh [CT2]. Trong chương tiếp theo, luận ỏn sẽ nghiờn cứu đề xuất một mụ hỡnh túm tắt đa văn bản hướng trớch rỳt và cỏc mụ hỡnh túm tắt đa văn bản hướng túm lược cho túm tắt văn bản tiếng Anh và tiếng Việt.
94
Chương 5. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TểM TẮT ĐA VĂN BẢN
Trong chương này, trước hết luận ỏn đề xuất phỏt triển một mụ hỡnh túm tắt đa văn bản hướng trớch rỳt Kmeans_Centroid_EMDS cho túm tắt tiếng Anh và tiếng Việt sử dụng kỹ thuật phõn cụm K-means, phương phỏp dựa trờn trung tõm (Centroid-based), MMR và đặc trưng vị trớ cõu để tạo bản túm tắt. Mụ hỡnh
Kmeans_Centroid_EMDS được thử nghiệm trờn bộ dữ liệu DUC 2007 (tiếng Anh) và Corpus_TMV (tiếng Việt). Sau đú, luận ỏn đề xuất phỏt triển mụ hỡnh túm tắt đa văn bản hướng túm lược PG_Feature_AMDS dựa trờn mụ hỡnh túm tắt đơn văn bản hướng túm lược được huấn luyện trước đó phỏt triển ở chương 4 và tinh chỉnh mụ hỡnh túm tắt đơn văn bản này bằng việc huấn luyện tiếp trờn cỏc bộ dữ liệu túm tắt đa văn bản tương ứng để mụ hỡnh đề xuất PG_Feature_AMDS đạt được hiệu quả tốt hơn. Mụ hỡnh PG_Feature_AMDS được thử nghiệm sử dụng cỏc bộ dữ liệu DUC 2007 và DUC 2004 (tiếng Anh); cỏc bộ dữ liệu ViMs và bộ dữ liệu Corpus_TMV (tiếng Việt). Cuối cựng, luận ỏn đề xuất phỏt triển mụ hỡnh túm tắt đa văn bản hướng túm lược Ext_Abs_AMDS-mds-mmr dựa trờn mụ hỡnh túm tắt hỗn hợp được xõy dựng từ cỏc mụ hỡnh túm tắt đơn văn bản được huấn luyện trước đó phỏt triển ở chương 3, chương 4 và tinh chỉnh mụ hỡnh túm tắt hỗn hợp này bằng việc huấn luyện tiếp trờn cỏc bộ dữ liệu túm tắt đa văn bản tương ứng để mụ hỡnh đề xuất
Ext_Abs_AMDS-mds-mmr cho kết quả tốt hơn. Mụ hỡnh Ext_Abs_AMDS-mds-mmr
cũng được thử nghiệm sử dụng cỏc bộ dữ liệu DUC 2007 và DUC 2004 (tiếng Anh); cỏc bộ dữ liệu ViMs và bộ dữ liệu Corpus_TMV (tiếng Việt).
5.1. Giới thiệu bài toỏn túm tắt đa văn bản và hướng tiếp cận
Ngày nay, khối lượng tin tức được cung cấp trờn mạng Internet rất lớn. Cú nhiều tin tức đề cập đến cựng một chủ đề với một số chi tiết sửa đổi. Nhu cầu túm tắt tất cả cỏc tin tức này để cú thụng tin ngắn gọn về chủ đề được đặt ra và túm tắt đa văn bản là một giải phỏp cho vấn đề này. Túm tắt đa văn bản với mục đớch tạo ra một bản túm tắt duy nhất mang đầy đủ thụng tin của tất cả cỏc văn bản nguồn, bản túm tắt phải trỏnh sự trựng lặp thụng tin giữa cỏc văn bản cú cựng nội dung. Ngoài ra, vấn đề thiếu dữ liệu thử nghiệm cho bài toỏn túm tắt đa văn bản cũng gõy ra nhiều khú khăn. Cú thể núi, thỏch thức của túm tắt đa văn bản đặt ra lớn hơn rất nhiều so với bài toỏn túm tắt đơn văn bản. Bài toỏn túm tắt đa văn bản cú thể được chia thành 2 loại được phỏt biểu như sau:
Bài toỏn túm tắt đa văn bản hướng trớch rỳt: Cho tập đa văn bản gồm G văn bản liờn quan đến cựng chủ đề được biểu diễn là Dmul (D D1, 2,...,Di,....,DG); trong đú: Di là văn bản thứ i trong tập đa văn bản. Mỗi văn bản Di gồm H cõu
1 2
( , ,..., ,...., )
i i i ij iH
D s s s s , trong đú: sij là cõu thứ j của văn bản Di trong tập đa văn