Tóm tắt đa văn bản tiếng việt

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Tóm tắt đa văn tiếng Việt CAO MẠNH HẢI hai.cmcb190206@sis.hust.edu.vn Ngành Khoa học máy tính Giảng viên hướng dẫn: PGS.TS Lê Thanh Hương ———————– Chữ ký GVHD Viện: Công nghệ thông tin Truyền thông HÀ NỘI, 12/2021 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc ——————————————— BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Cao Mạnh Hải Đề tài luận văn: Tóm tắt đa văn tiếng Việt Chuyên ngành: Khoa học liệu Mã số SV: CB190206 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 24/12/2021 với nội dung sau: • Bổ sung sở lý thuyết cho ngôn ngữ tiếng Việt tiếng Anh • Bổ sung ý nghĩa thực tiễn cho đề tài • Sửa lỗi tả Hà Nội, ngày Giáo viên hướng dẫn CHỦ TỊCH HỘI ĐỒNG tháng Tác giả luận văn năm ĐỀ TÀI LUẬN VĂN Thông tin học viên Họ tên học viên: Cao Mạnh Hải Mã học viên: CB190206 Điện thoại liên lạc: 0981245088 Email: hai.cmcb190206@sis.hust.edu.vn Lớp: Khoa học liệu (KH) Khóa: CH2019B Luận văn tốt nghiệp thực tại: Trường Đại học Bách khoa Hà Nội Thời gian làm Luận văn tốt nghiệp: Từ ngày 01/02/2020 đến 08/12/2021 Mục đích nội dung Luận văn tốt nghiệp Tìm hiểu kỹ thuật Xử lý ngôn ngữ tự nhiên kiến thức Học máy Học sâu từ áp dụng cho tốn Tóm tắt đa văn tiếng Việt Kết hợp với việc tìm hiểu phương pháp tóm tắt văn truyền thống từ đưa cách kết hợp để cải thiện độ xác cho toán Các nhiệm vụ cụ thể Luận văn tốt nghiệp - Tìm hiểu lý thuyết Xử lý ngôn ngữ tự nhiên, Học máy Học sâu - Tìm hiểu cách tiền xử lý liệu phương pháp véc tơ hóa liệu - Tìm hiểu phương pháp tóm tắt văn nghiên cứu - Tìm hiểu cách đánh giá độ xác cho tốn Tóm tắt văn - Đề xuất mơ hình kết hợp phương pháp để cải thiện độ xác tốn - Thử nghiệm đánh giá kết phương pháp tìm hiểu - Kết luận hướng phát triển Lời cam đoan học viên: Tôi – Cao Mạnh Hải – cam kết Luận văn tốt nghiệp công trình nghiên cứu thân tơi hướng dẫn PGS.TS Lê Thanh Hương Các kết nêu Luận văn tốt nghiệp trung thực, chép tồn văn cơng trình khác Hà Nội, ngày tháng năm Tác giả Luận văn tốt nghiệp Xác nhận giáo viên hướng dẫn mức độ hoàn thành Luận văn tốt nghiệp cho phép bảo vệ: Hà Nội, ngày tháng năm Giáo viên hướng dẫn PGS.TS Lê Thanh Hương LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến Thầy, Cô giáo viện Công nghệ thông tin Truyền thông truyền tải không kiến thức, kỹ mà cịn nhiệt huyết để em vững tâm suốt thời gian học tập Em xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Lê Thanh Hương bảo tận tình để em hồn thành Luận văn Ngồi ra, em xin gửi lời cảm ơn đến Viện nghiên cứu trí tuệ nhân tạo VinAI tạo điều kiện, môi trường sáng tạo cho em hoàn thành tốt nhiệm vụ Luận văn giao Cuối cùng, em xin gửi lời cảm ơn đến gia đình, người bạn ln ủng hộ em q trình hồn thiện Luận văn HỌC VIÊN TÓM TẮT NỘI DUNG LUẬN VĂN TỐT NGHIỆP Mục tiêu khuôn khổ Luận văn tốt nghiệp giải tốn tóm tắt đa văn sử dụng kỹ thuật tóm lược cho ngơn ngữ tiếng Việt Qua trình tìm hiểu với hướng dẫn tận tình PGS TS Lê Thanh Hương, kết thu luận văn khả quan Báo cáo trình bày vấn đề tìm hiểu trình thực Luận văn tốt nghiệp Kết Luận văn tốt nghiệp thử nghiệm phương pháp liệu "Duc2007" cho mơ hình tóm tắt đa văn trích rút đưa kết để so sánh chất lượng phương pháp khác giới Ngồi ra, mơ hình tóm tắt đa văn tóm lược đề xuất cho liệu tiếng Việt kết thử nghiệm cho thấy chất lượng mơ hình đề xuất khả quan liệu tác giả Trần Mai Vũ Nội dung Luận văn tốt nghiệp trình bày phương pháp để giải vấn đề trích rút thông tin quan trọng tập văn sau tóm tắt lại câu từ hồn toàn Chi tiết Báo cáo luận văn tốt nghiệp trình bày vấn đề sau: - Chương 1: Mở đầu: đặt vấn đề, giới thiệu tốn tóm tắt văn - Chương 2: Cơ sở lý thuyết: trình bày kiến thức vận dụng luận văn tốt nghiệp - Chương 3: Hướng tiếp cận mơ hình đề xuất: trình bày hướng tiếp cận đề xuất mơ hình cho tốn tóm tắt đa văn theo hướng tóm lược - Chương 4: Cài đặt, thử nghiệm đánh giá: trình bày liệu thử nghiệm đưa kết phương pháp liệu thử nghiệm - Chương 5: Kết luận hướng phát triển: trình bày đóng góp, khó khăn Luận văn tốt nghiệp Từ đưa hướng phát triển cho luận văn tốt nghiệp HỌC VIÊN Mục lục Mở 1.1 1.2 1.3 1.4 đầu Đặt vấn đề Bài tốn tóm tắt văn Ý nghĩa thực tiễn đề tài Định hướng 1.4.1 Các nghiên cứu liên quan theo hướng trích rút 1.4.2 Các nghiên cứu liên quan theo hướng tóm lược 1.4.3 Phương pháp sử dụng đề tài 1 4 5 Cơ sở lý thuyết 2.1 Lý thuyết ngôn ngữ 2.1.1 Tiếng Anh 2.1.2 Tiếng Việt 2.2 Mơ hình véc tơ hóa liệu 2.2.1 Mơ hình túi từ 2.2.2 Mơ hình túi từ sử dụng lược đồ trọng số TF-IDF 2.2.3 Nhúng từ 2.3 Phương pháp đánh giá 2.3.1 Độ đo Rouge 2.3.2 Một số biến thể độ đo Rouge 2.4 Cơ sở lý thuyết cho mô hình tóm tắt đa văn trích rút 2.4.1 K-means 2.4.2 LexRank 2.4.3 Maximal Marginal Relevance (MMR) 2.4.4 Phương pháp sử dụng độ trung tâm 2.5 Cơ sở lý thuyết cho tốn tóm tắt đơn văn tóm lược 2.5.1 Mạng nơron hồi quy (Recurrent Neural Network - RNN) 2.5.2 Long Short Term Memory (LSTM - Bộ nhớ dài-ngắn hạn) 2.5.3 Mơ hình Sequence to Sequence 2.5.4 Cơ chế Attention 2.5.5 Cơ chế Pointing/Copying 2.5.6 Beam Search 7 10 10 11 12 15 15 16 16 16 19 19 20 21 21 22 25 26 28 30 31 31 32 32 33 Hướng tiếp cận mơ hình đề xuất 3.1 Mơ hình đề xuất 3.2 Mơ hình tóm tắt đa văn theo hướng trích rút 3.2.1 Hướng tiếp cận cho mơ hình tóm tắt đa văn 3.2.2 K-means sử dụng vị trí tương đối i trích rút 35 36 37 38 38 39 41 Cài đặt, thử nghiệm đánh giá 4.1 Công cụ môi trường cài đặt 4.2 Chuẩn bị liệu 4.2.1 Bộ liệu Duc2007 4.2.2 Bộ liệu Báo 4.2.3 Bộ liệu tác giả Trần Mai Vũ 4.2.4 Bộ liệu Vims 4.3 Tiền xử lý liệu đánh giá mô hình tóm tắt 4.4 Đánh giá chất lượng mơ hình 4.4.1 Kết mơ hình tóm tắt đa văn trích rút tập liệu Duc2007 4.4.2 Kết mơ tính tóm tắt đa trích rút liệu tiếng Việt 4.4.3 Kết mơ hình tóm tắt đơn văn tóm lược liệu Báo 4.4.4 Kết mơ hình tóm tắt đa văn tóm lược liệu 200 clusters 44 44 44 44 45 45 46 46 47 3.3 3.4 3.2.3 K-means kết hợp vị trí câu tài liệu 3.2.4 K-means kết hợp MMR Position 3.2.5 K-means kết hợp Centroid-based, MMR Position Mơ hình tóm tắt đơn văn theo hướng tóm lược 3.3.1 Hướng tiếp cận cho mơ hình tóm tắt đơn văn tóm lược 3.3.2 Tận dụng đặc trưng từ tài liệu đầu vào Quy trình huấn luyện mơ hình tóm tắt đa văn theo hướng tóm lược 47 49 49 50 Kết luận hướng phát triển 53 5.1 Kết luận 53 5.2 Hướng phát triển 54 Danh sách bảng 4.1 4.2 4.3 4.4 4.5 4.6 Kết Kết Kết Kết Kết Kết quả quả quả của của của mơ hình tóm tắt đa văn trích rút với bốn kịch bản[19] mơ hình tóm tắt trích rút so với phương pháp sở[19] số phương pháp giới[19] mơ hình tóm tắt đa trích rút tập 200 clusters Vims mơ hình tóm tắt đơn tóm lược tập Báo mơ hình tóm tắt đa văn tóm lược tập 200 clusters iii 48 48 49 49 50 50 Danh sách hình vẽ 1.1 Phương pháp sử dụng đề tài 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2.15 2.16 Bag of Words[17] Bag of Word với trọng số tf-idf[17] Mơ hình CBOW với từ ngữ cảnh[29] Kiến trúc CBOW[29] Kiến trúc Skip-Gram[29] Một đơn vị RNN[26] Cấu trúc Cell LSTM Forget gate LSTM[23] Input gate LSTM[23] Cell state LSTM[23] Output gate LSTM[23] Mơ hình seq2seq (SOS EOS token bắt đầu kết thúc)[20] LSTM hai chiều[14] Mơ hình seq2seq dựa chế attention[20] Mô hình sử dụng chế pointer[13] Giải thuật Beam Search[28] 3.1 3.2 3.3 3.4 3.5 3.6 3.7 Mơ hình tóm tắt đa văn tóm lược Mơ hình sở cho tốn tóm tắt đa trích rút[19] Mơ hình tóm tắt đa văn sử dụng K-means[19] Biểu diễn véc tơ câu sử dụng Word2Vec[17] Mơ hình tóm tắt đa văn sử dụng K-means kết hợp Position[19] Mơ hình tóm tắt đa trích rút sử dụng K-means kết hợp MMR Position[19] Mơ hình tóm tắt sử dụng K-means kết hợp Centroid-based, MMR Position[19] Mơ hình tóm tắt đơn văn tóm lược sở Mơ hình tóm tắt đơn văn tóm lược Quy trình đầy đủ cho tốn tóm tắt đa văn tóm lược Quy trình huấn luyện mơ hình tóm tắt đơn văn tóm lược ban đầu Quy trình huấn luyện lại mơ hình tóm tắt đơn văn tóm lược Quy trình đánh giá tồn mơ hình tóm tắt đa văn tóm lược 3.8 3.9 3.10 3.11 3.12 3.13 iv 11 12 13 14 14 21 22 23 23 24 24 25 26 27 29 30 32 33 34 34 35 36 38 39 40 41 41 42 43 Chương Mở đầu Dữ liệu mạng ngày tăng với tốc độ chóng mặt theo thời gian Lượng liệu lớn trở nên khó kiểm sốt gây khó khăn cho người tìm đọc thơng tin mạng Mọi người có xu hướng tìm đọc thông tin ngắn giữ ý Nhưng với việc liệu ngày gia tăng, việc người tự tạo tóm tắt bất khả thi Vì vậy, việc tạo mơ hình tóm tắt văn tự động vấn đề cấp thiết cộng đồng nghiên cứu xử lý ngôn ngữ tự nhiên 1.1 Đặt vấn đề Tóm tắt văn hướng nghiên cứu nhiều nhà nghiên cứu quan tâm kết mơ hình tóm tắt văn tương đối khả quan Cùng với đó, phát triển phần cứng ngày mạnh mẽ kết hợp với lượng liệu tăng lên phút làm cho việc giải toán theo hướng tiếp cận máy học trở nên dễ dàng Đặc biệt với tốn tóm tắt đa văn tóm lược mà việc huấn luyện mơ hình đủ tốt địi hỏi lượng lớn liệu u cầu tốc độ tính tốn nhanh Vì lý đó, tốn tóm tắt đa văn theo hướng tóm lược quan tâm cộng đồng học thuật toàn giới Song song với đó, hướng nghiên cứu tốn tóm tắt văn Việt Nam cịn ít, đặc biệt tốn tóm tắt đa văn tóm lược Thấy lợi ích thực trạng nghiên cứu Việt Nam, em định thực việc tìm hiểu xây dựng chương trình Tóm tắt đa văn tóm lược với ngơn ngữ tiếng Việt 1.2 Bài tốn tóm tắt văn Tóm tắt văn toán phức tạp triển khai để biến tập hợp tài liệu thành tài liệu mà chứa nội dung từ tập tài liệu gốc Cùng với đó, tạo tóm tắt ngắn nắm bắt thông tin quan trọng (các) tài liệu gốc khơng đủ, tóm tắt cần phải tóm tắt lại theo cú pháp, đảm bảo tính trơi chảy trình tự thời gian tài liệu độc lập Bài tốn tóm tắt văn thường biết đến với hai hướng chính: • Tóm tắt văn trích rút Bước ba: đánh giá tồn quy trình tóm tắt đa văn tóm lược Hình 3.13: Quy trình đánh giá tồn mơ hình tóm tắt đa văn tóm lược Khác với bước hai, final model nhận đầu vào tóm tắt trích rút (sinh từ mơ hình tóm tắt đa văn trích rút) sử dụng để tạo tóm tắt tóm lược cuối (thay dùng để huấn luyện bước hai) 43 Chương Cài đặt, thử nghiệm đánh giá 4.1 Công cụ môi trường cài đặt Phần cứng sử dụng gồm: • Máy tính cá nhân: core i7 hệ thứ với 16G ram • Google Colab Pro: xấp xỉ 25G ram Ngoài ra, số thư viện đặc biệt sử dụng thử nghiệm bao gồm: • Ngơn ngữ lập trình: Python • VnCoreNlp: dùng để tách từ ngơn ngữ tiếng Việt • Nltk: dùng để tách câu; lấy gốc từ tiếng Anh • Scikit-learn: triển khai thuật toán K-means • Rouge: đánh giá chất lượng tóm tắt sinh từ mơ hình tự động • Tensorflow: xây dựng mơ hình tóm tắt đơn văn tóm lược 4.2 Chuẩn bị liệu Để có nhìn khách quan mơ hình tóm tắt đa văn trích rút, liệu tiếng Anh Duc2007 sử dụng để so sánh tóm tắt sinh từ mơ hình với phương pháp truyền thống phương pháp đại giới Ngoài ra, liệu tiếng Việt giới thiệu chi tiết mục 4.2.1 Bộ liệu Duc2007 Cấu trúc liệu Duc2007[24] bao gồm: liệu Main task liệu Update task (pilot) • Main task 44 Main task bao gồm 45 chủ đề chủ đề chứa 25 tài liệu liên quan kèm với chủ đề tóm tắt khác Mỗi chủ đề tóm tắt lại tóm tắt độc lập với xấp xỉ 250 từ Bộ liệu thường sử dụng để đánh giá chất lượng mơ hình tóm tắt văn tự động bao gồm tốn trích rút tóm lược Với đặc điểm này, tập liệu Main task phù hợp để đánh giá chất lượng mô hình tóm tắt đa trích rút phạm vi luận văn • Update task (pilot) Update task bao gồm khoảng 10 chủ đề, đó, chủ đề bao gồm 25 tài liệu liên quan Ba tập A, B C tách từ chủ đề xếp theo trình tự thời gian Trong đó, tập A chứa khoảng 10 tài liệu, tập B chứa khoảng tài liệu tập C chứa khoảng tài liệu với time (A) < time (B) < time (C) Như vậy, tập liệu Update task dùng cho tốn tóm tắt theo trình tự thời gian không phù hợp phạm vi nghiên cứu 4.2.2 Bộ liệu Báo Tập liệu Báo sử dụng có triệu văn thu thập từ trang baomoi.com, số có nhiều tài liệu bị lỗi Do vậy, phạm vi luận văn này, tập báo em sử dụng chia làm hai tập: training set (tập liệu huấn luyện - xấp xỉ 800.000 tài liệu) test set (tập liệu thử nghiệm - xấp xỉ 20.000 tài liệu) Cấu trúc tài liệu bao gồm: • Phần tiêu đề (heading): dịng • Phần tóm tắt (summary): dịng thứ hai • Phần tài liệu (article): phần cịn lại Trong đó: lượng token tài liệu xấp xỉ 596 tokens; lượng token trung bình tóm tắt xấp xỉ 11 tokens 4.2.3 Bộ liệu tác giả Trần Mai Vũ Tác giả Trần Mai Vũ công bố tập liệu bao gồm 200 clusters[32], cụm chứa: • 2-5 tài liệu (xấp xỉ 495 tokens tài liệu) • tóm tắt (xấp xỉ 181 tokens tóm tắt) Dữ liệu tạo nên hồn tồn người, việc xây dựng liệu 200 clusters nhóm tác giả tiến hành theo hai bước sau: • Bước một: chuẩn bị liệu (thu thập phân cụm tài liệu), liệu thu thập từ trang baomoi.com phân phối khoảng − 10 chủ đề (thế giới; xã hội; văn hóa; khoa học cơng nghệ; kinh tế; giải trí; thể thao; giáo dục; pháp luật; sức khỏe) • Bước hai: tóm tắt cho cụm tài liệu thu thập từ bước xây dựng hai cộng tác viên 45 4.2.4 Bộ liệu Vims Tập liệu Vims[21] bao gồm 300 cụm, cụm bao gồm: • 4-10 tài liệu (xấp xỉ 481 tokens tài liệu) • tóm tắt (xấp xỉ 223 tokens tóm tắt) Dữ liệu tạo người, việc xây dựng liệu nhóm tác giả tiến hành sau: • Bước một: liệu nhóm tác giả thu thập từ news.google.com (Google News) với tiếng Việt, lý quyền nên nhóm tác giả thu thập từ nguồn mở thay tồn nguồn từ Google News Các tài liệu thu thập rơi vào nhiều chủ đề như: giới; kinh tế; tin tức nước; giải trí; thể thao • Bước hai: hai người thích với hỗ trợ hệ thống MDSWriter[11] tiến hành tạo tóm tắt cách độc lập cho cụm tài liệu thu thập từ bước 4.3 Tiền xử lý liệu đánh giá mơ hình tóm tắt Tiền xử lý liệu • Các ký tự đặc biệt khơng cần thiết q trình véc tơ hóa liệu ta xóa bỏ ký tự đặc biệt tập liệu ban đầu • Lấy gốc từ (đối với liệu tiếng Anh): liệu sử dụng để đo hiệu mơ hình tóm tắt đa văn trích rút viết ngơn ngữ tiếng Anh (ngơn ngữ biến hình) Vì việc lấy gốc từ cần thiết, lấy gốc từ không làm giảm kích thước từ điển mà cịn cải thiện chất lượng tóm tắt đầu • Tách từ (đối với liệu tiếng Việt): từ ghép tiếng Việt kết hợp hai hay nhiều từ đơn Thậm chí số từ đơn đứng riêng lẻ hồn tồn vơ nghĩa, ta cần tiến hành tách từ tài liệu trước véc tơ hóa liệu • Chuẩn hóa dấu (đối với tiếng Việt): dấu (thanh) thành phần thiếu tiếng Việt việc đặt vị trí dấu từ cịn nhiều khác biệt Chính vậy, việc chuẩn hóa lại dấu nhằm giảm thiểu kích cỡ từ điển giúp mơ hình dễ dành "học" • Những câu q ngắn thường khơng mang thơng tin, ta xóa bỏ câu Đánh giá mơ hình tóm tắt Độ đo Rouge sử dụng để đánh giá chất lượng mơ hình thử nghiệm phạm vi luận văn Để có kết so sánh xác phương pháp giới, cấu hình Rouge tập liệu Duc2007 cộng đồng cố định Cấu hình Rouge Duc2007: ROUGE-1.5.5.pl -n -m -2 -u -c 95 -r 1000 -f A -p 0.5 -t –d –l 250 46 Trong đó: • -n 2: tính ROUGE-1 ROUGE-2 • -m: áp dụng Poter Stemmer • -2 4: tính tốn Skip Bigram (ROUGE-S) với số từ bỏ qua lớn • -u: bao gồm unigram Skip Bigram (ROUGE-S) • -c 95: sử dụng 95% mức độ tin cậy • -r 1000: chạy 1000 lần với độ tin cậy 95% • -f A: kết tính nhiều mơ hình • -p 0.5: tính tốn trọng số F1-score với α = 0.5 • -t 0: sử dụng đơn vị mơ đơn vị đếm • -d: in trọng số tính tốn • -l 250: giới hạn số từ 250 lấy để đánh giá tóm tắt hệ thống Ngồi ra, để đánh giá chất lượng mơ hình tóm tắt đa văn trích rút tập liệu 200 clusters, em sử dụng thông số sau: ROUGE-1.5.5.pl -n -m -2 -l 181 -u -c 95 -r 1000 -f A -p 0.5 -t -a Để đánh giá chất lượng mơ hình tóm tắt đa văn trích rút tập liệu Vims, em sử dụng thông số sau: ROUGE-1.5.5.pl -n -m -2 -l 190 -u -c 95 -r 1000 -f A -p 0.5 -t -a Ngoài ra, để đánh giá chất lượng mơ hình tóm tắt đa văn tóm lược, em sử dụng lõi tính tốn chuẩn thư viện ROUGE sau: ROUGE-1.5.5.pl -c 95 -2 -1 -U -r 1000 -n -w 1.2 -a -m 4.4 4.4.1 Đánh giá chất lượng mơ hình Kết mơ hình tóm tắt đa văn trích rút tập liệu Duc2007 Mơ hình tóm tắt đề xuất kết đánh giá liệu Duc2007 công bố báo "Extractive Multi-document Summarization using K-means, Centroidbased Method, MMR, and Sentence Position[19]" hội nghị SOICT[30] lần thứ 10 47 Kết với kịch thử nghiệm Các tham số sử dụng kịch thử nghiệm: • Kịch một: thử nghiệm mơ hình tóm tắt đa văn trích rút sử dụng thuật tốn K-means kết hợp với vị trí tương đối (n_clusters = 16 cụm khởi tạo cho thuật toán K-means; véc tơ câu với ndim = 256 chiều) • Kịch hai: thử nghiệm mơ hình tóm tắt đa văn trích rút sử dụng thuật tốn K-means kết hợp với vị trí câu tài liệu "Position" (n_clusters = 16 cụm khởi tạo cho thuật toán K-means; véc tơ câu với ndim = 256 chiều) • Kịch ba: thử nghiệm mơ hình tóm tắt đa văn trích rút sử dụng thuật toán K-means kết hợp MMR Position (n_clusters = 21 cụm khởi tạo cho thuật toán K-means, véc tơ câu với ndim = 256 chiều λ = 0.6 cho thuật tốn MMR) • Kịch bốn: thử nghiệm mơ hình tóm tắt đa văn trích rút sử dụng thuật toán K-means kết hợp Centroid-based, MMR Position (n_clusters = 50 cụm khởi tạo cho thuật toán K-means, véc tơ câu với ndim = 256 chiều, λ = 0.6 cho thuật toán MMR θsim = 0.95 cho centroid-based) Kịch K-means + vị trí tương đối K-means + Position K-means + MMR + Position K-means + Centroid-based + MMR + Position Rouge-1 (%) 37.81 38.11 Rouge-2 (%) 7.30 7.87 Rouge-L (%) 34.64 34.86 38.82 8.15 35.53 40.39 9.53 37.05 Bảng 4.1: Kết mơ hình tóm tắt đa văn trích rút với bốn kịch bản[19] Về mặt số liệu, thấy việc sử dụng kết hợp phương pháp mơ hình tóm tắt đa văn trích rút đề xuất hiệu liệu Duc2007 Cụ thể, F1Score Rouge-1 tăng 2.58%; F1-Score Rouge-2 đă tăng 2.23% F1-Score Rouge-L tằng 2.41% Kết số phương pháp sở Mơ hình tóm tắt đa văn trích rút cho kết cải thiện đáng kể so với phương pháp sử dụng đơn lẻ (cài đặt tập liệu) Phương pháp LexRank Centroid-based MMR K-means + Centroid-based + MMR + Position Rouge-1 (%) 37.52 38.95 34.50 Rouge-2 (%) 8.14 9.08 5.34 Rouge-L (%) 34.18 35.50 31.78 40.39 9.53 37.05 Bảng 4.2: Kết mơ hình tóm tắt trích rút so với phương pháp sở[19] 48 Kết phương pháp so với mơ hình giới Kết lấy từ nghiên cứu nhóm tác giả khác cơng bố: Phương pháp Random[7] Lead[7] DSDR-Non[7] PV-DM[15] K-means + Centroid-based + MMR + Position Rouge-1 (%) 32.028 31.446 39.573 39.826 Rouge-2 (%) 5.432 6.151 7.439 8.514 Rouge-L (%) 29.127 26.575 35.335 40.39 9.53 37.05 Bảng 4.3: Kết số phương pháp giới[19] Mơ hình tóm tắt đa trích rút đề xuất có kết cải thiện phương pháp truyền thống, phương pháp sử dụng đơn lẻ vài phương pháp khác giới DSDR, PV-DM, Chứng tỏ việc kết hợp phương pháp để loại bỏ chồng chéo thông tin loại bỏ cụm chứa thơng tin hiệu tập liệu Duc2007 (Rouge-L phương pháp PV-DM khơng nhóm tác giả cơng bố) 4.4.2 Kết mơ tính tóm tắt đa trích rút liệu tiếng Việt Kết liệu 200 clusters Vims Những tham số sử dụng: số cụm n_clusters = 17; độ dài tóm tắt len_summary = 9; λ = 0.6 θsim = 0.95 Bộ liệu 200 clusters 200 clusters 200 clusters Vims Vims Vims Recall Presicion F1-score Recall Presicion F1-score Rouge-1 (%) 58.778 48.380 52.682 51.432 45.648 47.885 Rouge-2 (%) 42.093 34.494 37.626 31.315 27.812 29.181 Rouge-L (%) 54.260 44.568 48.574 47.134 41.860 43.905 Bảng 4.4: Kết mô hình tóm tắt đa trích rút tập 200 clusters Vims Từ kết quả, ta nhận định mơ hình tóm tắt đa văn trích rút trích xuất tốt câu có nội dung quan trọng tập liệu ban đầu 4.4.3 Kết mơ hình tóm tắt đơn văn tóm lược liệu Báo Một số tham số đặc biệt sử dụng cho mơ hình tóm tắt đơn văn tóm lược: tốc độ học learning_rate = 0.15; số bước n_interations = 60000; kích thước tìm kiếm beam_size = (trong q trình sinh tóm tắt); kích thước từ điển vocab_size = 200000; số lượng liệu bước huấn luyện batch_size = 48 49 Bộ liệu Báo Báo Báo Recall Presicion F1-score Rouge-1 (%) 31.017 22.983 25.212 Rouge-2 (%) 15.596 11.365 12.521 Rouge-L (%) 25.246 18.424 20.338 Bảng 4.5: Kết mơ hình tóm tắt đơn tóm lược tập Báo Từ kết quả, ta nhận định mơ hình tóm tắt đơn văn tóm lược tóm tắt nội dung quan trọng tập liệu ban đầu 4.4.4 Kết mơ hình tóm tắt đa văn tóm lược liệu 200 clusters Một số tham số đặc biệt sử dụng cho việc huấn luyện lại mơ hình tóm tắt đơn văn tóm lược: learning_rate=0.15; n_interations=600; beam_size=4 (trong q trình sinh tóm tắt); vocab_size=200000; batch_size=4 Bộ liệu 200 clusters 200 clusters 200 clusters 200 clusters 200 clusters 200 clusters Rouge-1 (%) Rouge-2 (%) Rouge-L (%) Recall 16.286 10.389 12.774 Presicion 62.455 40.712 48.845 F1-score 25.376 16.242 19.875 Recall 26.429 15.976 19.722 Presicion 58.472 35.894 43.690 F1-score 35.166 21.342 26.248 Mơ hình Pretrain model Pretrain model Pretrain model Final model Final model Final model Bảng 4.6: Kết mơ hình tóm tắt đa văn tóm lược tập 200 clusters Từ kết quả, ta nói việc huấn luyện lại mơ hình tóm tắt đơn tóm lược với tập liệu Vims mang lại kết đáng kể Cụ thể: với Rouge-1: F1-score tăng xấp xỉ 10%; Rouge-2: F1-score tăng xấp xỉ 5%; Rouge-L: tăng xấp xỉ 7% Để thấy rõ độ cải thiện kết tóm tắt sau huấn luyện lại mơ hình, ta xem vài ví dụ đây: Ví dụ • Bản tóm tắt trước huấn luyện lại Vims: lionel messi vừa ghi bàn thắng từ pha " bóng sống " đất italia ( bàn gỡ hòa - top 10 vđv yêu thích mỹ • Bản tóm tắt sau huấn luyện lại Vims: 50 lionel messi vừa ghi bàn thắng từ pha " bóng sống " đất italia ( bàn gỡ hịa - trận đấu với milan champions league vào đêm qua ) , cầu thủ nhỏ lọt vào top 10 danh sách vận động viên thể thao có nhiều fan mỹ theo nghiên cứu tiến hành kéo dài vòng năm hệ thống thể thao mỹ , espn , chân sút barca đứng thứ danh sách anh cầu thủ chen chân vào top • Bản tóm tắt người: Theo nghiên cứu tiến hành kéo dài vòng năm hệ thống thể thao Mỹ, ESPN, chân sút Barca đứng thứ top 10 VĐV yêu thích Mỹ Tuy nhiên, Messi cầu thủ bóng "phá vỡ" bảng xếp hạng top 10, điều bất ngờ đáng ý bóng đá môn thể thao ưa chuộng Mỹ phổ biến năm gần Được biết, khảo sát mà ESPN thực dựa kết từ 1.500 gọi điện tháng, tháng 10/2012 kết thúc vào tháng 9/2013 Nếu tính số phiếu bầu từ người hâm mộ độ tuổi từ 12 đến 24 Messi chí cịn xếp hàng thứ Ví dụ • Bản tóm tắt trước huấn luyện lại Vims: thời gian gần , yahoo tiếp tục áp dụng nhiều nâng cấp cho dịch vụ mail họ , gần nâng cấp giao diện tb dung lượng lưu trữ yahoo mail thức áp dụng giao thức bảo mật ssl vào đầu năm 2014 • Bản tóm tắt sau huấn luyện lại Vims: thời gian gần , yahoo tiếp tục áp dụng nhiều nâng cấp cho dịch vụ mail họ , gần nâng cấp giao diện tb dung lượng lưu trữ yahoo chậm chân việc tích hợp https , trước , google cung cấp tính tương tự vào năm 2008 , công nghệ mặc định gmail từ tháng năm 2010 ; chuyên gia bảo mật nhiều lần khuyến cáo năm , nhiên tùy chọn giao thức mặc định • Bản tóm tắt người: Yahoo thức giới thiệu logo sau 30 ngày thực chiến dịch bình chọn Việc thay đổi logo nỗ lực Giám đốc điều hành Marissa Mayer nhằm mang đến nhìn thú vị tươi cho công ty giữ dấu ấn quen thuộc hình "chấm than" Logo Yahoo! cơng bố với màu tím chủ đạo, dùng font chữ sans-serif trắng Bên cạnh đó, phiên phối màu ngược lại công ty đưa Yahoo hy vọng họ nhanh chóng khỏi tình trạng kinh doanh tồi tệ phải đối mặt Ví dụ • Bản tóm tắt trước huấn luyện lại Vims: vov - tập trận bắt đầu khoảng sáng ( địa phương ) , tập trận bắn đạn thật quy mô lớn bao gồm tham gia binh chủng tên lửa hạt nhân chiến lược , binh chủng phòng thủ vũ trụ 51 • Bản tóm tắt sau huấn luyện Vims: tập trận bắt đầu khoảng sáng ( địa phương ) , tập trận bắn đạn thật quy mô lớn bao gồm tham gia binh chủng tên lửa hạt nhân chiến lược , binh chủng phòng thủ vũ trụ , tàu ngầm hạt nhân chiến lược mang tên lửa đạn đạo liên lục địa không quân tầm xa chiến lược mang tên lửa hạt nhân theo tập trận , quốc phòng nga cho biết tàu ngầm chiến lược nga bao gồm tàu ngầm bryansk lớp delta iv thuộc hạm đội biển bắc tàu ngầm svyatoy miền nam plesetsk tên lửa đạn đạo rs - 20 v voyevoda từ trạm tên lửa dombarovsky miền trung nước nga • Bản tóm tắt người: rt đưa tin , ngày 30 / 10 , đơn vị trực thuộc chắn hạt nhân nga đồng loạt tiến hành tập trận bất thường theo lệnh tổng thống nga vladimir putin tập trận bắt đầu khoảng sáng ( địa phương ) , tập trận bắn đạn thật quy mô lớn bao gồm tham gia binh chủng tên lửa hạt nhân chiến lược , binh chủng phòng thủ vũ trụ , tàu ngầm hạt nhân chiến lược mang tên lửa đạn đạo liên lục địa không quân tầm xa chiến lược mang tên lửa hạt nhân " tập trận bao gồm việc phóng tên lửa đạn đạo diễn tập đơn vị phòng thủ tên lửa phịng khơng thực " , hãng ria - novosti dẫn lời ông peskov theo ông peskov , tất mục tiêu tập trận đạt thơng báo quốc phịng nga cho biết : " lực lượng tên lửa phóng tên lửa đạn đạo rs - 12 m topol từ trung tâm vũ trụ plesetsk tên lửa đạn đạo rs - 20 v voyevoda từ trạm tên lửa dombarovsky miền trung nước nga " diễn tập nhằm kiểm tra khả sẵn sàng chiến đấu cao lực lượng răn đe hạt nhân nga tính hiệu tất cấp hệ thống huy chiến đấu 52 Chương Kết luận hướng phát triển Sau trình tìm hiểu thử nghiệm kỹ thuật xử lý ngơn ngữ tự nhiên vào mơ hình tóm tắt văn tự động, luận văn tốt nghiệp hồn thành Trong chương này, em trình bày khái qt hạn chế đóng góp tốn tóm tắt văn tự động 5.1 Kết luận Với mục tiêu đề ra, luận văn tốt nghiệp hoàn thành cơng việc sau: • Tìm hiểu lý thuyết tốn tóm tắt văn nói riêng nhiệm vụ xử lý ngơn ngữ tự nhiên nói chung để từ vận dụng kiến thức cho tốn • Đề xuất mơ hình cho tốn tóm tắt đa văn trích rút thử nghiệm liệu chuẩn tiếng Anh cho thấy kết cải thiện so với phương pháp truyền thống số phương pháp khác giới • Đề xuất cài đặt mơ hình cho tốn tóm tắt đa văn tóm lược nhằm khắc phục vấn đề khan liệu nhiệm vụ tóm tắt đa văn tóm lược Cùng với đó, trình triển khai luận văn tốt nghiệp, việc gặp phải số khó khăn điều khơng thể tránh khỏi Dưới số khó khăn em gặp phải trình triển khai đề tài luận văn Những khó khăn gặp phải q trình làm luận văn • Dữ liệu cho tốn tóm tắt đa văn tóm lược số lượng liệu nhỏ để huấn luyện mơ hình học sâu • Giới hạn phần cứng, khơng có đủ tài ngun để huấn luyện mơ hình học sâu nên thời gian dành cho việc thử nghiệm thay đổi mơ hình khơng nhiều • Bài tốn tóm tắt đa văn tóm lược cho tiếng Việt mới, nên việc so sánh kết nhiều hạn chế 53 5.2 Hướng phát triển Bài tốn tóm tắt văn tự động toán thu hút cộng đồng nhà nghiên cứu không giới học thuật mà doanh nghiệp tương lai Vì mà liệu ngày tăng lên tốn tóm tắt văn trở nên cấp thiết để áp dụng thực tế Trong trình nghiên cứu tốn tóm tắt văn tự động, em thấy số hướng phát triển khả quan mơ hình đề xuất phạm vi luận văn sau: • Phát triển thêm tập liệu cho tóm tắt đa văn tóm lược tiếng Việt • Bert[35] đánh giá phương pháp đột phá giúp biểu diễn từ dạng véc tơ Việc sử dụng Bert để véc tơ hóa liệu giúp hiệu suất mơ hình tóm tắt văn cải thiện • Thử nghiệm huấn luyện mơ hình end-to-end thay chia nhỏ thành hai mơ đun có tập liệu đủ lớn 54 Tài liệu tham khảo [1] George A Miller “Wordnet: a lexical database for english” In: Communications of the ACM 38(11):39–41 (1995) [2] Jaime Carbonell and Jade Goldstein “The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries” In: Research and Development in Information Retrieval (1998) [3] Mark Wasson “Using leading text for news summaries: Evaluation results and implications for commercial summarization applications” In: Proc of the 17th international conference on Computational linguistics-Volume (1998) [4] Găuneás Erkan and Dragomir R Radev LexRank: Graph-based Lexical Centrality as Salience in Text Summarization” In: Journal of Artificial Intelligence Research 22 (2004) 457-479 (2004) [5] Dingding Wang et al “Multi-document summarization via sentence-level semantic analysis and symmetric matrix factorization” In: Proc of the 31st ACM SIGIR (2008) [6] Yong Suk Choi “Tree pattern expression for extracting information from syntactically parsed text corpora” In: Data Mining and Knowledge Discovery 1–21 (2011) [7] Zhanying He et al “Document summarization based on data reconstruction” In: AAAI (2012) [8] Quoc Le and Tomas Mikolov “Distributed representations of sentences and documents” In: Proceedings of the 31st International Conference on Machine Learning (ICML-14) pages 1188–1196 (2014) [9] Alexander M Rush, Sumit Chopra, and Jason Weston “A neural attention model for abstractive sentence summarization” In: Empirical Methods in Natural Language Processing (2015) [10] Oriol Vinyals, Meire Fortunato, and Navdeep Jaitly “Pointer networks” In: Neural Information Processing Systems (2015) [11] Christian M Meyer et al “MDSWriter: Annotation Tool for Creating High-Quality Multi-Document Summarization Corpora” In: Proceedings of ACL-2016 System Demonstrations (2016) [12] Pierpaolo Basile Gaetano Rossiello and Giovanni Semeraro “Centroid-based Text Summarization through Compositionality of Word Embeddings” In: Proceedings of the MultiLing 2017 Workshop on Summarization and Summary Evaluation Across Source Types and Genres (2017) [13] Abigail See, Peter J Liu, and Christopher D Manning “Get To The Point: Summarization with Pointer-Generator Networks” In: Proceedings of the 55th Annual Meeting of the Association for Computational (2017) 55 [14] Rui Zhao et al “Learning to Monitor Machine Health with Convolutional BiDirectional LSTM Networks” In: Intelligent Sensing and Information Mining—Selected Papers from the 10th International Conference on Sensing Technology (2017) [15] Kaustubh Mani et al “Multi-Document Summarization using Distributed Bag-ofWords Model” In: 2018 IEEE/WIC/ACM International Conference on Web Intelligence (WI) (2018) [16] Thanh Vu et al “VnCoreNLP: A Vietnamese Natural Language Processing Toolkit” In: Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics (2018) [17] Cao Mạnh Hải “Tóm tắt đa văn tiếng Anh theo hướng trích rút” In: Đồ án tốt nghiệp Đại học Bách khoa Hà Nội (2019) [18] Yaser Keneshloo et al “Deep Reinforcement Learning for Sequence-to-Sequence Models” In: IEEE Transactions on Neural Networks and Learning Systems (2019) [19] Hai Cao Manh, Huong Le Thanh, and Tuan Luu Minh “Extractive Multi-document Summarization using K-means, Centroid-based Method, MMR, and Sentence Position” In: SoICT 2019: Proceedings of the Tenth International Symposium on Information and Communication (2019), pp 29–35 [20] Tian Shi et al “Neural Abstractive Text Summarization with Sequence-to-Sequence Models” In: ACM/IMS Transactions on Data Science (2020) [21] Tran et al “ViMs: a high-quality Vietnamese dataset for abstractive multi-document summarization” In: Language Resources and Evaluation 54.4 (2020), pp 893–920 [22] 123docz So sánh đặc điểm loại hình ngơn ngữ biến hình loại hình ngơn ngữ đơn lập url: https://123docz.net/document/271372-so-sanh-dac-diem-loaihinh-ngon-ngu-bien-hinh-va-loai-hinh-ngon-ngu-don-lap.htm (Truy cập lần cuối: 30/12/2021) [23] Hai’s Blog [RNN] LSTM gì? url: https://dominhhai.github.io/vi/2017/ 10/what-is-lstm/ (Truy cập lần cuối: 01/12/2021) [24] DUC 2007: Task, Documents, and Measures url: https : / / duc nist gov / duc2007/tasks.html (Truy cập lần cuối: 08/12/2021) [25] Nguyễn Việt Hùng Trích chọn thuộc tính đoạn văn với TF-IDF url: https://viblo.asia/p/trich-chon-thuoc-tinh-trong-doan-van-ban-voitf-idf-Az45bAOqlxY (Truy cập lần cuối: 02/12/2021) [26] ITechSeeker Các biến thể RNN url: http://itechseeker.com/tutorials/ nlp-with-deep-learning/ly-thuyet-chung/cac-bien-the-cua-rnn/ (Truy cập lần cuối: 08/12/2021) [27] Dhruvil Karani Introduction to Word Embedding and Word2Vec url: https:// towardsdatascience.com/introduction-to-word-embedding-and-word2vec652d0c2060fa (Truy cập lần cuối: 02/12/2021) [28] Dive into deep learning Beam Search url: https://d2l.ai/chapter_recurrentmodern/beam-search.html (Truy cập lần cuối: 08/12/2021) [29] Abhijit Mondal Understanding Word Vectors and Word2Vec url: http://www stokastik in / understanding - word - vectors - and - word2vec/ (Truy cập lần cuối: 02/12/2021) 56 [30] SYMPOSIUM ON INFORMATION AND COMMUNICATION TECHNOLOGY url: https://soict.org/ (Truy cập lần cuối: 10/12/2021) [31] Vũ Hữu Tiệp Bài 4: K-means Clustering url: https://machinelearningcoban com/2017/01/01/kmeans/ (Truy cập lần cuối: 09/12/2021) [32] Trần Mai Vũ et al Thiết kế cài đặt chương trình tóm tắt đa văn tiếng Việt, Đề tài cấp Bộ Giáo dục Đào tạo(Mã số: B2012-01-24) url: https://github com/lupanh/VietnameseMDS (Truy cập lần cuối: 09/12/2021) [33] What Is ROUGE And How It Works For Evaluation Of Summarization Tasks? url: https://rxnlp.com/how-rouge-works-for-evaluation-of-summarizationtasks/#.XOO5Z8j7TIW (Truy cập lần cuối: 02/12/2021) [34] Wikipedia Accuracy and precision url: https : / / en wikipedia org / wiki / Accuracy_and_precision (Truy cập lần cuối: 05/12/2021) [35] Wikipedia BERT (mô hình ngơn ngữ) url: https://vi.wikipedia.org/wiki/ BERT_(m%5C%C3%5C%B4_h%5C%C3%5C%ACnh_ng%5C%C3%5C%B4n_ng%5C%E1%5C%BB% 5C%AF) (Truy cập lần cuối: 05/12/2021) [36] Wikipedia F-score url: https://en.wikipedia.org/wiki/F-score (Truy cập lần cuối: 11/12/2021) [37] Wikipedia Longest common subsequence problem url: https://en.wikipedia org/wiki/Longest_common_subsequence_problem (Truy cập lần cuối: 07/12/2021) [38] Wikipedia Mơ hình túi từ url: https://vi.wikipedia.org/wiki/M%5C%C3%5C% B4_h%5C%C3%5C%ACnh_t%5C%C3%5C%BAi_t%5C%E1%5C%BB%5C%AB (Truy cập lần cuối: 12/12/2021) [39] Wikipedia Naive Bayes classifier url: https://en.wikipedia.org/wiki/Naive_ Bayes_classifier (Truy cập lần cuối: 09/12/2021) [40] Wikipedia Support-vector machine url: https : / / en wikipedia org / wiki / Support-vector_machine (Truy cập lần cuối: 03/12/2021) [41] Wikipedia Teacher forcing url: https://en.m.wikipedia.org/wiki/Teacher_ forcing (Truy cập lần cuối: 06/12/2021) [42] Wikipedia Tiếng Anh url: https://vi.wikipedia.org/wiki/Ti%E1%BA%BFng_ Anh (Truy cập lần cuối: 30/12/2021) [43] Wikipedia Tiếng Việt url: https://vi.wikipedia.org/wiki/Ti%E1%BA%BFng_ Vi%E1%BB%87t (Truy cập lần cuối: 30/12/2021) [44] Wikipedia Word embedding url: https : / / en wikipedia org / wiki / Word _ embedding (Truy cập lần cuối: 10/12/2021) 57 ... tắt đơn văn • Tóm tắt đa văn Tóm tắt đơn văn (Single Document Summarization) Tóm tắt đơn văn tốn sở yêu cầu đầu vào với tài liệu đầu tóm tắt cho tài liệu đầu vào Đầu vào mơ hình tóm tắt đơn văn. .. luận văn tốt nghiệp Bài tốn tóm tắt đơn văn toán đặc biệt quan trọng để làm tảng cho việc phát triển mơ hình tóm tắt đa văn sau Tóm tắt đa văn (Multi-Document Summarization) Bài tốn tóm tắt đa văn. .. hình tóm tắt đa văn trích rút đề xuất nhằm biến tập liệu tóm tắt đa văn thành tập tóm tắt đơn văn Cùng với đó, mơ hình tóm tắt đơn văn xây dựng tập liệu đơn tóm lược đủ lớn (tập liệu đơn tóm lược

Tiêu đề	Tóm tắt đa văn bản tiếng Việt
Tác giả	Cao Mạnh Hải
Người hướng dẫn	PGS.TS. Lê Thanh Hương
Trường học	Trường Đại học Bách Khoa Hà Nội
Chuyên ngành	Khoa học dữ liệu
Thể loại	luận văn thạc sĩ
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	66
Dung lượng	2,78 MB