Nhan đề : Tóm tắt văn bản tự động dựa trên các kỹ thuật phân tích ma trận Tác giả : Trần Việt Cường Người hướng dẫn: Lê Thanh Hương Từ khoá : Tóm tắt văn bản tự động; Văn bản; Phân tích ma trận Năm xuất bản : 2020 Nhà xuất bản : Trường đại học Bách Khoa Hà Nội Tóm tắt : Tổng quan bài toán tóm tắt văn bản tự động; bài toán tóm tắt văn bản tự động; phân tích ma trận cho tóm tắt văn bản; thí nghiệm.
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LUẬN VĂN TỐT NGHIỆP THẠC SĨ CHUN NGÀNH KHOA HỌC MÁY TÍNH Tóm tắt văn tự động dựa kỹ thuật phân tích ma trận Học viên : Trần Việt Cường SHHV : CB170304 Giáo viên hướng dẫn : PGS.TS Lê Thanh Hương HÀ NỘI 07 / 2020 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Trần Việt Cường Đề tài luận văn: Tóm tắt văn tự động dựa kỹ thuật phân tích ma trận Chuyên ngành: Khoa học máy tính Mã số SV: CB170304 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 27/06/2020 với nội dung sau: Đánh số trang, bổ sung trích dẫn tài liệu tham khảo, chỉnh sửa lại bìa chuyên ngành, nêu rõ khác biệt phần 2.3, 3.3, 4.3, chỉnh sửa lại đề mục cho hợp lý, giải thích kỹ ký hiệu cơng thức thuật tốn mục 2.1, 3.1, 4.1, mô tả bổ xung tập liệu, bổ sung mô tả đường sở (baseline), mô tả ngắn gọn lại phương pháp so sánh thực nghiệm, mô ta bước tiền xử lý với Tiếng Việt (nếu có) Hà Nội, ngày 20 tháng 07 năm 2020 Giáo viên hướng dẫn Tác giả luận văn PGS TS Lê Thanh Hương Trần Việt Cường CHỦ TỊCH HỘI ĐỒNG TS Vũ Tuyết Trinh LỜI CAM ĐOAN Tôi xin cam đoan luận văn đề tài “Tóm tắt văn tự động dựa kỹ thuật phân tích ma trận” cơng trình nghiên cứu cá nhân thời gian qua Mọi số liệu sử dụng phân tích luận văn kết nghiên cứu tơi tự tìm hiểu, phân tích cách khách quan, trung thực, có nguồn gốc rõ ràng công bố báo khoa học trích dẫn Tơi xin chịu hồn tồn trách nhiệm có khơng trung thực thơng tin sử dụng cơng trình nghiên cứu này.” Hà Nội, ngày 20 tháng 07 năm 2020 Tác giả luận văn Trần Việt Cường TÓM TẮT NỘI DUNG LUẬN VĂN Trong suốt lịch sử, số lượng thơng tin ngày nhiều có q thời gian đọc thông tin hai trở ngại lớn việc tìm kiếm thơng tin Vì vậy, xác định thông tin quan trọng văn việc vô cần thiết Để giải vấn đề tải thông tin dư thừa thông tin, giúp xác định nhanh chóng hiệu thơng tin cần thiết, có nhiều cách tiếp cận thực hiện, tóm tắt văn tự động giúp giải tốt vấn đề Lĩnh vực nghiên cứu ma trận, kỹ thuật phân hủy ma trận (matrix decomposition), phân tích ma trận (matrix factorizaton), phân tích tensor (tensor analysis, tensor decomposition, tensor factorizatoin) tảng tốt học máy khai phá liệu, kỹ thuật “the state of the art”, mang lại kết tốt nhiều lĩnh vực Ứng dụng kỹ thuật phân tích ma trận tóm tắt văn tự động có nhiều nghiên cứu mang lại kết khả quan Luận văn trình bày kỹ thuật ma trận ứng dụng tóm tắt văn nghiên cứu thử nghiệm Nội dung luận văn chương: • Chương 1: Giới thiệu tổng quan tốn • Chương 2: Các vấn đề tốn tóm tắt văn tự động, tốn tóm tắt văn phương pháp tóm tắt văn sử dụng • Chương 3: Các phương pháp phân tích ma trận cho tóm tắt văn tự động, tập trung vào kỹ thuật phân tích ma trận khơng âm NMF (Non-negative matrix factorization) kỹ thuật đồng phân tích ma trận khơng âm NMCF (Non-negative matrix co-factorization) tốn tóm tắt thơng tin mạng xã hội • Chương 4: Các thí nghiệm kết đánh giá phương pháp phân tích ma trận đề xuất chương • Chương 5: Kết luận hướng phát triển Hà Nội, ngày 20 tháng 07 năm 2020 Tác giả luận văn Trần Việt Cường MỤC LỤC TÓM TẮT NỘI DUNG LUẬN VĂN .4 MỤC LỤC .6 DANH MỤC HÌNH .9 DANH MỤC BẢNG 10 CHƯƠNG GIỚI THIỆU 11 Bài tốn tóm tắt văn tự động 11 1.1 Tại lại cần nghiên cứu tóm tắt văn tự động 11 1.2 Định nghĩa tóm tắt văn tự động 12 1.3 Phân loại tóm tắt văn tự động 12 Phân tích ma trận 13 Tóm tắt nội dung luận văn 14 CHƯƠNG BÀI TỐN TĨM TẮT VĂN BẢN TỰ ĐỘNG 15 Tóm tắt đơn văn 15 1.1 Giai đoạn tiền xử lý liệu 15 1.2 Trích chọn, trừu tượng, nén câu dung hợp câu 18 Tóm tắt đa văn 20 2.1 Giới thiệu tóm tắt đa văn 20 2.2 Các vấn đề tóm tắt đa văn 21 Tóm tắt diễn tiến 21 Tóm tắt thơng tin mạng xã hội 22 Phân loại phương pháp tóm tắt văn tự động 22 5.1 Tiếp cận dựa cấu trúc văn 22 5.2 Tiếp cận dựa mơ hình khơng gian vector (Vector space model) 23 5.3 Tiếp cận dựa đồ thị (Graph based) 24 5.4 Các phương pháp dựa cấu trúc diễn ngôn văn 26 5.5 Tiếp cận dựa học máy (machine learning) 28 CHƯƠNG PHÂN TÍCH MA TRẬN CHO TĨM TẮT VĂN BẢN 30 Phân tích ma trận khơng âm (non-negative matrix factorization) 30 1.1 Cơ sở lý thuyết NMF 30 1.2 Các thuật toán học cho NMF 31 1.3 Ứng dụng NMF tốn tóm tắt văn tự động 35 Đồng phân tích ma trận khơng âm (Matrix CoFactorization) NMCF 37 2.1 Cơ sở lý thuyết ý tưởng NMCF 38 2.2 Thuật toán học cho NMCF 38 2.3 Ứng dụng NMCF vào bái tốn tóm tắt thông tin mạng xã hội 39 Đồng phân tích ma trận khơng âm (Matrix Co Factorization) NMC2F 41 3.1 Cơ sở lý thuyết cho NMC2F 41 3.2 Thuật toán học cho NMC2F 42 3.3 Ứng dụng NMC2F vào bái tốn tóm tắt thơng tin mạng xã hội 43 Đồng phân tích ma trận khơng âm (Matrix Co Factorization) NMC3F 46 4.1 Cơ sở lý thuyết cho NMC3F 46 4.2 Thuật toán học cho NMC3F 47 4.3 Ứng dụng NMC3F vào bái tốn tóm tắt thơng tin mạng xã hội 48 CHƯƠNG THÍ NGHIỆM 51 Tập liệu 51 Tiêu chí đánh giá 52 2.1 ROUGE –N (N-gram Co-Occurrence Statistics) 52 2.2 ROUGE –L (Longest Common Subsequence) 53 2.3 ROUGE-W (Weighted Longest Common Subsequence) 53 2.4 ROUGE –S (Skip-Bigram Co-Occurrence Statistics) 54 2.5 ROUGE –SU (Extension of ROUGE-S) 54 Kết 54 3.1 Đồng phân tích ma trận khơng âm (Matrix Co Factorization) 54 3.2 Đồng phân tích ma trận khơng âm (Matrix Co Factoriation) 56 3.3 Đồng phân tích ma trận khơng âm (Matrix Co Factorization) 60 CHƯƠNG KẾT LUẬN 62 Cách tiếp cận ma trận cho tóm tắt văn 62 Đóng góp luận văn 62 Hướng nghiên cứu tiêp 62 TÀI LIỆU THAM KHẢO 64 DANH MỤC HÌNH Hình 1: Một vài trọng số địa phương thông dụng 17 Hình 2: Một vài trọng số toàn cục hay sử dụng 18 Hình 3: Tóm tắt văn tự động dựa trích chọn câu 19 Hình 4: Mơ hình tóm tắt đa văn 21 Hình 5: Giá trị PAGERANK 25 Hình 6: Các nhóm phương pháp tóm tắt văn tự động 29 Hình 7: Phân tích ma trận khơng âm 30 Hình 8: Ví dụ phân tích ma trận không âm 31 Hình 9: Tóm tắt văn tự động dựa phân tích ma trận khơng âm NMF 37 Hình 10 So sánh NMF với NMCF 55 Hình 11 ROUGE score cho thuật toán NMCF In đậm giá trị tốt nhất, chữ nghiêng giá trị gần lớn (chỉ đứng sau giá trị lớn nhất) 56 Hình 12 Ảnh hưởng phương pháp chuẩn hóa NMCF 56 Hình 13 So sánh thuật tốn NM2CF NMF cổ điển 57 Hình 14 So sánh NM2CF với phương pháp phức tạp 59 Hình 15 Kết thí nghiệm thuật tốn NM3CF 61 Hình 16 Ảnh hưởng phương pháp chuẩn hóa NM3CF 61 DANH MỤC BẢNG Bảng Định nghĩa thành phần thuật toán NMC3F 47 Bảng Tổng quan tập liệu 51 Bảng Mức độ overlap liệu 52 10 Bảng cho thấy thông số liệu Số lượng bình luận nhiều để có ý nghĩa cho việc tóm tắt văn Số lượng tài liệu tham khảo tiêu chuẩn ba tập liệu lớn chứa câu bình luận chọn Bảng thể mức độ chồng chéo (overlap) liệu: Dataset Observation sentences (%) user posts (%) SoLSCSum % overlapping 13.26 42.05 % overlapping (no 8.90 31.21 % overlapping 22.24 16.94 % overlapping (no 15.61 12.62 37.712 44.82 stop words) USATodayCNN stop words) VSoLSCSum % overlapping Bảng Mức độ overlap liệu Tiêu chí đánh giá Chúng tơi sử dụng đánh giá ROUGE [6] cho so sánh tóm tắt thử nghiệm tóm tắt tập liệu, bao gồm ROUGE –N, ROUGE –L, ROUGE-W, ROUGE-S, ROUGE-SU 2.1 ROUGE –N (N-gram Co-Occurrence Statistics) ROUGE-N thu hồi n-gram tóm tắt tự động tập hợp tài liệu tóm tắt tham khảo ROUGE-N tính sau: 52 Trong đó: n chiều dài n-gram, Countmatch(gramn) số lượng tối đa ngram xảy đồng thời tóm tắt tự động tóm tắt tham khảo Rõ ràng ROUGE-N biện pháp liên quan đến thu hồi mẫu số phương trình tổng số n-gram xảy phía tài liệu tóm tắt tham khảo 2.2 ROUGE –L (Longest Common Subsequence) ROUGE-L tính tỷ lệ chiều dài chung dài tóm tắt dãy (LCS) chiều dài tóm tắt tài liệu tham khảo mơ tả phương trình [6]: Trong đó: m độ dài tóm tắt tham khảo X n chiều dài ứng cử viên câu Y LCS(X,Y) độ dài LCS X Y R thu hồi X Y, P độ xác X Y 2.3 ROUGE-W (Weighted Longest Common Subsequence) ROUGE-W: Trọng số chuỗi chiều dài lớn nhất, mở rộng ROUGE- L [6] : 53 Trong đó: m độ dài tóm tắt tham khảo X n chiều dài ứng cử viên câu Y LCS(X,Y) độ dài LCS X Y R thu hồi X Y, P độ xác X Y 2.4 ROUGE –S (Skip-Bigram Co-Occurrence Statistics) Sử dụng chồng chéo skip-bigram tóm tắt ứng cử viên tóm tắt tham khảo [6]: Trong đó: SKIP2(X,Y) số lượng bigram X Y R thu hồi X Y, P độ xác X Y 2.5 ROUGE –SU (Extension of ROUGE-S) Một vấn đề tiềm cho ROUGE-S khơng cung cấp cho giá trị cho câu chọn câu khơng có cặp từ xảy đồng thời với câu tham chiếu Để đạt điều này, mở rộng ROUGE-S với việc bổ sung đơn vị đếm unigram Các phiên mở rộng gọi ROUGE-SU Chúng có ROUGE-SU từ ROUGE-S cách thêm dấu hiệu bắt đầu câu ứng cử viên tóm tắt tham khảo [6] Kết 3.1 Đờng phân tích ma trận khơng âm (Matrix Co Factorization) a So sánh với kỹ thuật NMF cổ điển 54 Hình 10 So sánh NMF với NMCF Đầu tiên, chung tơi so sánh NMF NMCF Rõ ràng từ hình vẽ thấy phương pháp NMCF chúng tơi có cải thiện hiệu suất đáng kể so với NMF hầu hết trường hợp Ví dụ, để trích chọn câu VLSCSum hiệu suất phương pháp cao 5% so với NMF ROUGE-1 12% ROUGE-2 Điều khẳng định tính hiệu phương pháp việc khai thác thông tin lẫn bình luận câu văn Sự trênh lệch ROUGE score tóm tắt văn không trênh lệch nhiều Điều NMF sử dụng lợi chủ đề ẩn ma trận, chứng minh có ích cho việc tóm tắt tài liệu [5, 11, 10, 12] Ngồi ra, thân câu chứa nhiều thơng tin quan trọng để tóm tắt cho văn bản, đó, việc thêm thông tin từ nhận xét giúp cải thiện điểm ROUGE chút Tuy nhiên, để trích chọn bình luận, hỗ trợ từ văn giúp tăng điểm ROUGE nhiều [14] b So sánh với đường sơ (baseline) thuật tốn khác Hình 11 ROUGE-scores NMCF phương pháp khác hai liệu SoLSCSum VSoLSCSum Để công bằng, so sánh phương pháp với phương pháp học không giám sát khác Điểm số ROUGE từ Hình 11 cho thấy NMCF vượt trội so với phương pháp học không giám sát khác hầu hết trường hợp Ví dụ, NMCF đạt ROUGE-1 tốt số lựa chọn câu SoLSCSum Có biên độ nhỏ phương pháp phương pháp tốt thứ hai, ví dụ: 0,387 so với 0,379, số khác Điều phương pháp khai thác hỗ trợ lẫn bình luận văn [14] Trong thuật tốn 55 đường sở Lead-m, chọn m câu văn Đường sở khơng hoạt động với trích chọn bình luận, bình luận khơng có thứ tự giống văn Hình 11 ROUGE score cho thuật toán NMCF In đậm giá trị tốt nhất, chữ nghiêng giá trị gần lớn (chỉ đứng sau giá trị lớn nhất) c Các phương pháp chuẩn hóa Phương pháp sử dụng chuẩn hóa L1 L2 Trong hình ta thấy L1 tốt số trường hợp L2 tốt số trường hợp khác, nhìn tổng thể, L2 tốt L1 Chúng chọn L2 phương pháp chuẩn hóa [14] Hình 12 Ảnh hưởng phương pháp chuẩn hóa NMCF 3.2 Đờng phân tích ma trận không âm (Matrix Co Factoriation) a So sánh với kỹ thuật NMF cổ điển Trước tiên, chúng tơi so sánh NMCF với mơ hình dựa NMF Hình điểm ROUGE-score Rõ ràng từ số liệu này, NMCF có cải tiến tồn diện so với NMF hầu hết trường hợp Ví dụ, để trích xuất câu VSoLSCSum, hiệu suất mơ hình chúng 56 cao 5% ROUGE-1 7% ROUGE-2 so với NMF Điều xác nhận hiệu mơ hình chúng tơi việc khai thác thơng tin lẫn đăng bình luận người dùng [55] Hình 13 So sánh thuật toán NM2CF NMF cổ điển b So sánh với đường sở (baseline) thuật toán khác So sánh với phương pháp khác, điểm ROUGE-score cho thấy tính hiệu mơ hình Trong thuật tốn đường sở Lead-m, chọn m câu văn Đường sở khơng hoạt động với trích chọn bình luận, bình luận khơng có thứ tự giống văn Các phương pháp chúng tơi có kết cạnh tranh SoLSCSum, phương pháp tốt ngoại trừ ROUGE-W lựa chọn câu văn SVMRank HGRW hoạt động tương đương với mô hình chúng tơi Có thể hiểu SVMRank sử 57 dụng nhiều tính phụ thuộc vào miền để mơ hình hóa mối quan hệ nhận xét câu dạng học có giám sát, dẫn đến phương pháp mạnh Tuy nhiên, mơ hình chúng tơi khơng giám sát, độc lập miền Đối với HGRW, khai thác đăng người dùng để ghi điểm cách sử dụng thuật toán xếp hạng tăng cấp ngẫu nhiên [39] Tuy nhiên, phương pháp tốt phương pháp nhiều trường hợp Phương pháp phù hợp với VSoLSCSum, phương pháp tốt nhất, theo sau SVMRank Phương pháp đạt kết tương đương để lựa chọn câu USATodayCNN HGRW SoRTESum Inter-Wing đạt điểm số cao Theo nghĩa này, mơ hình chúng tơi bị giới hạn khía cạnh trừu tượng, giải tính SoRTESum Inter-Wing Điều lần khẳng định HGRW phương pháp mạnh khơng giám sát Lưu ý SVMRank không đạt kết tốt phương pháp học có giám sát Mặt khác, mơ hình thu kết đầy hứa hẹn trích chọn bình luận, có khả cạnh tranh số trường hợp [55] 58 Hình 14 So sánh NM2CF với phương pháp phức tạp c Các phương pháp chuẩn hóa 59 Như đề cập, mơ hình chúng tơi sử dụng L1 L2 làm chuẩn hóa Điểm số ROUGE NCMF với thuật tốn chuẩn hóa bảng Từ bảng này, quan sát chuẩn hóa với L2 cho kết tốt L1 để chọn câu SoLSCSum VSoLSCSum Để trích chọn bình luận SoLSCSum, L1 tốt Trên USAToday-CNN, L1 cao L2 Để cân hiệu suất ba liệu, chọn L1 làm chuẩn hóa cho nghiên cứu [55] Bảng Ảnh hưởng phương pháp chuẩn hóa NM2CF 3.3 Đờng phân tích ma trận khơng âm (Matrix Co Factorization) a So sánh với đường sở phương pháp khác Từ Bảng đây, thấy mơ hình chúng tơi đạt kết tốt so với NMF NMCF nhiều trường hợp Điều hai lý Đầu tiên, mơ hình chúng tơi tích hợp ý kiến để hỗ trợ câu q trình tóm tắt Thơng tin từ bình luận mã hóa theo mơ hình để làm phong phú nội dung câu Trong q trình học, mơ hình chúng tơi tối ưu hóa tồn cầu, điều làm hạn chế câu nhận xét phải phản ánh thơng tin kiện Thứ hai, so với NMCF [14, 16] mơ hình chúng tơi tồn diện Chúng giả định câu nhận xét sở hữu chủ đề họ (k1 k2) họ chia sẻ chủ đề ẩn chung (k) NMCF thu kết đầy hứa hẹn số trường hợp, ví dụ: ROUGE-2 trích chọn bình luận VSoLSCSum Điều 60 NMCF phương pháp mạnh để tóm tắt bối cảnh xã hội [14, 16] Nó khai thác mối quan hệ câu bình luận Tuy nhiên, trường hợp khác, mơ hình chúng tơi tốt hơn, ví dụ: 0,620 so với 0,590 ROUGE-1 lựa chọn câu VSoLSCSum Ngoài ra, NMCF nắm bắt chủ đề ẩn câu bình luận Theo nghĩa này, NMCF coi trường hợp đặc biệt mơ hình chúng tơi So với NMF, có khác biệt đáng kể Điều mơ hình chúng tơi tích hợp hỗ trợ bình luận người dùng cho trình xếp hạng Ngược lại, NMF sử dụng thơng tin bên tài liệu [17] Hình 15 Kết thí nghiệm thuật tốn NM3CF b Các phương pháp chuẩn hóa L1 tốt L2 đa phần trường hợp Ví phương pháp chuẩn hóa L1 [17] Hình 16 Ảnh hưởng phương pháp chuẩn hóa NM3CF 61 CHƯƠNG KẾT LUẬN Cách tiếp cận ma trận cho tóm tắt văn Vì thể văn ma trận, kỹ thuật phân tích ma trận tóm tắt văn tự động kỹ thuật tự nhiên Hơn nữa, kỹ thuật khơng bị ràng buộc ngơn ngữ, sử dụng nhiều loại ngơn ngữ khác Các tính tốn ma trận cho tốc độ nhanh, với phát triển cơng nghệ phần cứng việc hiệu cho tính tốn ma trận khơng cịn vấn đề quan trọng Đóng góp luận văn Đồ án đưa nhìn tổng quan kỹ thuật phân tích ma trận cho học máy khai phá liệu, cụ thể vấn đề tóm tắt văn tự động Đị án bổ xung kỹ thuật phân tích ma trận khơng âm khác cho tốn tóm tắt văn tự động Hướng nghiên cứu tiêp Phân tích tensor cho tóm tắt đa văn Các kỹ thuật ma trận cho tóm tắt đa văn ghép nhiều văn thành văn bản, tiến hành phân tích ma trận loại bỏ dư thừa Nhưng thể tự nhiên văn không gian chiều Với chiều term, chiều câu chiều văn Như vậy, việc phân tích ma trận chiều cho ma trận đa văn vấn đề đáng để nghiên cứu Các kỹ thuật phân tích tensor, phân tích SVD bậc cao (HOSVD – Higher-order Singular value decomposition) ứng dụng vào tóm tắt văn với hiệu tương đối tốt Tóm tắt theo truy vấn (Query base) dựa kỹ thuật ma trận Một truy vấn câu hỏi vấn đề đó, ta cần phải đưa câu trả lời cho câu hỏi dựa tập tài liệu có trước Việc trích chọn thơng tin cần thiết với câu hỏi đề tài nghiên cứu tốt có nhiều ứng dụng thực tiễn việc tra cứu thông tin 62 Xây dựng hệ thống tóm tắt văn cho Tiếng Việt Việc tổng hợp tóm tắt văn vấn đề hữu ích cho việc tìm kiếm tra cứu thơng tin Loại bỏ dư thừa xung đột liệu Việc dư thừa loại bỏ vấn đề không mẻ tóm tắt văn tự động Nhưng việc xung đột liệu cịn chưa giải với thông tin theo thời gian dễ gây xung đột 63 TÀI LIỆU THAM KHẢO [1] Juan-Manuel Torres-Moreno, “Automatic text summarization ”, First published 2014 in Great Britain and the United States [2] DD Lee, HS Seung Learning the parts of objects by non-negative matrix factorization Nature 401 (6755), 788-791 [3] DD Lee, HS Seung Algorithms for non-negative matrix factorization Advances in neural information processing systems, 556-562 [4] Chih-Jen Lin, “Projected Gradient Methods for Non-negative Matrix Factorization”, Neural computation 19 (10), 2756-2779 [5] Ju-Hong Lee, Sun Park, Chan-Min Ahn, Daeho Kim, “Automatic generic document summarization based on non-negative matrix factorization”, Information Processing and Management 45 (2009) 20–34 [6] Chin-Yew Lin, “ROUGE: A Package for Automatic Evaluation of Summaries”, In Proceedings of Workshop on Text Summarization Branches Out, PostConference Workshop of ACL 2004, Barcelona, Spain [7] Preslav Nakov, Antonia Popova, and Plamen Mateev 2001 Weight functions impact on LSA performance In EuroConference RANLP, pp 187-193 [8] Minh-Tien Nguyen, Viet Dac Lai, Phong-Khac Do, Duc-Vu Tran, and Minh-Le Nguyen 2016 VSoLSCSum: Building a Vietnamese Sentence-Comment Dataset for Social Context Summarization In The 12th Workshop on Asian Language Resources, pp 38-48 Association for Computational Linguistics [9] Minh-Tien Nguyen, Chien-Xuan Tran, Duc-Vu Tran, and Minh-Le Nguyen 2016 SoLSCSum: A Linked Sentence-Comment Dataset for Social Context Summarization In Proceedings of the 25th ACM International on Conference on Information and Knowledge Management, pp 2409-2412 ACM [10] Sun Park, Ju-Hong Lee, Chan-Min Ahn, Jun Sik Hong, and Seok-Ju Chun 2006 Query Based Summarization Using Non-negative Matrix Factorization In 64 Knowledge-Based Intelligent Information and Engineering Systems, pp 84-89 Springer Berlin/Heidelberg [11]Yihong Gong and Xin Liu 2001 Generic Text Summarization using Relevant Measure and Latent Semantic Analysis In Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp 19-25 ACM [12] Dingding Wang, Tao Li, Shenghuo Zhu, and Chris Ding 2008 Multidocument summarization via sentence-level semantic analysis and symmetric matrix factorization In Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp 307-314 ACM, [13] Zhongyu Wei and Wei Gao 2014 Utilizing Microblogs for Automatic News Highlights Extraction In COLING, pp 872-883 Association for Computational Linguistics [14] Nguyen, M T., Tran, V C., Nguyen, X H., & Nguyen, M L (2017) Utilizing User Posts to Enrich Web Document Summarization with Matrix Cofactorization In Proceedings of The Eight International Symposium on Information and Communication Technology (SoICT), (pp 70{77) ACM [15] Nguyen, M T., Tran, V D., Tran, C X., & Nguyen, M L (2017b) Exploiting User-Generated Content to Enrich Web Document Summarization In International Journal on Artificial Intelligence Tools, 26(5), 1-26 [16] Minh-Tien Nguyen, Viet Cuong Tran, Xuan Hoai Nguyen, and Le-Minh Nguyen 2019 Web Document Summarization by Exploiting Social Context with Matrix Co-factorization Information Processing & Management, 56(3), pp 495-515 (2019) [17] Minh-Tien Nguyen, Viet Cuong Tran, Xuan Hoai Nguyen Exploiting User Comments for Document Summarization with Matrix Factorization Proceedings of 65 the Tenth International Symposium on Information and Communication TechnologyDecember 2019 Pages 118–124 66 ... tóm tắt văn tự động 11 1.1 Tại lại cần nghiên cứu tóm tắt văn tự động 11 1.2 Định nghĩa tóm tắt văn tự động 12 1.3 Phân loại tóm tắt văn tự động 12 Phân tích ma trận. .. 2: Các vấn đề tốn tóm tắt văn bản, tốn tóm tắt văn nhóm phương pháp tóm tắt văn sử dụng • Chương 3: Các phương pháp phân tích ma trận cho tóm tắt văn tự động, xoay quay phương pháp phân tích ma. .. bày mục 2: Các vấn đề tóm tắt văn tự động b Phân tích ma trận Ma trận văn tạo phân tích ma trận khơng âm A = WH Với A ma trận với kích thước m × n, W ma trận kích thước m × k, H ma trận kích thước