1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm Tắt Văn Bản Tự Động Dựa Trên Á Kỹ Thuật Phân Tíh Ma Trận.pdf

66 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tóm Tắt Văn Bản Tự Động Dựa Trên Các Kỹ Thuật Phân Tích Ma Trận
Tác giả Trần Việt Cường
Người hướng dẫn PGS.TS Lê Thanh Hương
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Khoa Học Máy Tính
Thể loại luận văn
Năm xuất bản 2020
Thành phố Hà Nội
Định dạng
Số trang 66
Dung lượng 2,71 MB

Nội dung

1 TRƯỜ Ạ Ọ ỘNG Đ I H C BÁCH KHOA HÀ N I VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LUẬN VĂN T TH ỐT NGHIỆP ẠC SĨ CHUYÊN NGÀNH KHOA HỌC MÁ ÍY T NH Tóm tắt văn bả ự độ ựn t ng d a trên các k ma trỹ ậ thu[.]

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LUẬN VĂN TỐT NGHIỆP THẠC SĨ CHUN NGÀNH KHOA HỌC MÁY TÍNH Tóm tắt văn tự động dựa kỹ thuật phân tích ma trận Học viên : Trần Việt Cường SHHV : CB170304 Giáo viên hướng dẫn : PGS.TS Lê Thanh Hương HÀ NỘI 07 / 2020 Tai ngay!!! Ban co the xoa dong chu nay!!! 17061132044001000000 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Trần Việt Cường Đề tài luận văn: Tóm tắt văn tự động dựa kỹ thuật phân tích ma trận Chuyên ngành: Khoa học máy tính Mã số SV: CB170304 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 27/06/2020 với nội dung sau: Đánh số trang, bổ sung trích dẫn tài liệu tham khảo, chỉnh sửa lại bìa chuyên ngành, nêu rõ khác biệt phần 2.3, 3.3, 4.3, chỉnh sửa lại đề mục cho hợp lý, giải thích kỹ ký hiệu cơng thức thuật tốn mục 2.1, 3.1, 4.1, mô tả bổ xung tập liệu, bổ sung mô tả đường sở (baseline), mô tả ngắn gọn lại phương pháp so sánh thực nghiệm, mô ta bước tiền xử lý với Tiếng Việt (nếu có) Hà Nội, ngày 20 tháng 07 năm 2020 Giáo viên hướng dẫn Tác giả luận văn Trần Việt Cường PGS TS Lê Thanh Hương CHỦ TỊCH HỘI ĐỒNG TS Vũ Tuyết Trinh LỜI CAM ĐOAN Tôi xin cam đoan luận văn đề tài “Tóm tắt văn tự động dựa kỹ thuật phân tích ma trận” cơng trình nghiên cứu cá nhân thời gian qua Mọi số liệu sử dụng phân tích luận văn kết nghiên cứu tơi tự tìm hiểu, phân tích cách khách quan, trung thực, có nguồn gốc rõ ràng công bố báo khoa học trích dẫn Tơi xin chịu hồn tồn trách nhiệm có khơng trung thực thơng tin sử dụng cơng trình nghiên cứu này.” Hà Nội, ngày 20 tháng 07 năm 2020 Tác giả luận văn Trần Việt Cường TÓM TẮT NỘI DUNG LUẬN VĂN Trong suốt lịch sử, số lượng thơng tin ngày nhiều có q thời gian đọc thông tin hai trở ngại lớn việc tìm kiếm thơng tin Vì vậy, xác định thông tin quan trọng văn việc vô cần thiết Để giải vấn đề tải thông tin dư thừa thông tin, giúp xác định nhanh chóng hiệu thơng tin cần thiết, có nhiều cách tiếp cận thực hiện, tóm tắt văn tự động giúp giải tốt vấn đề Lĩnh vực nghiên cứu ma trận, kỹ thuật phân hủy ma trận (matrix decomposition), phân tích ma trận (matrix factorizaton), phân tích tensor (tensor analysis, tensor decomposition, tensor factorizatoin) tảng tốt học máy khai phá liệu, kỹ thuật “the state of the art”, mang lại kết tốt nhiều lĩnh vực Ứng dụng kỹ thuật phân tích ma trận tóm tắt văn tự động có nhiều nghiên cứu mang lại kết khả quan Luận văn trình bày kỹ thuật ma trận ứng dụng tóm tắt văn nghiên cứu thử nghiệm Nội dung luận văn chương: • Chương 1: Giới thiệu tổng quan tốn • Chương 2: Các vấn đề tốn tóm tắt văn tự động, tốn tóm tắt văn phương pháp tóm tắt văn sử dụng • Chương 3: Các phương pháp phân tích ma trận cho tóm tắt văn tự động, tập trung vào kỹ thuật phân tích ma trận khơng âm NMF (Non-negative matrix factorization) kỹ thuật đồng phân tích ma trận khơng âm NMCF (Non-negative matrix co-factorization) tốn tóm tắt thơng tin mạng xã hội • Chương 4: Các thí nghiệm kết đánh giá phương pháp phân tích ma trận đề xuất chương • Chương 5: Kết luận hướng phát triển Hà Nội, ngày 20 tháng 07 năm 2020 Tác giả luận văn Trần Việt Cường MỤC LỤC TÓM TẮT NỘI DUNG LUẬN VĂN .4 MỤC LỤC .6 DANH MỤC HÌNH .9 DANH MỤC BẢNG 10 CHƯƠNG GIỚI THIỆU 11 Bài tốn tóm tắt văn tự động 11 1.1 Tại lại cần nghiên cứu tóm tắt văn tự động 11 1.2 Định nghĩa tóm tắt văn tự động 12 1.3 Phân loại tóm tắt văn tự động 12 Phân tích ma trận 13 Tóm tắt nội dung luận văn 14 CHƯƠNG BÀI TỐN TĨM TẮT VĂN BẢN TỰ ĐỘNG 15 Tóm tắt đơn văn 15 1.1 Giai đoạn tiền xử lý liệu 15 1.2 Trích chọn, trừu tượng, nén câu dung hợp câu 18 Tóm tắt đa văn 20 2.1 Giới thiệu tóm tắt đa văn 20 2.2 Các vấn đề tóm tắt đa văn 21 Tóm tắt diễn tiến 21 Tóm tắt thơng tin mạng xã hội 22 Phân loại phương pháp tóm tắt văn tự động 22 5.1 Tiếp cận dựa cấu trúc văn 22 5.2 Tiếp cận dựa mơ hình khơng gian vector (Vector space model) 23 5.3 Tiếp cận dựa đồ thị (Graph based) 24 5.4 Các phương pháp dựa cấu trúc diễn ngôn văn 26 5.5 Tiếp cận dựa học máy (machine learning) 28 CHƯƠNG PHÂN TÍCH MA TRẬN CHO TĨM TẮT VĂN BẢN 30 Phân tích ma trận khơng âm (non-negative matrix factorization) 30 1.1 Cơ sở lý thuyết NMF 30 1.2 Các thuật toán học cho NMF 31 1.3 Ứng dụng NMF tốn tóm tắt văn tự động 35 Đồng phân tích ma trận khơng âm (Matrix CoFactorization) NMCF 37 2.1 Cơ sở lý thuyết ý tưởng NMCF 38 2.2 Thuật toán học cho NMCF 38 2.3 Ứng dụng NMCF vào bái tốn tóm tắt thơng tin mạng xã hội 39 Đồng phân tích ma trận không âm (Matrix Co Factorization) NMC2F 41 3.1 Cơ sở lý thuyết cho NMC2F 41 3.2 Thuật toán học cho NMC2F 42 3.3 Ứng dụng NMC2F vào bái tốn tóm tắt thơng tin mạng xã hội 43 Đồng phân tích ma trận không âm (Matrix Co Factorization) NMC3F 46 4.1 Cơ sở lý thuyết cho NMC3F 46 4.2 Thuật toán học cho NMC3F 47 4.3 Ứng dụng NMC3F vào bái tốn tóm tắt thơng tin mạng xã hội 48 CHƯƠNG THÍ NGHIỆM 51 Tập liệu 51 Tiêu chí đánh giá 52 2.1 ROUGE –N (N-gram Co-Occurrence Statistics) 52 2.2 ROUGE –L (Longest Common Subsequence) 53 2.3 ROUGE-W (Weighted Longest Common Subsequence) 53 2.4 ROUGE –S (Skip-Bigram Co-Occurrence Statistics) 54 2.5 ROUGE –SU (Extension of ROUGE-S) 54 Kết 54 3.1 Đồng phân tích ma trận không âm (Matrix Co Factorization) 54 3.2 Đồng phân tích ma trận khơng âm (Matrix Co Factoriation) 56 3.3 Đồng phân tích ma trận không âm (Matrix Co Factorization) 60 CHƯƠNG KẾT LUẬN 62 Cách tiếp cận ma trận cho tóm tắt văn 62 Đóng góp luận văn 62 Hướng nghiên cứu tiêp 62 TÀI LIỆU THAM KHẢO 64 DANH MỤC HÌNH Hình 1: Một vài trọng số địa phương thông dụng 17 Hình 2: Một vài trọng số tồn cục hay sử dụng 18 Hình 3: Tóm tắt văn tự động dựa trích chọn câu 19 Hình 4: Mơ hình tóm tắt đa văn 21 Hình 5: Giá trị PAGERANK 25 Hình 6: Các nhóm phương pháp tóm tắt văn tự động 29 Hình 7: Phân tích ma trận khơng âm 30 Hình 8: Ví dụ phân tích ma trận khơng âm 31 Hình 9: Tóm tắt văn tự động dựa phân tích ma trận khơng âm NMF 37 Hình 10 So sánh NMF với NMCF 55 Hình 11 ROUGE score cho thuật toán NMCF In đậm giá trị tốt nhất, chữ nghiêng giá trị gần lớn (chỉ đứng sau giá trị lớn nhất) 56 Hình 12 Ảnh hưởng phương pháp chuẩn hóa NMCF 56 Hình 13 So sánh thuật toán NM 2CF NMF cổ điển 57 Hình 14 So sánh NM2CF với phương pháp phức tạp 59 Hình 15 Kết thí nghiệm thuật toán NM3CF 61 Hình 16 Ảnh hưởng phương pháp chuẩn hóa NM3CF 61 DANH MỤC BẢNG Bảng Định nghĩa thành phần thuật toán NMC 3F 47 Bảng Tổng quan tập liệu 51 Bảng Mức độ overlap liệu 52 10

Ngày đăng: 26/01/2024, 15:55

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w