1. Trang chủ
  2. » Tất cả

Luận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câu

57 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Luận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câuLuận văn thạc sĩ: Tóm tắt văn bản dựa vào trích xuất câu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG NƠNG TIẾN CƠNG TĨM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH LẠNG SƠN, 2018 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG NƠNG TIẾN CƠNG TĨM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU Chun ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS-TS Đồn Văn Ban LẠNG SƠN, 2018 LỜI CAM ĐOAN Tôi xin cam đoan luận văn sản phẩm nghiên cứu, tìm hiểu cá nhân tơi Những điều trình bày luận văn cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Lạng Sơn, tháng năm 2018 TÁC GIẢ LUẬN VĂN Nông Tiến Công i MỤC LỤC MỤC LỤC i DANH MỤC CÁC HÌNH iii DANH MỤC CÁC BẢNG iv MỞ ĐẦU Chương TÓM TẮT VĂN BẢN TIẾNG VIỆT 1.1 Bài tốn tóm tắt văn 1.1.1 Phân loại tóm tắt 1.1.3 Mơ hình tóm tắt văn số phương pháp tiếp cận 1.2 Các phương pháp đánh giá 1.2.1 Các phương pháp đánh giá 10 1.2.2 Các phương pháp đánh giá 11 1.3 Tóm tắt văn tiếng Việt dựa vào trích xuất câu số vấn đề liên quan 12 1.3.1 Đặc điểm ngôn ngữ văn tiếng Việt 12 1.3.2 Một số hướng tiếp cận tốn tóm tắt văn tiếng Việt 15 1.3.3 Mơ hình tóm tắt văn tiếng Việt dựa vào trích xuất câu 17 1.4 Tổng kết chương 18 Chương PHƯƠNG PHÁP TÓM TẮT VĂN BẢN DỰA TRÊN ĐỘ TƯƠNG ĐỒNG CÂU 19 2.1 Một số khái niệm phương pháp tính độ tương đồng câu 19 2.1.1 Độ tương đồng 19 ii 2.1.2 Độ tương đồng ngữ nghĩa phương pháp trích xuất câu dựa độ tương đồng ngữ nghĩa câu 20 2.1.3 Tính độ tương đồng theo độ đo Cosine 21 2.1.4 Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn 22 2.1.5 Phương pháp tính độ tương đồng câu dựa vào mạng Wikipedia 25 2.2 Mơ hình tóm tắt văn tiếng Việt dựa trích xuất câu quan trọng theo phương pháp tính độ tương đồng câu 28 2.2.1 Giai đoạn tiền xử lý 29 2.2.2 Giai tạo danh sách câu khả dụng 32 2.2.3 Giai đoạn sinh văn tóm tắt 34 2.3 Tổng kết chương 34 Chương THỰC NGHIỆM MƠ HÌNH TĨM TẮT VĂN BẢN TIẾNG VIỆT 35 3.1 Môi trường thực nghiệm 35 3.2 Chương trình tóm tắt văn 35 3.3 Tiến hành thực nghiệm 37 3.3.1 Cơ sở liệu tổng thể 37 3.3.2 Mơ hình suy luận chủ đề ẩn 37 3.3.3 Dữ liệu thực nghiệm 38 3.3.4 Đánh giá độ xác mơ hình tóm tắt văn 38 3.4 Tổng kết chương 46 KẾT LUẬN 47 TÀI LIỆU THAM KHẢO 48 iii DANH MỤC CÁC HÌNH Hình 1.1 Mơ hình hệ thống tóm tắt văn [13] Hình 1.2 Mơ hình chung cho tóm tắt văn tiếng Việt dựa vào trích xuất câu 17 Hình 2.1 Mơ hình tính độ tương đồng câu với chủ đề ẩn 24 Hình 2.2 Mối quan hệ đồ thị viết đồ thị chủ đề Wikipedia 26 Hình 2.3 Mơ hình tóm tắt văn tiếng Việt 28 Hình 2.4 Các câu sau tách cửa sổ nhỏ góc bên trái 29 Hình 2.5 Văn sau chuẩn hóa 30 Hình 2.6 Xác định từ dừng ký tự vơ ích 30 Hình 3.1 Giao diện chương trình 36 Hình 3.2 Các từ đặc trưng lĩnh vực giáo dục có xác suất xuất cao chủ đề 83, 116, 136 mơ hình suy luận chủ đề ẩn 38 Hình 3.3 Kết tóm tắt văn theo phương pháp tổ hợp với tỷ lệ nén 30% 40 Hình 3.4 Độ xác phương pháp tóm tắt theo tỷ lệ nén 44 Hình 3.5 Độ xác phương pháp tóm tắt tỷ lệ nén 30% số lĩnh vực 45 iv DANH MỤC CÁC BẢNG Bảng 3.1 Kết tóm tắt nhóm văn theo tỷ lệ nén 10% 41 Bảng 3.2 Kết tóm tắt nhóm văn theo tỷ lệ nén 20% 42 Bảng 3.3 Kết tóm tắt nhóm văn theo tỷ lệ nén 30% 43 MỞ ĐẦU Với phát triển công nghệ Internet nay, thông tin thời cập nhật Website với tốc độ vũ bão Điều mang lại cho người nhiều lợi ích thiết thực khiến họ gặp phải khơng khó khăn sàng lọc lấy thơng tin hữu ích từ nguồn liệu khổng lồ Theo đánh giá cơng ty Oracle1, có đến 80% liệu giới liệu văn Vì vậy, việc tổ chức quản lý khai thác hiệu nguồn liệu toán lớn cần quan tâm nghiên cứu giải Tóm tắt văn tự động nhằm nhanh chóng thu thơng tin quan trọng, tăng hiệu xử lý thông tin hướng tiếp cận khai thác liệu văn nhận quan tâm nghiên cứu nhiều nhà khoa học, nhóm nghiên cứu cơng ty lớn giới Tóm tắt văn tự động có nhiều ứng dụng thực tế như: tóm tắt tin tức, tóm tắt kết tìm kiếm máy tìm kiếm, tóm tắt hình ảnh, tóm tắt video, Do đặc thù ngôn ngữ nên việc giải tốn tóm tắt văn tiếng Việt đặt cho nhà nghiên cứu thách thức, khó khăn riêng Các kết khả quan từ nghiên cứu tóm tắt văn tiếng Việt cơng bố sở cho dự án xây dựng hệ thống tóm tắt văn tiếng Việt tự động hiệu tương lai [4], [5], [6], [7], [8] Với việc chọn đề tài “Tóm tắt văn dựa vào trích xuất câu”, luận văn trung vào việc nghiên cứu, đánh giá lựa chọn phương pháp xây dựng mơ hình tóm tắt văn tiếng Việt hiệu http://www.oracle.com/technetwork/testcontent/9ir2text-bwp-f-129974.pdf https://en.wikipedia.org/wiki/Automatic_summarization Chương TÓM TẮT VĂN BẢN TIẾNG VIỆT 1.1 Bài tốn tóm tắt văn Theo Inderjeet Mani mục đích tóm tắt văn tự động là: “Tóm tắt văn tự động nhằm mục đích trích xuất nội dung từ nguồn thơng tin trình bày nội dung quan trọng cho người sử dụng theo khuôn dạng súc tích gây cảm xúc người sử dụng chương trình cần đến” [13] Theo Radev: “Văn tóm tắt văn tạo từ nhiều văn khác mà truyền tải thông tin quan trọng văn gốc có độ dài khơng q nửa văn gốc (thường ngắn đáng kể)” [11] Như vậy, tóm tắt văn việc tìm ý văn Bản tóm tắt có ba đặc điểm sau [10], [11], [12], [13]: - Bảo toàn nội dung so với văn gốc: Các nội dung quan trọng hay bật gốc phải giữ lại tóm tắt - Ngắn ngọn: tóm tắt thường ngắn gốc nhiều - Dễ đọc: người sử dụng đọc hiểu dễ dàng Việc đưa tóm tắt có chất lượng không bị giới hạn miền ứng dụng xác định khó khăn nên phương pháp giải tốn tóm tắt văn thường hướng đến kiểu văn cụ thể kiểu tóm tắt cụ thể 1.1.1 Phân loại tóm tắt Có nhiều cách phân loại tóm tắt văn khác nhau, sau số cách phân loại tiêu biểu [13]: 1.1.1.1 Theo định dạng đầu - Tóm tắt trích xuất (Extract): tóm tắt gồm đoạn văn rút trích từ văn gốc - Tóm tắt tóm lược (Abstract): tóm tắt tạo dựa thông tin quan trọng văn gốc 1.1.1.2 Theo mức độ xử lý - Tiếp cận mức ngồi (surface-level): thơng tin miêu tả dạng khái niệm đặc trưng nông (shallow feature) Các đặc trưng nông bao gồm thuật ngữ (term) quan trọng qua thống kê (dựa vào tần số thuật ngữ văn bản), thuật ngữ quan trọng dựa vào vị trí, thuật ngữ cụm từ dấu hiệu hay thuật ngữ câu truy vấn người dùng Kết tóm tắt dạng trích xuất (extract) - Tiếp cận mức sâu (deeper-level): mức này, tóm tắt dạng trích xuất dạng tóm tắt (abstract) cần phải sử dụng đến sinh tổng hợp ngôn ngữ tự nhiên Với dạng tiếp cận này, phải cần đến phân tích mặt ngữ nghĩa, chẳng hạn sử dụng hướng tiếp cận thực thể để xây dựng dạng biểu diễn thực thể văn (đơn vị văn bản) mối quan hệ thực thể từ tìm phần quan trọng Mối quan hệ thực thể gồm quan hệ ngữ nghĩa như: đồng nghĩa, trái nghĩa, nghĩa hẹp, nghĩa rộng…, quan hệ cú pháp: dựa phân tích cú pháp mối quan hệ khác 1.1.1.3 Theo mục đích tóm tắt - Tóm tắt thị (Indicative): Đưa thơng tin ngắn gọn chủ đề văn Dạng tóm tắt thường sử dụng hệ thống tìm kiếm thơng tin Thơng thường, độ dài văn tóm tắt loại từ đến 10% độ dài toàn văn - Tóm tắt thơng tin (Information): tóm tắt bao gồm tất thơng tin bật có văn nguồn nhiều mức độ chi tiết khác - Tóm tắt đánh giá (Evaluation): tóm tắt nhằm mục đích đánh giá vấn đề văn nguồn, thể quan điểm tác giả công việc họ ... tóm tắt đáp ứng nhu cầu người dùng cụ thể chủ đề cụ thể 1.1.1.5 Theo số lượng văn đầu vào - Tóm tắt đơn văn bản: đầu vào văn - Tóm tắt đa văn bản: đầu vào tập văn 1.1.1.6 Theo ngôn ngữ - Tóm tắt. .. 1.1.1.1 Theo định dạng đầu - Tóm tắt trích xuất (Extract): tóm tắt gồm đoạn văn rút trích từ văn gốc 3 - Tóm tắt tóm lược (Abstract): tóm tắt tạo dựa thông tin quan trọng văn gốc 1.1.1.2 Theo mức... dựa vào trích xuất câu số vấn đề liên quan Bài tốn tóm tắt văn tiếng Việt dự vào trích cuất câu phát biểu sau: “Tạo tóm tắt với theo tỷ lệ xác định từ văn gốc cách rút câu quan trọng Ngơn ngữ văn

Ngày đăng: 19/02/2023, 16:48

Xem thêm: