1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu các cách tiếp cận trong tóm tắt văn bản và thử nghiệm

114 21 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 114
Dung lượng 1 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LUẬN VĂN THẠC SĨ KHOA HỌC NGHIÊN CỨU CÁC CÁCH TIẾP CẬN TRONG TÓM TẮT VĂN BẢN VÀ THỬ NGHIỆM NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ:3.04.3898 SAM CHANRATHANY Người hướng dẫn khoa học: TS LÊ THANH HƯƠNG HÀ NỘI - 2008 LỜI CAM ĐOAN Tôi – SAM CHANRATHANY Học viên lớp Cao học CNTT 2005-2007 Trường Đại học Bách Khoa Hà Nội – cam kết cơng trình nghiên cứu thân tơi hướng dẫn TS LÊ THANH HƯƠNG Bộ mơn HỆ THỐNG THƠNG TIN – Khoa CNTT – Trường Đại học Bách Khoa Hà Nội.Các kết nêu luận văn trung thực, khơng chép tồn văn cơng trình khác Hà Nội, tháng 04 năm 2008 SAM CHANRATHANY Lời Cảm Ơn Trước hết xin gửi lời cảm ơn đặc biệt tới TS.Lê Thanh Hương, Bộ môn Hệ Thống Thông Tin, Khoa Công Nghệ Thông Tin, Trường Đại Học Bách khoa Hà Nội, Người định hướng đề tài tận tình hướng dẫn báo tơi suốt q trình thực luận văn cao học Tôi xin gừi lời cảm ơn sâu sắc tới Trung Tâm Đào Tạo Sau Đại Học thầy cô giáo Khoa Công Nghệ Thông Tin, Trường Đại học Bách Khoa Hà Nội tận tình giảng dậy truyền đạt kiến thức, kinh nghiệm quý báu suốt năm học Cao Học Cuối tơi xin bày tỏ lịng cảm ơn chân thành tới tất bạn bè, thầy cô giáo, bạn khoa nghệ thông tin 2005-2007, trường đại học Bách khoa Hà Nội động viên, tạo điều kiện cho suốt thời gian thực luận văn Hà Nội, tháng 04 năm 2008 Sam chanrathany MỤC LỤC Trang LỜI CẢM ƠN LỜI CAM ĐOAN Mục Lục……………………………………………………………… Danh Mục Từ Viết Tắt……………………………………………… Danh Mục Bảng …………………………………………………… Danh Mục Hình Vẽ………………………………………………… Mở Đầu……………………………………………………………… CHƯƠNG TỔNG QUAN VỀ TĨM TẮT VĂN BẢN 1.1 khái niệm tóm tắt văn ……………………………………… 10 1.2.phân loại tốn tóm tắt văn bản……………………………… 11 1.2.1 Phân loại theo đầu vào………………………………………… 11 1.2.1.1 Dựa nguồn……………………………………………… 11 1.2.1.2.Dựa Trên Ngôn Ngữ ………………………………………… 12 1.2.2.Phân Loại Theo Mục Đích …………………………………… 13 1.2.2.1.Dựa cách sử dụng……………………………………… 13 1.2.2.2.Dựa Trên mục đích tóm tắt ………………………………… 13 1.2.3.Phân Loại Theo Đầu ……………………………………… 14 1.2.3.1 Kiểu tóm tắt………………………………………………… 14 1.2.3.2.Ứng dụng Desktop ứng dụng Web…………… 15 1.2.4.Phân Loại theo kỹ thuật……………………………………… 15 1.2.4.1.Hướng tiếp cận cô điển…………………………………… 15 1.2.4.2.Hướng tiếp cận dựa tập ngữ liệu Corpus……………… 16 1.2.4.3.Hướng tiếp cận dựa tri thức…………………………… 17 1.2.4.4.Hướng tiếp cận khai thác cấu trúc ngôn ngữ………………… 17 1.3.Các chi tiểu đánh giá………………………………………… 18 1.4 Hệ thống tóm tắt văn điển hình…………………………… 19 CHƯƠNG 2.CÁC PHƯƠNG PHÁP ĐÁNH GIÁ TĨM TẮT VĂN BẢN 2.1.Giới thiệu………………………………………………………… 22 2.2 Đánh giá bên trong………………………………………… 24 2.2.1 Tính mạch lạc tóm tắt ……………………………… 24 2.2.2 Độ hàm chứa thơng tin tóm tắt ……………………… 25 2.2.3.Độ xác độ hồi tưởng…………………………… 25 2.2.4.Phương pháp xếp hạng câu……………………………… 27 2.2.5 Phương pháp Lợi ích liên quan…………………………… 27 2.2.6.Mức độ giống nội dung ………………………… 28 2.3 Đánh giá bên ngoài………………………………………… 29 2.3.1 Đánh giá độ phù hợp………………………………… 29 2.3.2.Đánh giá độ đọc hiểu………………………………… 31 2.4 So sánh hai phương pháp ……………………………………… 31 2.5 Hệ thống đánh giá có sẵn này……………………………… 32 2.5.1 MEADeval…………………………………………………… 32 2.5.2 ROUGE……………………………………………………… 33 CHƯƠNG 3.CÁC PHƯƠNG PHÁP DÙNG TRONG TÓM TẮT VĂN BẢN 3.1 Qúa trình tóm tắt văn bản……………………………………… 40 3.1.1 Bước Xác định chủ đề ……………………………………… 42 3.1.2.Bước Biến đổi ……………………………………… 42 3.1.3 Bước Hiển Thị ……………………………………… 43 3.2.Các phương pháp dùng bước tóm tắt………………… 44 3.2.1.Phương pháp xác định chủ đề ………………………………… 44 3.2.1.1 Phương Pháp dựa vị trí………………………………… 44 3.2.1.2 Phương Pháp dựa từ gợi ý ……………………………… 45 3.2.1.3 Phương Pháp dựa tần số xuất thuận ngữ……… 46 3.2.1.4 Phương Pháp chống lấp tiêu đề câu truy vấn…………… 47 3.2.1.5 Phương Pháp mối quan hệ từ vựng ………………………… 47 3.2.1.6 Phương Pháp cấu trúc diễn ngôn…………………………… 52 3.2.1.7 Lập luận dựa sở tri thức…………………………… 53 3.2.1.9 Phương Pháp Phù Hợp Biên MMR………………………… 54 3.2.1.10.Phương pháp Ngữ nghĩa tiềm ẩn LSA……………………… 55 3.2.1.10.Trích rút thơng tin ……………………………………… 55 3.2.2.Q trình biến đổi ……………………………………… 57 3.2.2.1.Giản lược cấu trúc câu………………………………… 57 3.2.2.2.Giản lược mặt ngữ nghĩa ……………………………… 58 3.3.Hiển thị……………………………………… 59 3.3.1 Phương pháp hiển thị phân đoạn ……………………………… 60 3.3.2.Phương pháp Hiển thị liên kết………………………………… 61 3.3.3.So sánh phương pháp……………………………………… 61 CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG 4.1 Các hệ thống dùng để so sánh…………………………………… 63 4.2 Quý trình kiểm tra…………… ………………………………… 71 4.3 Kết thu được….……………………………………… 72 4.3.1.Văn tham khảo hệ thống Mead 72 4.3.1.2.Đánh giá mức độ trích chọn chung………………………… 72 4.3.1.2.Đánh giá mức độ giống nội dung…………………… 73 4.3.2.Văn SUM-TREE-BANK………………………………… 76 4.4.NHẬN XÉT CHUNG………………………………………… 78 TÀI LIỆU THAM KHẢO…………………………………………… 82 PHỤ LỤC …………………………………………………………… 87 DANH MỤC CHỮ VIẾT TẮT Chữ viết tắt Tiếng Anh Tiếng Việt DUC Document Understanding Hội nghị hiểu văn Conference LCS Longest common subsequence Dãy chung dài LSA Latent Sematic Analysis Phân tích ngữ nghĩa tiềm ẩn MMR Maximal Marginal Relevance Phù hợp biên tối đa WLCS Weighted Longest common Dãy chung dài dựa subsequence trọng số RUM Relative Utility Method Phương pháp lợi ích liên quan RST Rhetorical Structure Theory Lý thuyết cấu trúc diễn ngôn SVD Singular Value Decomposition Phân tách giá trị đơn TF Term Frequency Tần số xuất thuận ngữ TF-IDF Term Frequency-inverse Tân số kết hợp tf idf document frequency DANH MỤC BẢNG Trang Hình 2-1 Bảng kết đánh giá tóm tắt ROUGE 39 Hình 4-4 Bảng mức độ trích chọn chung dựa độ 73 xác độ hồi tưởng Hình 4-5 Bảng trung bình cộng mức độ trích chọn chung 73 dựa độ xác độ hồi tưởng Hình 4-6 Bảng trung bình cộng mức độ trích chọn chung 74 dựa Kappa Hình 4-7 Bảng mức độ giống nội dung cosin 75 văn Hình 4-8 Bảng trung bình cộng mức độ giống nội 75 dung Cosin Hình 4-9 Bảng trung bình cộng mức độ giống nội 76 dung dựa đơn vị trung lặp Hình 4-11 Bảng trung bình cộng mức độ giống nội 77 dung Cosin so với Abstract ... Đầu……………………………………………………………… CHƯƠNG TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 1.1 khái niệm tóm tắt văn ……………………………………… 10 1.2.phân loại tốn tóm tắt văn bản? ??…………………………… 11 1.2.1 Phân loại theo đầu vào………………………………………… 11 1.2.1.1... trúc ngôn ngữ………………… 17 1.3 .Các chi tiểu đánh giá………………………………………… 18 1.4 Hệ thống tóm tắt văn điển hình…………………………… 19 CHƯƠNG 2.CÁC PHƯƠNG PHÁP ĐÁNH GIÁ TÓM TẮT VĂN BẢN 2.1.Giới thiệu…………………………………………………………... MEADeval…………………………………………………… 32 2.5.2 ROUGE……………………………………………………… 33 CHƯƠNG 3.CÁC PHƯƠNG PHÁP DÙNG TRONG TĨM TẮT VĂN BẢN 3.1 Qúa trình tóm tắt văn bản? ??…………………………………… 40 3.1.1 Bước Xác định chủ đề ………………………………………

Ngày đăng: 28/02/2021, 00:02

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN