Tự động sinh mục lục cho văn bản

48 866 0
Tự động sinh mục lục cho văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Việt Cường TỰ ĐỘNG SINH MỤC LỤC CHO VĂN BẢN Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS HÀ QUANG THUỴ HÀ NỘI – 2007 iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii MỞ ĐẦU Chương GIỚI THIỆU BÀI TOÁN 1.1 Bài tốn tóm tắt văn 1.2 Bài toán xây dựng mục lục cho văn 1.3 Phương hướng giải toán 1.4 Các cơng trình liên quan Chương PHÂN ĐOẠN VĂN BẢN VÀ SINH TIÊU ĐỀ 2.1 Phân đoạn văn 2.2 Các phương pháp phân đoạn văn 2.2.1 Sử dụng mối liên kết từ vựng 2.2.2 Sử dụng mơ hình nhát cắt cực tiểu 14 2.3 Sinh tiêu đề cho văn 17 2.4 Các phương pháp sinh tiêu đề cho văn 18 2.4.1 Phương pháp trích chọn cụm từ 18 2.4.2 Phương pháp hai pha 20 2.5 Tóm tắt chương hai 20 Chương XÂY DỰNG MỤC LỤC CHO VĂN BẢN 22 3.1 Mơ hình tích hợp thuật tốn 22 3.2 Đảm bảo tính hợp lí mục lục 23 3.3 Các phương pháp đánh giá 24 3.3.1 Đánh giá thuật toán phân đoạn 24 3.3.2 Đánh giá thuật toán sinh tiêu đề 27 3.4 Tóm tắt chương ba 27 iv Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ 29 4.1 Môi trường thử nghiệm 29 4.2 Dữ liệu thử nghiệm 30 4.3 Quá trình thử nghiệm 33 4.4 Kết thử nghiệm 33 4.4.1 Kết phân đoạn văn 33 4.4.2 Kết sinh tiêu đề 34 4.5 Đánh giá thử nghiệm 35 4.5 Phương hướng cải tiến 36 4.6 Tóm tắt chương bốn 37 KẾT LUẬN 38 TÀI LIỆU THAM KHẢO 39 v DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT STT Kí hiệu/Viết tắt TF Diễn giải Term Frequency Tần suất từ / cụm từ văn TF * IDF Term Frequency * Inverse Document Frequency Trọng số từ / cụm từ tính theo tần suất văn tần suất văn chứa từ / cụm từ DUC Document Understanding Conferences Hội nghị chuyên hiểu văn ACL The Association for Computational Linguistics Hiệp hội xử lí văn máy tính SVO Subject – Verb – Object Cấu trúc ngữ pháp Chủ ngữ – Động từ – Tân ngữ vi DANH MỤC CÁC BẢNG Bảng Biểu diễn vectơ hai khối văn ví dụ 11 Bảng Danh sách công cụ phần mềm sử dụng để thử nghiệm 29 Bảng Cấu trúc văn thử nghiệm 30 Bảng Danh sách từ dừng 31 Bảng Tập nhãn từ loại (tập mở) 32 Bảng Tập nhãn từ loại (tập đóng) 32 Bảng Kết phân đoạn văn 33 Bảng Sinh tiêu đề cho phân đoạn gốc 34 Bảng Sinh tiêu đề cho phân đoạn C99 35 Bảng 10 Sinh tiêu đề cho phân đoạn jTextTiling 35 vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình Đồ thị biểu diễn thay đổi độ đo tương tự 12 Hình Đồ thị dotplotting cho văn 13 Hình Phân bố độ dài tiêu đề văn theo Reuters-1997 18 Hình Ví dụ đánh giá thuật tốn phân đoạn 25 Hình Cách xác định tham số cho độ đo Pk 26 Hình Kết phân đoạn văn 34 MỞ ĐẦU Hiện nay, lượng văn số hố tăng lên nhanh chóng đặc biệt phổ biến rộng rãi với tăng trưởng Internet Các văn thuộc nhiều dạng khác văn chữ viết, văn âm văn hình ảnh Nguồn thơng tin khổng lồ vừa mang lại lợi ích giúp người tiếp cận khai thác nhiều thông tin hơn, mặt khác gây khó khăn cho cơng việc lựa chọn tổng hợp thông tin Lĩnh vực xử lí ngơn ngữ tự nhiên (xử lí ngơn ngữ máy tính cách tự động) đời nhằm giải phần khó khăn Lĩnh vực xử lí ngơn ngữ tự nhiên đặt hàng loạt tốn nhằm giải khó khăn trợ giúp người xử lí văn tốt như: tìm kiếm văn bản, phân lớp văn bản, rút trích thơng tin, tóm tắt văn bản, hệ thống hỏiđáp,… Các hệ thống thông tin trực tuyến Google, Yahoo!, MSN,… thể kết nghiên cứu giải tốn Ví dụ máy tìm kiếm Google đảm nhận việc tìm kiếm văn theo yêu cầu người dùng, trích đoạn văn liên quan đến yêu cầu, tóm tắt lại dựa thơng tin hiển thị cho người dùng lựa chọn Tuy chất lượng xử lí văn chưa đạt mức độ người lớn mạnh cỗ máy tìm kiếm cho thấy tiềm triển vọng thực tốn xử lí ngơn ngữ tự nhiên Tóm tắt văn tốn xử lí ngơn ngữ tự nhiên, “một trình thu gọn văn đầu vào thành văn tóm tắt thơng qua việc đọng nội dung cách lựa chọn và/hoặc tổng hợp thông tin quan trọng văn đầu vào” [18] Trong thời gian gần đây, tóm tắt văn nhận quan tâm rộng rãi cộng đồng nghiên cứu giới với tăng trưởng số báo có liên quan hội nghị DUC1 2001-2007, ACL2 2001-2007,…; phát triển hệ thống tóm tắt văn bản3 MEAD, LexRank, Text Analyst (Megaputer), Text Analysis (IBM Japan), Microsoft Word,… Rất nhiều toán nhỏ tóm tắt văn đặt giải [18] thông qua hội nghị phần mềm kể http://duc.nist.gov/ http://www.aclweb.org/ http://www.ics.mq.edu.au/~swan/summarization/projects_full.htm Một vấn đề quan tâm nghiên cứu gần xây dựng mục lục cho văn cách tự động [2, 5] Đây tốn tóm tắt văn bản, thơng tin quan trọng tài liệu định nghĩa tiêu đề đoạn văn thể dạng danh sách mục lục văn Cấu trúc mục lục cấu trúc phổ biến văn dài mà đặc biệt sách, giúp người đọc tìm kiếm chủ đề quan tâm định vị vị trí chủ đề văn Đối với văn âm thanh, hình ảnh, việc xây dựng mục lục cho văn cần thiết văn dạng khơng có sẵn mục lục để định vị phân đoạn thông tin khác [3, 10, 18, 20] Việc xây dựng mục lục cho văn gồm hai bước, bước thứ phân đoạn văn bản, tức phân văn thành đoạn rời rạc, nối tiếp nhau, đoạn nói chủ đề tương đối khác [2, 4, 6, 15, 16, 20] bước thứ hai sinh tiêu đề cho đoạn văn bản, tức sinh cụm từ ngắn thể chủ đề đoạn văn [3, 10, 17, 28] Trong [5], tác giả trình bày thử nghiệm xây dựng mục lục cho văn bản, nhiên báo dừng lại việc giải nửa sau toán xây dựng mục lục cho văn bản, tức sinh tiêu đề xây dựng cấu trúc mục lục với việc sử dụng cấu trúc phân đoạn sẵn có văn Hơn nữa, mơ hình [5] mơ hình học giám sát, địi hỏi phải có liệu huấn luyện loại liệu thiếu toán đề cập Với việc lựa chọn đề tài “Tự động sinh mục lục cho văn bản”, luận văn hướng tới việc tích hợp hai bước phân đoạn sinh tiêu đề trình xây dựng mục lục cho văn cách tự động Trong luận văn này, toán bước nghiên cứu chi tiết; phương pháp tích hợp hai bước với đề xuất tiến hành thử nghiệm thực tế văn khoa học Kết thực nghiệm khả quan luận văn cho thấy tính khả thi triển vọng tốn Ngồi luận văn, tác giả đưa phương hướng cải tiến sở khoa học để làm tiền đề cho nghiên cứu Ngoài phần mở đầu kết luận, kết cấu luận văn bao gồm chương: - Chương “Giới thiệu toán” giới thiệu tốn tóm tắt văn nói chung tốn xây dựng mục lục cho văn nói riêng; phân tích cơng trình có liên quan đưa thức giải toán luận văn - Chương “Phân đoạn văn sinh tiêu đề” tiến hành nghiên cứu trình bày phương pháp thuật toán tiêu biểu sử dụng bước phân đoạn sinh tiêu đề trình xây dựng mục lục cho văn - Chương “Xây dựng mục lục cho văn bản” phân tích đề xuất phương án tích hợp thuật toán bước để giải tốn luận văn; đề xuất số hướng cải tiến sở lí luận cải tiến đó; trình bày phương pháp đánh giá - Chương “Thử nghiệm đánh giá” trình bày trình thử nghiệm luận văn kết đạt được, đồng thời phân tích đánh giá kết để làm tiền đề cho đề xuất cải tiến Chương GIỚI THIỆU BÀI TỐN 1.1 Bài tốn tóm tắt văn Tóm tắt văn tốn đặt từ lâu, “một trình thu gọn văn đầu vào thành văn tóm tắt thơng qua việc đọng nội dung cách lựa chọn và/hoặc tổng hợp thông tin quan trọng văn đầu vào” [18] Trước công việc thường thực cách thủ công tác giả người thủ thư Tuy nhiên lượng văn số hoá ngày nhiều vấn đề tóm tắt văn cách tự động trở nên cần thiết Năm 1958, báo [19], Luhn trình bày phương pháp tóm tắt tự động cho báo kĩ thuật sử dụng phương pháp thống kê thông qua tần suất phân bố từ văn Cho đến gần đây, đột phá công nghệ máy tính giúp tốn xử lý ngôn ngữ tự nhiên trở nên “thực tế” Theo [18], ngày có nhiều nghiên cứu tóm tắt văn tóm tắt chia làm hai hướng nghiên cứu chính: tiếp cận theo hướng ngôn ngữ học (dựa luật), tiếp cận theo hướng thống kê kết hợp hai Tóm tắt văn tự động bị ảnh hưởng nhiều yếu tố như: thể loại văn bản, phong cách viết, sử dụng từ, cấu trúc câu,… Những yếu tố tạo nên khác biệt lớn văn khác Do việc xây dựng cơng cụ tóm tắt tổng qt cơng việc khó Vì vậy, tốn giải tóm tắt văn thường hướng đến kiểu văn cụ thể kiểu tóm tắt cụ thể [14] 1.2 Bài toán xây dựng mục lục cho văn Hiện nay, nghiên cứu tóm tắt văn hầu hết tập trung vào việc xử lí văn ngắn, đặc biệt mẩu tin tức, viết ngắn tập trung cho văn thuộc lĩnh vực cụ thể văn y tế, văn khoa học,… [5, 18] Các văn loại hầu hết tập trung nói vấn đề cụ thể khơng có phân biệt chủ đề phần văn Còn văn dài hơn, mà loại văn bao gồm nhiều phần, phần nói chủ đề cụ thể văn nói chủ đề rộng lượng nghiên cứu cịn [5] Trong luận văn này, tốn tương đối tóm tắt văn đề cập nghiên cứu, toán xây dựng mục lục cho văn ... dựng mục lục cho văn cách tự động [2, 5] Đây tốn tóm tắt văn bản, thơng tin quan trọng tài liệu định nghĩa tiêu đề đoạn văn thể dạng danh sách mục lục văn Cấu trúc mục lục cấu trúc phổ biến văn. .. lựa chọn đề tài ? ?Tự động sinh mục lục cho văn bản? ??, luận văn hướng tới việc tích hợp hai bước phân đoạn sinh tiêu đề trình xây dựng mục lục cho văn cách tự động Trong luận văn này, toán bước nghiên... đề văn Đối với văn âm thanh, hình ảnh, việc xây dựng mục lục cho văn cần thiết văn dạng khơng có sẵn mục lục để định vị phân đoạn thông tin khác [3, 10, 18, 20] Việc xây dựng mục lục cho văn

Ngày đăng: 25/03/2015, 10:23

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC CÁC BẢNG

  • DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

  • MỞ ĐẦU

  • 1.1. Bài toán tóm tắt văn bản

  • 1.2. Bài toán xây dựng mục lục cho văn bản

  • 1.3. Phương hướng giải quyết bài toán

  • 1.4. Các công trình liên quan

  • 2.1. Phân đoạn văn bản

  • 2.2. Các phương pháp phân đoạn văn bản

  • 2.2.1. Sử dụng mối liên kết từ vựng

  • 2.2.2. Sử dụng mô hình nhát cắt cực tiểu

  • 2.3. Sinh tiêu đề cho văn bản

  • 2.4. Các phương pháp sinh tiêu đề cho văn bản

  • 2.4.1. Phương pháp trích chọn cụm từ

  • 2.4.2. Phương pháp hai pha

  • 2.5. Tóm tắt chương hai

  • 3.1. Mô hình tích hợp thuật toán

  • 3.2. Đảm bảo tính hợp lí của mục lục

  • 3.3. Các phương pháp đánh giá

Tài liệu cùng người dùng

Tài liệu liên quan