DSpace at VNU: Tự động sinh mục lục cho văn bản

19 116 0
DSpace at VNU: Tự động sinh mục lục cho văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Việt Cƣờng TỰ ĐỘNG SINH MỤC LỤC CHO VĂN BẢN Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC PGS.TS HÀ QUANG THUỲ HÀ NỘI – 2007 i LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới PGS.TS Hà Quang Thuỵ, ngƣời thầy dìu dắt tơi suốt bao năm qua bƣớc đƣờng nghiên cứu khoa học Tôi xin chân thành cảm ơn giúp đỡ góp ý nhiệt tình TS Nguyễn Lê Minh (JAIST, Nhật Bản) TS Phan Xuân Hiếu (Đại học Tohoku, Nhật Bản) suốt q trình nghiên cứu hồn thành luận văn Tôi xin chân thành cảm ơn giúp đỡ, tạo điều kiện khuyến khích tơi q trình làm việc nghiên cứu tập thể thầy cô anh chị em Bộ môn Các hệ thống thơng tin Phòng thí nghiệm Cơng nghệ tri thức Tƣơng tác ngƣời máy Tôi xin cảm ơn hỗ trợ từ đề tài: Đề tài cấp Nhà nƣớc “Nghiên cứu, phát triển hệ thống lọc nội dung hỗ trợ quản lý đảm bảo an tồn – an ninh thơng tin mạng Internet” mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10; Đề tài cấp Đại học Quốc gia Hà Nội “Tóm tắt văn tiếng Việt: Rút gọn câu Phát quan hệ ngữ nghĩa” mã số QC.07.09 Và cuối cùng, xin gửi lời cảm ơn tới gia đình, ngƣời thân bạn bè – ngƣời ln bên tơi lúc khó khăn nhất, ln động viên tơi, khuyến khích tơi sống công việc Tôi xin chân thành cảm ơn! Hà Nội, tháng 11 năm 2007 Tác giả Nguyễn Việt Cường ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn đƣợc hoàn thành sở nghiên cứu, tổng hợp phát triển kĩ thuật tóm tắt văn nƣớc giới thực Luận văn khơng chép ngun từ nguồn tài liệu khác iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii MỞ ĐẦU Chƣơng GIỚI THIỆU BÀI TOÁN 1.1 Bài toán tóm tắt văn 1.2 Bài toán xây dựng mục lục cho văn 1.3 Phƣơng hƣớng giải toán 1.4 Các cơng trình liên quan Chƣơng PHÂN ĐOẠN VĂN BẢNSINH TIÊU ĐỀ Error! Bookmark not defined 2.1 Phân đoạn văn Error! Bookmark not defined 2.2 Các phƣơng pháp phân đoạn văn Error! Bookmark not defined 2.2.1 Sử dụng mối liên kết từ vựng Error! Bookmark not defined 2.2.2 Sử dụng mơ hình nhát cắt cực tiểu Error! Bookmark not defined 2.3 Sinh tiêu đề cho văn Error! Bookmark not defined 2.4 Các phƣơng pháp sinh tiêu đề cho văn Error! Bookmark not defined 2.4.1 Phƣơng pháp trích chọn cụm từ Error! Bookmark not defined 2.4.2 Phƣơng pháp hai pha Error! Bookmark not defined 2.5 Tóm tắt chƣơng hai Error! Bookmark not defined Chƣơng XÂY DỰNG MỤC LỤC CHO VĂN BẢN Error! Bookmark not defined 3.1 Mơ hình tích hợp thuật tốn Error! Bookmark not defined 3.2 Đảm bảo tính hợp lí mục lục Error! Bookmark not defined 3.3 Các phƣơng pháp đánh giá Error! Bookmark not defined 3.3.1 Đánh giá thuật toán phân đoạn Error! Bookmark not defined 3.3.2 Đánh giá thuật toán sinh tiêu đề Error! Bookmark not defined iv 3.4 Tóm tắt chƣơng ba Error! Bookmark not defined v Chƣơng THỬ NGHIỆM VÀ ĐÁNH GIÁ Error! Bookmark not defined 4.1 Môi trƣờng thử nghiệm Error! Bookmark not defined 4.2 Dữ liệu thử nghiệm Error! Bookmark not defined 4.3 Quá trình thử nghiệm Error! Bookmark not defined 4.4 Kết thử nghiệm Error! Bookmark not defined 4.4.1 Kết phân đoạn văn Error! Bookmark not defined 4.4.2 Kết sinh tiêu đề Error! Bookmark not defined 4.5 Đánh giá thử nghiệm Error! Bookmark not defined 4.5 Phƣơng hƣớng cải tiến Error! Bookmark not defined 4.6 Tóm tắt chƣơng bốn Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO vi DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT STT Kí hiệu/Viết tắt TF Diễn giải Term Frequency Tần suất từ / cụm từ văn TF * IDF Term Frequency * Inverse Document Frequency Trọng số từ / cụm từ đƣợc tính theo tần suất văn tần suất văn chứa từ / cụm từ DUC Document Understanding Conferences Hội nghị chuyên hiểu văn ACL The Association for Computational Linguistics Hiệp hội xử lí văn máy tính SVO Subject – Verb – Object Cấu trúc ngữ pháp Chủ ngữ – Động từ – Tân ngữ vii DANH MỤC CÁC BẢNG Bảng Biểu diễn vectơ hai khối văn ví dụ Error! Bookmark not defined Bảng Danh sách công cụ phần mềm sử dụng để thử nghiệm Error! Bookmark not defined Bảng Cấu trúc văn thử nghiệm Error! Bookmark not defined Bảng Danh sách từ dừng Error! Bookmark not defined Bảng Tập nhãn từ loại (tập mở) Error! Bookmark not defined Bảng Tập nhãn từ loại (tập đóng) Error! Bookmark not defined Bảng Kết phân đoạn văn Error! Bookmark not defined Bảng Sinh tiêu đề cho phân đoạn gốc Error! Bookmark not defined Bảng Sinh tiêu đề cho phân đoạn C99 Error! Bookmark not defined Bảng 10 Sinh tiêu đề cho phân đoạn jTextTiling Error! Bookmark not defined viii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình Đồ thị biểu diễn thay đổi độ đo tƣơng tự Error! Bookmark not defined Hình Đồ thị dotplotting cho văn Error! Bookmark not defined Hình Phân bố độ dài tiêu đề văn theo Reuters-1997 Error! Bookmark not defined Hình Ví dụ đánh giá thuật toán phân đoạn Error! Bookmark not defined Hình Cách xác định tham số cho độ đo Pk Error! Bookmark not defined Hình Kết phân đoạn văn Error! Bookmark not defined 1 MỞ ĐẦU Hiện nay, lƣợng văn đƣợc số hố tăng lên nhanh chóng đặc biệt đƣợc phổ biến rộng rãi với tăng trƣởng Internet Các văn thuộc nhiều dạng khác nhƣ văn chữ viết, văn âm văn hình ảnh Nguồn thơng tin khổng lồ vừa mang lại lợi ích giúp ngƣời tiếp cận khai thác đƣợc nhiều thông tin hơn, nhƣng mặt khác gây khó khăn cho cơng việc lựa chọn tổng hợp thơng tin Lĩnh vực xử lí ngơn ngữ tự nhiên (xử lí ngơn ngữ máy tính cách tự động) đời nhằm giải phần khó khăn Lĩnh vực xử lí ngôn ngữ tự nhiên đặt hàng loạt tốn nhằm giải khó khăn trợ giúp ngƣời xử lí văn tốt nhƣ: tìm kiếm văn bản, phân lớp văn bản, rút trích thơng tin, tóm tắt văn bản, hệ thống hỏiđáp,… Các hệ thống thông tin trực tuyến nhƣ Google, Yahoo!, MSN,… thể đƣợc kết nghiên cứu giải tốn Ví dụ nhƣ máy tìm kiếm Google đảm nhận việc tìm kiếm văn theo yêu cầu ngƣời dùng, trích đoạn văn liên quan đến yêu cầu, tóm tắt lại dựa thơng tin hiển thị cho ngƣời dùng lựa chọn Tuy chất lƣợng xử lí văn chƣa đạt đƣợc mức độ nhƣ ngƣời nhƣng lớn mạnh cỗ máy tìm kiếm cho thấy tiềm triển vọng thực tốn xử lí ngơn ngữ tự nhiên Tóm tắt văn tốn xử lí ngơn ngữ tự nhiên, “một q trình thu gọn văn đầu vào thành văn tóm tắt thông qua việc cô đọng nội dung cách lựa chọn và/hoặc tổng hợp thông tin quan trọng văn đầu vào” [18] Trong thời gian gần đây, tóm tắt văn nhận đƣợc quan tâm rộng rãi cộng đồng nghiên cứu giới với tăng trƣởng số báo có liên quan hội nghị DUC1 2001-2007, ACL2 2001-2007,…; phát triển hệ thống tóm tắt văn bản3 nhƣ MEAD, LexRank, Text Analyst (Megaputer), Text Analysis (IBM Japan), Microsoft Word,… Rất nhiều tốn nhỏ tóm tắt văn đƣợc đặt giải [18] thông qua hội nghị phần mềm kể http://duc.nist.gov/ http://www.aclweb.org/ http://www.ics.mq.edu.au/~swan/summarization/projects_full.htm Một vấn đề đƣợc quan tâm nghiên cứu gần xây dựng mục lục cho văn cách tự động [2, 5] Đây tốn tóm tắt văn bản, thơng tin quan trọng tài liệu đƣợc định nghĩa tiêu đề đoạn văn đƣợc thể dƣới dạng danh sách mục lục văn Cấu trúc mục lục cấu trúc phổ biến văn dài mà đặc biệt sách, giúp ngƣời đọc tìm kiếm chủ đề quan tâm định vị đƣợc vị trí chủ đề văn Đối với văn âm thanh, hình ảnh, việc xây dựng đƣợc mục lục cho văn cần thiết văn dạng hầu nhƣ khơng có sẵn mục lục để định vị phân đoạn thông tin khác [3, 10, 18, 20] Việc xây dựng mục lục cho văn gồm hai bƣớc, bƣớc thứ phân đoạn văn bản, tức phân văn thành đoạn rời rạc, nối tiếp nhau, đoạn nói chủ đề tƣơng đối khác [2, 4, 6, 15, 16, 20] bƣớc thứ hai sinh tiêu đề cho đoạn văn bản, tức sinh cụm từ ngắn thể đƣợc chủ đề đoạn văn [3, 10, 17, 28] Trong [5], tác giả trình bày thử nghiệm xây dựng mục lục cho văn bản, nhiên báo dừng lại việc giải nửa sau toán xây dựng mục lục cho văn bản, tức sinh tiêu đề xây dựng cấu trúc mục lục với việc sử dụng cấu trúc phân đoạn sẵn có văn Hơn nữa, mơ hình [5] mơ hình học giám sát, đòi hỏi phải có liệu huấn luyện loại liệu thiếu toán đƣợc đề cập Với việc lựa chọn đề tài “Tự động sinh mục lục cho văn bản”, luận văn hƣớng tới việc tích hợp hai bƣớc phân đoạn sinh tiêu đề trình xây dựng mục lục cho văn cách tự động Trong luận văn này, toán bƣớc đƣợc nghiên cứu chi tiết; phƣơng pháp tích hợp hai bƣớc với đƣợc đề xuất tiến hành thử nghiệm thực tế văn khoa học Kết thực nghiệm khả quan luận văn cho thấy tính khả thi triển vọng tốn Ngoài luận văn, tác giả đƣa phƣơng hƣớng cải tiến sở khoa học để làm tiền đề cho nghiên cứu Ngoài phần mở đầu kết luận, kết cấu luận văn bao gồm chƣơng: - Chƣơng “Giới thiệu toán” giới thiệu tốn tóm tắt văn nói chung tốn xây dựng mục lục cho văn nói riêng; phân tích cơng trình có liên quan đƣa thức giải toán luận văn - Chƣơng “Phân đoạn văn sinh tiêu đề” tiến hành nghiên cứu trình bày phƣơng pháp thuật toán tiêu biểu đƣợc sử dụng bƣớc phân đoạn sinh tiêu đề trình xây dựng mục lục cho văn - Chƣơng “Xây dựng mục lục cho văn bản” phân tích đề xuất phƣơng án tích hợp thuật toán bƣớc để giải toán luận văn; đề xuất số hƣớng cải tiến sở lí luận cải tiến đó; trình bày phƣơng pháp đánh giá - Chƣơng “Thử nghiệm đánh giá” trình bày trình thử nghiệm luận văn kết đạt đƣợc, đồng thời phân tích đánh giá kết để làm tiền đề cho đề xuất cải tiến 4 Chƣơng GIỚI THIỆU BÀI TỐN 1.1 Bài tốn tóm tắt văn Tóm tắt văn toán đƣợc đặt từ lâu, “một q trình thu gọn văn đầu vào thành văn tóm tắt thơng qua việc cô đọng nội dung cách lựa chọn và/hoặc tổng hợp thông tin quan trọng văn đầu vào” [18] Trƣớc công việc thƣờng đƣợc thực cách thủ cơng tác giả ngƣời thủ thƣ Tuy nhiên lƣợng văn đƣợc số hố ngày nhiều vấn đề tóm tắt văn cách tự động trở nên cần thiết Năm 1958, báo [19], Luhn trình bày phƣơng pháp tóm tắt tự động cho báo kĩ thuật sử dụng phƣơng pháp thống kê thông qua tần suất phân bố từ văn Cho đến gần đây, đột phá cơng nghệ máy tính giúp tốn xử lý ngơn ngữ tự nhiên trở nên “thực tế” Theo [18], ngày có nhiều nghiên cứu tóm tắt văn tóm tắt đƣợc chia làm hai hƣớng nghiên cứu chính: tiếp cận theo hƣớng ngơn ngữ học (dựa luật), tiếp cận theo hƣớng thống kê kết hợp hai Tóm tắt văn tự động bị ảnh hƣởng nhiều yếu tố nhƣ: thể loại văn bản, phong cách viết, sử dụng từ, cấu trúc câu,… Những yếu tố tạo nên khác biệt lớn văn khác Do việc xây dựng cơng cụ tóm tắt tổng qt cơng việc khó Vì vậy, tốn đƣợc giải tóm tắt văn thƣờng hƣớng đến kiểu văn cụ thể kiểu tóm tắt cụ thể [14] 1.2 Bài toán xây dựng mục lục cho văn Hiện nay, nghiên cứu tóm tắt văn hầu hết tập trung vào việc xử lí văn ngắn, đặc biệt mẩu tin tức, viết ngắn tập trung cho văn thuộc lĩnh vực cụ thể nhƣ văn y tế, văn khoa học,… [5, 18] Các văn loại hầu hết tập trung nói vấn đề cụ thể khơng có phân biệt chủ đề phần văn Còn văn dài hơn, mà loại văn bao gồm nhiều phần, phần nói chủ đề cụ thể văn nói chủ đề rộng lƣợng nghiên cứu [5] Trong luận văn này, tốn tƣơng đối tóm tắt văn đƣợc đề cập nghiên cứu, tốn xây dựng mục lục cho văn cách tự động Mục lục cho văn khái niệm phổ biến xuất hầu hết tài liệu có nhiều phần, đặc biệt tạp chí hay sách Khi ngƣời sử dụng gặp văn dài gồm nhiều phần khác thơng thƣờng họ khơng đọc tồn văn mà tìm mục lục hình thức tóm tắt để nhanh chóng nắm đƣợc ý văn Tuy nhiên, mục lục quan trọng có ý nghĩa ngồi khả cung cấp thông tin chủ đề đoạn văn bản, có giúp ngƣời đọc định vị đƣợc vị trí đoạn thơng tin tƣơng ứng tài liệu Xét mặt cấu trúc, mục lục có cấu trúc phân cấp nhằm chia nhỏ phần tài liệu dài Cấu trúc thƣờng phần, chƣơng, mục,… Tuy nhiên qua khảo sát thực tế, tài liệu có số phần khơng nhiều (dƣới 10 phần) ngƣời ta thƣờng sử dụng mục lục có cấp Trong luận văn này, dựa thuật toán giải vấn đề mục lục đƣợc chia làm hai loại: mục lục tuyến tính (một cấp) mục lục phân cấp (đa cấp) Và luận văn này, tập trung giải tốn xây dựng mục lục tuyến tính (một cấp) Bài toán xây dựng mục lục cho văn liên quan đến nhiều toán khác nhƣ: Tách câu, tách từ, phân cụm, gán nhãn chức từ loại, tìm cụm danh từ Các tốn hầu hết đƣợc xử lí với chất lƣợng tốt văn tiếng Anh Trong luận văn này, đề cập đến việc sử dụng kết toán để giải toán lớn mà khơng trình bày tốn 1.3 Phƣơng hƣớng giải toán Nhƣ đề cập phần trƣớc, mục lục văn bao gồm tiêu đề vị trí đoạn tƣơng ứng cho văn Do với văn cho trƣớc để tiến hành xây dựng mục lục, cần bƣớc sau: - Phân đoạn văn (Text Segmentation): phân văn thành đoạn độc lập nối tiếp với nội dung phần có khác biệt mặt ngữ nghĩa có khác biệt mặt chủ đề - Sinh tiêu đề (Title Generation): sinh tiêu đề ngắn gọn, giàu thông tin cho đoạn văn tƣơng ứng hay nói cách khác tìm chủ đề đoạn văn trình bày dƣới dạng ngắn gọn Phƣơng pháp giải vấn đề luận văn chia trình xây dựng mục lục thành hai giai đoạn tƣơng ứng với hai bƣớc Bài tốn thứ nhất, phân đoạn văn bản, đƣợc giải cách sử dụng cấu trúc phân đoạn sẵn có văn (chƣơng, mục, mục con,…) [5] sử dụng phƣơng pháp phân đoạn văn tự động [2, 4, 6, 15, 16, 20] Trong luận văn này, phƣơng pháp phân đoạn tự động đƣợc áp dụng với số cải tiến để đạt đƣợc chất lƣợng tốt Bài toán thứ hai, sinh tiêu đề cho đoạn văn bản, sử dụng nhiều phƣơng pháp có sẵn để giải [2, 3, 10, 17, 28] Các phƣơng pháp đƣợc chia làm hai hƣớng chính, hƣớng thứ tìm cách trích cụm từ thể ý nghĩa toàn đoạn hƣớng thứ hai trích từ quan trọng văn tìm cách ghép cặp với để đạt đƣợc tiêu đề “tốt nhất” Mỗi phƣơng pháp có ƣu nhƣợc điểm riêng đƣợc phân tích Chƣơng Tuy nhiên, luận văn sử dụng phƣơng pháp thứ cho thực nghiệm phƣơng pháp thứ hai để lại làm hƣớng phát triển cho đề tài Phần trình bày số cơng trình liên quan đƣợc sử dụng trình thực luận văn 1.4 Các cơng trình liên quan Trong phần này, số cơng trình liên quan đến đề tài luận văn đƣợc đề cập, nhiên, toán sở nhƣ tách câu, tách từ, gán nhãn từ loại, tìm cụm danh từ,… khơng đƣợc đề cập khơng phải mục tiêu luận văn, độ xác tốn đạt đƣợc mức cao tiếng Anh (trên 90%), hồn tồn sử dụng làm bƣớc để giải tốn lớn Về khía cạnh độ dài thể loại văn bản, hầu hết nghiên cứu tập trung vào văn ngắn có số hƣớng tiếp cận đƣợc triển khai để tóm tắt văn dài Hầu hết cách tiếp cận tập trung vào miền ngữ nghĩa cụ thể nhƣ văn y tế tài liệu khoa học Với việc đƣa giả thiết mạnh cấu trúc văn đầu vào định dạng đầu ra, cách tiếp cận thu đƣợc kết tƣơng đối khả quan Ví dụ, [27] tóm tắt văn khoa học cách lựa chọn yếu tố tu từ (rhetorical elements) thƣờng đƣợc trình bày đoạn tóm tắt tài liệu khoa học [11] trình bày cách tiếp cận sinh tóm tắt tài liệu y tế việc sử dụng số cấu trúc mẫu lựa chọn nội dung Tuy nhiên, luận văn này, sử dụng cách tiếp cận độc lập thể loại, tức tóm tắt văn mà khơng sử dụng yếu tố đặc trƣng liên quan để thể loại văn Về toán phân đoạn văn bản, có nhiều cơng trình nghiên cứu liên quan đến vấn đề [2, 4, 6, 15, 16, 20] Hầu hết cơng trình tập trung nghiên cứu toán phân đoạn văn cấp, hay nói cách khác phân TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Việt Cƣờng, Nguyễn Thị Thuỳ Linh, Phan Xuân Hiếu, Hà Quang Thuỵ (2005), “Bài toán lọc phân lớp nội dung web tiếng Việt với hƣớng tiếp cận Entropy cực đại”, Kỉ yếu Hội thảo Quốc gia lần thứ “Một số vấn đề chọn lọc công nghệ thông tin”, tr 174-189, Hải Phòng, Việt Nam Tiếng Anh Angheluta R., De Busser R.D., Moens M.F (2002), “The Use of Topic Segmentation for Automatic Summarization”, In Proceedings of the 40th Annual Meeting of the Association of Computational Linguistics, Philadelphia, USA Banko M., Mittal V.O., Witbrock M.J (2000), “Headline Generation Based on Statistical Translation”, In Proceedings of the 38th Annual Meeting of the Association of Computational Linguistics, Hong Kong Beeferman D., Berger A., Lafferty J (1999), “Statistical Models for Text Segmentation”, Machine Learning, 34(1-3), pp 177-210 Branavan S.R.K., Deshpande P., Barzilay R (2007), “Generating a Tableof-Contents”, In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pp 544-551, Prague, Czech Republic Choi F (2000), “Advances in domain independent linear text segmentation”, In Proceedings of NAACL '00, pp 26-33, Seattle, USA Church K.W (1993), “Char align: A Program for Aligning Parallel Texts at the Character Level”, In Proceedings of the 31st Annual Meeting of the Association of Computational Linguistics, pp 1-8, Ohio, USA Collins M., Roark B (2004), “Incremental Parsing with the Perceptron Algorithm”, In Proceedings of the 42nd Annual Meeting of the Association of Computational Linguistics, pp 111-118, Barcelona, Spain Cuong N.V., Linh N.T.T., Thuy H.Q., Hieu P.X (2006), “A Maximum Entropy Model for Text Classification”, In Proceeding of International Conference on Internet Information Retrieval 2006, pp 143-149, Korea 10 Dorr B., Zajic D., Schwartz R (2003), “Hedge Trimmer: A parse-and-trim approach to headline generation”, In Proceedings of the HLT-NAACL 2003 Workshop on Text Summarization, pp 1-8, Edmonton, Canada 9 11 Elhada N., McKeown K.R (2001), “Towards generating patient specific summaries of medical articles”, In Proceedings of NAACL Workshop on Automatic Summarization, Pittsburgh, PA, USA 12 Georgescul M., Clark A., Armstrong S (2006), “An Analysis of Quantitative Aspects in the Evaluation of Thematic Segmentation Algorithms”, In Proceedings of the 7th SIGdial Workshop on Discourse and Dialogue, pp 144-151 13 Givón T (2001), “Syntax: An Introduction”, John Benjamins Publishing, Amsterdam 14 Goldstein J (1999), “Automatic Text Summarization of Multiple Documents”, Thesis Proposal, Carnegie Mellon University 15 Hearst M.A (1994), “Multi-paragraph segmentation of expository text”, In Proceedings of the 32nd Annual Meeting of the Association of Computational Linguistics, pp 9-16, New Mexico, USA 16 Hearst M.A (1997), “TextTiling: Segmenting Text into Multi-Paragraph Subtopic Passages”, Computational Linguistics, 23(1), pp 33-64 17 Jin R., Hauptmann A.G (2002), “A New Probability Model for Title Generation”, The 19th International Conference on Computational Linguistics, Taiwan 18 Jones K.S (2007), “Automatic summarising: The state of the art”, Information Processing and Management, doi:10.1016/j.ipm.2007.03.009 19 Luhn H.P (1958), “The automatic creation of literature abstracts”, IBM Journal of Research and Development, 2, pp 159-165 20 Malioutov I., Barzilay R (2006), “Minimum Cut Model for Spoken Lecture Segmentation”, In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pp 25-32, Sydney, Australia 21 Moens M.F., De Busser R (2001), "Generic topic segmentation of document texts", In Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp 418-419, New York, USA 22 Morris J., Hirst G (1991), “Lexical Cohesion Computed by Thesaural Relations as an Indicator of the Structure of Text”, Computational Linguistics, 17(1), pp 21-48 10 23 Pevzner L., Hearst M.A (2002), “A Critique and Improvement of an Evaluation Metric for Text Segmentation”, Computational Linguistics, 28 (1), pp 19-36 24 Ponte J.M., Croft W.B (1997), “Text Segmentation by Topic”, In Proceedings of the First European Conference on Research and Advanced Technology for Digitial Libraries, pp.120-129 25 Reynar J.C (1994), “An automatic method of finding topic boundaries”, In Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, pp 331-333 26 Shi J., Malik J (2000), “Normalized Cuts and Image Segmentation”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(8) pp 888905 27 Teufel S., Moens M (2002), “Summarizing Scientific Articles: Experiments with Relevance and Rhetorical Status”, Computational Linguistics, 28(4), pp 409-445 28 Witbrock M.J., Mittal V.O (1999), “Ultra-Summarization: A statistical Approach to Generating Highly Condensed Non-Extractive Summaries”, In Proceedings of the 22nd International Conference on Research and Development in Information Retrieval (SIGIR '99), Poster Session, 315-316, USA ... việc lựa chọn đề tài Tự động sinh mục lục cho văn bản , luận văn hƣớng tới việc tích hợp hai bƣớc phân đoạn sinh tiêu đề trình xây dựng mục lục cho văn cách tự động Trong luận văn này, toán bƣớc... xây dựng mục lục cho văn bản, nhiên báo dừng lại việc giải nửa sau toán xây dựng mục lục cho văn bản, tức sinh tiêu đề xây dựng cấu trúc mục lục với việc sử dụng cấu trúc phân đoạn sẵn có văn Hơn... đƣợc mục lục cho văn cần thiết văn dạng hầu nhƣ khơng có sẵn mục lục để định vị phân đoạn thông tin khác [3, 10, 18, 20] Việc xây dựng mục lục cho văn gồm hai bƣớc, bƣớc thứ phân đoạn văn bản,

Ngày đăng: 16/12/2017, 23:10

Tài liệu cùng người dùng

Tài liệu liên quan