Tóm tắt đa văn bản dựa vào trích xuất câu

́ ĐAỊ HOCC̣ QUÔC GIA HÀ NỘI TRƢỜNG ĐAỊ HOCC̣ CƠNG NGHÊ TRẦN MAI VŨ TĨM TẮT ĐA VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU LUẬN VĂN THẠC SĨ HÀ NỘI - 2009 Mục lục Lời cảm ơn i Lời cam đoan ii Mục lục iii Danh sách hình vẽ v Danh sách bảng vi Danh sách bảng vi Bảng từ viết tắt vii Bảng từ viết tắt vii Mởđầu Chương Khái quát bài toán tóm tắt văn bản 1.1 Bài tốn tóm tắt văn bản tự động 1.2 Một số khái niệm bài toán tóm tắt và phân loại tóm tắt 1.3 Tóm tắt đơn văn bản 1.4 Tóm tắt đa văn bản 1.5 Tóm tắt chương Chương Tóm tắt đa văn bản dựa vào trích xuất câu 10 2.1 Hướng tiếp cận bài toán tóm tắt đa văn bản 10 2.2 Các thách thức q trình tóm tắt đa văn bản 11 2.3 Đánh giá kết quả tóm tắt 15 2.4 Tóm tắt đa văn bản dựa vào trích xuất câu 16 2.4.1 Loại bỏ chồng chéo và sắp xếp văn bản theo độ quan trọng 16 2.4.2 Phương pháp sắp xếp câu 17 2.5 Tóm tắt chương hai 18 Chương Độ tương đồng câu và phương pháp tăng cường tính ngữ nghĩa cho độ tương đồng câu 19 3.1 Độ tương đồng 19 3.2 Độ tương đồng câu 19 3.3 Các phương pháp tính độ tương đồng câu 20 3.3.1 Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine 20 3.3.2 Phương pháp tính đô ̣tương đồng câu dựa vào chủ đề ẩn 21 iii 3.3.3 3.4 Phương pháp tính độ tương đồng câu dựa vào Wikipedia 24 Tóm tắt chương ba 28 Chương Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu và áp dụng vào mơ hình tóm tắt đa văn tiếng Việt 30 4.1 Đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu tiếng Việt 30 4.1.1 Đồ thị thực thể và mơ hình xây dựng đồ thị quan hệ thực thể 30 4.1.2 Độ tương đồng ngữ nghĩa câu dựa vào đồ thị quan hệ thực thể .33 4.2 Độ tương đồng ngữ nghĩa câu tiếng Việt 35 4.3 Mơ hình tóm tắt đa văn bản tiếng Việt 36 4.4 Mơ hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn bản 39 4.5 Tóm tắt chương bốn 40 Chương Thực nghiệm và đánh giá 41 5.1 Môi trường thực nghiệm 41 5.2 Quá trình thực nghiệm 42 5.2.1 Thực nghiệm phân tích chủ đề ẩn 42 5.2.2 Thực nghiệm xây dựng đồ thị quan hệ thực thể 43 5.2.3 Thực nghiệm đánh giá độ đo tương đồng 44 5.2.4 Thực nghiệm đánh giá độ xác mơ hình tóm tắt đa văn bản 46 5.2.5 Thực nghiệm đánh giá độ xác mơ hình hỏi đáp .48 Kết luận 50 Các cơng trình khoa học và sản phẩm công bố 51 Tài liệu tham khảo 52 iv Danh sách hình vẽ Hình 3.1 Tính độ tương đồng câu với chủ đề ẩn 22 Hình 3.2: Mối quan hệ đồ thị bài viết và đồ thị chủ đề Wikipedia 25 Hình 4.1: Mở rộng mối quan hệ và tìm kiếm thực thể liên quan .31 Hình 4.2: Mơ hình xây dựng đồ thị quan hệ thực thể 32 Hình 4.3: Mơ hình tóm tắt đa văn bản tiếng Việt 37 Hình 4.4: Mơ hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn bản 39 v Danh sách bảng Bảng 2.1 Bảng so sánh phương pháp tiếp cận tóm tắt đa văn bản 11 Bảng 2.2 Taxonomy mối quan hệ xuyên văn bản 14 Bảng 4.1: Sự tương quan đồ thị quan hệ thực thể, Wordnet và Wikipedia 34 Bảng 4.2 Danh sách độ đo tương đồng ngữ nghĩa câu 36 Bảng 5.1 Các công cụ phần mềm sử dụng trình thực nghiệm 42 Bảng 5.2 Kết quả phân tích chủ đề ẩn 43 Bảng 5.3: 20 từ có phân phối xác suất cao Topic ẩn 97 43 Bảng 5.4 Kết quả liệu thu mơ hình xây dựng đồ thị quan hệ thực thể 44 Bảng 5.5 Một cụm liệu dùng để đánh giá độ tương đồng ngữ nghĩa .45 Bảng 5.6 Độ xác đánh giá 20 cụm liệu tiếng Việt độ đo tương đồng Wiki tiếng Việt 45 Bảng 5.7 Kết quả đánh giá độ đo cụm liệu ở bảng 5.2 .45 Bảng 5.8 Độ xác đánh giá 20 cụm liệu tiếng Việt và 10 cụm tiếng Anh 46 Bảng 5.9 Đánh giá kết quả thứ tự văn bản và thứ tự 20 câu quan trọng 47 Bảng 5.10 Kết quả tóm tắt trả theo tỷ lệ trích xuất là 10 câu 48 Bảng 5.11 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho snippet 48 Bảng 5.12 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho trang web 49 Bảng 5.13 Danh sách số kết quả trả lời hệ thống hỏi đáp .49 vi Bảng từ viết tắt STT TừhoăcC̣ cuṃ từ Question and Answering Term Frequency vii Mởđầu Sự phát triển nhanh chóng mạng Internet với bước tiến mạnh mẽ công nghệ lưu trữ, lượng thông tin lưu trữ trở nên vô lớn Thông tin sinh liên tục ngày mạng Internet, lượng thơng tin văn bản khổng lồ đó và mang lại lợi ích khơng nhỏ cho người, nhiên, khiến khó khăn việc tìm kiếm và tổng hợp thơng tin Giải pháp cho vấn đề này là tóm tắt văn tự động Tóm tắt văn bản tự động xác định là bài toán thuộc lĩnh vực khái phá liệu văn bản; việc áp dụng tóm tắt văn bản giúp người dùng tiết kiệm thời gian đọc, cải thiện tìm kiếm tăng hiệu quả đánh mục cho máy tìm kiếm Từ nhu cầu thực tế thế, bài tốn tóm tắt văn bản tự động nhận quan tâm nghiên cứu nhiều nhà khoa học, nhóm nghiên cứu công ty lớn thế giới Các bài báo liên quan đến tóm tắt văn bản xuất nhiều hội nghị tiếng : DUC1 2001-2007, TAC2 2008, ACL3 2001-2007… bên cạnh là phát triển hệ thống tóm tắt văn bản : MEAD, LexRank, Microsoft Word (Chức AutoSummarize)… Một vấn đề thách thức và quan tâm năm gần bài tốn tóm tắt văn bản tự động là đưa kết quả tóm tắt cho tập văn bản liên quan với mặt nội dung hay gọi là tóm tắt đa văn Bài tốn tóm tắt đa văn xác định là bài tốn có độ phức tạp cao Đa số người nghĩ rằng, tóm tắt đa văn bản là việc áp dụng tóm tắt đơn văn bản cho văn bản ghép từ văn bản tập văn bản cho trước Tuy nhiên điều là hoàn toàn khơng xác, thách thức lớn vấn đề tóm tắt đa văn là liệu đầu vào có nhập nhằng ngữ nghĩa nội dung văn bản này với văn bản khác tập văn bản hay trình tự thời gian trình bày Document Understanding Conference http://duc.nist.gov Text Analysis Conference http://www.nist.gov/tac Association for Computational Linguistics http://aclweb.org văn bản là khác nhau, để đưa kết quả tóm tắt tốt vơ khó khăn [EWK] Rất nhiều ứng dụng cần đến trình tóm tắt đa văn bản như: hệ thống hỏi đáp tự động (Q&A System), tóm tắt báo cáo liên quan đến kiện, tóm tắt cụm liệu trả từ trình phân cụm máy tìm kiếm… Hướng nghiên cứu ứng dụng bài tốn tóm tắt đa văn bản vào việc xây dựng hệ thống hỏi đáp tự động là hướng nghiên cứu cộng đồng nghiên cứu tóm tắt văn bản năm gần Rất nhiều nghiên cứu cho thấy rằng, việc sử dụng phương pháp tóm tắt đa văn bản dựa vào câu truy vấn (Query-based multi-document summarization) kho liệu tri thức để đưa văn bản tóm tắt trả lời cho câu hỏi người sử dụng đạt nhiều kết quả khả quan thể là hướng tiếp cận đắn việc xây dựng mơ hình hỏi đáp tự động [Ba07,YYL07] Với việc lựa chọn đề tài “Tóm tắt đa văn dựa vào trích xuất câu”, tập trung vào việc nghiên cứu, khảo sát, đánh giá và đề xuất phương pháp tóm tắt đa văn bản phù hợp với ngơn ngữ tiếng Việt, bên cạnh áp dụng phương pháp này vào việc xây dựng mơ hình hệ thống hỏi đáp tiếng Việt Ngoài phần mở đầu kết luận, luâṇ văn đươcc̣ tổchức thành chương sau:  Chương 1: Khái qt tốn tóm tắt giới thiệu khái qt bài tốn tóm tắt văn bản tự động nói chung và bài tốn tóm tắt đa văn bản nói riêng, trình bày số khái niệm và cách phân loại bài tốn tóm tắt  Chương 2: Tóm tắt đa văn dựa vào trích xuất câu giới thiệu chi tiết hướng tiếp cận, thách thức và vấn đề giải quyết bài toán tóm tắt đa văn bản dựa vào trích xuất câu  Chương 3: Độ tương đồng câu phương pháp tăng cường tính ngữ nghĩa cho độ tương đồng câu trình bày nghiên cứu phương pháp tính độ tương đồng ngữ nghĩa câu tiêu biểu áp dụng vào q trình trích xuất câu quan trọng văn bản  Chương 4: Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu áp dụng vào mơ hình tóm tắt đa văn tiếng Việt phân tích, đề xuất phương pháp tích hợp thuật tốn để giải qút bài tốn tóm tắt đa văn bản tiếng Việt và trình bày việc áp dụng phương pháp đề xuất để xây dựng mơ hình hệ thống hỏi đáp tiếng Việt đơn giản  Chương 5: Thực nghiệm đánh giá trình bày trình thử nghiệm luận văn và đưa số đánh giá, nhận xét kết quả đạt Chương Khái qt tốn tóm tắt văn 1.1 Bài tốn tóm tắt văn tự động Vào năm 1958, Luhn IBM trình bày phương pháp tóm tắt tự động cho bài báo kĩ thuật sử dụng phương pháp thống kê thông qua tần suất và phân bố từ văn bản [Lu58] Tuy nhiên cho đến năm cuối thế kỷ 20, với phát triển Internet, lượng thơng tin bùng nổ nhanh chóng, việc thu nhận thông tin quan trọng trở thành vấn đề thiết ́u bài tốn tóm tắt văn bản tự động quan tâm thiết thực nhiều nhà nghiên cứu Theo Inderjeet Mani, mục đích tóm tắt văn bản tự động là: “Tóm tắt văn tự động nhằm mục đích trích xuất nội dung từ nguồn thơng tin trình bày nội dung quan trọng cho người sử dụng theo khuôn dạng súc tích gây cảm xúc người sử dụng chương trình cần đến” [MM99] Việc đưa văn bản kết quả tóm tắt có chất lượng là văn bản người làm mà không bị giới hạn bởi miền ứng dụng là xác định là khó khăn Vì vậy, bài tốn giải qút tóm tắt văn bản thường hướng đến kiểu văn bản cụ thể kiểu tóm tắt cụ thể 1.2 Một số khái niệm tốn tóm tắt phân loại tóm tắt - Tỷ lệ nén(Compression Rate): là độ đo thể thông tin đọng văn bản tóm tắt tính công thức: CompressionRate = SummaryLength SourceLength SummaryLength: Độ dài văn bản tóm tắt SourceLength: Độ dài văn bản nguồn - Độ bật hay liên quan(Salience or Relevance): là trọng số gán cho thông tin văn bản thể độ quan trọng thơng tin toàn văn bản hay để liên quan thơng tin chương trình người sử dụng – Công thương tiếp tục thực lộ tr thị trường mặt hàng chiến lượ kiểm soát Nhà Nước, nhằm khuyế cạnh tranh, hạn chế độc quyền Bảng 5.2 Kết quả phân tích chủ đề ẩn Dễ dàng nhận thấy câu có nội dung liên quan đến chủ đề “Thuế” thấy xuất Topic_97 q trình phân tích chủ đề Dưới là 20 từ có phân phối xác suất cao Topic_97: Topic 97: thương_mại wto đàm_phán gia_nhập thành_viên nhập_khẩu 0.015039 cam_kết thuế xuất_khẩu 10 vấn_đề 0.010848 Bảng 5.3: 20 từ có phân phối xác suất cao Topic ẩn 97 5.2.2 Thực nghiệm xây dựng đồ thị quan hệ thực thể  Dữ liệu xây dựng đồ thị quan hệ thực thể: – Dữ liệu mồi: 200 thực thể tiếng Việt và 200 thực thể tiếng Anh thuộc lĩnh vực: Địa danh, tổ chức, nhân vật Thực nghiệm là kết quả q trình thực thi mơ hình xây dựng đồ thị quan hệ thực thể đề xuất mục 4.1.1 cài đặt Trong thực nghiệm này, đồ thị 43 quan hệ thực thể xây dựng cho ngôn ngữ tiếng Anh và tiếng Việt Phương pháp nhận dạng tên thực thể(NER) áp dụng mô hình này: Đối với tiếng Anh: mơ hình học máy CRF, sử dụng công cụ Lingpipe Api Đối với tiếng Việt: sử dụng biểu thức quy Ngơn ngữ Tiếng Anh Tiếng Việt Bảng 5.4 Kết quả liệu thu mơ hình xây dựng đồ thị quan hệ thực thể 5.2.3 Thực nghiệm đánh giá độ đo tương đồng  Dữ liệu Wikipedia: – 99.679 bài viết Wikipedia Tiếng Việt (23/10/2009) – Download địa chỉ: http://download.wikimedia.org/viwiki/20091023  Dữ liệu từ điển: – Từ điển đồng nghĩa: gồm 2393 nhóm từ đồng nghĩa phát triển dựa “Từ điển đồng nghĩa” Nguyễn Văn Tu, NXB Đại học và Trung học chuyên nghiệp, 1985  Dữ liệu đánh giá độ đo tương đồng ngữ nghĩa câu: – Sử dụng 20 cụm: cụm gồm 3-5 cặp câu, đánh giá tay theo thứ tự độ tương đồng mặt ngữ nghĩa (Thứ tự càng thấp độ tương đồng càng cao) Ví dụ: Số thứ tự Bảng 5.5 Một cụm liệu dùng để đánh giá độ tương đồng ngữ nghĩa Các bước tiến hành thực nghiệm: - Tính độ đo tương đồng cặp câu độ đo khác nhau, sắp xếp theo thứ tự càng gần mặt ngữ nghĩa thứ tự càng thấp - Độ xác tính số lượng câu giữ thứ tự xếp hạng tay gán cho tập liệu thực nghiệm Sử dụng liệu ở để tiến hành đánh giá, lựa chọn độ đo tương đồng câu phù hợp với Wiki tiếng Việt Các độ đo này nêu ở mục 3.3.3 Ngôn ngữ Tiếng Việt Bảng 5.6 Độ xác đánh giá 20 cụm liệu tiếng Việt độ đo tương đồng Wiki tiếng Việt Dựa vào kết quả thực nghiệm ở cho thấy, độ đo Leacock & Chodorow(LC) cho kết quả tốt so với độ đo khác Trong thực nghiệm tiếp theo độ đo tương đồng ngữ nghĩa câu sử dụng cho Wiki mặc định là độ đo LC Ví dụ: sử dụng độ đo tương đồng để đánh giá ví dụ nêu bảng 5.2 Bảng 5.7 Kết quả đánh giá độ đo cụm liệu ở bảng 5.2 45 Dưới là thực nghiệm đánh giá độ xác độ tương đồng 20 cụm liệu Trong thực nghiệm này, liệu thực nghiệm tiếng Anh là 10 cụm, tác giả sử dụng hai độ đo tương đồng là Cosine và đồ thị quan hệ thực để đánh giá Ngôn ngữ Tiếng Việt Tiếng Anh Bảng 5.8 Độ xác đánh giá 20 cụm liệu tiếng Việt và 10 cụm tiếng Anh Kết quả thực nghiệm cho thấy việc độ đo tương đồng ngữ nghĩa All_2 cho kết quả tốt độ đo khác Trong thực nghiệm tiếp theo, tác giả sử dụng All_2 làm đô đo tương đồng ngữ nghĩa 5.2.4 Thực nghiệm đánh giá độ xác mơ hình tóm tắt đa văn  Dữ liệu đánh giá độ mơ hình tóm tắt đa văn bản: – Sử dụng cụm trả từ trình phân cụm máy tìm kiếm tiếng Việt VnSen: cụm gồm 8-10 văn bản Các văn bản cụm và 20 câu quan trọng văn bản sắp xếp tay dựa vào độ tương đồng văn bản/câu với nhãn cụm Độ xác tính số lượng văn bản/câu giữ thứ tự xếp hạng tay gán cho tập liệu thực nghiệm Cụm Số lư văn b 46 Bảng 5.9 Đánh giá kết quả thứ tự văn bản và thứ tự 20 câu quan trọng Đối với cụm văn bản có nhãn “Lãi suất tiết kiệm”, với tỷ lệ trích xuất là 10 câu, kết quả tóm tắt trả theo đánh giá trực quan là tương đối tốt Văn tóm tắt [8][7] Hơm qua, Dong A Bank thơng báo tăng lãi suất tiền gửi tiết kiệm VND dành cho khách hàng cá nhân với mức tăng bình quân 0,06% tháng [9][2] "Lãi suất ngân hàng cao Ai muốn bán tháo cổ phiếu lấy tiền gửi tiết kiệm không được, phải vất vả lắm bán thành công", chị Phúc cười vui vẻ [1][1] Lãi suất tiết kiệm đụng mốc 15% [10][1] Đổ xô đến ngân hàng gửi tiền ngắn hạn [10][25] Tuy nhiên, nhiều nhà băng ước đoán lượng gửi tiền với kỳ hạn ngắn chiếm ưu thế so với gửi tiết kiệm lâu dài [10][4] Còn Ngân hàng Phương Đông, chị Linh chuẩn bị sẵn 70 triệu đồng từ cuối tuần để gửi tiết kiệm linh hoạt 12 tháng [2][23] Một lãnh đạo ngân hàng VP nhận định: “Trong tuần này có nhiều biến động lãi suất ngân hàng theo dõi động thái để điều chỉnh kịp thời mức lãi suất Chỉ có giữ chân khách hàng” [7][19] Mỗi tháng doanh nghiệp toán lãi tháng cho nhà băng gần 10 triệu đồng [7][11] Lãi suất cho vay ngân hàng điều chỉnh, cộng với tình hình số nhà băng ngừng cho vay tác động tức thời đến doanh nghiệp có nhu cầu vay tiền vào thời điểm này [7][1] Lâm thế kẹt ngân hàng điều chỉnh cho vay 47 Bảng 5.10 Kết quả tóm tắt trả theo tỷ lệ trích xuất là 10 câu (hai số đầu dòng tương ứng thứ tự văn cụm thứ tự câu văn bản) 5.2.5 Thực nghiệm đánh giá độ xác mơ hình hỏi đáp  Dữ liệu đánh giá hệ thống hỏi đáp: – Dữ liệu: 500 câu hỏi dịch có lựa chọn và chỉnh sửa từ liệu TREC (Lấy từ công cụ OpenEphyra) Các câu hỏi đưa kiểm tra trước máy tìm kiếm xem có xuất câu trả lời snippet trả hay không Đô tương đồng Cos Hidden Wiki EntG All_1 All_2 Bảng 5.11 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho snippet Đô tương đồng Cos Hidden Wiki EntG All_1 48 All_2 *Tốc độ khơng tính thời gian download trang web Bảng 5.12 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho trang web Với thực nghiệm đánh giá độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho trang Web ở trên, độ xác đạt là cao, nhiên thời gian trả lời trung bình mơ hình q cao việc tìm kiếm và tính tốn đồ thị với số lượng nút lớn tiêu tốn nhiều thời gian cấu hình máy thực thực nghiệm thấp Trong tương lai, tác giả tiến hành cải tiến việc đánh mục cho đồ áp dụng phương pháp tăng tốc độ tìm kiếm và tính tốn đồ thị để áp dụng giải thuật này cho việc tính tốn online Câu hỏi Người đầu tiên tìm châu mỹ ? Nhạc sĩ sáng tác bài hát người hà nội ? Cà chua có tác dụng sức khỏe ? Bác Hồ sang pháp năm nào ? Người sáng lập google ? … Bảng 5.13 Danh sách số kết quả trả lời hệ thống hỏi đáp 49 Kết luân Những vấn đềđãđươcc̣ giải luâṇ văn Luận văn tiến hành nghiên cứu giải qút bài tốn tóm tắt đa văn bản tiếng Việt dựa vào trích xuất câu Bài tốn này xác định là bài tốn có độ phức tạp cao và là tảng nhiều ứng dụng thực tế Phương pháp giải quyết luận văn tập trung vào việc tăng cường tính ngữ nghĩa cho độ đo tương đồng hai câu q trình trích xuất câu quan trọng tập liệu đầu vào Dựa vào nghiên cứu chủ đề ẩn, mạng ngữ nghĩa Wikipedia và phương pháp tác giả luận văn đề xuất, luận văn đưa độ đo tương đồng ngữ nghĩa câu để xây dựng mơ hình tóm tắt đa văn bản tiếng Việt Hơn nữa, luận văn trình bày mơ hình hệ thống hỏi đáp tiếng Việt áp dụng tóm tắt đa văn bản sử dụng liệu máy tìm kiếm tiếng Google, Yahoo làm tri thức Quá trình thực nghiệm đạt kết quả khả quan, cho thấy tính đắn việc lựa chọn kết hợp phương pháp, đồng thời hứa hẹn nhiều tiềm phát triển hoàn thiện Công viêcc̣ nghiên cứu tương lai - Phát triển và mở rộng đồ thị quan hệ thực thể, nghiên cứu và xây dựng phân cấp chủ đề thực thể cho đồ thị - Nghiên cứu và áp dụng số giải thuật tính toán độ tương đồng ngữ nghĩa mạng ngữ nghĩa để cải tiến mơ hình tóm tắt đa văn bản tiếng Việt - Cải tiến trình lưu trữ và đánh mục để tăng tốc cho việc tìm kiếm và tính tốn đồ thị, qua tăng tốc độ trả lời câu hỏi cho mơ hình hỏi đáp tiếng Việt - Xây dựng và triển khai hệ thống hỏi đáp tiếng Việt cho người sử dụng 50 Các cơng trình khoa học sản phẩm cơng bố [VVU09] Vu Tran Mai, Vinh Nguyen Van, Uyen Pham Thu, Oanh Tran Thi and Thuy Quang Ha (2009) An Experimental Study of Vietnamese Question Answering System, International Conference on Asian Language Processing (IALP 2009): 152-155, Dec 7-9, 2009, Singapore [VUH08] Trần Mai Vũ, Phạm Thị Thu Uyên, Hoàng Minh Hiền, Hà Quang Thụy (2008) Độ tương đồng ngữ nghĩa hai câu áp dụng vào toán sử dụng tóm tắt đa văn để đánh giá chất lượng phân cụm liệu máy tìm kiếm VNSEN, Hội thảo Công nghệ Thông tin & Truyền thông lần thứ (ICTFIT08): 94-102, ĐHKHTN, ĐHQG TP Hồ Chí Minh, Thành phố Hồ Chí Minh, 2008 Sản phẩm phần mềm [VTTV09] Trần Mai Vũ, Vũ Tiến Thành, Trần Đạo Thái, Nguyễn Đức Vinh (2009) Máy tìm kiếm giá cả, http://vngia.com 51 Tài liệu tham khảo Tiếng Việt [MB09] Lương Chi Mai và Hồ Tú Bảo (2009) Báo cáo Tổng kết đề tài KC.01.01/0610 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt" và Về xử lý tiếng Việt công nghệ thông tin (2006), Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam, 2009 Tiếng Anh [Ba07] Barry Schiffman (2007) Summarization for Q&A at Columbia University for DUC 2007, In Document Understanding Conference 2007 (DUC07), Rochester, NY, April 26-27, 2007 [BE97] Regina Barzilay and Michael Elhadad Using Lexical Chains for Text Summarization, In Advances in Automatic Text Summarization (Inderjeet Mani and Mark T Maybury, editors): 111–121, The MIT Press, 1999 [BKO07] Blake,C., Kampov, J., Orphanides, A., West,D., & Lown, C (2007) UNCCH at DUC 2007: Query Expansion, Lexical Simplification, and Sentence Selection Strategies for Multi-Document Summarization, In DUC07 [BL06] Blei, M and Lafferty, J (2006) Dynamic Topic Models, In the 23th International Conference on Machine Learning, Pittsburgh, PA [BME02] Regina Barzilay, Noemie Elhadad, and Kathleen R McKeown (2002) Inferring strategies for sentence ordering in multidocument news summarization, Journal of Artificial Intelligence Research: 35–55, 2002 [BME99] Barzilay R., McKeown K., and Elhadad M Information fusion in the context of multidocument summarization, Proceedings of the 37th annual meeting of the Association for Computational Linguistics: 550–557, New Brunswick, New Jersey, 1999 52 [BMI06] D Bollegara, Y Matsuo, and M Ishizuka (2006) Extracting key phrases to disambiguate personal names on the web, In CICLing 2006 [CG98] Jaime Carbonell, Jade Goldstein (1998) The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, In SIGIR-98, Melbourne, Australia, Aug 1998 [CSO01] John M Conroy, Judith D Schlesinger, Dianne P O'Leary, Mary Ellen Okurowski (2001) Using HMM and Logis-tic Regression to Generate Extract Summaries for DUC, In DUC 01, Nat’l Inst of Standards and Technology, 2001 [Ed69] H Edmundson (1969) New methods in automatic abstracting, Journal of ACM, 16 (2):264-285, 1969 [EWK] Website: http://en.wikipedia.org/wiki/Multi-document_summarization [FMN07] K Filippova, M Mieskes, V Nastase, S Paolo Ponzetto, M Strube (2007) Cascaded Filtering for Topic-Driven Multi-Document Summarization, In EML Research gGmbH, 2007 [GMC00] Jade Goldstein, Vibhu Mittal, Jaime Carbonell, Mark Kantrowitz (2000) Multi-Document Summarization By Sentence Extraction, 2000 [HHM08] Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh (2008) Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, In The 17th International World Wide Web Conference, 2008 [HMR05] B Hachey, G Murray, D Reitter (2005) Query-Oriented Multi-Document Summarization With a Very Large Latent Semantic Space, In The Embra System at DUC, 2005 [Ji98] H Jing (1998) Summary generation through intelligent cutting and pasting of the input document, Technical Report, Columbia University, 1998 [KST02] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu (2002) Bleu: a method for automatic evaluation of machine translation, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL): 311–318, 2002 53 [LH03] Chin-Yew Lin and Eduard Hovy (2003) Automatic evaluation of summaries using n-gram co-occurrence statistics, In Human Technology Coference 2003 [LH97] Chin-Yew Lin and Eduard Hovy (1997) Identifying topics by position, Fifth Conference on Applied Natural Language Processing: 283–290, 1997 [LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett (2006) Sentence Similarity Based on Semantic Nets and Corpus Statistics, IEEE Trans Knowl Data Eng 18(8): 1138-1150 [Lu58] H Luhn (1958) The automatic creation of literature abstracts, IBM Journal of Research and Development, 2(2):159-165, 1958 [Ma01] Inderjeet Mani (2001) Automatic Summarization, John Benjamins Publishing Co., 2001 [Mi04] Nguyen Le Minh (2004) Statistical Machine Learning Approaches to Cross Language Text Summarization, PhD Thesis, School of Information Science Japan Advanced Institute of Science and Technology, September 2004 [MM99] Inderjeet Mani and Mark T Maybury (eds) (1999) Advances in Automatic Text Summarization, MIT Press, 1999, ISBN 0-262-13359-8 [MR95] Kathleen R McKeown and Dragomir R Radev (1995) Generating summaries of multiple news articles, ACM Conference on Research and Development in Information Retrieval (SIGIR’95): 74–82, Seattle, Washington, July 1995 [PKC95] Jan O Pendersen, Kupiec Julian and Francine Chen (1995) A trainable document summarizer, Research and Development in Information Retrieval: 68– 73, 1995 [PSM07] Ponzetto, Simone Paolo, and Michael Strube (2007) Knowledge Derived from Wikipedia For Computing Semantic Relatedness, Journal of Artificial Intelligence Research, 30: 181-212, 2007 54 [Ra00] Dragomir Radev (2000) A common theory of information fusion from multiple text sources, step one: Cross-document structure, In 1st ACL SIGDIAL Workshop on Discourse and Dialogue, Hong Kong, October 2000 [RFF05] Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro (2005) Semantic Similarity Between Sentences Through Approximate Tree Matching IbPRIA (2): 638-646, 2005 [RJS04] Dragomir R Radev, Hongyan Jing, Malgorzata Sty´s, and Daniel Tam (2004) Centroid-based summarization of multiple documents, Information Processing and Management, 40:919–938, December 2004 [SD08] P Senellart and V D Blondel (2008) Automatic discovery of similar words Survey of Text Mining II: Clustering, Classification and Retrieval (M W Berry and M Castellanos, editors): 25–44, Springer-Verlag, January 2008 [Sen07] Pierre Senellart (2007) Understanding the Hidden Web, PhD thesis, Université Paris-Sud, Orsay, France, December 2007 [SP06] Strube, M & S P Ponzetto (2006) WikiRelate! Computing semantic relatedness using Wikipedia, In Proc of AAAI-06, 2006 [STP06] Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey (2006) Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications: 94-98, Chiang Mai, Thailand, December 2006 [Su05] Sudarshan Lamkhede Multi-document summarization using concept chain graphs, Master Thesis, Faculty of the Graduate School of the State University of New York at Buffalo, September 2005 [Tu08] Nguyen Cam Tu (2008) Hidden Topic Discovery Toward Classification And Clustering In Vietnamese Web Documents, Master Thesis, Coltech of Technology, Viet Nam National University, Ha Noi, Viet Nam, 2008 55 [VSB06] Lucy Vanderwende, Hisami Suzuki, Chris Brockett (2006) Task-Focused Summarization with Sentence Simplification and Lexical Expansion, Microsoft Research at DUC2006, 2006 [WC07] R Wang and W Cohen (2007) Language-independent set expansion of named entities using the web, In ICDM07, 2007 [YYL07] J.-C Ying, S.-J Yen, Y.-S Lee, Y.-C Wu, J.-C Yang (2007) Language Model Passage Retrieval for Question-Oriented Multi Document Summarization, DUC 07, 2007 [ZG07] T Zesch and I Gurevych (2007) Analysis of the Wikipedia Category Graph for NLP Applications, In Proc of the TextGraphs-2 Workshop, NAACL-HLT, 2007 [ZGM07] Torsten Zesch, Iryna Gurevych, and Max Muhlhauser (2007) Comparing Wikipedia and German Word-net by Evaluating Semantic Relatedness on Multiple Datasets, In Proceedings of NAACL-HLT, 2007 56 ... cộng đồng nghiên cứu tóm tắt văn bản 2.4 Tóm tắt đa văn dựa vào trích xuất câu Tóm tắt đa văn bản dựa vào trích xuất câu là phương pháp giải quyết bài tốn tóm tắt đa văn bản theo hướng... xuất câu nói riêng Chương Tóm tắt đa văn dựa vào trích xuất câu 2.1 Hướng tiếp cận tốn tóm tắt đa văn Như biết ở tóm tắt văn bản nói chung và tóm tắt đa văn bản nói riêng là bài tốn thuộc... bài tốn tóm tắt  Chương 2: Tóm tắt đa văn dựa vào trích xuất câu giới thiệu chi tiết hướng tiếp cận, thách thức và vấn đề giải qút bài tốn tóm tắt đa văn bản dựa vào trích xuất câu 

Định dạng
Số trang	68
Dung lượng	465,15 KB