Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
465,15 KB
Nội dung
́ ĐAỊ HOCC̣ QUÔC GIA HÀ NỘI TRƢỜNG ĐAỊ HOCC̣ CƠNG NGHÊ TRẦN MAI VŨ TĨM TẮT ĐA VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU LUẬN VĂN THẠC SĨ HÀ NỘI - 2009 Mục lục Lời cảm ơn i Lời cam đoan ii Mục lục iii Danh sách hình vẽ v Danh sách bảng vi Danh sách bảng vi Bảng từ viết tắt vii Bảng từ viết tắt vii Mởđầu Chương Khái quát bài toán tóm tắt văn bản 1.1 Bài tốn tóm tắt văn bản tự động 1.2 Một số khái niệm bài toán tóm tắt và phân loại tóm tắt 1.3 Tóm tắt đơn văn bản 1.4 Tóm tắt đa văn bản 1.5 Tóm tắt chương Chương Tóm tắt đa văn bản dựa vào trích xuất câu 10 2.1 Hướng tiếp cận bài toán tóm tắt đa văn bản 10 2.2 Các thách thức q trình tóm tắt đa văn bản 11 2.3 Đánh giá kết quả tóm tắt 15 2.4 Tóm tắt đa văn bản dựa vào trích xuất câu 16 2.4.1 Loại bỏ chồng chéo và sắp xếp văn bản theo độ quan trọng 16 2.4.2 Phương pháp sắp xếp câu 17 2.5 Tóm tắt chương hai 18 Chương Độ tương đồng câu và phương pháp tăng cường tính ngữ nghĩa cho độ tương đồng câu 19 3.1 Độ tương đồng 19 3.2 Độ tương đồng câu 19 3.3 Các phương pháp tính độ tương đồng câu 20 3.3.1 Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine 20 3.3.2 Phương pháp tính đô ̣tương đồng câu dựa vào chủ đề ẩn 21 iii 3.3.3 3.4 Phương pháp tính độ tương đồng câu dựa vào Wikipedia 24 Tóm tắt chương ba 28 Chương Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu và áp dụng vào mơ hình tóm tắt đa văn tiếng Việt 30 4.1 Đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu tiếng Việt 30 4.1.1 Đồ thị thực thể và mơ hình xây dựng đồ thị quan hệ thực thể 30 4.1.2 Độ tương đồng ngữ nghĩa câu dựa vào đồ thị quan hệ thực thể .33 4.2 Độ tương đồng ngữ nghĩa câu tiếng Việt 35 4.3 Mơ hình tóm tắt đa văn bản tiếng Việt 36 4.4 Mơ hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn bản 39 4.5 Tóm tắt chương bốn 40 Chương Thực nghiệm và đánh giá 41 5.1 Môi trường thực nghiệm 41 5.2 Quá trình thực nghiệm 42 5.2.1 Thực nghiệm phân tích chủ đề ẩn 42 5.2.2 Thực nghiệm xây dựng đồ thị quan hệ thực thể 43 5.2.3 Thực nghiệm đánh giá độ đo tương đồng 44 5.2.4 Thực nghiệm đánh giá độ xác mơ hình tóm tắt đa văn bản 46 5.2.5 Thực nghiệm đánh giá độ xác mơ hình hỏi đáp .48 Kết luận 50 Các cơng trình khoa học và sản phẩm công bố 51 Tài liệu tham khảo 52 iv Danh sách hình vẽ Hình 3.1 Tính độ tương đồng câu với chủ đề ẩn 22 Hình 3.2: Mối quan hệ đồ thị bài viết và đồ thị chủ đề Wikipedia 25 Hình 4.1: Mở rộng mối quan hệ và tìm kiếm thực thể liên quan .31 Hình 4.2: Mơ hình xây dựng đồ thị quan hệ thực thể 32 Hình 4.3: Mơ hình tóm tắt đa văn bản tiếng Việt 37 Hình 4.4: Mơ hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn bản 39 v Danh sách bảng Bảng 2.1 Bảng so sánh phương pháp tiếp cận tóm tắt đa văn bản 11 Bảng 2.2 Taxonomy mối quan hệ xuyên văn bản 14 Bảng 4.1: Sự tương quan đồ thị quan hệ thực thể, Wordnet và Wikipedia 34 Bảng 4.2 Danh sách độ đo tương đồng ngữ nghĩa câu 36 Bảng 5.1 Các công cụ phần mềm sử dụng trình thực nghiệm 42 Bảng 5.2 Kết quả phân tích chủ đề ẩn 43 Bảng 5.3: 20 từ có phân phối xác suất cao Topic ẩn 97 43 Bảng 5.4 Kết quả liệu thu mơ hình xây dựng đồ thị quan hệ thực thể 44 Bảng 5.5 Một cụm liệu dùng để đánh giá độ tương đồng ngữ nghĩa .45 Bảng 5.6 Độ xác đánh giá 20 cụm liệu tiếng Việt độ đo tương đồng Wiki tiếng Việt 45 Bảng 5.7 Kết quả đánh giá độ đo cụm liệu ở bảng 5.2 .45 Bảng 5.8 Độ xác đánh giá 20 cụm liệu tiếng Việt và 10 cụm tiếng Anh 46 Bảng 5.9 Đánh giá kết quả thứ tự văn bản và thứ tự 20 câu quan trọng 47 Bảng 5.10 Kết quả tóm tắt trả theo tỷ lệ trích xuất là 10 câu 48 Bảng 5.11 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho snippet 48 Bảng 5.12 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho trang web 49 Bảng 5.13 Danh sách số kết quả trả lời hệ thống hỏi đáp .49 vi Bảng từ viết tắt STT TừhoăcC̣ cuṃ từ Question and Answering Term Frequency vii Mởđầu Sự phát triển nhanh chóng mạng Internet với bước tiến mạnh mẽ công nghệ lưu trữ, lượng thông tin lưu trữ trở nên vô lớn Thông tin sinh liên tục ngày mạng Internet, lượng thơng tin văn bản khổng lồ đó và mang lại lợi ích khơng nhỏ cho người, nhiên, khiến khó khăn việc tìm kiếm và tổng hợp thơng tin Giải pháp cho vấn đề này là tóm tắt văn tự động Tóm tắt văn bản tự động xác định là bài toán thuộc lĩnh vực khái phá liệu văn bản; việc áp dụng tóm tắt văn bản giúp người dùng tiết kiệm thời gian đọc, cải thiện tìm kiếm tăng hiệu quả đánh mục cho máy tìm kiếm Từ nhu cầu thực tế thế, bài tốn tóm tắt văn bản tự động nhận quan tâm nghiên cứu nhiều nhà khoa học, nhóm nghiên cứu công ty lớn thế giới Các bài báo liên quan đến tóm tắt văn bản xuất nhiều hội nghị tiếng : DUC1 2001-2007, TAC2 2008, ACL3 2001-2007… bên cạnh là phát triển hệ thống tóm tắt văn bản : MEAD, LexRank, Microsoft Word (Chức AutoSummarize)… Một vấn đề thách thức và quan tâm năm gần bài tốn tóm tắt văn bản tự động là đưa kết quả tóm tắt cho tập văn bản liên quan với mặt nội dung hay gọi là tóm tắt đa văn Bài tốn tóm tắt đa văn xác định là bài tốn có độ phức tạp cao Đa số người nghĩ rằng, tóm tắt đa văn bản là việc áp dụng tóm tắt đơn văn bản cho văn bản ghép từ văn bản tập văn bản cho trước Tuy nhiên điều là hoàn toàn khơng xác, thách thức lớn vấn đề tóm tắt đa văn là liệu đầu vào có nhập nhằng ngữ nghĩa nội dung văn bản này với văn bản khác tập văn bản hay trình tự thời gian trình bày Document Understanding Conference http://duc.nist.gov Text Analysis Conference http://www.nist.gov/tac Association for Computational Linguistics http://aclweb.org văn bản là khác nhau, để đưa kết quả tóm tắt tốt vơ khó khăn [EWK] Rất nhiều ứng dụng cần đến trình tóm tắt đa văn bản như: hệ thống hỏi đáp tự động (Q&A System), tóm tắt báo cáo liên quan đến kiện, tóm tắt cụm liệu trả từ trình phân cụm máy tìm kiếm… Hướng nghiên cứu ứng dụng bài tốn tóm tắt đa văn bản vào việc xây dựng hệ thống hỏi đáp tự động là hướng nghiên cứu cộng đồng nghiên cứu tóm tắt văn bản năm gần Rất nhiều nghiên cứu cho thấy rằng, việc sử dụng phương pháp tóm tắt đa văn bản dựa vào câu truy vấn (Query-based multi-document summarization) kho liệu tri thức để đưa văn bản tóm tắt trả lời cho câu hỏi người sử dụng đạt nhiều kết quả khả quan thể là hướng tiếp cận đắn việc xây dựng mơ hình hỏi đáp tự động [Ba07,YYL07] Với việc lựa chọn đề tài “Tóm tắt đa văn dựa vào trích xuất câu”, tập trung vào việc nghiên cứu, khảo sát, đánh giá và đề xuất phương pháp tóm tắt đa văn bản phù hợp với ngơn ngữ tiếng Việt, bên cạnh áp dụng phương pháp này vào việc xây dựng mơ hình hệ thống hỏi đáp tiếng Việt Ngoài phần mở đầu kết luận, luâṇ văn đươcc̣ tổchức thành chương sau: Chương 1: Khái qt tốn tóm tắt giới thiệu khái qt bài tốn tóm tắt văn bản tự động nói chung và bài tốn tóm tắt đa văn bản nói riêng, trình bày số khái niệm và cách phân loại bài tốn tóm tắt Chương 2: Tóm tắt đa văn dựa vào trích xuất câu giới thiệu chi tiết hướng tiếp cận, thách thức và vấn đề giải quyết bài toán tóm tắt đa văn bản dựa vào trích xuất câu Chương 3: Độ tương đồng câu phương pháp tăng cường tính ngữ nghĩa cho độ tương đồng câu trình bày nghiên cứu phương pháp tính độ tương đồng ngữ nghĩa câu tiêu biểu áp dụng vào q trình trích xuất câu quan trọng văn bản Chương 4: Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu áp dụng vào mơ hình tóm tắt đa văn tiếng Việt phân tích, đề xuất phương pháp tích hợp thuật tốn để giải qút bài tốn tóm tắt đa văn bản tiếng Việt và trình bày việc áp dụng phương pháp đề xuất để xây dựng mơ hình hệ thống hỏi đáp tiếng Việt đơn giản Chương 5: Thực nghiệm đánh giá trình bày trình thử nghiệm luận văn và đưa số đánh giá, nhận xét kết quả đạt Chương Khái qt tốn tóm tắt văn 1.1 Bài tốn tóm tắt văn tự động Vào năm 1958, Luhn IBM trình bày phương pháp tóm tắt tự động cho bài báo kĩ thuật sử dụng phương pháp thống kê thông qua tần suất và phân bố từ văn bản [Lu58] Tuy nhiên cho đến năm cuối thế kỷ 20, với phát triển Internet, lượng thơng tin bùng nổ nhanh chóng, việc thu nhận thông tin quan trọng trở thành vấn đề thiết ́u bài tốn tóm tắt văn bản tự động quan tâm thiết thực nhiều nhà nghiên cứu Theo Inderjeet Mani, mục đích tóm tắt văn bản tự động là: “Tóm tắt văn tự động nhằm mục đích trích xuất nội dung từ nguồn thơng tin trình bày nội dung quan trọng cho người sử dụng theo khuôn dạng súc tích gây cảm xúc người sử dụng chương trình cần đến” [MM99] Việc đưa văn bản kết quả tóm tắt có chất lượng là văn bản người làm mà không bị giới hạn bởi miền ứng dụng là xác định là khó khăn Vì vậy, bài tốn giải qút tóm tắt văn bản thường hướng đến kiểu văn bản cụ thể kiểu tóm tắt cụ thể 1.2 Một số khái niệm tốn tóm tắt phân loại tóm tắt - Tỷ lệ nén(Compression Rate): là độ đo thể thông tin đọng văn bản tóm tắt tính công thức: CompressionRate = SummaryLength SourceLength SummaryLength: Độ dài văn bản tóm tắt SourceLength: Độ dài văn bản nguồn - Độ bật hay liên quan(Salience or Relevance): là trọng số gán cho thông tin văn bản thể độ quan trọng thơng tin toàn văn bản hay để liên quan thơng tin chương trình người sử dụng – Công thương tiếp tục thực lộ tr thị trường mặt hàng chiến lượ kiểm soát Nhà Nước, nhằm khuyế cạnh tranh, hạn chế độc quyền Bảng 5.2 Kết quả phân tích chủ đề ẩn Dễ dàng nhận thấy câu có nội dung liên quan đến chủ đề “Thuế” thấy xuất Topic_97 q trình phân tích chủ đề Dưới là 20 từ có phân phối xác suất cao Topic_97: Topic 97: thương_mại wto đàm_phán gia_nhập thành_viên nhập_khẩu 0.015039 cam_kết thuế xuất_khẩu 10 vấn_đề 0.010848 Bảng 5.3: 20 từ có phân phối xác suất cao Topic ẩn 97 5.2.2 Thực nghiệm xây dựng đồ thị quan hệ thực thể Dữ liệu xây dựng đồ thị quan hệ thực thể: – Dữ liệu mồi: 200 thực thể tiếng Việt và 200 thực thể tiếng Anh thuộc lĩnh vực: Địa danh, tổ chức, nhân vật Thực nghiệm là kết quả q trình thực thi mơ hình xây dựng đồ thị quan hệ thực thể đề xuất mục 4.1.1 cài đặt Trong thực nghiệm này, đồ thị 43 quan hệ thực thể xây dựng cho ngôn ngữ tiếng Anh và tiếng Việt Phương pháp nhận dạng tên thực thể(NER) áp dụng mô hình này: Đối với tiếng Anh: mơ hình học máy CRF, sử dụng công cụ Lingpipe Api Đối với tiếng Việt: sử dụng biểu thức quy Ngơn ngữ Tiếng Anh Tiếng Việt Bảng 5.4 Kết quả liệu thu mơ hình xây dựng đồ thị quan hệ thực thể 5.2.3 Thực nghiệm đánh giá độ đo tương đồng Dữ liệu Wikipedia: – 99.679 bài viết Wikipedia Tiếng Việt (23/10/2009) – Download địa chỉ: http://download.wikimedia.org/viwiki/20091023 Dữ liệu từ điển: – Từ điển đồng nghĩa: gồm 2393 nhóm từ đồng nghĩa phát triển dựa “Từ điển đồng nghĩa” Nguyễn Văn Tu, NXB Đại học và Trung học chuyên nghiệp, 1985 Dữ liệu đánh giá độ đo tương đồng ngữ nghĩa câu: – Sử dụng 20 cụm: cụm gồm 3-5 cặp câu, đánh giá tay theo thứ tự độ tương đồng mặt ngữ nghĩa (Thứ tự càng thấp độ tương đồng càng cao) Ví dụ: Số thứ tự Bảng 5.5 Một cụm liệu dùng để đánh giá độ tương đồng ngữ nghĩa Các bước tiến hành thực nghiệm: - Tính độ đo tương đồng cặp câu độ đo khác nhau, sắp xếp theo thứ tự càng gần mặt ngữ nghĩa thứ tự càng thấp - Độ xác tính số lượng câu giữ thứ tự xếp hạng tay gán cho tập liệu thực nghiệm Sử dụng liệu ở để tiến hành đánh giá, lựa chọn độ đo tương đồng câu phù hợp với Wiki tiếng Việt Các độ đo này nêu ở mục 3.3.3 Ngôn ngữ Tiếng Việt Bảng 5.6 Độ xác đánh giá 20 cụm liệu tiếng Việt độ đo tương đồng Wiki tiếng Việt Dựa vào kết quả thực nghiệm ở cho thấy, độ đo Leacock & Chodorow(LC) cho kết quả tốt so với độ đo khác Trong thực nghiệm tiếp theo độ đo tương đồng ngữ nghĩa câu sử dụng cho Wiki mặc định là độ đo LC Ví dụ: sử dụng độ đo tương đồng để đánh giá ví dụ nêu bảng 5.2 Bảng 5.7 Kết quả đánh giá độ đo cụm liệu ở bảng 5.2 45 Dưới là thực nghiệm đánh giá độ xác độ tương đồng 20 cụm liệu Trong thực nghiệm này, liệu thực nghiệm tiếng Anh là 10 cụm, tác giả sử dụng hai độ đo tương đồng là Cosine và đồ thị quan hệ thực để đánh giá Ngôn ngữ Tiếng Việt Tiếng Anh Bảng 5.8 Độ xác đánh giá 20 cụm liệu tiếng Việt và 10 cụm tiếng Anh Kết quả thực nghiệm cho thấy việc độ đo tương đồng ngữ nghĩa All_2 cho kết quả tốt độ đo khác Trong thực nghiệm tiếp theo, tác giả sử dụng All_2 làm đô đo tương đồng ngữ nghĩa 5.2.4 Thực nghiệm đánh giá độ xác mơ hình tóm tắt đa văn Dữ liệu đánh giá độ mơ hình tóm tắt đa văn bản: – Sử dụng cụm trả từ trình phân cụm máy tìm kiếm tiếng Việt VnSen: cụm gồm 8-10 văn bản Các văn bản cụm và 20 câu quan trọng văn bản sắp xếp tay dựa vào độ tương đồng văn bản/câu với nhãn cụm Độ xác tính số lượng văn bản/câu giữ thứ tự xếp hạng tay gán cho tập liệu thực nghiệm Cụm Số lư văn b 46 Bảng 5.9 Đánh giá kết quả thứ tự văn bản và thứ tự 20 câu quan trọng Đối với cụm văn bản có nhãn “Lãi suất tiết kiệm”, với tỷ lệ trích xuất là 10 câu, kết quả tóm tắt trả theo đánh giá trực quan là tương đối tốt Văn tóm tắt [8][7] Hơm qua, Dong A Bank thơng báo tăng lãi suất tiền gửi tiết kiệm VND dành cho khách hàng cá nhân với mức tăng bình quân 0,06% tháng [9][2] "Lãi suất ngân hàng cao Ai muốn bán tháo cổ phiếu lấy tiền gửi tiết kiệm không được, phải vất vả lắm bán thành công", chị Phúc cười vui vẻ [1][1] Lãi suất tiết kiệm đụng mốc 15% [10][1] Đổ xô đến ngân hàng gửi tiền ngắn hạn [10][25] Tuy nhiên, nhiều nhà băng ước đoán lượng gửi tiền với kỳ hạn ngắn chiếm ưu thế so với gửi tiết kiệm lâu dài [10][4] Còn Ngân hàng Phương Đông, chị Linh chuẩn bị sẵn 70 triệu đồng từ cuối tuần để gửi tiết kiệm linh hoạt 12 tháng [2][23] Một lãnh đạo ngân hàng VP nhận định: “Trong tuần này có nhiều biến động lãi suất ngân hàng theo dõi động thái để điều chỉnh kịp thời mức lãi suất Chỉ có giữ chân khách hàng” [7][19] Mỗi tháng doanh nghiệp toán lãi tháng cho nhà băng gần 10 triệu đồng [7][11] Lãi suất cho vay ngân hàng điều chỉnh, cộng với tình hình số nhà băng ngừng cho vay tác động tức thời đến doanh nghiệp có nhu cầu vay tiền vào thời điểm này [7][1] Lâm thế kẹt ngân hàng điều chỉnh cho vay 47 Bảng 5.10 Kết quả tóm tắt trả theo tỷ lệ trích xuất là 10 câu (hai số đầu dòng tương ứng thứ tự văn cụm thứ tự câu văn bản) 5.2.5 Thực nghiệm đánh giá độ xác mơ hình hỏi đáp Dữ liệu đánh giá hệ thống hỏi đáp: – Dữ liệu: 500 câu hỏi dịch có lựa chọn và chỉnh sửa từ liệu TREC (Lấy từ công cụ OpenEphyra) Các câu hỏi đưa kiểm tra trước máy tìm kiếm xem có xuất câu trả lời snippet trả hay không Đô tương đồng Cos Hidden Wiki EntG All_1 All_2 Bảng 5.11 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho snippet Đô tương đồng Cos Hidden Wiki EntG All_1 48 All_2 *Tốc độ khơng tính thời gian download trang web Bảng 5.12 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho trang web Với thực nghiệm đánh giá độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho trang Web ở trên, độ xác đạt là cao, nhiên thời gian trả lời trung bình mơ hình q cao việc tìm kiếm và tính tốn đồ thị với số lượng nút lớn tiêu tốn nhiều thời gian cấu hình máy thực thực nghiệm thấp Trong tương lai, tác giả tiến hành cải tiến việc đánh mục cho đồ áp dụng phương pháp tăng tốc độ tìm kiếm và tính tốn đồ thị để áp dụng giải thuật này cho việc tính tốn online Câu hỏi Người đầu tiên tìm châu mỹ ? Nhạc sĩ sáng tác bài hát người hà nội ? Cà chua có tác dụng sức khỏe ? Bác Hồ sang pháp năm nào ? Người sáng lập google ? … Bảng 5.13 Danh sách số kết quả trả lời hệ thống hỏi đáp 49 Kết luân Những vấn đềđãđươcc̣ giải luâṇ văn Luận văn tiến hành nghiên cứu giải qút bài tốn tóm tắt đa văn bản tiếng Việt dựa vào trích xuất câu Bài tốn này xác định là bài tốn có độ phức tạp cao và là tảng nhiều ứng dụng thực tế Phương pháp giải quyết luận văn tập trung vào việc tăng cường tính ngữ nghĩa cho độ đo tương đồng hai câu q trình trích xuất câu quan trọng tập liệu đầu vào Dựa vào nghiên cứu chủ đề ẩn, mạng ngữ nghĩa Wikipedia và phương pháp tác giả luận văn đề xuất, luận văn đưa độ đo tương đồng ngữ nghĩa câu để xây dựng mơ hình tóm tắt đa văn bản tiếng Việt Hơn nữa, luận văn trình bày mơ hình hệ thống hỏi đáp tiếng Việt áp dụng tóm tắt đa văn bản sử dụng liệu máy tìm kiếm tiếng Google, Yahoo làm tri thức Quá trình thực nghiệm đạt kết quả khả quan, cho thấy tính đắn việc lựa chọn kết hợp phương pháp, đồng thời hứa hẹn nhiều tiềm phát triển hoàn thiện Công viêcc̣ nghiên cứu tương lai - Phát triển và mở rộng đồ thị quan hệ thực thể, nghiên cứu và xây dựng phân cấp chủ đề thực thể cho đồ thị - Nghiên cứu và áp dụng số giải thuật tính toán độ tương đồng ngữ nghĩa mạng ngữ nghĩa để cải tiến mơ hình tóm tắt đa văn bản tiếng Việt - Cải tiến trình lưu trữ và đánh mục để tăng tốc cho việc tìm kiếm và tính tốn đồ thị, qua tăng tốc độ trả lời câu hỏi cho mơ hình hỏi đáp tiếng Việt - Xây dựng và triển khai hệ thống hỏi đáp tiếng Việt cho người sử dụng 50 Các cơng trình khoa học sản phẩm cơng bố [VVU09] Vu Tran Mai, Vinh Nguyen Van, Uyen Pham Thu, Oanh Tran Thi and Thuy Quang Ha (2009) An Experimental Study of Vietnamese Question Answering System, International Conference on Asian Language Processing (IALP 2009): 152-155, Dec 7-9, 2009, Singapore [VUH08] Trần Mai Vũ, Phạm Thị Thu Uyên, Hoàng Minh Hiền, Hà Quang Thụy (2008) Độ tương đồng ngữ nghĩa hai câu áp dụng vào toán sử dụng tóm tắt đa văn để đánh giá chất lượng phân cụm liệu máy tìm kiếm VNSEN, Hội thảo Công nghệ Thông tin & Truyền thông lần thứ (ICTFIT08): 94-102, ĐHKHTN, ĐHQG TP Hồ Chí Minh, Thành phố Hồ Chí Minh, 2008 Sản phẩm phần mềm [VTTV09] Trần Mai Vũ, Vũ Tiến Thành, Trần Đạo Thái, Nguyễn Đức Vinh (2009) Máy tìm kiếm giá cả, http://vngia.com 51 Tài liệu tham khảo Tiếng Việt [MB09] Lương Chi Mai và Hồ Tú Bảo (2009) Báo cáo Tổng kết đề tài KC.01.01/0610 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt" và Về xử lý tiếng Việt công nghệ thông tin (2006), Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam, 2009 Tiếng Anh [Ba07] Barry Schiffman (2007) Summarization for Q&A at Columbia University for DUC 2007, In Document Understanding Conference 2007 (DUC07), Rochester, NY, April 26-27, 2007 [BE97] Regina Barzilay and Michael Elhadad Using Lexical Chains for Text Summarization, In Advances in Automatic Text Summarization (Inderjeet Mani and Mark T Maybury, editors): 111–121, The MIT Press, 1999 [BKO07] Blake,C., Kampov, J., Orphanides, A., West,D., & Lown, C (2007) UNCCH at DUC 2007: Query Expansion, Lexical Simplification, and Sentence Selection Strategies for Multi-Document Summarization, In DUC07 [BL06] Blei, M and Lafferty, J (2006) Dynamic Topic Models, In the 23th International Conference on Machine Learning, Pittsburgh, PA [BME02] Regina Barzilay, Noemie Elhadad, and Kathleen R McKeown (2002) Inferring strategies for sentence ordering in multidocument news summarization, Journal of Artificial Intelligence Research: 35–55, 2002 [BME99] Barzilay R., McKeown K., and Elhadad M Information fusion in the context of multidocument summarization, Proceedings of the 37th annual meeting of the Association for Computational Linguistics: 550–557, New Brunswick, New Jersey, 1999 52 [BMI06] D Bollegara, Y Matsuo, and M Ishizuka (2006) Extracting key phrases to disambiguate personal names on the web, In CICLing 2006 [CG98] Jaime Carbonell, Jade Goldstein (1998) The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, In SIGIR-98, Melbourne, Australia, Aug 1998 [CSO01] John M Conroy, Judith D Schlesinger, Dianne P O'Leary, Mary Ellen Okurowski (2001) Using HMM and Logis-tic Regression to Generate Extract Summaries for DUC, In DUC 01, Nat’l Inst of Standards and Technology, 2001 [Ed69] H Edmundson (1969) New methods in automatic abstracting, Journal of ACM, 16 (2):264-285, 1969 [EWK] Website: http://en.wikipedia.org/wiki/Multi-document_summarization [FMN07] K Filippova, M Mieskes, V Nastase, S Paolo Ponzetto, M Strube (2007) Cascaded Filtering for Topic-Driven Multi-Document Summarization, In EML Research gGmbH, 2007 [GMC00] Jade Goldstein, Vibhu Mittal, Jaime Carbonell, Mark Kantrowitz (2000) Multi-Document Summarization By Sentence Extraction, 2000 [HHM08] Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh (2008) Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, In The 17th International World Wide Web Conference, 2008 [HMR05] B Hachey, G Murray, D Reitter (2005) Query-Oriented Multi-Document Summarization With a Very Large Latent Semantic Space, In The Embra System at DUC, 2005 [Ji98] H Jing (1998) Summary generation through intelligent cutting and pasting of the input document, Technical Report, Columbia University, 1998 [KST02] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu (2002) Bleu: a method for automatic evaluation of machine translation, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL): 311–318, 2002 53 [LH03] Chin-Yew Lin and Eduard Hovy (2003) Automatic evaluation of summaries using n-gram co-occurrence statistics, In Human Technology Coference 2003 [LH97] Chin-Yew Lin and Eduard Hovy (1997) Identifying topics by position, Fifth Conference on Applied Natural Language Processing: 283–290, 1997 [LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett (2006) Sentence Similarity Based on Semantic Nets and Corpus Statistics, IEEE Trans Knowl Data Eng 18(8): 1138-1150 [Lu58] H Luhn (1958) The automatic creation of literature abstracts, IBM Journal of Research and Development, 2(2):159-165, 1958 [Ma01] Inderjeet Mani (2001) Automatic Summarization, John Benjamins Publishing Co., 2001 [Mi04] Nguyen Le Minh (2004) Statistical Machine Learning Approaches to Cross Language Text Summarization, PhD Thesis, School of Information Science Japan Advanced Institute of Science and Technology, September 2004 [MM99] Inderjeet Mani and Mark T Maybury (eds) (1999) Advances in Automatic Text Summarization, MIT Press, 1999, ISBN 0-262-13359-8 [MR95] Kathleen R McKeown and Dragomir R Radev (1995) Generating summaries of multiple news articles, ACM Conference on Research and Development in Information Retrieval (SIGIR’95): 74–82, Seattle, Washington, July 1995 [PKC95] Jan O Pendersen, Kupiec Julian and Francine Chen (1995) A trainable document summarizer, Research and Development in Information Retrieval: 68– 73, 1995 [PSM07] Ponzetto, Simone Paolo, and Michael Strube (2007) Knowledge Derived from Wikipedia For Computing Semantic Relatedness, Journal of Artificial Intelligence Research, 30: 181-212, 2007 54 [Ra00] Dragomir Radev (2000) A common theory of information fusion from multiple text sources, step one: Cross-document structure, In 1st ACL SIGDIAL Workshop on Discourse and Dialogue, Hong Kong, October 2000 [RFF05] Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro (2005) Semantic Similarity Between Sentences Through Approximate Tree Matching IbPRIA (2): 638-646, 2005 [RJS04] Dragomir R Radev, Hongyan Jing, Malgorzata Sty´s, and Daniel Tam (2004) Centroid-based summarization of multiple documents, Information Processing and Management, 40:919–938, December 2004 [SD08] P Senellart and V D Blondel (2008) Automatic discovery of similar words Survey of Text Mining II: Clustering, Classification and Retrieval (M W Berry and M Castellanos, editors): 25–44, Springer-Verlag, January 2008 [Sen07] Pierre Senellart (2007) Understanding the Hidden Web, PhD thesis, Université Paris-Sud, Orsay, France, December 2007 [SP06] Strube, M & S P Ponzetto (2006) WikiRelate! Computing semantic relatedness using Wikipedia, In Proc of AAAI-06, 2006 [STP06] Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey (2006) Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications: 94-98, Chiang Mai, Thailand, December 2006 [Su05] Sudarshan Lamkhede Multi-document summarization using concept chain graphs, Master Thesis, Faculty of the Graduate School of the State University of New York at Buffalo, September 2005 [Tu08] Nguyen Cam Tu (2008) Hidden Topic Discovery Toward Classification And Clustering In Vietnamese Web Documents, Master Thesis, Coltech of Technology, Viet Nam National University, Ha Noi, Viet Nam, 2008 55 [VSB06] Lucy Vanderwende, Hisami Suzuki, Chris Brockett (2006) Task-Focused Summarization with Sentence Simplification and Lexical Expansion, Microsoft Research at DUC2006, 2006 [WC07] R Wang and W Cohen (2007) Language-independent set expansion of named entities using the web, In ICDM07, 2007 [YYL07] J.-C Ying, S.-J Yen, Y.-S Lee, Y.-C Wu, J.-C Yang (2007) Language Model Passage Retrieval for Question-Oriented Multi Document Summarization, DUC 07, 2007 [ZG07] T Zesch and I Gurevych (2007) Analysis of the Wikipedia Category Graph for NLP Applications, In Proc of the TextGraphs-2 Workshop, NAACL-HLT, 2007 [ZGM07] Torsten Zesch, Iryna Gurevych, and Max Muhlhauser (2007) Comparing Wikipedia and German Word-net by Evaluating Semantic Relatedness on Multiple Datasets, In Proceedings of NAACL-HLT, 2007 56 ... cộng đồng nghiên cứu tóm tắt văn bản 2.4 Tóm tắt đa văn dựa vào trích xuất câu Tóm tắt đa văn bản dựa vào trích xuất câu là phương pháp giải quyết bài tốn tóm tắt đa văn bản theo hướng... xuất câu nói riêng Chương Tóm tắt đa văn dựa vào trích xuất câu 2.1 Hướng tiếp cận tốn tóm tắt đa văn Như biết ở tóm tắt văn bản nói chung và tóm tắt đa văn bản nói riêng là bài tốn thuộc... bài tốn tóm tắt Chương 2: Tóm tắt đa văn dựa vào trích xuất câu giới thiệu chi tiết hướng tiếp cận, thách thức và vấn đề giải qút bài tốn tóm tắt đa văn bản dựa vào trích xuất câu