Tóm tắt đa văn bản dựa vào trích xuất câu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN MAI VŨ TÓM TẮT ĐA VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU LUẬN VĂN THẠC SĨ HÀ NỢI - 2009 Mục lục Lời cảm ơn i Lời cam đoan .ii Mục lục iii Danh sách hình vẽ v Danh sách bảng vi Danh sách bảng vi Bảng từ viết tắt vii Bảng từ viết tắt vii Mở đầ u Chương Khái quát bài toán tóm tắt văn bản 1.1 Bài tốn tóm tắt văn bản tự động 1.2 Một số khái niệm tốn tóm tắt phân loại tóm tắt 1.3 Tóm tắt đơn văn bản 1.4 Tóm tắt đa văn bản 1.5 Tóm tắt chương Chương Tóm tắt đa văn bản dựa vào trích xuất câu 10 2.1 Hướng tiếp cận tốn tóm tắt đa văn bản 10 2.2 Các thách thức trình tóm tắt đa văn bản 11 2.3 Đánh giá kết quả tóm tắt 15 2.4 Tóm tắt đa văn bản dựa vào trích xuất câu 16 2.4.1 Loại bỏ chồng chéo sắp xếp văn bản theo độ quan trọng 16 2.4.2 Phương pháp sắp xếp câu 17 2.5 Tóm tắt chương hai 18 Chương Độ tương đồng câu phương pháp tăng cường tính ngữ nghĩa cho độ tương đồng câu 19 3.1 Độ tương đồng 19 3.2 Độ tương đồng câu 19 3.3 Các phương pháp tính độ tương đồng câu 20 3.3.1 Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine 20 3.3.2 Phương pháp tính ̣ tương đồng câu dựa vào chủ đề ẩn 21 iii Phương pháp tính độ tương đồng câu dựa vào Wikipedia 24 3.3.3 3.4 Tóm tắt chương ba 28 Chương Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu áp dụng vào mơ hình tóm tắt đa văn tiếng Việt 30 4.1 Đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu tiếng Việt 30 4.1.1 Đồ thị thực thể mơ hình xây dựng đồ thị quan hệ thực thể 30 4.1.2 Độ tương đồng ngữ nghĩa câu dựa vào đồ thị quan hệ thực thể 33 4.2 Độ tương đồng ngữ nghĩa câu tiếng Việt 35 4.3 Mơ hình tóm tắt đa văn bản tiếng Việt 36 4.4 Mơ hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn bản 39 4.5 Tóm tắt chương bốn 40 Chương Thực nghiệm đánh giá 41 5.1 Môi trường thực nghiệm 41 5.2 Quá trình thực nghiệm 42 5.2.1 Thực nghiệm phân tích chủ đề ẩn 42 5.2.2 Thực nghiệm xây dựng đồ thị quan hệ thực thể 43 5.2.3 Thực nghiệm đánh giá độ đo tương đồng 44 5.2.4 Thực nghiệm đánh giá độ xác mơ hình tóm tắt đa văn bản 46 5.2.5 Thực nghiệm đánh giá độ xác mơ hình hỏi đáp 48 Kế t luận 50 Các cơng trình khoa học sản phẩm cơng bố 51 Tài liệu tham khảo 52 iv Danh sách hình vẽ Hình 3.1 Tính độ tương đồng câu với chủ đề ẩn 22 Hình 3.2: Mối quan hệ đồ thị viết đồ thị chủ đề Wikipedia 25 Hình 4.1: Mở rộng mối quan hệ tìm kiếm thực thể liên quan 31 Hình 4.2: Mơ hình xây dựng đồ thị quan hệ thực thể 32 Hình 4.3: Mơ hình tóm tắt đa văn bản tiếng Việt 37 Hình 4.4: Mơ hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn bản 39 v Danh sách bảng Bảng 2.1 Bảng so sánh phương pháp tiếp cận tóm tắt đa văn bản 11 Bảng 2.2 Taxonomy mối quan hệ xuyên văn bản 14 Bảng 4.1: Sự tương quan đồ thị quan hệ thực thể, Wordnet Wikipedia 34 Bảng 4.2 Danh sách độ đo tương đồng ngữ nghĩa câu 36 Bảng 5.1 Các công cụ phần mềm sử dụng trình thực nghiệm 42 Bảng 5.2 Kết quả phân tích chủ đề ẩn 43 Bảng 5.3: 20 từ có phân phối xác suất cao Topic ẩn 97 43 Bảng 5.4 Kết quả liệu thu mơ hình xây dựng đồ thị quan hệ thực thể 44 Bảng 5.5 Một cụm liệu dùng để đánh giá độ tương đồng ngữ nghĩa 45 Bảng 5.6 Độ xác đánh giá 20 cụm liệu tiếng Việt độ đo tương đồng Wiki tiếng Việt 45 Bảng 5.7 Kết quả đánh giá độ đo cụm liệu bảng 5.2 45 Bảng 5.8 Độ xác đánh giá 20 cụm liệu tiếng Việt 10 cụm tiếng Anh 46 Bảng 5.9 Đánh giá kết quả thứ tự văn bản thứ tự 20 câu quan trọng 47 Bảng 5.10 Kết quả tóm tắt trả theo tỷ lệ trích xuất 10 câu 48 Bảng 5.11 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho snippet 48 Bảng 5.12 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho trang web 49 Bảng 5.13 Danh sách số kết quả trả lời hệ thống hỏi đáp 49 vi Bảng từ viết tắt STT Từ hoă ̣c cu ̣m từ Viế t tắ t Maximal Maginal Relevance MMR Question and Answering Q&A (Hệ thống hỏi đáp tự động) Document Understanding Conferences DUC (Hội nghi chuyên hiểu văn bản) Term Frequency TF (Tần suất từ/cụm từ văn bản) vii Mở đầ u Sự phát triển nhanh chóng mạng Internet với bước tiến mạnh mẽ công nghệ lưu trữ, lượng thông tin lưu trữ trở nên vô lớn Thông tin sinh liên tục ngày mạng Internet, lượng thông tin văn bản khổng lồ đó mang lại lợi ích khơng nhỏ cho người, nhiên, khiến khó khăn việc tìm kiếm tổng hợp thông tin Giải pháp cho vấn đề tóm tắt văn tự động Tóm tắt văn bản tự động xác định toán thuộc lĩnh vực khái phá liệu văn bản; việc áp dụng tóm tắt văn bản giúp người dùng tiết kiệm thời gian đọc, cải thiện tìm kiếm tăng hiệu quả đánh mục cho máy tìm kiếm Từ nhu cầu thực tế thế, tốn tóm tắt văn bản tự động nhận quan tâm nghiên cứu nhiều nhà khoa học, nhóm nghiên cứu cơng ty lớn thế giới Các báo liên quan đến tóm tắt văn bản xuất nhiều hội nghị tiếng : DUC1 2001-2007, TAC2 2008, ACL3 2001-2007… bên cạnh phát triển hệ thống tóm tắt văn bản : MEAD, LexRank, Microsoft Word (Chức AutoSummarize)… Một vấn đề thách thức quan tâm năm gần tốn tóm tắt văn bản tự động đưa kết quả tóm tắt cho tập văn bản liên quan với mặt nội dung hay cịn gọi tóm tắt đa văn Bài tốn tóm tắt đa văn xác định tốn có độ phức tạp cao Đa số người nghĩ rằng, tóm tắt đa văn bản việc áp dụng tóm tắt đơn văn bản cho văn bản ghép từ văn bản tập văn bản cho trước Tuy nhiên điều hồn tồn khơng xác, thách thức lớn vấn đề tóm tắt đa văn liệu đầu vào có nhập nhằng ngữ nghĩa nội dung văn bản với văn bản khác tập văn bản hay trình tự thời gian trình bày Document Understanding Conference http://duc.nist.gov Text Analysis Conference http://www.nist.gov/tac Association for Computational Linguistics http://aclweb.org văn bản khác nhau, để đưa kết quả tóm tắt tốt vơ khó khăn [EWK] Rất nhiều ứng dụng cần đến q trình tóm tắt đa văn bản như: hệ thống hỏi đáp tự động (Q&A System), tóm tắt báo cáo liên quan đến kiện, tóm tắt cụm liệu trả từ trình phân cụm máy tìm kiếm… Hướng nghiên cứu ứng dụng tốn tóm tắt đa văn bản vào việc xây dựng hệ thống hỏi đáp tự động hướng nghiên cứu cộng đồng nghiên cứu tóm tắt văn bản năm gần Rất nhiều nghiên cứu cho thấy rằng, việc sử dụng phương pháp tóm tắt đa văn bản dựa vào câu truy vấn (Query-based multi-document summarization) kho liệu tri thức để đưa văn bản tóm tắt trả lời cho câu hỏi người sử dụng đạt nhiều kết quả khả quan thể hướng tiếp cận đắn việc xây dựng mơ hình hỏi đáp tự động [Ba07,YYL07] Với việc lựa chọn đề tài “Tóm tắt đa văn dựa vào trích xuất câu”, chúng tơi tập trung vào việc nghiên cứu, khảo sát, đánh giá đề xuất phương pháp tóm tắt đa văn bản phù hợp với ngôn ngữ tiếng Việt, bên cạnh áp dụng phương pháp vào việc xây dựng mơ hình hệ thống hỏi đáp tiếng Việt Ngồi phần mở đầu kết luận, luận văn được tổ chức thành chương sau:  Chương 1: Khái qt tốn tóm tắt giới thiệu khái qt tốn tóm tắt văn bản tự động nói chung tốn tóm tắt đa văn bản nói riêng, trình bày số khái niệm cách phân loại tốn tóm tắt  Chương 2: Tóm tắt đa văn dựa vào trích xuất câu giới thiệu chi tiết hướng tiếp cận, thách thức vấn đề giải qút tốn tóm tắt đa văn bản dựa vào trích xuất câu  Chương 3: Độ tương đồng câu phương pháp tăng cường tính ngữ nghĩa cho độ tương đồng câu trình bày nghiên cứu phương pháp tính độ tương đồng ngữ nghĩa câu tiêu biểu áp dụng vào trình trích xuất câu quan trọng văn bản  Chương 4: Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu áp dụng vào mơ hình tóm tắt đa văn tiếng Việt phân tích, đề xuất phương pháp tích hợp thuật tốn để giải qút tốn tóm tắt đa văn bản tiếng Việt trình bày việc áp dụng phương pháp đề xuất để xây dựng mơ hình hệ thống hỏi đáp tiếng Việt đơn giản  Chương 5: Thực nghiệm đánh giá trình bày trình thử nghiệm luận văn đưa số đánh giá, nhận xét kết quả đạt Chương Khái qt tốn tóm tắt văn 1.1 Bài tốn tóm tắt văn tự động Vào năm 1958, Luhn IBM trình bày phương pháp tóm tắt tự động cho báo kĩ thuật sử dụng phương pháp thống kê thông qua tần suất phân bố từ văn bản [Lu58] Tuy nhiên cho đến năm cuối thế kỷ 20, với phát triển Internet, lượng thông tin bùng nổ nhanh chóng, việc thu nhận thơng tin quan trọng trở thành vấn đề thiết yếu tốn tóm tắt văn bản tự động quan tâm thiết thực nhiều nhà nghiên cứu Theo Inderjeet Mani, mục đích tóm tắt văn bản tự động là: “Tóm tắt văn tự động nhằm mục đích trích xuất nội dung từ nguồn thơng tin trình bày nội dung quan trọng cho người sử dụng theo khn dạng súc tích gây cảm xúc người sử dụng chương trình cần đến” [MM99] Việc đưa văn bản kết quả tóm tắt có chất lượng văn bản người làm mà không bị giới hạn miền ứng dụng xác định khó khăn Vì vậy, tốn giải qút tóm tắt văn bản thường hướng đến kiểu văn bản cụ thể kiểu tóm tắt cụ thể 1.2 Một số khái niệm tốn tóm tắt phân loại tóm tắt - Tỷ lệ nén(Compression Rate): độ đo thể thông tin cô đọng văn bản tóm tắt tính cơng thức: CompressionRate  SummaryLength SourceLength SummaryLength: Độ dài văn bản tóm tắt SourceLength: Độ dài văn bản nguồn - Độ bật hay liên quan(Salience or Relevance): trọng số gán cho thông tin văn bản thể độ quan trọng thơng tin tồn văn bản hay để liên quan thơng tin chương trình người sử dụng 4 JGibbsLDA Tác giả: Nguyễn Cẩm Tú Công dụng: Xây dựng phân tích chủ đề ẩn Mulgara Tác giả: Northrop Grumman Corporation Website: http://www.mulgara.org Công dụng: Lưu trữ mạng ngữ nghĩa Wikipedia đồ thị quan hệ thực thể nển tảng công nghệ semantic web Lingpipe Tác giả: Alias-i Website: http://alias-i.com/lingpipe Công dụng: Nhận dạng tên thực thể (NER) tiếng Anh Bảng 5.1 Các công cụ phần mềm sử dụng trình thực nghiệm 5.2 Q trình thực nghiệm 5.2.1 Thực nghiệm phân tích chủ đề ẩn  Dữ liệu phân tích chủ đề ẩn: – Bộ liệu 125 topic (vnexp-lda4-125topics) phân tích JGibbsLDA kho liệu báo thu thập từ trang web Vnexpress Sau trình phân tích chủ đề ẩn câu xác định nằm chủ đề xác định trước liệu chủ đề ẩn Ví dụ: STT Các chủ đề câu Câu Cắt giảm thuế Topic_48 Topic_97 Tiếp tục giảm thuế nhiều mặt hàng nhập Topic_97 Những mặt hàng nằm diện cắt giảm thuế Topic_16 Topic_33 Topic_54 thời gian tới gồm rượu, bia, thuốc lá, cà Topic_62 Topic_97 Topic_106 42 phê, dầu thực vật, thịt chế biến Topic_123 Theo yêu cầu Chính phủ Liên Tài – Cơng thương tiếp tục thực lộ trình giá thị trường mặt hàng chiến lược có kiểm sốt Nhà Nước, nhằm khún khích cạnh tranh, hạn chế độc quyền Topic_13 Topic_33 Topic_41 Topic_47 Topic_67 Topic_78 topic_105 Topic_105 Topic_115 Topic_122 Bảng 5.2 Kết quả phân tích chủ đề ẩn Dễ dàng nhận thấy câu có nội dung liên quan đến chủ đề “Thuế” thấy xuất Topic_97 q trình phân tích chủ đề Dưới 20 từ có phân phối xác suất cao Topic_97: Topic 97: thương_mại 0.051798 11 kinh_tế 0.010271 wto 0.038748 12 hiệp_định 0.010070 đàm_phán 0.028651 13 phát_triển 0.009695 gia_nhập 0.021578 14 tự_do 0.009162 thành_viên 0.017416 15 tổ_chức 0.007909 nhập_khẩu 0.015039 16 dệt 0.007175 cam_kết 0.014520 17 asean 0.007131 thuế 0.013109 18 đạt 0.007117 xuất_khẩu 0.011164 19 bộ_trưởng 0.006872 10 vấn_đề 0.010848 20 nơng_nghiệp 0.006757 Bảng 5.3: 20 từ có phân phối xác suất cao Topic ẩn 97 5.2.2 Thực nghiệm xây dựng đồ thị quan hệ thực thể  Dữ liệu xây dựng đồ thị quan hệ thực thể: – Dữ liệu mồi: 200 thực thể tiếng Việt 200 thực thể tiếng Anh thuộc lĩnh vực: Địa danh, tổ chức, nhân vật Thực nghiệm kết quả q trình thực thi mơ hình xây dựng đồ thị quan hệ thực thể đề xuất mục 4.1.1 cài đặt Trong thực nghiệm này, đồ thị 43 quan hệ thực thể xây dựng cho ngôn ngữ tiếng Anh tiếng Việt Phương pháp nhận dạng tên thực thể(NER) áp dụng mô hình này: Đối với tiếng Anh: mơ hình học máy CRF, sử dụng công cụ Lingpipe Api Đối với tiếng Việt: sử dụng biểu thức quy Ngơn ngữ Số lượng thu Số lượng quan hệ Thời gian thực thi Tiếng Anh 48.365 thực thể 72.619 quan hệ ngày Tiếng Việt 21.693 thực thể 32.774 quan hệ ngày Bảng 5.4 Kết quả liệu thu mơ hình xây dựng đồ thị quan hệ thực thể 5.2.3 Thực nghiệm đánh giá độ đo tương đồng  Dữ liệu Wikipedia: – 99.679 viết Wikipedia Tiếng Việt (23/10/2009) – Download địa chỉ: http://download.wikimedia.org/viwiki/20091023  Dữ liệu từ điển: – Từ điển đồng nghĩa: gồm 2393 nhóm từ đồng nghĩa phát triển dựa “Từ điển đồng nghĩa” Nguyễn Văn Tu, NXB Đại học Trung học chuyên nghiệp, 1985  Dữ liệu đánh giá độ đo tương đồng ngữ nghĩa câu: – Sử dụng 20 cụm: cụm gồm 3-5 cặp câu, đánh giá tay theo thứ tự độ tương đồng mặt ngữ nghĩa (Thứ tự thấp độ tương đồng cao) Ví dụ: Số thứ tự Câu thứ Câu thứ hai Tơi thích Hà Nội Anh u Hồ Gươm Tơi thích Hà Nội Em mến người Hà Thành 44 Xếp hàng tay Tơi thích Hà Nội Cơ ngắm nhìn Tháp rùa Tơi thích Hà Nội Bạn thích Hà Giang Bảng 5.5 Một cụm liệu dùng để đánh giá độ tương đồng ngữ nghĩa Các bước tiến hành thực nghiệm: Tính độ đo tương đồng cặp câu độ đo khác nhau, sắp - xếp theo thứ tự gần mặt ngữ nghĩa thứ tự thấp Độ xác tính số lượng câu giữ thứ tự xếp hạng - tay gán cho tập liệu thực nghiệm Sử dụng liệu để tiến hành đánh giá, lựa chọn độ đo tương đồng câu phù hợp với Wiki tiếng Việt Các độ đo nêu mục 3.3.3 Ngôn ngữ PL LC WP Resnik RC Lin Tiếng Việt 56% 70% 66% 38% 52% 48% Bảng 5.6 Độ xác đánh giá 20 cụm liệu tiếng Việt độ đo tương đồng Wiki tiếng Việt Dựa vào kết quả thực nghiệm cho thấy, độ đo Leacock & Chodorow(LC) cho kết quả tốt so với độ đo khác Trong thực nghiệm tiếp theo độ đo tương đồng ngữ nghĩa câu sử dụng cho Wiki mặc định độ đo LC Ví dụ: sử dụng độ đo tương đồng để đánh giá ví dụ nêu bảng 5.2 Số thứ tự câu Cos EntG Wiki Hidden All_1 All_2 2 2 2 1 3 4 3 1 3 4 Bảng 5.7 Kết quả đánh giá độ đo cụm liệu bảng 5.2 45 Dưới thực nghiệm đánh giá độ xác độ tương đồng 20 cụm liệu Trong thực nghiệm này, liệu thực nghiệm tiếng Anh 10 cụm, tác giả sử dụng hai độ đo tương đồng Cosine đồ thị quan hệ thực để đánh giá Ngôn ngữ Cos Hidden Wiki EntG All_1 All_2 Tiếng Việt 56% 76% 70% 68% 80% 88% Tiếng Anh 68% ~ ~ 78% ~ ~ Bảng 5.8 Độ xác đánh giá 20 cụm liệu tiếng Việt 10 cụm tiếng Anh Kết quả thực nghiệm cho thấy việc độ đo tương đồng ngữ nghĩa All_2 cho kết quả tốt độ đo khác Trong thực nghiệm tiếp theo, tác giả sử dụng All_2 làm đo tương đồng ngữ nghĩa 5.2.4 Thực nghiệm đánh giá độ xác mơ hình tóm tắt đa văn  Dữ liệu đánh giá độ mơ hình tóm tắt đa văn bản: – Sử dụng cụm trả từ trình phân cụm máy tìm kiếm tiếng Việt VnSen: cụm gồm 8-10 văn bản Các văn bản cụm 20 câu quan trọng văn bản sắp xếp tay dựa vào độ tương đồng văn bản/câu với nhãn cụm Độ xác tính số lượng văn bản/câu giữ thứ tự xếp hạng tay gán cho tập liệu thực nghiệm Cụm Số lượng Số lượng văn câu Độ Nhãn cụm xác thứ tự văn 10 216 Lãi suất tiết kiệm 116 Cắt giảm thuế 46 Độ xác thứ tự 20 câu quan trọng 80% 80% 87.5% 85% 127 Cơng cụ tìm kiếm Google 101 86 87.5% 80% Laptop giá rẻ 75% 75% Dịch tiêu chảy 75% 70% Bảng 5.9 Đánh giá kết quả thứ tự văn bản thứ tự 20 câu quan trọng Đối với cụm văn bản có nhãn “Lãi suất tiết kiệm”, với tỷ lệ trích xuất 10 câu, kết quả tóm tắt trả theo đánh giá trực quan tương đối tốt Văn tóm tắt [8][7] Hôm qua, Dong A Bank thông báo tăng lãi suất tiền gửi tiết kiệm VND dành cho khách hàng cá nhân với mức tăng bình quân 0,06% tháng [9][2] "Lãi suất ngân hàng cao Ai muốn bán tháo cổ phiếu lấy tiền gửi tiết kiệm không được, phải vất vả lắm bán thành công", chị Phúc cười vui vẻ [1][1] Lãi suất tiết kiệm đụng mốc 15% [10][1] Đổ xô đến ngân hàng gửi tiền ngắn hạn [10][25] Tuy nhiên, nhiều nhà băng ước đoán lượng gửi tiền với kỳ hạn ngắn chiếm ưu thế so với gửi tiết kiệm lâu dài [10][4] Cịn Ngân hàng Phương Đơng, chị Linh chuẩn bị sẵn 70 triệu đồng từ cuối tuần để gửi tiết kiệm linh hoạt 12 tháng [2][23] Một lãnh đạo ngân hàng VP nhận định: “Trong tuần có nhiều biến động lãi suất ngân hàng theo dõi động thái để điều chỉnh kịp thời mức lãi suất Chỉ có giữ chân khách hàng” [7][19] Mỗi tháng doanh nghiệp toán lãi tháng cho nhà băng gần 10 triệu đồng [7][11] Lãi suất cho vay ngân hàng điều chỉnh, cộng với tình hình số nhà băng ngừng cho vay tác động tức thời đến doanh nghiệp có nhu cầu vay tiền vào thời điểm [7][1] Lâm thế kẹt ngân hàng điều chỉnh cho vay 47 Bảng 5.10 Kết quả tóm tắt trả theo tỷ lệ trích xuất 10 câu (hai số đầu dòng tương ứng thứ tự văn cụm thứ tự câu văn bản) 5.2.5 Thực nghiệm đánh giá độ xác mơ hình hỏi đáp  Dữ liệu đánh giá hệ thống hỏi đáp: – Dữ liệu: 500 câu hỏi dịch có lựa chọn chỉnh sửa từ liệu TREC (Lấy từ công cụ OpenEphyra) Các câu hỏi đưa kiểm tra trước máy tìm kiếm xem có xuất câu trả lời snippet trả hay không Đô tương đồng Số trả lời Độ xác Thời gian trả lời trung bình Cos 67 13.4% 30 giây Hidden 288 57.6% phút Wiki 242 48.4% 25 phút EntG 217 43.4% 15 phút All_1 318 63.6% 35 phút All_2 376 75.2% 40 phút Bảng 5.11 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho snippet Đơ tương đồng Số trả lời Độ xác Thời gian trả lời trung bình Cos 101 21.6% phút Hidden 306 61.2% phút Wiki 204 40.8% 45phút EntG 225 45.0% giờ 15 phút All_1 359 71.8% giờ 30 phút 48 All_2 389 77.8% giờ *Tốc độ khơng tính thời gian download trang web Bảng 5.12 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho trang web Với thực nghiệm đánh giá độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho trang Web trên, độ xác đạt cao, nhiên thời gian trả lời trung bình mơ hình q cao việc tìm kiếm tính tốn đồ thị với số lượng nút lớn tiêu tốn nhiều thời gian cấu hình máy thực thực nghiệm thấp Trong tương lai, tác giả tiến hành cải tiến việc đánh mục cho đồ áp dụng phương pháp tăng tốc độ tìm kiếm tính tốn đồ thị để áp dụng giải thuật cho việc tính tốn online Câu hỏi Câu trả lời Người tìm châu mỹ ? Ai biết Cơ-lơm-bơ người tìm châu Mỹ Nhạc sĩ sáng tác hát người hà nội ? Người Hà Nội hát nhạc sĩ Nguyễn Đình Thi sáng tác Cà chua có tác dụng sức khỏe ? Cà chua có tác dụng phịng chống ung thư vú, ung thư dày Bác Hồ sang pháp năm ? Mùa hè năm 1911, Bác đặt chân lên đất Pháp, Bác Người sáng lập google ? Tờ Financial Times bình chọn hai nhà đồng sáng lập cơng cụ tìm kiếm Google, Sergey Brin Larry Page, 32 tuổi Người đàn ông năm … … Bảng 5.13 Danh sách số kết quả trả lời hệ thống hỏi đáp 49 Kế t luâ ̣n Những vấ n đề đã được giải quyế t luận văn Luận văn tiến hành nghiên cứu giải qút tốn tóm tắt đa văn bản tiếng Việt dựa vào trích xuất câu Bài tốn xác định tốn có độ phức tạp cao tảng nhiều ứng dụng thực tế Phương pháp giải quyết luận văn tập trung vào việc tăng cường tính ngữ nghĩa cho độ đo tương đồng hai câu q trình trích xuất câu quan trọng tập liệu đầu vào Dựa vào nghiên cứu chủ đề ẩn, mạng ngữ nghĩa Wikipedia phương pháp tác giả luận văn đề xuất, luận văn đưa độ đo tương đồng ngữ nghĩa câu để xây dựng mơ hình tóm tắt đa văn bản tiếng Việt Hơn nữa, luận văn trình bày mơ hình hệ thống hỏi đáp tiếng Việt áp dụng tóm tắt đa văn bản sử dụng liệu máy tìm kiếm tiếng Google, Yahoo làm tri thức Quá trình thực nghiệm đạt kết quả khả quan, cho thấy tính đắn việc lựa chọn kết hợp phương pháp, đồng thời hứa hẹn nhiều tiềm phát triển hồn thiện Cơng viê ̣c nghiên cứu tương lai - Phát triển mở rộng đồ thị quan hệ thực thể, nghiên cứu xây dựng phân cấp chủ đề thực thể cho đồ thị - Nghiên cứu áp dụng số giải thuật tính tốn độ tương đồng ngữ nghĩa mạng ngữ nghĩa để cải tiến mơ hình tóm tắt đa văn bản tiếng Việt - Cải tiến trình lưu trữ đánh mục để tăng tốc cho việc tìm kiếm tính tốn đồ thị, qua tăng tốc độ trả lời câu hỏi cho mơ hình hỏi đáp tiếng Việt - Xây dựng triển khai hệ thống hỏi đáp tiếng Việt cho người sử dụng 50 Các cơng trình khoa học sản phẩm công bố [VVU09] Vu Tran Mai, Vinh Nguyen Van, Uyen Pham Thu, Oanh Tran Thi and Thuy Quang Ha (2009) An Experimental Study of Vietnamese Question Answering System, International Conference on Asian Language Processing (IALP 2009): 152-155, Dec 7-9, 2009, Singapore [VUH08] Trần Mai Vũ, Phạm Thị Thu Uyên, Hoàng Minh Hiền, Hà Quang Thụy (2008) Độ tương đồng ngữ nghĩa hai câu áp dụng vào toán sử dụng tóm tắt đa văn để đánh giá chất lượng phân cụm liệu máy tìm kiếm VNSEN, Hội thảo Công nghệ Thông tin & Truyền thông lần thứ (ICTFIT08): 94-102, ĐHKHTN, ĐHQG TP Hồ Chí Minh, Thành phố Hồ Chí Minh, 2008 Sản phẩm phần mềm [VTTV09] Trần Mai Vũ, Vũ Tiến Thành, Trần Đạo Thái, Nguyễn Đức Vinh (2009) Máy tìm kiếm giá cả, http://vngia.com 51 Tài liệu tham khảo Tiếng Việt [MB09] Lương Chi Mai Hồ Tú Bảo (2009) Báo cáo Tổng kết đề tài KC.01.01/0610 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt" Về xử lý tiếng Việt công nghệ thông tin (2006), Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Việt Nam, 2009 Tiếng Anh [Ba07] Barry Schiffman (2007) Summarization for Q&A at Columbia University for DUC 2007, In Document Understanding Conference 2007 (DUC07), Rochester, NY, April 26-27, 2007 [BE97] Regina Barzilay and Michael Elhadad Using Lexical Chains for Text Summarization, In Advances in Automatic Text Summarization (Inderjeet Mani and Mark T Maybury, editors): 111–121, The MIT Press, 1999 [BKO07] Blake,C., Kampov, J., Orphanides, A., West,D., & Lown, C (2007) UNCCH at DUC 2007: Query Expansion, Lexical Simplification, and Sentence Selection Strategies for Multi-Document Summarization, In DUC07 [BL06] Blei, M and Lafferty, J (2006) Dynamic Topic Models, In the 23th International Conference on Machine Learning, Pittsburgh, PA [BME02] Regina Barzilay, Noemie Elhadad, and Kathleen R McKeown (2002) Inferring strategies for sentence ordering in multidocument news summarization, Journal of Artificial Intelligence Research: 35–55, 2002 [BME99] Barzilay R., McKeown K., and Elhadad M Information fusion in the context of multidocument summarization, Proceedings of the 37th annual meeting of the Association for Computational Linguistics: 550–557, New Brunswick, New Jersey, 1999 52 [BMI06] D Bollegara, Y Matsuo, and M Ishizuka (2006) Extracting key phrases to disambiguate personal names on the web, In CICLing 2006 [CG98] Jaime Carbonell, Jade Goldstein (1998) The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, In SIGIR-98, Melbourne, Australia, Aug 1998 [CSO01] John M Conroy, Judith D Schlesinger, Dianne P O'Leary, Mary Ellen Okurowski (2001) Using HMM and Logis-tic Regression to Generate Extract Summaries for DUC, In DUC 01, Nat’l Inst of Standards and Technology, 2001 [Ed69] H Edmundson (1969) New methods in automatic abstracting, Journal of ACM, 16 (2):264-285, 1969 [EWK] Website: http://en.wikipedia.org/wiki/Multi-document_summarization [FMN07] K Filippova, M Mieskes, V Nastase, S Paolo Ponzetto, M Strube (2007) Cascaded Filtering for Topic-Driven Multi-Document Summarization, In EML Research gGmbH, 2007 [GMC00] Jade Goldstein, Vibhu Mittal, Jaime Carbonell, Mark Kantrowitz (2000) Multi-Document Summarization By Sentence Extraction, 2000 [HHM08] Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh (2008) Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, In The 17th International World Wide Web Conference, 2008 [HMR05] B Hachey, G Murray, D Reitter (2005) Query-Oriented Multi-Document Summarization With a Very Large Latent Semantic Space, In The Embra System at DUC, 2005 [Ji98] H Jing (1998) Summary generation through intelligent cutting and pasting of the input document, Technical Report, Columbia University, 1998 [KST02] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu (2002) Bleu: a method for automatic evaluation of machine translation, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL): 311–318, 2002 53 [LH03] Chin-Yew Lin and Eduard Hovy (2003) Automatic evaluation of summaries using n-gram co-occurrence statistics, In Human Technology Coference 2003 [LH97] Chin-Yew Lin and Eduard Hovy (1997) Identifying topics by position, Fifth Conference on Applied Natural Language Processing: 283–290, 1997 [LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett (2006) Sentence Similarity Based on Semantic Nets and Corpus Statistics, IEEE Trans Knowl Data Eng 18(8): 1138-1150 [Lu58] H Luhn (1958) The automatic creation of literature abstracts, IBM Journal of Research and Development, 2(2):159-165, 1958 [Ma01] Inderjeet Mani (2001) Automatic Summarization, John Benjamins Publishing Co., 2001 [Mi04] Nguyen Le Minh (2004) Statistical Machine Learning Approaches to Cross Language Text Summarization, PhD Thesis, School of Information Science Japan Advanced Institute of Science and Technology, September 2004 [MM99] Inderjeet Mani and Mark T Maybury (eds) (1999) Advances in Automatic Text Summarization, MIT Press, 1999, ISBN 0-262-13359-8 [MR95] Kathleen R McKeown and Dragomir R Radev (1995) Generating summaries of multiple news articles, ACM Conference on Research and Development in Information Retrieval (SIGIR’95): 74–82, Seattle, Washington, July 1995 [PKC95] Jan O Pendersen, Kupiec Julian and Francine Chen (1995) A trainable document summarizer, Research and Development in Information Retrieval: 68– 73, 1995 [PSM07] Ponzetto, Simone Paolo, and Michael Strube (2007) Knowledge Derived from Wikipedia For Computing Semantic Relatedness, Journal of Artificial Intelligence Research, 30: 181-212, 2007 54 [Ra00] Dragomir Radev (2000) A common theory of information fusion from multiple text sources, step one: Cross-document structure, In 1st ACL SIGDIAL Workshop on Discourse and Dialogue, Hong Kong, October 2000 [RFF05] Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro (2005) Semantic Similarity Between Sentences Through Approximate Tree Matching IbPRIA (2): 638-646, 2005 [RJS04] Dragomir R Radev, Hongyan Jing, Malgorzata Sty´s, and Daniel Tam (2004) Centroid-based summarization of multiple documents, Information Processing and Management, 40:919–938, December 2004 [SD08] P Senellart and V D Blondel (2008) Automatic discovery of similar words Survey of Text Mining II: Clustering, Classification and Retrieval (M W Berry and M Castellanos, editors): 25–44, Springer-Verlag, January 2008 [Sen07] Pierre Senellart (2007) Understanding the Hidden Web, PhD thesis, Université Paris-Sud, Orsay, France, December 2007 [SP06] Strube, M & S P Ponzetto (2006) WikiRelate! Computing semantic relatedness using Wikipedia, In Proc of AAAI-06, 2006 [STP06] Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey (2006) Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications: 94-98, Chiang Mai, Thailand, December 2006 [Su05] Sudarshan Lamkhede Multi-document summarization using concept chain graphs, Master Thesis, Faculty of the Graduate School of the State University of New York at Buffalo, September 2005 [Tu08] Nguyen Cam Tu (2008) Hidden Topic Discovery Toward Classification And Clustering In Vietnamese Web Documents, Master Thesis, Coltech of Technology, Viet Nam National University, Ha Noi, Viet Nam, 2008 55 [VSB06] Lucy Vanderwende, Hisami Suzuki, Chris Brockett (2006) Task-Focused Summarization with Sentence Simplification and Lexical Expansion, Microsoft Research at DUC2006, 2006 [WC07] R Wang and W Cohen (2007) Language-independent set expansion of named entities using the web, In ICDM07, 2007 [YYL07] J.-C Ying, S.-J Yen, Y.-S Lee, Y.-C Wu, J.-C Yang (2007) Language Model Passage Retrieval for Question-Oriented Multi Document Summarization, DUC 07, 2007 [ZG07] T Zesch and I Gurevych (2007) Analysis of the Wikipedia Category Graph for NLP Applications, In Proc of the TextGraphs-2 Workshop, NAACL-HLT, 2007 [ZGM07] Torsten Zesch, Iryna Gurevych, and Max Muhlhauser (2007) Comparing Wikipedia and German Word-net by Evaluating Semantic Relatedness on Multiple Datasets, In Proceedings of NAACL-HLT, 2007 56 ... cao cộng đồng nghiên cứu tóm tắt văn bản 2.4 Tóm tắt đa văn dựa vào trích xuất câu Tóm tắt đa văn bản dựa vào trích xuất câu phương pháp giải qút tốn tóm tắt đa văn bản theo hướng tiếp... tóm tắt văn bản tự động Trong chương tiếp theo, luận văn làm rõ vấn đề tốn tóm tắt đa văn bản nói chung tốn tóm tắt đa văn bản dựa vào trích xuất câu nói riêng Chương Tóm tắt đa văn dựa. .. vào: tùy vào số lượng đầu vào toán tóm tắt, người ta chia tóm tắt thành tóm tắt đa văn bản, tóm tắt đơn văn bản Tóm tắt đơn văn bản đầu vào văn bản đơn, đầu vào tóm tắt đa văn bản

Định dạng
Số trang	62
Dung lượng	1,25 MB