Tóm tắt đa văn bản dựa vào trích xuất câu

62 23 0
Tóm tắt đa văn bản dựa vào trích xuất câu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN MAI VŨ TÓM TẮT ĐA VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU LUẬN VĂN THẠC SĨ HÀ NỢI - 2009 Mục lục Lời cảm ơn i Lời cam đoan .ii Mục lục iii Danh sách hình vẽ v Danh sách bảng vi Danh sách bảng vi Bảng từ viết tắt vii Bảng từ viết tắt vii Mở đầ u Chương Khái quát bài toán tóm tắt văn bản 1.1 Bài tốn tóm tắt văn bản tự động 1.2 Một số khái niệm tốn tóm tắt phân loại tóm tắt 1.3 Tóm tắt đơn văn bản 1.4 Tóm tắt đa văn bản 1.5 Tóm tắt chương Chương Tóm tắt đa văn bản dựa vào trích xuất câu 10 2.1 Hướng tiếp cận tốn tóm tắt đa văn bản 10 2.2 Các thách thức trình tóm tắt đa văn bản 11 2.3 Đánh giá kết quả tóm tắt 15 2.4 Tóm tắt đa văn bản dựa vào trích xuất câu 16 2.4.1 Loại bỏ chồng chéo sắp xếp văn bản theo độ quan trọng 16 2.4.2 Phương pháp sắp xếp câu 17 2.5 Tóm tắt chương hai 18 Chương Độ tương đồng câu phương pháp tăng cường tính ngữ nghĩa cho độ tương đồng câu 19 3.1 Độ tương đồng 19 3.2 Độ tương đồng câu 19 3.3 Các phương pháp tính độ tương đồng câu 20 3.3.1 Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine 20 3.3.2 Phương pháp tính ̣ tương đồng câu dựa vào chủ đề ẩn 21 iii Phương pháp tính độ tương đồng câu dựa vào Wikipedia 24 3.3.3 3.4 Tóm tắt chương ba 28 Chương Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu áp dụng vào mơ hình tóm tắt đa văn tiếng Việt 30 4.1 Đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu tiếng Việt 30 4.1.1 Đồ thị thực thể mơ hình xây dựng đồ thị quan hệ thực thể 30 4.1.2 Độ tương đồng ngữ nghĩa câu dựa vào đồ thị quan hệ thực thể 33 4.2 Độ tương đồng ngữ nghĩa câu tiếng Việt 35 4.3 Mơ hình tóm tắt đa văn bản tiếng Việt 36 4.4 Mơ hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn bản 39 4.5 Tóm tắt chương bốn 40 Chương Thực nghiệm đánh giá 41 5.1 Môi trường thực nghiệm 41 5.2 Quá trình thực nghiệm 42 5.2.1 Thực nghiệm phân tích chủ đề ẩn 42 5.2.2 Thực nghiệm xây dựng đồ thị quan hệ thực thể 43 5.2.3 Thực nghiệm đánh giá độ đo tương đồng 44 5.2.4 Thực nghiệm đánh giá độ xác mơ hình tóm tắt đa văn bản 46 5.2.5 Thực nghiệm đánh giá độ xác mơ hình hỏi đáp 48 Kế t luận 50 Các cơng trình khoa học sản phẩm cơng bố 51 Tài liệu tham khảo 52 iv Danh sách hình vẽ Hình 3.1 Tính độ tương đồng câu với chủ đề ẩn 22 Hình 3.2: Mối quan hệ đồ thị viết đồ thị chủ đề Wikipedia 25 Hình 4.1: Mở rộng mối quan hệ tìm kiếm thực thể liên quan 31 Hình 4.2: Mơ hình xây dựng đồ thị quan hệ thực thể 32 Hình 4.3: Mơ hình tóm tắt đa văn bản tiếng Việt 37 Hình 4.4: Mơ hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn bản 39 v Danh sách bảng Bảng 2.1 Bảng so sánh phương pháp tiếp cận tóm tắt đa văn bản 11 Bảng 2.2 Taxonomy mối quan hệ xuyên văn bản 14 Bảng 4.1: Sự tương quan đồ thị quan hệ thực thể, Wordnet Wikipedia 34 Bảng 4.2 Danh sách độ đo tương đồng ngữ nghĩa câu 36 Bảng 5.1 Các công cụ phần mềm sử dụng trình thực nghiệm 42 Bảng 5.2 Kết quả phân tích chủ đề ẩn 43 Bảng 5.3: 20 từ có phân phối xác suất cao Topic ẩn 97 43 Bảng 5.4 Kết quả liệu thu mơ hình xây dựng đồ thị quan hệ thực thể 44 Bảng 5.5 Một cụm liệu dùng để đánh giá độ tương đồng ngữ nghĩa 45 Bảng 5.6 Độ xác đánh giá 20 cụm liệu tiếng Việt độ đo tương đồng Wiki tiếng Việt 45 Bảng 5.7 Kết quả đánh giá độ đo cụm liệu bảng 5.2 45 Bảng 5.8 Độ xác đánh giá 20 cụm liệu tiếng Việt 10 cụm tiếng Anh 46 Bảng 5.9 Đánh giá kết quả thứ tự văn bản thứ tự 20 câu quan trọng 47 Bảng 5.10 Kết quả tóm tắt trả theo tỷ lệ trích xuất 10 câu 48 Bảng 5.11 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho snippet 48 Bảng 5.12 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho trang web 49 Bảng 5.13 Danh sách số kết quả trả lời hệ thống hỏi đáp 49 vi Bảng từ viết tắt STT Từ hoă ̣c cu ̣m từ Viế t tắ t Maximal Maginal Relevance MMR Question and Answering Q&A (Hệ thống hỏi đáp tự động) Document Understanding Conferences DUC (Hội nghi chuyên hiểu văn bản) Term Frequency TF (Tần suất từ/cụm từ văn bản) vii Mở đầ u Sự phát triển nhanh chóng mạng Internet với bước tiến mạnh mẽ công nghệ lưu trữ, lượng thông tin lưu trữ trở nên vô lớn Thông tin sinh liên tục ngày mạng Internet, lượng thông tin văn bản khổng lồ đó mang lại lợi ích khơng nhỏ cho người, nhiên, khiến khó khăn việc tìm kiếm tổng hợp thông tin Giải pháp cho vấn đề tóm tắt văn tự động Tóm tắt văn bản tự động xác định toán thuộc lĩnh vực khái phá liệu văn bản; việc áp dụng tóm tắt văn bản giúp người dùng tiết kiệm thời gian đọc, cải thiện tìm kiếm tăng hiệu quả đánh mục cho máy tìm kiếm Từ nhu cầu thực tế thế, tốn tóm tắt văn bản tự động nhận quan tâm nghiên cứu nhiều nhà khoa học, nhóm nghiên cứu cơng ty lớn thế giới Các báo liên quan đến tóm tắt văn bản xuất nhiều hội nghị tiếng : DUC1 2001-2007, TAC2 2008, ACL3 2001-2007… bên cạnh phát triển hệ thống tóm tắt văn bản : MEAD, LexRank, Microsoft Word (Chức AutoSummarize)… Một vấn đề thách thức quan tâm năm gần tốn tóm tắt văn bản tự động đưa kết quả tóm tắt cho tập văn bản liên quan với mặt nội dung hay cịn gọi tóm tắt đa văn Bài tốn tóm tắt đa văn xác định tốn có độ phức tạp cao Đa số người nghĩ rằng, tóm tắt đa văn bản việc áp dụng tóm tắt đơn văn bản cho văn bản ghép từ văn bản tập văn bản cho trước Tuy nhiên điều hồn tồn khơng xác, thách thức lớn vấn đề tóm tắt đa văn liệu đầu vào có nhập nhằng ngữ nghĩa nội dung văn bản với văn bản khác tập văn bản hay trình tự thời gian trình bày Document Understanding Conference http://duc.nist.gov Text Analysis Conference http://www.nist.gov/tac Association for Computational Linguistics http://aclweb.org văn bản khác nhau, để đưa kết quả tóm tắt tốt vơ khó khăn [EWK] Rất nhiều ứng dụng cần đến q trình tóm tắt đa văn bản như: hệ thống hỏi đáp tự động (Q&A System), tóm tắt báo cáo liên quan đến kiện, tóm tắt cụm liệu trả từ trình phân cụm máy tìm kiếm… Hướng nghiên cứu ứng dụng tốn tóm tắt đa văn bản vào việc xây dựng hệ thống hỏi đáp tự động hướng nghiên cứu cộng đồng nghiên cứu tóm tắt văn bản năm gần Rất nhiều nghiên cứu cho thấy rằng, việc sử dụng phương pháp tóm tắt đa văn bản dựa vào câu truy vấn (Query-based multi-document summarization) kho liệu tri thức để đưa văn bản tóm tắt trả lời cho câu hỏi người sử dụng đạt nhiều kết quả khả quan thể hướng tiếp cận đắn việc xây dựng mơ hình hỏi đáp tự động [Ba07,YYL07] Với việc lựa chọn đề tài “Tóm tắt đa văn dựa vào trích xuất câu”, chúng tơi tập trung vào việc nghiên cứu, khảo sát, đánh giá đề xuất phương pháp tóm tắt đa văn bản phù hợp với ngôn ngữ tiếng Việt, bên cạnh áp dụng phương pháp vào việc xây dựng mơ hình hệ thống hỏi đáp tiếng Việt Ngồi phần mở đầu kết luận, luận văn được tổ chức thành chương sau:  Chương 1: Khái qt tốn tóm tắt giới thiệu khái qt tốn tóm tắt văn bản tự động nói chung tốn tóm tắt đa văn bản nói riêng, trình bày số khái niệm cách phân loại tốn tóm tắt  Chương 2: Tóm tắt đa văn dựa vào trích xuất câu giới thiệu chi tiết hướng tiếp cận, thách thức vấn đề giải qút tốn tóm tắt đa văn bản dựa vào trích xuất câu  Chương 3: Độ tương đồng câu phương pháp tăng cường tính ngữ nghĩa cho độ tương đồng câu trình bày nghiên cứu phương pháp tính độ tương đồng ngữ nghĩa câu tiêu biểu áp dụng vào trình trích xuất câu quan trọng văn bản  Chương 4: Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu áp dụng vào mơ hình tóm tắt đa văn tiếng Việt phân tích, đề xuất phương pháp tích hợp thuật tốn để giải qút tốn tóm tắt đa văn bản tiếng Việt trình bày việc áp dụng phương pháp đề xuất để xây dựng mơ hình hệ thống hỏi đáp tiếng Việt đơn giản  Chương 5: Thực nghiệm đánh giá trình bày trình thử nghiệm luận văn đưa số đánh giá, nhận xét kết quả đạt Chương Khái qt tốn tóm tắt văn 1.1 Bài tốn tóm tắt văn tự động Vào năm 1958, Luhn IBM trình bày phương pháp tóm tắt tự động cho báo kĩ thuật sử dụng phương pháp thống kê thông qua tần suất phân bố từ văn bản [Lu58] Tuy nhiên cho đến năm cuối thế kỷ 20, với phát triển Internet, lượng thông tin bùng nổ nhanh chóng, việc thu nhận thơng tin quan trọng trở thành vấn đề thiết yếu tốn tóm tắt văn bản tự động quan tâm thiết thực nhiều nhà nghiên cứu Theo Inderjeet Mani, mục đích tóm tắt văn bản tự động là: “Tóm tắt văn tự động nhằm mục đích trích xuất nội dung từ nguồn thơng tin trình bày nội dung quan trọng cho người sử dụng theo khn dạng súc tích gây cảm xúc người sử dụng chương trình cần đến” [MM99] Việc đưa văn bản kết quả tóm tắt có chất lượng văn bản người làm mà không bị giới hạn miền ứng dụng xác định khó khăn Vì vậy, tốn giải qút tóm tắt văn bản thường hướng đến kiểu văn bản cụ thể kiểu tóm tắt cụ thể 1.2 Một số khái niệm tốn tóm tắt phân loại tóm tắt - Tỷ lệ nén(Compression Rate): độ đo thể thông tin cô đọng văn bản tóm tắt tính cơng thức: CompressionRate  SummaryLength SourceLength SummaryLength: Độ dài văn bản tóm tắt SourceLength: Độ dài văn bản nguồn - Độ bật hay liên quan(Salience or Relevance): trọng số gán cho thông tin văn bản thể độ quan trọng thơng tin tồn văn bản hay để liên quan thơng tin chương trình người sử dụng 4 JGibbsLDA Tác giả: Nguyễn Cẩm Tú Công dụng: Xây dựng phân tích chủ đề ẩn Mulgara Tác giả: Northrop Grumman Corporation Website: http://www.mulgara.org Công dụng: Lưu trữ mạng ngữ nghĩa Wikipedia đồ thị quan hệ thực thể nển tảng công nghệ semantic web Lingpipe Tác giả: Alias-i Website: http://alias-i.com/lingpipe Công dụng: Nhận dạng tên thực thể (NER) tiếng Anh Bảng 5.1 Các công cụ phần mềm sử dụng trình thực nghiệm 5.2 Q trình thực nghiệm 5.2.1 Thực nghiệm phân tích chủ đề ẩn  Dữ liệu phân tích chủ đề ẩn: – Bộ liệu 125 topic (vnexp-lda4-125topics) phân tích JGibbsLDA kho liệu báo thu thập từ trang web Vnexpress Sau trình phân tích chủ đề ẩn câu xác định nằm chủ đề xác định trước liệu chủ đề ẩn Ví dụ: STT Các chủ đề câu Câu Cắt giảm thuế Topic_48 Topic_97 Tiếp tục giảm thuế nhiều mặt hàng nhập Topic_97 Những mặt hàng nằm diện cắt giảm thuế Topic_16 Topic_33 Topic_54 thời gian tới gồm rượu, bia, thuốc lá, cà Topic_62 Topic_97 Topic_106 42 phê, dầu thực vật, thịt chế biến Topic_123 Theo yêu cầu Chính phủ Liên Tài – Cơng thương tiếp tục thực lộ trình giá thị trường mặt hàng chiến lược có kiểm sốt Nhà Nước, nhằm khún khích cạnh tranh, hạn chế độc quyền Topic_13 Topic_33 Topic_41 Topic_47 Topic_67 Topic_78 topic_105 Topic_105 Topic_115 Topic_122 Bảng 5.2 Kết quả phân tích chủ đề ẩn Dễ dàng nhận thấy câu có nội dung liên quan đến chủ đề “Thuế” thấy xuất Topic_97 q trình phân tích chủ đề Dưới 20 từ có phân phối xác suất cao Topic_97: Topic 97: thương_mại 0.051798 11 kinh_tế 0.010271 wto 0.038748 12 hiệp_định 0.010070 đàm_phán 0.028651 13 phát_triển 0.009695 gia_nhập 0.021578 14 tự_do 0.009162 thành_viên 0.017416 15 tổ_chức 0.007909 nhập_khẩu 0.015039 16 dệt 0.007175 cam_kết 0.014520 17 asean 0.007131 thuế 0.013109 18 đạt 0.007117 xuất_khẩu 0.011164 19 bộ_trưởng 0.006872 10 vấn_đề 0.010848 20 nơng_nghiệp 0.006757 Bảng 5.3: 20 từ có phân phối xác suất cao Topic ẩn 97 5.2.2 Thực nghiệm xây dựng đồ thị quan hệ thực thể  Dữ liệu xây dựng đồ thị quan hệ thực thể: – Dữ liệu mồi: 200 thực thể tiếng Việt 200 thực thể tiếng Anh thuộc lĩnh vực: Địa danh, tổ chức, nhân vật Thực nghiệm kết quả q trình thực thi mơ hình xây dựng đồ thị quan hệ thực thể đề xuất mục 4.1.1 cài đặt Trong thực nghiệm này, đồ thị 43 quan hệ thực thể xây dựng cho ngôn ngữ tiếng Anh tiếng Việt Phương pháp nhận dạng tên thực thể(NER) áp dụng mô hình này: Đối với tiếng Anh: mơ hình học máy CRF, sử dụng công cụ Lingpipe Api Đối với tiếng Việt: sử dụng biểu thức quy Ngơn ngữ Số lượng thu Số lượng quan hệ Thời gian thực thi Tiếng Anh 48.365 thực thể 72.619 quan hệ ngày Tiếng Việt 21.693 thực thể 32.774 quan hệ ngày Bảng 5.4 Kết quả liệu thu mơ hình xây dựng đồ thị quan hệ thực thể 5.2.3 Thực nghiệm đánh giá độ đo tương đồng  Dữ liệu Wikipedia: – 99.679 viết Wikipedia Tiếng Việt (23/10/2009) – Download địa chỉ: http://download.wikimedia.org/viwiki/20091023  Dữ liệu từ điển: – Từ điển đồng nghĩa: gồm 2393 nhóm từ đồng nghĩa phát triển dựa “Từ điển đồng nghĩa” Nguyễn Văn Tu, NXB Đại học Trung học chuyên nghiệp, 1985  Dữ liệu đánh giá độ đo tương đồng ngữ nghĩa câu: – Sử dụng 20 cụm: cụm gồm 3-5 cặp câu, đánh giá tay theo thứ tự độ tương đồng mặt ngữ nghĩa (Thứ tự thấp độ tương đồng cao) Ví dụ: Số thứ tự Câu thứ Câu thứ hai Tơi thích Hà Nội Anh u Hồ Gươm Tơi thích Hà Nội Em mến người Hà Thành 44 Xếp hàng tay Tơi thích Hà Nội Cơ ngắm nhìn Tháp rùa Tơi thích Hà Nội Bạn thích Hà Giang Bảng 5.5 Một cụm liệu dùng để đánh giá độ tương đồng ngữ nghĩa Các bước tiến hành thực nghiệm: Tính độ đo tương đồng cặp câu độ đo khác nhau, sắp - xếp theo thứ tự gần mặt ngữ nghĩa thứ tự thấp Độ xác tính số lượng câu giữ thứ tự xếp hạng - tay gán cho tập liệu thực nghiệm Sử dụng liệu để tiến hành đánh giá, lựa chọn độ đo tương đồng câu phù hợp với Wiki tiếng Việt Các độ đo nêu mục 3.3.3 Ngôn ngữ PL LC WP Resnik RC Lin Tiếng Việt 56% 70% 66% 38% 52% 48% Bảng 5.6 Độ xác đánh giá 20 cụm liệu tiếng Việt độ đo tương đồng Wiki tiếng Việt Dựa vào kết quả thực nghiệm cho thấy, độ đo Leacock & Chodorow(LC) cho kết quả tốt so với độ đo khác Trong thực nghiệm tiếp theo độ đo tương đồng ngữ nghĩa câu sử dụng cho Wiki mặc định độ đo LC Ví dụ: sử dụng độ đo tương đồng để đánh giá ví dụ nêu bảng 5.2 Số thứ tự câu Cos EntG Wiki Hidden All_1 All_2 2 2 2 1 3 4 3 1 3 4 Bảng 5.7 Kết quả đánh giá độ đo cụm liệu bảng 5.2 45 Dưới thực nghiệm đánh giá độ xác độ tương đồng 20 cụm liệu Trong thực nghiệm này, liệu thực nghiệm tiếng Anh 10 cụm, tác giả sử dụng hai độ đo tương đồng Cosine đồ thị quan hệ thực để đánh giá Ngôn ngữ Cos Hidden Wiki EntG All_1 All_2 Tiếng Việt 56% 76% 70% 68% 80% 88% Tiếng Anh 68% ~ ~ 78% ~ ~ Bảng 5.8 Độ xác đánh giá 20 cụm liệu tiếng Việt 10 cụm tiếng Anh Kết quả thực nghiệm cho thấy việc độ đo tương đồng ngữ nghĩa All_2 cho kết quả tốt độ đo khác Trong thực nghiệm tiếp theo, tác giả sử dụng All_2 làm đo tương đồng ngữ nghĩa 5.2.4 Thực nghiệm đánh giá độ xác mơ hình tóm tắt đa văn  Dữ liệu đánh giá độ mơ hình tóm tắt đa văn bản: – Sử dụng cụm trả từ trình phân cụm máy tìm kiếm tiếng Việt VnSen: cụm gồm 8-10 văn bản Các văn bản cụm 20 câu quan trọng văn bản sắp xếp tay dựa vào độ tương đồng văn bản/câu với nhãn cụm Độ xác tính số lượng văn bản/câu giữ thứ tự xếp hạng tay gán cho tập liệu thực nghiệm Cụm Số lượng Số lượng văn câu Độ Nhãn cụm xác thứ tự văn 10 216 Lãi suất tiết kiệm 116 Cắt giảm thuế 46 Độ xác thứ tự 20 câu quan trọng 80% 80% 87.5% 85% 127 Cơng cụ tìm kiếm Google 101 86 87.5% 80% Laptop giá rẻ 75% 75% Dịch tiêu chảy 75% 70% Bảng 5.9 Đánh giá kết quả thứ tự văn bản thứ tự 20 câu quan trọng Đối với cụm văn bản có nhãn “Lãi suất tiết kiệm”, với tỷ lệ trích xuất 10 câu, kết quả tóm tắt trả theo đánh giá trực quan tương đối tốt Văn tóm tắt [8][7] Hôm qua, Dong A Bank thông báo tăng lãi suất tiền gửi tiết kiệm VND dành cho khách hàng cá nhân với mức tăng bình quân 0,06% tháng [9][2] "Lãi suất ngân hàng cao Ai muốn bán tháo cổ phiếu lấy tiền gửi tiết kiệm không được, phải vất vả lắm bán thành công", chị Phúc cười vui vẻ [1][1] Lãi suất tiết kiệm đụng mốc 15% [10][1] Đổ xô đến ngân hàng gửi tiền ngắn hạn [10][25] Tuy nhiên, nhiều nhà băng ước đoán lượng gửi tiền với kỳ hạn ngắn chiếm ưu thế so với gửi tiết kiệm lâu dài [10][4] Cịn Ngân hàng Phương Đơng, chị Linh chuẩn bị sẵn 70 triệu đồng từ cuối tuần để gửi tiết kiệm linh hoạt 12 tháng [2][23] Một lãnh đạo ngân hàng VP nhận định: “Trong tuần có nhiều biến động lãi suất ngân hàng theo dõi động thái để điều chỉnh kịp thời mức lãi suất Chỉ có giữ chân khách hàng” [7][19] Mỗi tháng doanh nghiệp toán lãi tháng cho nhà băng gần 10 triệu đồng [7][11] Lãi suất cho vay ngân hàng điều chỉnh, cộng với tình hình số nhà băng ngừng cho vay tác động tức thời đến doanh nghiệp có nhu cầu vay tiền vào thời điểm [7][1] Lâm thế kẹt ngân hàng điều chỉnh cho vay 47 Bảng 5.10 Kết quả tóm tắt trả theo tỷ lệ trích xuất 10 câu (hai số đầu dòng tương ứng thứ tự văn cụm thứ tự câu văn bản) 5.2.5 Thực nghiệm đánh giá độ xác mơ hình hỏi đáp  Dữ liệu đánh giá hệ thống hỏi đáp: – Dữ liệu: 500 câu hỏi dịch có lựa chọn chỉnh sửa từ liệu TREC (Lấy từ công cụ OpenEphyra) Các câu hỏi đưa kiểm tra trước máy tìm kiếm xem có xuất câu trả lời snippet trả hay không Đô tương đồng Số trả lời Độ xác Thời gian trả lời trung bình Cos 67 13.4% 30 giây Hidden 288 57.6% phút Wiki 242 48.4% 25 phút EntG 217 43.4% 15 phút All_1 318 63.6% 35 phút All_2 376 75.2% 40 phút Bảng 5.11 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho snippet Đơ tương đồng Số trả lời Độ xác Thời gian trả lời trung bình Cos 101 21.6% phút Hidden 306 61.2% phút Wiki 204 40.8% 45phút EntG 225 45.0% giờ 15 phút All_1 359 71.8% giờ 30 phút 48 All_2 389 77.8% giờ *Tốc độ khơng tính thời gian download trang web Bảng 5.12 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho trang web Với thực nghiệm đánh giá độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho trang Web trên, độ xác đạt cao, nhiên thời gian trả lời trung bình mơ hình q cao việc tìm kiếm tính tốn đồ thị với số lượng nút lớn tiêu tốn nhiều thời gian cấu hình máy thực thực nghiệm thấp Trong tương lai, tác giả tiến hành cải tiến việc đánh mục cho đồ áp dụng phương pháp tăng tốc độ tìm kiếm tính tốn đồ thị để áp dụng giải thuật cho việc tính tốn online Câu hỏi Câu trả lời Người tìm châu mỹ ? Ai biết Cơ-lơm-bơ người tìm châu Mỹ Nhạc sĩ sáng tác hát người hà nội ? Người Hà Nội hát nhạc sĩ Nguyễn Đình Thi sáng tác Cà chua có tác dụng sức khỏe ? Cà chua có tác dụng phịng chống ung thư vú, ung thư dày Bác Hồ sang pháp năm ? Mùa hè năm 1911, Bác đặt chân lên đất Pháp, Bác Người sáng lập google ? Tờ Financial Times bình chọn hai nhà đồng sáng lập cơng cụ tìm kiếm Google, Sergey Brin Larry Page, 32 tuổi Người đàn ông năm … … Bảng 5.13 Danh sách số kết quả trả lời hệ thống hỏi đáp 49 Kế t luâ ̣n Những vấ n đề đã được giải quyế t luận văn Luận văn tiến hành nghiên cứu giải qút tốn tóm tắt đa văn bản tiếng Việt dựa vào trích xuất câu Bài tốn xác định tốn có độ phức tạp cao tảng nhiều ứng dụng thực tế Phương pháp giải quyết luận văn tập trung vào việc tăng cường tính ngữ nghĩa cho độ đo tương đồng hai câu q trình trích xuất câu quan trọng tập liệu đầu vào Dựa vào nghiên cứu chủ đề ẩn, mạng ngữ nghĩa Wikipedia phương pháp tác giả luận văn đề xuất, luận văn đưa độ đo tương đồng ngữ nghĩa câu để xây dựng mơ hình tóm tắt đa văn bản tiếng Việt Hơn nữa, luận văn trình bày mơ hình hệ thống hỏi đáp tiếng Việt áp dụng tóm tắt đa văn bản sử dụng liệu máy tìm kiếm tiếng Google, Yahoo làm tri thức Quá trình thực nghiệm đạt kết quả khả quan, cho thấy tính đắn việc lựa chọn kết hợp phương pháp, đồng thời hứa hẹn nhiều tiềm phát triển hồn thiện Cơng viê ̣c nghiên cứu tương lai - Phát triển mở rộng đồ thị quan hệ thực thể, nghiên cứu xây dựng phân cấp chủ đề thực thể cho đồ thị - Nghiên cứu áp dụng số giải thuật tính tốn độ tương đồng ngữ nghĩa mạng ngữ nghĩa để cải tiến mơ hình tóm tắt đa văn bản tiếng Việt - Cải tiến trình lưu trữ đánh mục để tăng tốc cho việc tìm kiếm tính tốn đồ thị, qua tăng tốc độ trả lời câu hỏi cho mơ hình hỏi đáp tiếng Việt - Xây dựng triển khai hệ thống hỏi đáp tiếng Việt cho người sử dụng 50 Các cơng trình khoa học sản phẩm công bố [VVU09] Vu Tran Mai, Vinh Nguyen Van, Uyen Pham Thu, Oanh Tran Thi and Thuy Quang Ha (2009) An Experimental Study of Vietnamese Question Answering System, International Conference on Asian Language Processing (IALP 2009): 152-155, Dec 7-9, 2009, Singapore [VUH08] Trần Mai Vũ, Phạm Thị Thu Uyên, Hoàng Minh Hiền, Hà Quang Thụy (2008) Độ tương đồng ngữ nghĩa hai câu áp dụng vào toán sử dụng tóm tắt đa văn để đánh giá chất lượng phân cụm liệu máy tìm kiếm VNSEN, Hội thảo Công nghệ Thông tin & Truyền thông lần thứ (ICTFIT08): 94-102, ĐHKHTN, ĐHQG TP Hồ Chí Minh, Thành phố Hồ Chí Minh, 2008 Sản phẩm phần mềm [VTTV09] Trần Mai Vũ, Vũ Tiến Thành, Trần Đạo Thái, Nguyễn Đức Vinh (2009) Máy tìm kiếm giá cả, http://vngia.com 51 Tài liệu tham khảo Tiếng Việt [MB09] Lương Chi Mai Hồ Tú Bảo (2009) Báo cáo Tổng kết đề tài KC.01.01/0610 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt" Về xử lý tiếng Việt công nghệ thông tin (2006), Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Việt Nam, 2009 Tiếng Anh [Ba07] Barry Schiffman (2007) Summarization for Q&A at Columbia University for DUC 2007, In Document Understanding Conference 2007 (DUC07), Rochester, NY, April 26-27, 2007 [BE97] Regina Barzilay and Michael Elhadad Using Lexical Chains for Text Summarization, In Advances in Automatic Text Summarization (Inderjeet Mani and Mark T Maybury, editors): 111–121, The MIT Press, 1999 [BKO07] Blake,C., Kampov, J., Orphanides, A., West,D., & Lown, C (2007) UNCCH at DUC 2007: Query Expansion, Lexical Simplification, and Sentence Selection Strategies for Multi-Document Summarization, In DUC07 [BL06] Blei, M and Lafferty, J (2006) Dynamic Topic Models, In the 23th International Conference on Machine Learning, Pittsburgh, PA [BME02] Regina Barzilay, Noemie Elhadad, and Kathleen R McKeown (2002) Inferring strategies for sentence ordering in multidocument news summarization, Journal of Artificial Intelligence Research: 35–55, 2002 [BME99] Barzilay R., McKeown K., and Elhadad M Information fusion in the context of multidocument summarization, Proceedings of the 37th annual meeting of the Association for Computational Linguistics: 550–557, New Brunswick, New Jersey, 1999 52 [BMI06] D Bollegara, Y Matsuo, and M Ishizuka (2006) Extracting key phrases to disambiguate personal names on the web, In CICLing 2006 [CG98] Jaime Carbonell, Jade Goldstein (1998) The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, In SIGIR-98, Melbourne, Australia, Aug 1998 [CSO01] John M Conroy, Judith D Schlesinger, Dianne P O'Leary, Mary Ellen Okurowski (2001) Using HMM and Logis-tic Regression to Generate Extract Summaries for DUC, In DUC 01, Nat’l Inst of Standards and Technology, 2001 [Ed69] H Edmundson (1969) New methods in automatic abstracting, Journal of ACM, 16 (2):264-285, 1969 [EWK] Website: http://en.wikipedia.org/wiki/Multi-document_summarization [FMN07] K Filippova, M Mieskes, V Nastase, S Paolo Ponzetto, M Strube (2007) Cascaded Filtering for Topic-Driven Multi-Document Summarization, In EML Research gGmbH, 2007 [GMC00] Jade Goldstein, Vibhu Mittal, Jaime Carbonell, Mark Kantrowitz (2000) Multi-Document Summarization By Sentence Extraction, 2000 [HHM08] Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh (2008) Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, In The 17th International World Wide Web Conference, 2008 [HMR05] B Hachey, G Murray, D Reitter (2005) Query-Oriented Multi-Document Summarization With a Very Large Latent Semantic Space, In The Embra System at DUC, 2005 [Ji98] H Jing (1998) Summary generation through intelligent cutting and pasting of the input document, Technical Report, Columbia University, 1998 [KST02] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu (2002) Bleu: a method for automatic evaluation of machine translation, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL): 311–318, 2002 53 [LH03] Chin-Yew Lin and Eduard Hovy (2003) Automatic evaluation of summaries using n-gram co-occurrence statistics, In Human Technology Coference 2003 [LH97] Chin-Yew Lin and Eduard Hovy (1997) Identifying topics by position, Fifth Conference on Applied Natural Language Processing: 283–290, 1997 [LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett (2006) Sentence Similarity Based on Semantic Nets and Corpus Statistics, IEEE Trans Knowl Data Eng 18(8): 1138-1150 [Lu58] H Luhn (1958) The automatic creation of literature abstracts, IBM Journal of Research and Development, 2(2):159-165, 1958 [Ma01] Inderjeet Mani (2001) Automatic Summarization, John Benjamins Publishing Co., 2001 [Mi04] Nguyen Le Minh (2004) Statistical Machine Learning Approaches to Cross Language Text Summarization, PhD Thesis, School of Information Science Japan Advanced Institute of Science and Technology, September 2004 [MM99] Inderjeet Mani and Mark T Maybury (eds) (1999) Advances in Automatic Text Summarization, MIT Press, 1999, ISBN 0-262-13359-8 [MR95] Kathleen R McKeown and Dragomir R Radev (1995) Generating summaries of multiple news articles, ACM Conference on Research and Development in Information Retrieval (SIGIR’95): 74–82, Seattle, Washington, July 1995 [PKC95] Jan O Pendersen, Kupiec Julian and Francine Chen (1995) A trainable document summarizer, Research and Development in Information Retrieval: 68– 73, 1995 [PSM07] Ponzetto, Simone Paolo, and Michael Strube (2007) Knowledge Derived from Wikipedia For Computing Semantic Relatedness, Journal of Artificial Intelligence Research, 30: 181-212, 2007 54 [Ra00] Dragomir Radev (2000) A common theory of information fusion from multiple text sources, step one: Cross-document structure, In 1st ACL SIGDIAL Workshop on Discourse and Dialogue, Hong Kong, October 2000 [RFF05] Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro (2005) Semantic Similarity Between Sentences Through Approximate Tree Matching IbPRIA (2): 638-646, 2005 [RJS04] Dragomir R Radev, Hongyan Jing, Malgorzata Sty´s, and Daniel Tam (2004) Centroid-based summarization of multiple documents, Information Processing and Management, 40:919–938, December 2004 [SD08] P Senellart and V D Blondel (2008) Automatic discovery of similar words Survey of Text Mining II: Clustering, Classification and Retrieval (M W Berry and M Castellanos, editors): 25–44, Springer-Verlag, January 2008 [Sen07] Pierre Senellart (2007) Understanding the Hidden Web, PhD thesis, Université Paris-Sud, Orsay, France, December 2007 [SP06] Strube, M & S P Ponzetto (2006) WikiRelate! Computing semantic relatedness using Wikipedia, In Proc of AAAI-06, 2006 [STP06] Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey (2006) Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications: 94-98, Chiang Mai, Thailand, December 2006 [Su05] Sudarshan Lamkhede Multi-document summarization using concept chain graphs, Master Thesis, Faculty of the Graduate School of the State University of New York at Buffalo, September 2005 [Tu08] Nguyen Cam Tu (2008) Hidden Topic Discovery Toward Classification And Clustering In Vietnamese Web Documents, Master Thesis, Coltech of Technology, Viet Nam National University, Ha Noi, Viet Nam, 2008 55 [VSB06] Lucy Vanderwende, Hisami Suzuki, Chris Brockett (2006) Task-Focused Summarization with Sentence Simplification and Lexical Expansion, Microsoft Research at DUC2006, 2006 [WC07] R Wang and W Cohen (2007) Language-independent set expansion of named entities using the web, In ICDM07, 2007 [YYL07] J.-C Ying, S.-J Yen, Y.-S Lee, Y.-C Wu, J.-C Yang (2007) Language Model Passage Retrieval for Question-Oriented Multi Document Summarization, DUC 07, 2007 [ZG07] T Zesch and I Gurevych (2007) Analysis of the Wikipedia Category Graph for NLP Applications, In Proc of the TextGraphs-2 Workshop, NAACL-HLT, 2007 [ZGM07] Torsten Zesch, Iryna Gurevych, and Max Muhlhauser (2007) Comparing Wikipedia and German Word-net by Evaluating Semantic Relatedness on Multiple Datasets, In Proceedings of NAACL-HLT, 2007 56 ... cao cộng đồng nghiên cứu tóm tắt văn bản 2.4 Tóm tắt đa văn dựa vào trích xuất câu Tóm tắt đa văn bản dựa vào trích xuất câu phương pháp giải qút tốn tóm tắt đa văn bản theo hướng tiếp... tóm tắt văn bản tự động Trong chương tiếp theo, luận văn làm rõ vấn đề tốn tóm tắt đa văn bản nói chung tốn tóm tắt đa văn bản dựa vào trích xuất câu nói riêng Chương Tóm tắt đa văn dựa. .. vào: tùy vào số lượng đầu vào toán tóm tắt, người ta chia tóm tắt thành tóm tắt đa văn bản, tóm tắt đơn văn bản Tóm tắt đơn văn bản đầu vào văn bản đơn, đầu vào tóm tắt đa văn bản

Ngày đăng: 16/03/2021, 12:30

Mục lục

  • Mục lục

  • Mơ đâu

  • Chương 1. Khái quát bài toán tóm tắt văn bản

  • 1.1. Bài toán tóm tắt văn bản tự động

  • 1.2. Một số khái niệm của bài toán tóm tắt và phân loại tóm tắt

  • 1.3. Tóm tắt đơn văn bản

  • 1.4. Tóm tắt đa văn bản

  • 1.5. Tóm tắt chương một

  • 2.1. Hướng tiếp cận của bài toán tóm tắt đa văn bản

  • 2.2. Các thách thức của quá trình tóm tắt đa văn bản

  • 2.3. Đánh giá kết quả tóm tắt

  • 2.4. Tóm tắt đa văn bản dựa vào trích xuất câu

  • 2.5. Tóm tắt chương hai

  • 3.1. Độ tương đồng

  • 3.2. Độ tương đồng câu

  • 3.3. Các phương pháp tính độ tương đồng câu

  • 3.3.1. Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine

  • 3.3.2. Phương pháp tính đô tương đồng câu dựa vào chủ đề ẩn

  • 3.3.3. Phương pháp tính độ tương đồng câu dựa vào Wikipedia

  • 3.4. Tóm tắt chương ba

Tài liệu cùng người dùng

Tài liệu liên quan