1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt đa văn bản tiếng việt dựa vào trích xuất câu

55 15 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 815,97 KB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN THỊ NỤ TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT DỰA VÀO TRÍCH XUẤT CÂU Chuyên ngành : Công nghệ thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT Công nghệ thông tin NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS Lê Thanh Hương Hà Nội – Năm 2014 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu LỜI CAM ĐOAN Họ tên học viên: Nguyễn Thị Nụ Chuyên ngành: Công nghệ thông tin SHHV: CB120102 Lớp: CH2012B Người hướng dẫn: PGS.TS Lê Thanh Hương Đơn vị: Viện Công nghệ Thông tin - Truyền thông Tên đề tài : Tóm tắt đa văn tiếng việt dựa vào trích xuất câu Tơi – Nguyễn Thị Nụ- Cam kết Luận văn cơng trình nghiên cứu thân hướng dẫn PGS.TS Lê Thanh Hương Các kết nêu Luận trung thực, khơng phải chép tồn văn cơng trình khác Hà Nội, ngày tháng năm2014 Tác giả Luận văn Nguyễn Thị Nụ Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cám ơn chân thành tới thày cô giáo thuộc trường Đại học Bách Khoa Hà Nội, người tận tình dạy tất kiến thức chuyên ngành cho em suốt trình học tập nghiên cứu trường Trong trình thực Luận văn tốt nghiệp em học hỏi thêm nhiều điều, hội để em tổng kết kiến thức học, đồng thời rút kinh nghiệm quý báu Em xin chân thành cảm ơn hướng dẫn tận tình cô giáo, PGS TS Lê Thanh Hương- môn Hệ thống thông tin – Viện Công Nghệ Thông Tin Truyền Thông - trường Đại học Bách Khoa Hà Nội Luận văn hoàn thành mức độ định Bên cạnh kết đạt được, chắn em khơng tránh khỏi thiếu sót hạn chế Sự phê bình, nhận xét thầy học quý báu cho công việc nghiên cứu em sau Em xin gửi lời cảm ơn sâu sắc đến gia đình, bạn bè bên, ủng hộ, động viên tinh thần cho em suốt trình thực đồ án Xin kính chúc q thầy mạnh khỏe, hạnh phúc, tiếp tục đạt nhiều thành công nghiên cứu khoa học nghiệp trồng người Hà Nội, tháng năm 2014 Sinh viên thực Nguyễn Thị Nụ Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu TĨM TẮT NỘI DUNG LUẬN VĂN TỐT NGHIỆP Cùng với tăng trưởng không ngừng lượng liệu trực tuyến có sẵn nhu cầu tóm tắt văn tự động nhằm nắm bắt thơng tin cách đầy đủ, hiệu quả, nhanh chóng, nhiều tài liệu trùng lặp nội dung Do đó, tốn tóm tắt đa văn nhận quan tâm đặc biệt cộng đồng xử lý ngơn ngữ tự nhiên tính ứng dụng thực tiễn quan trọng Tuy nhiên, tốn khó đặc thù đầu vào văn nhập nhằng mặt nội dung, trình tự thời gian trình bày chúng khác Bài tốn tóm tắt đa văn tiếng Việt cịn gặp khó khăn nhiều tính phức tạp miền ngơn ngữ Bên cạnh đó, cơng trình nghiên cứu liên quan hạn chế số lượng lẫn chất lượng Vì vậy, luận văn khảo sát, nghiên cứu đề xuất mơ hình tóm tắt đa văn tiếng Việt sử dụng phương pháp xếp hạng từ vựng dựa đồ thị Việc tiến hành thực nghiệm cho kết khả quan, với độ đo F1 đạt khoảng 52% Từ cho thấy hướng đắn, hiệu việc xây dựng mơ hình tóm tắt đa văn tiếng Việt mà luận văn đưa Từ khóa: tóm tắt đa văn bản, xếp hạng từ vựng, tiếng Việt, tự động Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu ABSTRACT OF THE THESIS Along with the rapid growth of online information is the need to summarize documents automatically It aims to capture information completely, efficiently and quickly, especially when many documents are likely to repeat much the same content Therefore, multi-document summarization has attracted attention from the Natural Language Processing community There is a difficult problem because the ambiguity of the input content has posed several challenges This thesis proposes a new method for multi-document summarization on Vietnamese by using a graph representation for text As a result, a model was built to extract sentences based on the lexical ranking algorithm Keywords: multi-document summarization, lexical ranking, automotically Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN TÓM TẮT NỘI DUNG LUẬN VĂN TỐT NGHIỆP ABSTRACT OF THE THESIS MỤC LỤC DANH MỤC BẢNG VÀ HÌNH VẼ MỞ ĐẦU CHƯƠNG I: GIỚI THIỆU BÀI TOÁN TÓM TẮT ĐA VĂN BẢN 13 1.1 Khái quát tốn tóm tắt 13 1.1.1 Bài tốn tóm tắt văn tự động 13 1.1.2 Một số khái niệm tốn tóm tắt 13 1.1.3 Phân loại tốn tóm tắt 14 1.2 Giới thiệu toán tóm tắt đa văn 15 1.3 Những thách thức tóm tắt đa văn 17 1.4 Ứng dụng tóm tắt đa văn 18 1.5 Phương pháp đánh giá tóm tắt đa văn .20 CHƯƠNG 2: TÓM TẮT ĐA VĂN BẢN DỰA TRÊN TRÍCH XUẤT CÂU 22 2.1 Tóm tắt đa văn dựa trích xuất câu .22 2.2 Hướng tiếp cận trích xuất câu dựa xếp hạng đồ thị .24 2.3 Một số cơng trình tóm tắt văn tiếng Việt 27 2.4 Đánh giá lựa chọn phương pháp phù hợp cho tiếng Việt 28 CHƯƠNG 3: MƠ HÌNH TĨM TẮT ĐA VĂN BẢN TIẾNG VIỆT DỰA TRÊN TRÍCH XUẤT CÂU 30 3.1 Mơ hình tóm tắt đa văn tiếng Việt dựa trích xuất câu .30 3.2 Tiền xử lý liệu 32 3.3 Xây dựng đồ thị từ xếp hạng đồ thị 33 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu 3.3.1 Trích xuất từ khóa quan trọng 33 3.3.2 Xây dựng đồ thị từ vựng 34 3.3.3 Xếp hạng đồ thị từ vựng 34 3.3.4 Một ví dụ cụ thể đồ thị từ vựng 36 3.4 Trích xuất câu sinh văn tóm tắt .38 3.4.1 Tính trọng số cho câu .38 3.4.2 Xếp hạng câu theo độ quan trọng .39 3.4.3 Sinh văn tóm tắt 39 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 40 4.1 Dữ liệu đánh giá mơ hình tóm tắt đa văn 40 4.2 Công cụ thực nghiệm 41 4.2.1 Môi trường thực nghiệm 41 4.2.2 Các thành phần chức cài đặt 42 4.3 Kết xếp hạng từ vựng dựa vào đồ thị 42 4.4 Thực nghiệm tóm tắt đa văn tiếng Việt đánh giá .44 4.5 Một ví dụ kết tóm tắt đa văn tiếng Việt 47 KẾT LUẬN 51 TÀI LIỆU THAM KHẢO 52 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu DANH MỤC BẢNG VÀ HÌNH VẼ Hình 2-1: Đồ thị trích xuất câu cơng trình [5] 26 Hình 2-2: Mơ hình tóm tắt đa văn Mihalcea cộng [6] 27 Hình 3-1: Mơ hình giải tốn tóm tắt đa văn tiếng Việt 30 Hình 3-2: Mơ hình tóm tắt đơn văn tiếng Việt 31 Hình 3-3: Chương trình gắn nhãn từ loại 33 Hình 3-4: Ví dụ trích xuất từ khóa 33 Bảng 4-1: Môi trường thực nghiệm 41 Bảng 4-2: Đánh giá chất lượng xếp hạng từ vựng hai tài liệu 42 Bảng 4-3: Đánh giá tập 200 cụm liệu 45 Bảng 4-4: Đánh giá tập 160 cụm liệu………………… ………………… 46 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu BẢNG CÁC KÝ HIỆU, CHỮ VIẾT TẮT Viết tắt DUC Tiếng Anh Tiếng Việt Document Understanding Hội nghị hiểu văn Conference MMR NITS Maximal Marginal Relevance National Institute of Standards and Technology Natural Language NLP Processing Thuật toán tính biên cực đại tối đa Viện tiêu chuẩn công nghệ quốc gia Xử lý ngôn ngữ tự nhiên Recall Oriented ROUGE Understudy of Gisting Đánh giá độ hồi tưởng Evaluation SUMMON SUMMarizing Online NewS Articles Hệ thống tóm tắt báo, tin tức trực tuyến Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu MỞ ĐẦU Lý chọn đề tài Trong hai mươi năm trở lại đây, nghiên cứu tóm tắt văn tự động phát triển mạnh mẽ miền xử lý ngôn ngữ tự nhiên Những thơng tin dồi sẵn có khoa học, công nghệ Internet báo, hội nghị, tin tức thu hút quan tâm nhóm nghiên cứu khác Các nhóm nghiên cứu làm tóm tắt văn nhà ngơn ngữ học, nhà sinh vật học, nhà nghiên cứu sở liệu, chuyên gia khôi phục thông tin, Tuy nhiên, liệu web lớn nên việc đọc tóm tắt thủ cơng tồn lượng thơng tin khơng thể Từ dẫn tới nhu cầu người dùng có sẵn tóm tắt thích hợp giúp họ quản lý thông tin quan tâm cách hiệu quả, tiết kiệm thời gian đọc thu nhận thông tin cần thiết, tăng hiệu tìm kiếm Theo thời gian, nhiều hệ thống tóm tắt văn tự động đề xuất Hầu hết chúng dựa hướng tiếp cận thống kê, tiêu biểu như: MEAD, LexRank, Microsoft với chức Autosummarize,…Bên cạnh đó, nhiều ứng dụng tiếng áp dụng kỹ thuật tóm tắt văn giải yêu cầu công việc như: Ultimate Research Assistant, iResearch Reporter Newsblaster, NewsInEssence, Ngồi ra, nhiều cơng trình nghiên cứu liên quan tóm tắt văn trình bày chuỗi hội nghị tiếng xử lý ngôn ngữ tự nhiên như: DUC (2001-2007), TAC từ nằm 2008, ACL từ 2001-2007,… Từ năm 1995, tốn tóm tắt văn có bước phát triển nhảy vọt, từ tóm tắt đơn văn sang tóm tắt đa văn nhu cầu tóm tắt nhiều văn liên quan tới chủ đề, kiện Kết đầu tóm tắt nhất, mạch lạc, có tính đại diện cho tập văn liên quan đến Bài tốn tóm tắt đa văn khó tốn tóm tắt đơn văn nhiều thách thức nảy sinh trình xử lý Bởi đầu vào văn liên quan tới chủ đề nên nhập nhằng, trùng lặp nội dung, khác trình tự thời gian trình bày văn với điều không tránh http://duc.nist.gov/ http://www.nist.gov/tac http://aclweb.org Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Dữ liệu đánh giá mơ hình tóm tắt đa văn Để đánh giá mơ hình tóm tắt đa văn tiếng Việt, luận văn sử dụng tập liệu đánh giá tóm tắt đa văn công bố đề tài B2012-01-24 PGS.TS Lê Thanh Hương Cả hai tập liệu thu thập từ trang web Baomoi 17 phân bố tất chuyên mục Baomoi (Thế giới, Xã hội, Văn hóa, KH-CN, Giải trí, Kinh tế, Thể thao, Pháp luật, Sức khỏe) Tập thứ có 200 cụm liệu, có 270667 từ tiếng Việt 628 (Trung bình 431 từ / bài) cụm liệu có từ 3-5 tài liệu tài liệu có tham chiếu người dùng khác viết Số lượng từ tất tham chiếu cụm 200 62526 từ tiếng Việt Độ dài tóm tắt tham chiếu người sinh 3-5 câu Trong khoảng 156 từ tham chiếu Tập thứ hai có 160 cụm liệu, có 117661 từ tiếng Việt 414 (Trung bình 284.21 từ / bài) cụm có từ 3-5 tài liệu tài liệu có tham chiếu Độ dài tóm tắt người sinh 3-5 câu Trung bình từ tham chiếu 93.04375 từ / tham chiếu Dữ liệu cung cấp địa chỉ: https://github.com/lupanh/VietnameseMDS Mô tả cấu trúc cụm liệu Các cụm tài liệu lưu riêng thành thư mục tương ứng (có từ đến tài liệu cụm), tên thư mục tên cụm Trong thư mục, file có thành phần mở rộng sau: info: chứa thông tin id cụm nhãn cụm (nhãn cụm người tạo cụm dựa vào nội dung để đưa ra) ref.txt: tham chiếu người tóm tắt ref.tok.txt: tham chiếu tách câu tách từ sum.txt: tóm tắt máy sinh 17 http://www.baomoi.com/ 40 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu sum.tok.txt: tóm tắt máy sinh tách câu tách từ Các file thư mục tài liệu (tài liệu báo điện tử) thuộc cụm: body.txt: Chứa phần nội dung tài liệu body.tok.txt: Chứa phần nội dung tài liệu tách câu tách từ info.txt: Chứa thông tin khác tài liệu như: link, thời gian viết, tiêu đề tài liệu tóm tắt tài liệu (tóm tắt người tạo tài liệu viết) Mục tiêu tiến hành thực nghiệm kiểm tra tính khả thi mơ hình, mơ hình luận văn đề xuất dựa tìm hiểu phân tích nghiên cứu liên quan Thực nghiệm tiến hành theo pha mơ hình, dựa vào kết thực nghiệm mà luận văn rút nhận xét đánh giá, bổ sung cho mơ hình hồn chỉnh 4.2 Công cụ thực nghiệm 4.2.1 Môi trường thực nghiệm Để cài đặt phần mềm, máy tính cần có yêu cầu sau: - Java SE phiên - Hệ điều hành hỗ trợ Java SE Windows hệ điều hành Linux (Ubuntu/Centos…) - Bộ nhớ Ram yêu cầu tối thiểu: 512MB Các thông số phần cứng hệ thống cài đặt thử nghiệm phương pháp thực thể bảng sau đây: Bảng 4-1: Môi trường thực nghiệm Thành phần Thông số Bộ vi xử lý Intel Core i7-3615QM (2.30GHz x 4) Bộ nhớ 8G 41 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu Bộ nhớ ngồi 250GB SSD Hệ điều hành Window 64bit 4.2.2 Các thành phần chức cài đặt Phần mềm viết ngôn ngữ java (cụ thể luận văn sử dụng eclipse), cho phép chạy nhiều tảng khác Chương trình gồm có mơ đun chính: - Mơ đun chức tiền xử lý - Mô đun biểu diễn liệu đồ thị - Mơ đun hàm tính độ tương tự - Mơ đun tóm tắt đơn đa văn - Mô đun đánh giá hiệu hệ thống 4.3 Kết xếp hạng từ vựng dựa vào đồ thị Việc đánh giá chất lượng xếp hạng từ vựng văn việc tương đối khó khăn, đa phần đánh giá thủ công người Trong phần này, luận văn đưa hai ví dụ kết xếp hạng từ vựng để xem xét chất lượng thuật tốn Văn ví dụ thứ báo có tiêu đề “Tổng thống Hàn thức xin lỗi vụ chìm phà Sewol” đăng địa http://khampha.vn/cuoc-song-doday/tong-thong-han-chinh-thuc-xin-loi-vu-chim-pha-sewol-c29a187753.html Văn ví dụ thứ hai báo có tiêu đề “Quân ủng hộ Nga chặn giữ thành viên OSCE” đăng địa http://hanoimoi.com.vn/Tin-tuc/Thegioi/679147/quan-ung-ho-nga-chan-giu-cac-thanh-vien-osce Bảng 4-2: Đánh giá chất lượng xếp hạng từ vựng hai tài liệu Tài liệu 1: Tổng thống Hàn thức xin lỗi vụ chìm phà Sewol Bà Park nói họp Nội Hàn Quốc: “Tôi nên gửi lời xin lỗi tới người dân Đại hàn dân quốc không ngăn chặn thảm họa xảy thiếu phản ứng nhanh nhạy giai đoạn đầu xảy vụ việc để xoa dịu nỗi đau gia đình nạn nhân” Trước đó, ngày 27/4, Thủ tướng Hàn quốc Chung Hong Won xin từ 42 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu chức nhận trách nhiệm thảm họa chìm phà Sewol Lời đề nghị ông Chung bà Park đồng ý nhiên khẳng định ông Chung từ chức vụ chìm phà kết thúc Sau việc từ chức này, bà Park Nội vấp phải nhiều trích đánh giá Đảng đối lập Dân chủ liên minh trị (NPAD) trích hành động từ chức ông Chung “hèn nhát” “vô trách nhiệm” Quan điểm phần đông người dân để chuyện trôi qua việc đơn giản chấp nhận cho Thủ tướng Chung từ chức mà nữ Tổng thống cần phải tự xin lỗi khiến người dân thất vọng với cách xử lý thảm họa chậm chạp thiếu lực phủ khiến 300 người chết tích Nhiều thành viên đảng cầm quyền Saenuri cho bà Park nên đích thân đứng nói lời xin lỗi Nghị sĩ Kim Young-woo trả lời vấn đài phát ngày 28/4 bày tỏ, “tôi hy vọng Tổng thống xin lỗi vào thời điểm thích hợp” Nhiều chuyên gia Hàn Quốc đồng ý với quan điểm cho lời xin lỗi từ bà Park lúc cần thiết “Lý để phủ tồn để bảo vệ mạng sống tài sản cho người dân Việc Tổng thống nói lời xin lỗi phủ chưa hồn thành trách nhiệm việc tự nhiên” – ông Kim Hyng-joon, Giáo sư khoa học trị Đại học Myongji Hàn Quốc nhận định 10 từ khóa có trọng số cao sau xếp hạng dựa vào đồ thị Từ khóa Trọng số Từ khóa Trọng số xin_lỗi 3.603411566 bà 2.46217638 người_dân 3.039691014 park 2.46217638 từ_chức 2.732704693 ông 2.222438512 lời 2.719329367 thảm_họa 2.17968443 chung 2.47646643 10 chính_phủ 2.021243223 Tài liệu 2: Quân ủng hộ Nga chặn giữ thành viên OSCE Trang tin NHK dẫn nguồn Bộ nội vụ Ukraine công bố hôm qua (25/4) cho biết, xe buýt chở 13 người bị quân dậy có vũ trang giữ lại bị bắt làm tin Những người bị bắt giữ gồm nhóm quốc tế Tổ chức An ninh Hợp tác châu Âu (OSCE) binh sĩ Ukraine Nhóm đưa đến tòa nhà quan an ninh quốc gia quân dậy kiểm soát Quân dậy cho biết từ chối bàn giao tin Một nhà lãnh đạo nhóm dậy hơm qua cho biết, có điệp viên qn Kiev số người bị bắt Vụ bắt giữ xảy trước ngày, Bộ Nội vụ Ukraine 43 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu cơng bố, lực lượng họ đóng cửa Slavyansk Họ cắt đứt đường cung cấp cho người li khai có vũ trang, giai đoạn hai hoạt động nhằm chiếm lại thành phố phía đơng 10 từ khóa có trọng số cao sau xếp hạng dựa vào đồ thị Từ khóa Trọng số Từ khóa Trọng số người 2.731839502 vũ_trang 1.653700269 nổi_dậy 2.308478007 công_bố 1.581760659 Ukraine 2.148006841 bắt 1.525463482 cho_biết 1.812552571 hơm_qua 1.525463482 nhóm 1.714379555 10 con_tin 1.300195567 Cả hai nhóm từ khóa có trọng số cao thể nội dung hai báo cho thấy tính khả thi phương pháp xếp hạng từ vựng dựa đồ thị Tuy nhiên danh sách từ khóa cao xuất số từ mang ý nghĩa văn từ: là, của,…Để giải vấn đề cần đưa danh sách từ dừng, từ nghĩa để loại bỏ trình xếp hạng 4.4 Thực nghiệm tóm tắt đa văn tiếng Việt đánh giá Nhiệm vụ đánh giá độ xác mơ hình tóm tắt đa văn tiếng Việt quan trọng Để đưa độ xác mơ hình tập liệu, với việc so sánh độ xác mơ hình đề xuất với mơ hình tóm tắt đa văn tiếng Việt có Kết đánh giá mơ hình đề xuất luận văn sử dụng độ đo ROUGE (như trình bày chương 1) Đánh giá thơng qua độ đo: độ xác ROUGENPrecision, độ hồi tưởng ROUGE-NRecall, độ ROUGEsử dụng thư viện 18 dragon.ir.summarize.ROUGE Trong đó, độ đo F-score số cân độ xác độ hồi tưởng Nếu độ xác độ hồi tưởng cao cân 18 ROUGE http://dragon.ischool.drexel.edu/api/dragon/ir/summarize/ROUGE.html 44 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu độ đo F-score lớn, cịn trường hợp độ xác độ hồi tưởng nhỏ khơng cân độ đo F-score nhỏ Luận văn thực đánh giá kết tóm tắt 360 cụm liệu đầu vào đánh giá độ đo F-score trung bình ROUGE-1, ROUGE-2 ROUGE-3 thay đổi tham số đầu vào số câu muốn sinh tóm tắt cuối Dưới số kết đánh giá 200 cụm với s-số câu tóm tắt đơn, msố câu tóm tắt cuối sau: Bảng 4-3: Đánh giá tập 200 cụm liệu (Trục S thể giá trị thay đổi s m với s số câu đầu tóm tắt đơn văn m số câu đầu tóm tắt đa văn bản, trục F tương ứng với kết 45 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu đánh giá độ đo ROUGE-F1 Màu xanh tương ứng với ROUGE -1, màu vàng tương ứng với ROUGE-2 màu xám tương ứng với ROUGE -3) Kết đánh giá 200 cụm liệu s=3, m=4 s=3, m=5 s=3, m=6 s=4, m=4 s=4, m=5 s=4, m=6 s=5, m=4 s=5, m=5 s=5, m=6 ROUGE-1 48.40% 52.18% 51.50% 46.68% 51.27% 49.78% 46.71% 49.54% 50.03% ROUGE-2 32.19% 35.83% 36.51% 31.44% 34.48% 36.51% 31.68% 33.81% 33.93% ROUGE-3 26.94% 29.97% 30.64% 25.80% 29.10% 30.87% 25.14% 28.03% 28.20% Mơ hình cho kết tốt 200 cụm liệu F = 52.18% với câu đầu tóm tắt đơn văn câu đầu tóm tắt đa văn ROUGE-1 Còn ROUGE-2 ROUGE-3, độ đo F thấp hơn, tương ứng 36.51% 30.64% Như vậy, đánh giá tập liệu gồm 200 cụm tóm tắt bao gồm câu đạt kết tốt Bảng 4-4: Đánh giá tập 160 cụm liệu 46 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu (Trục S thể giá trị thay đổi s m với s số câu đầu tóm tắt đơn văn m số câu đầu tóm tắt đa văn bản, trục F tương ứng với kết đánh giá độ đo ROUGE-F1 Màu xanh tương ứng với ROUGE -1, màu vàng tương ứng với ROUGE-2 màu xám tương ứng với ROUGE -3) Kết đánh giá 160 cụm liệu ROUGE-1 ROUGE-2 ROUGE-3 s=3, m=4 44.16% 30.21% 24.33% s=3, m=5 46.72% 31.43% 27.13% s=3, m=6 45.48% 29.14% 26.27% s=4, m=4 45.87% 30.58% 25.32% s=4, m=5 44.17% 32.17% 26.09% s=4, m=6 46.17% 31.86% 25.84% s=5, m=4 44.24% 30.19% 24.17% s=5, m=5 45.91% 31.08% 26.25% s=5, m=6 45.17% 31.19% 26.31% Từ kết thực nghiệm thấy, mơ hình đánh giá tập 160 cụm liệu cho kết tốt ROUGE-1 đạt độ đo F = 46.72% với số câu tóm tắt đơn văn sinh câu đa văn sinh câu Tại ROUGE-2 ROUGE-3 cho kết thấp hơn, tương ứng 32.17% 27.13% So sánh với kết hội nghị tóm tắt đa văn tiếng Anh DUC 2006 kết hệ thống tiếng Việt đạt hiệu tốt kết cao ROUGE-2 (Các hệ thống tiếng Anh thường đánh giá dựa ROUGE2) hệ thống tiếng Anh đạt xấp xỉ 10% (Cụ thể hệ thống đạt hiệu tốt Jagadeesh Jagarlamudi cộng (2006) có kết ROUGE-2 9.56%) Việc so sánh khập khiễng khác mặt ngôn ngữ khác tập liệu đánh giá, nhiên cho thấy hiệu phần hệ thống tóm tắt tiếng Việt 4.5 Một ví dụ kết tóm tắt đa văn tiếng Việt Ví dụ trình bày nội dung cụm văn tiếng Việt vụ lốc xoáy Mỹ ngày 28/04/2014 47 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu - Số lượng văn cụm: văn - Số lượng tóm tắt đánh giá người tự viết: (3 câu) - Số lượng câu tóm tắt máy đưa ra: câu Văn 1: Âm mưu có liên quan đến vụ đánh bom xe thành phố Volgagrad Nga hôm 21/10 làm người thiệt mạng (trong có thủ phạm) 30 người bị thương Dựa vào tài liệu nhận dạng tìm thấy gần trường vụ nổ, cảnh sát cho hay, thủ phạm Naida Asiyalova (30 tuổi), người Dagestan , phụ nữ theo Hồi giáo cực đoan với biệt danh Amaturahman Chồng Naida Assiyalova Dmitry Sokolov, phiến quân Hồi giáo Makhachkala , thủ phủ CH Dagestan Đến chiều 22/10, tin tình báo Nga khẳng định, trước tiến hành vụ đánh bom Volgagrad, Asiyalova với Sokolov phiến quân khác Ruslan Kazanbiyev Kurban Omarov lên kế hoạch công khủng bố Volgagrad Moskva Chúng dự định thực Volgagrad để thu hút ý lực lượng cảnh sát an ninh Nga Sau di chuyển đến Moskva, thực vụ đánh bom trung tâm thương mại Ruslan Kazanbiyev Kurban Omarov tới Moskva chờ thị vợ chồng Sokolov Nhưng khơng hiểu lý gì, Asiyalova kích hoạt thiết bị nổ xe buýt vừa bước lên xe Văn 2: Lực lượng an ninh Nga hôm (22/10) truy nã chồng kẻ đánh bom tự sát, ngày sau người phụ nữ cho nổ bom tự sát, khiến người thiệt mạng 30 người khác bị thương Lực lượng an nình cho rằng, Moscow Volgograd mục tiêu ban đầu vụ đánh bom Các nhà điều tra nói rằng, Naida Asiyalova 30 tuổi, người Dagestan khu vực Bắc Caucasus, kết hôn với người đàn ông Nga tham gia phiến quân Hồi giáo Điều tra viên cho biết Dmitry Sokolov, chồng người phụ nữ này, chuyên gia chất nổ hàng đầu phiến quân trao cho vợ nhiệm vụ đánh bom tự sát Các chuyên gia lực lượng an ninh Nga khám nghiệm trường vụ đánh bom tự sát (Ảnh AP) Sokolov chạy trốn kể từ ông rời nhà ngoại ô Moscow vào mùa hè năm 2012 Vụ đánh bom hôm thứ Hai (21/10) khu vực phía Nam Volgograd cơng mục tiêu dân bên Bắc Caucasus, làm gia tăng lo ngại sóng khủng bố cịn ba tháng rưỡi đến Thế vận hội mùa Đông năm 2014 Sochi Hiện chưa rõ lý Asiyalova chọn Volgograd có vé Moscow, nhà chức trách cho biết Vladimir Markin, người phát ngôn Ủy ban điều tra, quan điều tra Nga, cho biết nhà chức trách cố gắng xác định xem Asiyalova lên kế hoạch công 48 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu Volgograd lựa chọn ngẫu nhiên Ơng Markin nói Asiyalova đón xe bus từ Dagestan Moscow, lại lại Volgograd bắt xe bus thành phố làm nổ bom xe Những mảnh vỡ bom phát nổ văng tung tóe, khiến nhiều người bị thương nặng Hầu hết hành khách sinh viên nhà sau học Dmitry Yudin, sinh viên bị chấn thương cánh tay, cho biết anh nhận thấy Asiyalova lên xe bt dùng khăn chùm đầu Hồi giáo màu tối Yudin nói với hãng thông AP, nghi phạm trông "điềm tĩnh tự chủ" đem theo cặp hồ sơ Rasul Temirbekov, người phát ngôn Ủy ban điều tra chi nhánh Dagestan, nói rằng, Asiyalova gặp Sokolov Moscow tuyển dụng tham gia vào phiến quân Dagestan Hắn nghiên cứu Hồi giáo tiếng Arab, nhanh chóng tiếng hàng ngũ phiến quân Các nhà điều tra tin Sokolov chuẩn bị thuốc nổ cho kẻ đánh bom tự sát trước công chi nhánh Bộ Nội vụ Nga Dagestan hồi tháng 5, giết chết 12 người Ơng Temirbekov nói Asiyalova bị bệnh nguy hiểm xương, mẹ ta phản đối, nói với tờ nhật báo Izvestia mà gái có số vấn đề dày sau uống thuốc giảm cân khơng có nghiêm trọng Bà mẹ Asiyalova cho biết gái trở nên sùng đạo năm trước Bà nói với Izvestia bà khơng chấp thuận điều gái gọi điện cho mẹ, chủ yếu để tránh tranh luận./ Bích Đào/VOV online Theo AP Bản tham chiếu (Độ dài câu) Âm mưu có liên quan đến vụ đánh bom xe thành phố Volgagrad Nga hơm 21/10 làm người thiệt mạng (trong có thủ phạm) 30 người bị thương Dựa vào tài liệu nhận dạng tìm thấy gần trường vụ nổ, cảnh sát cho hay, thủ phạm Naida Asiyalova (30 tuổi), người Dagestan, phụ nữ theo Hồi giáo cực đoan với biệt danh Amaturahman Lực lượng an ninh Nga hôm (22/10) truy nã chồng kẻ đánh bom tự sát, ngày sau người phụ nữ cho nổ bom tự sát, khiến người thiệt mạng 30 người khác bị thương Lực lượng an nình cho rằng, Moscow khơng phải Volgograd mục tiêu ban đầu vụ đánh bom Bản tóm tắt chương trình đưa (Độ dài câu) Lực lượng an ninh Nga hôm (22/10) truy nã chồng kẻ đánh bom tự sát, ngày sau người phụ nữ cho nổ bom tự sát, khiến người thiệt mạng 30 người khác bị thương Các nhà điều tra nói rằng, Naida Asiyalova 30 tuổi, người Dagestan khu vực 49 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu Bắc Caucasus, kết với người đàn ông Nga tham gia phiến quân Hồi giáo Âm mưu có liên quan đến vụ đánh bom xe thành phố Volgagrad Nga hôm 21/10 làm người thiệt mạng (trong có thủ phạm) 30 người bị thương Sau di chuyển đến Moskva, thực vụ đánh bom trung tâm thương mại 50 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu KẾT LUẬN Với việc tập trung giải tốn tóm tắt đa văn tiếng Việt, luận văn đóng góp: • Luận văn tiến hành tìm hiểu tốn tóm tắt đa văn nói chung tốn tóm tắt đa văn tiếng Việt nói riêng, nhận khó khăn, thách thức, trở ngại mà tốn gặp phải • Dựa việc khảo sát, nghiên cứu cơng trình liên quan, phương pháp tóm tắt đa văn sử dụng, luận văn lựa chọn hướng giải phù hợp cho tốn tóm tắt đa văn tiếng Việt xếp hạng dựa đồ thị • Với hướng tiếp cận trên, luận văn đề xuất phương pháp xếp hạng từ vựng dựa đồ thị mẻ, có triển vọng việc giải tốn • Kết tóm tắt ROUGE-2 độ đo F= 36.51% thấp hơn, ROUGE-1 F = 52.18% • So sánh với kết hội nghị tóm tắt đa văn tiếng Anh DUC 2006 kết hệ thống tiếng Việt đạt hiệu tốt kết cao ROUGE-2 (Các hệ thống tiếng Anh thường đánh giá dựa ROUGE-2) hệ thống tiếng Anh đạt xấp xỉ 10% (Cụ thể hệ thống đạt hiệu tốt Jagadeesh Jagarlamudi cộng (2006) có kết ROUGE-2 9.56%) Việc so sánh khập khiễng khác mặt ngôn ngữ khác tập liệu đánh giá, nhiên cho thấy hiệu phần hệ thống tóm tắt tiếng Việt • Q trình thực nghiệm cho thấy khả quan, đạt kết F = 52.18% ROUGE-1, kết phần chứng tỏ tính đắn mơ hình đề xuất hiệu Hướng phát triển đề tài nâng cấp hiệu hệ thống sử dụng số phương pháp xử lý ngữ nghĩa nén, cắt, tỉa để thu gọn nội dung đầu văn tóm tắt Bên cạnh đấy, tác giả mong muốn nâng cấp chương trình tóm tắt thử nghiệm thành phiên ứng dụng thực tế tóm tắt kiện liên quan đến báo chí 51 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đỗ Văn Long, Châu Thu Trân, Dương Quốc Thắng, Trần Minh Vũ, Xây dựng hệ thống tự động rút trích nội dung văn điện tử tiếng Việt, Phân viện Công nghệ thông tin TP Hồ Chí Minh, Viện Khoa học Công nghệ Việt Nam, 2007 [2] Nguyễn Trọng Phúc, Lê Thanh Hương, “Tóm tắt văn sử dụng cấu trúc diễn ngôn”, Đại học Bách Khoa Hà Nội, Hà Nội, 2008 [3] Đỗ Phúc, Hồng Kiếm, Rút trích ý từ văn tiếng Việt hỗ trợ tạo tóm tắt nội dung Tạp chí cơng nghệ thơng tin truyền thơng, Hà Nội, 2006 [4] Vương Tồn, Thử đề xuất quy trình tự động tóm tắt văn khoa học, Viện Thông tin Khoa học Xã hội, 2007 Tiếng Anh: [5] R Mihalcea and P Tarau 2004 TextRank – bringing order into texts In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2004), Barcelona, Spain [6] R Mihalcea and P Tarau 2005 A language independent algorithm for single and multiple document summarization In Proceedings of IJCNLP’2005 [7] R Mihalcea Graph-based Ranking Algorithms for Sentence Extraction, Applied to Text Summarization, in Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, companion volume (ACL 2004), Barcelona, Spain, July 2004 [8] C Blake, J Kampov, A Orphanides, D West, C Lown, UNC-CH at DUC 2007: “Query Expansion, Lexical Simplification, and Sentence Selection Strategies for Multi-Document Summarization”, In DUC07, 2007 [9] R Barzilay, K McKeown and M Elhadad, “Information fusion in the context of mutildocument summarization”, Proceedings of the 37th annual 52 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu meeting of the Association for Computational Liuguistics:, 1999, pp 550557 [10] J Carbonell, J Goldstein, “The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries”, In SIGIR-98, 1998 [11] D Das, A.F.T Martins, “A Survey on Automatic Text Summarization.” , 2007, pp 11-20 [12] E Radev H Edmundson, “New methods in automatic abstracting”, Journal of ACM, 1969, pp 264-285 [13] Website: http://en.wikipedia.org/wiki/Multi-document_summarization [14] K Filippova, M Mieskes, V Nastase, S Paolo Ponzetto, M Strube, “Cascaded Filtering for Topic-Driven Multi-Document Summarization”, 2007 [15] G Giannakopoulos, “Multi-document multilingual summarization and evaluation tracks in ACL 2013 MultiLing Workshop” Proceedings of the MultiLing 2013 Workshop on Multilingual Multi-document Summarization, pp 20–28 [16] B Hachey, G Murray, D Reitter, “Query-Oriented Multi-Document Summarization With a Very Large Latent Semantic Space”, In The Embra System at DUC, 2005 [17] K.S Jones, “Automatic summarising: The state of the art” Inf Process Manage 1449-1481, 2007, pp 43 [18] K.S Jones, “Automatic summarising: factors and directions” CoRR cmplg/9805011, 1998 [19] K McKeown and D.Radev, “Generating Summaries of Multiple News Articles” Proceedings of the 18th ACM-SIGIR Conference, 1995, pp 7482 [20] C.Y Lin, E Hovy, “Automatic evaluation of summaries using n-gram cooccurrence statistics”, In Human Technology Coference, 2003 [21] C.Y Lin, E Hovy, “Identifying topics by position”, Fifth Conference on Applied Natural Languge Processing, 1997, pp 283-290 53 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu [22] M.J Ma López, M.B Rodríguez, J.M.G Hidalgo, “Multidocument summarization: An added value to clustering in interactive retrieval” ACM Trans Inf Syst, 2004, pp 215-241 [23] H Luhn, “The automatic creation of literature abstracts”, IBM Journal of Research and Development, 1958, pp 159-165 [24] I Mani, “Automatic Summarization”, John Benjamins Publishing Co 2001 [25] I Mani, M.T Maybury, “Automatic Summarization” ACL (Companion Volume)” 2001, pp [26] I Mani and M.T Maybury (eds), “Advances in Automatic Text Summarization”, MIT Press, 1999 [27] K.R McKeown and D.R Radev, “Generating summaries of mutiple news articles”, ACM Conference of Research and Development in Information Retrieval, 1995, pp 74-82 [28] A Nenkova, K McKeown, “Automatic Summarization” Foundations and Trends in Information Retrieval, Vol 5, Nos 2–3, 2011, pp.103–233 [29] J.O Pendersen, K Julian and F Chen, “A trainable document summarizer”, Research and Development in Information Retrieval, 1995, pp 68-73 [30] D.R Radev and G Erkan, “LexRank: Graph-based Lexical Centrality as Salience in Text Summarization”, Journal of Artificial Intelligence Research, 2004, pp 457-479 54 Học viên thực hiện: Nguyễn Thị Nụ - CB120102 – 12BCNTT2 ... Phương pháp đánh giá tóm tắt đa văn .20 CHƯƠNG 2: TÓM TẮT ĐA VĂN BẢN DỰA TRÊN TRÍCH XUẤT CÂU 22 2.1 Tóm tắt đa văn dựa trích xuất câu .22 2.2 Hướng tiếp cận trích xuất câu dựa xếp hạng đồ... vào trích xuất câu CHƯƠNG 2: TÓM TẮT ĐA VĂN BẢN DỰA TRÊN TRÍCH XUẤT CÂU 2.1 Tóm tắt đa văn dựa trích xuất câu Như trình bày hướng tiếp cận nhằm giải toán tóm tắt văn tập trung vào hai loại là: tóm. .. 12BCNTT2 Tóm tắt đa văn tiếng việt dựa vào trích xuất câu Hình 2-2: Mơ hình tóm tắt đa văn Mihalcea cộng [6] 2.3 Một số cơng trình tóm tắt văn tiếng Việt Đối với tiếng Việt có số nghiên cứu tóm tắt văn

Ngày đăng: 07/12/2021, 23:32

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Đỗ Văn Long, Châu Thu Trân, Dương Quốc Thắng, Trần Minh Vũ , Xây dựng hệ thống tự động rút trích nội dung chính trong các văn bản điện tử tiếng Việt, Phân viện Công nghệ thông tin tại TP. Hồ Chí Minh, Viện Khoa học và Công nghệ Việt Nam, 2007 Sách, tạp chí
Tiêu đề: Xây dựng hệ thống tự động rút trích nội dung chính trong các văn bản điện tử tiếng Việt
[2] Nguyễn Trọng Phúc, Lê Thanh Hương, “Tóm tắt văn bản sử dụng cấu trúc diễn ngôn”, Đại học Bách Khoa Hà Nội, Hà Nội, 2008 Sách, tạp chí
Tiêu đề: Tóm tắt văn bản sử dụng cấu trúc diễn ngôn
[3] Đỗ Phúc, Hoàng Kiếm, Rút trích ý chính từ văn bản tiếng Việt hỗ trợ tạo tóm tắt nội dung. Tạp chí công nghệ thông tin và truyền thông, Hà Nội, 2006 Sách, tạp chí
Tiêu đề: Rút trích ý chính từ văn bản tiếng Việt hỗ trợ tạo tóm tắt nội dung
[4] Vương Toàn, Thử đề xuất quy trình tự động tóm tắt văn bản khoa học, Viện Thông tin Khoa học Xã hội, 2007.Tiếng Anh Sách, tạp chí
Tiêu đề: Thử đề xuất quy trình tự động tóm tắt văn bản khoa học
[5] R. Mihalcea and P. Tarau. 2004. TextRank – bringing order into texts. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2004), Barcelona, Spain Sách, tạp chí
Tiêu đề: TextRank – bringing order into texts
[6] R. Mihalcea and P. Tarau. 2005. A language independent algorithm for single and multiple document summarization. In Proceedings of IJCNLP’2005 Sách, tạp chí
Tiêu đề: A language independent algorithm for single and multiple document summarization
[7] R. Mihalcea. Graph-based Ranking Algorithms for Sentence Extraction, Applied to Text Summarization, in Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, companion volume (ACL 2004), Barcelona, Spain, July 2004 Sách, tạp chí
Tiêu đề: Graph-based Ranking Algorithms for Sentence Extraction, Applied to Text Summarization
[8] C. Blake, J. Kampov, A. Orphanides, D. West, C. Lown, UNC-CH at DUC 2007: “Query Expansion, Lexical Simplification, and Sentence Selection Strategies for Multi-Document Summarization”, In DUC07, 2007 Sách, tạp chí
Tiêu đề: Query Expansion, Lexical Simplification, and Sentence Selection Strategies for Multi-Document Summarization
[9] R. Barzilay, K. McKeown and M. Elhadad, “Information fusion in the context of mutildocument summarization”, Proceedings of the 37 th annual Sách, tạp chí
Tiêu đề: Information fusion in the context of mutildocument summarization
[10] J. Carbonell, J. Goldstein, “The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries”, In SIGIR-98, 1998 Sách, tạp chí
Tiêu đề: The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries
[11] D. Das, A.F.T. Martins, “A Survey on Automatic Text Summarization.” , 2007, pp. 11-20 Sách, tạp chí
Tiêu đề: A Survey on Automatic Text Summarization
[12] E Radev H. Edmundson, “New methods in automatic abstracting”, Journal of ACM, 1969, pp. 264-285 Sách, tạp chí
Tiêu đề: New methods in automatic abstracting”, "Journal of ACM
[13] Website: http://en.wikipedia.org/wiki/Multi-document_summarization [14] K. Filippova, M. Mieskes, V. Nastase, S. Paolo Ponzetto, M. Strube,“Cascaded Filtering for Topic-Driven Multi-Document Summarization”, 2007 Sách, tạp chí
Tiêu đề: Cascaded Filtering for Topic-Driven Multi-Document Summarization
[15] G. Giannakopoulos, “Multi-document multilingual summarization and evaluation tracks in ACL 2013 MultiLing Workshop”. Proceedings of the MultiLing 2013 Workshop on Multilingual Multi-document Summarization, pp. 20–28 Sách, tạp chí
Tiêu đề: Multi-document multilingual summarization and evaluation tracks in ACL 2013 MultiLing Workshop”. "Proceedings of the MultiLing 2013 Workshop on Multilingual Multi-document Summarization
[16] B. Hachey, G. Murray, D. Reitter, “Query-Oriented Multi-Document Summarization With a Very Large Latent Semantic Space”, In The Embra System at DUC, 2005 Sách, tạp chí
Tiêu đề: Query-Oriented Multi-Document Summarization With a Very Large Latent Semantic Space”, "In The Embra System at DUC
[17] K.S. Jones, “Automatic summarising: The state of the art”. Inf. Process. Manage. 1449-1481, 2007, pp. 43 Sách, tạp chí
Tiêu đề: Automatic summarising: The state of the art”. "Inf. Process. "Manage
[18] K.S. Jones, “Automatic summarising: factors and directions”. CoRR cmp- lg/9805011, 1998 Sách, tạp chí
Tiêu đề: Automatic summarising: factors and directions
[19] K. McKeown and D.Radev, “Generating Summaries of Multiple News Articles”. Proceedings of the 18th ACM-SIGIR Conference, 1995, pp. 74- 82 Sách, tạp chí
Tiêu đề: Generating Summaries of Multiple News Articles"”
[20] C.Y. Lin, E. Hovy, “Automatic evaluation of summaries using n-gram co- occurrence statistics”, In Human Technology Coference, 2003 Sách, tạp chí
Tiêu đề: Automatic evaluation of summaries using n-gram co-occurrence statistics”, "In Human Technology Coference
[21] C.Y. Lin, E. Hovy, “Identifying topics by position”, Fifth Conference on Applied Natural Languge Processing, 1997, pp. 283-290 Sách, tạp chí
Tiêu đề: Identifying topics by position”, "Fifth Conference on Applied Natural Languge Processing

HÌNH ẢNH LIÊN QUAN

BẢNG CÁC KÝ HIỆU, CHỮ VIẾT TẮT - Tóm tắt đa văn bản tiếng việt dựa vào trích xuất câu
BẢNG CÁC KÝ HIỆU, CHỮ VIẾT TẮT (Trang 9)
Hình 2-1: Đồ thị trích xuất câu trong công trình [5] - Tóm tắt đa văn bản tiếng việt dựa vào trích xuất câu
Hình 2 1: Đồ thị trích xuất câu trong công trình [5] (Trang 27)
Hình 2-2: Mô hình tóm tắt đa văn bản của Mihalcea và các cộng sự [6] - Tóm tắt đa văn bản tiếng việt dựa vào trích xuất câu
Hình 2 2: Mô hình tóm tắt đa văn bản của Mihalcea và các cộng sự [6] (Trang 28)
CHƯƠNG 3: MÔ HÌNH TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT DỰA TRÊN TRÍCH XUẤT CÂU - Tóm tắt đa văn bản tiếng việt dựa vào trích xuất câu
3 MÔ HÌNH TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT DỰA TRÊN TRÍCH XUẤT CÂU (Trang 31)
Hình 3-2: Mô hình tóm tắt đơn văn bản tiếng Việt - Tóm tắt đa văn bản tiếng việt dựa vào trích xuất câu
Hình 3 2: Mô hình tóm tắt đơn văn bản tiếng Việt (Trang 32)
Hình 3-3: Chương trình gắn nhãn từ loại - Tóm tắt đa văn bản tiếng việt dựa vào trích xuất câu
Hình 3 3: Chương trình gắn nhãn từ loại (Trang 34)
Việt_Nam”, kết quả đầu ra thu được sẽ là cặp (từ, nhãn từ loại) thể hiện trong hình dưới đây:  - Tóm tắt đa văn bản tiếng việt dựa vào trích xuất câu
i ệt_Nam”, kết quả đầu ra thu được sẽ là cặp (từ, nhãn từ loại) thể hiện trong hình dưới đây: (Trang 34)
Ma trận kề này có thể biểu diễn thành một đồ thị liên kết giữa các từ như hình vẽ dưới đây. - Tóm tắt đa văn bản tiếng việt dựa vào trích xuất câu
a trận kề này có thể biểu diễn thành một đồ thị liên kết giữa các từ như hình vẽ dưới đây (Trang 37)
Mục tiêu tiến hành thực nghiệm là kiểm tra tính khả thi của mô hình, vì mô hình của luận văn đề xuất mới chỉ dựa trên tìm hiểu và phân tích các nghiên cứu liên  quan - Tóm tắt đa văn bản tiếng việt dựa vào trích xuất câu
c tiêu tiến hành thực nghiệm là kiểm tra tính khả thi của mô hình, vì mô hình của luận văn đề xuất mới chỉ dựa trên tìm hiểu và phân tích các nghiên cứu liên quan (Trang 42)
N hiệm vụ đánh giá độ chính xác của mô hình tóm tắt đa văn bản tiếng Việt là rất quan trọng - Tóm tắt đa văn bản tiếng việt dựa vào trích xuất câu
hi ệm vụ đánh giá độ chính xác của mô hình tóm tắt đa văn bản tiếng Việt là rất quan trọng (Trang 45)
Bảng 4-3: Đánh giá trên tập 200 cụm dữ liệu - Tóm tắt đa văn bản tiếng việt dựa vào trích xuất câu
Bảng 4 3: Đánh giá trên tập 200 cụm dữ liệu (Trang 46)
Bảng 4-4: Đánh giá trên tập 160 cụm dữ liệu - Tóm tắt đa văn bản tiếng việt dựa vào trích xuất câu
Bảng 4 4: Đánh giá trên tập 160 cụm dữ liệu (Trang 47)
Mô hình cho kết quả tốt nhất trên 200 cụm dữ liệu này là F= 52.18% với 3 câu đầu ra củabản tóm tắt đơn văn bản và 5 câu đầu ra của bản tóm tắt đa văn bản tại  ROUGE-1 - Tóm tắt đa văn bản tiếng việt dựa vào trích xuất câu
h ình cho kết quả tốt nhất trên 200 cụm dữ liệu này là F= 52.18% với 3 câu đầu ra củabản tóm tắt đơn văn bản và 5 câu đầu ra của bản tóm tắt đa văn bản tại ROUGE-1 (Trang 47)
Từ kết quả thực nghiệm trên có thể thấy, mô hình đánh giá trên tập 160 cụm dữ liệu cho kết quả tốt nhất cũng tại ROUGE-1 và đạt độ đo F = 46.72%  với số câu  t rong bản tóm tắtđơn văn bản sinh ra là 3 câu và đa văn bản sinh ra là 5 câu - Tóm tắt đa văn bản tiếng việt dựa vào trích xuất câu
k ết quả thực nghiệm trên có thể thấy, mô hình đánh giá trên tập 160 cụm dữ liệu cho kết quả tốt nhất cũng tại ROUGE-1 và đạt độ đo F = 46.72% với số câu t rong bản tóm tắtđơn văn bản sinh ra là 3 câu và đa văn bản sinh ra là 5 câu (Trang 48)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w