Luận văn phương pháp xếp hạng dựa trên đồ thị và ứng dụng vào tóm tắt văn bản tự động

63 201 4
Luận văn phương pháp xếp hạng dựa trên đồ thị và ứng dụng vào tóm tắt văn bản tự động

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI NGUYỄN THỊ NGỌC ÁNH PHƢƠNG PHÁP XẾP HẠNG DỰA TRÊN ĐỒ THỊ VÀ ỨNG DỤNG VÀO TÓM TẮT VĂN BẢN TỰ ĐỘNG LUẬN VĂN THẠC SĨ MÁY TÍNH HÀ NỘI, 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI NGUYỄN THỊ NGỌC ÁNH PHƢƠNG PHÁP XẾP HẠNG DỰA TRÊN ĐỒ THỊ VÀ ỨNG DỤNG VÀO TÓM TẮT VĂN BẢN TỰ ĐỘNG Chuyên ngành: Khoa học máy tính Mã số: 48 01 01 LUẬN VĂN THẠC SĨ MÁY TÍNH Ngƣời hƣớng dẫn khoa học: PGS.TS NGUYỄN LONG GIANG HÀ NỘI, 2018 i LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành đến PGS.TS Nguyễn Long Giang, ngƣời thầy định hƣớng đề tài tận tình hƣớng dẫn tơi suốt q trình tơi nghiên cứu khoa học thực luận văn thạc sỹ Tôi xin cảm ơn tận tình giảng dạy, bảo, truyền đạt kiến thức, kinh nghiệm thầy cô trƣờng Đại học Sƣ Phạm Hà Nội thời gian học tập nghiên cứu Cuối cùng, xin gửi lời cảm ơn đến gia đình, ngƣời thân đồng nghiệp động viên, giúp đỡ khuyến khích tơi suốt thời gian học cao học nhƣ trình thực luận văn cao học Xin trân trọng cảm ơn! ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn kết nghiên cứu dƣới hƣớng dẫn PGS.TS Nguyễn Long Giang Trong toàn nội dung luận văn, điều đƣợc trình bày cá nhân tơi đƣợc tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có nguồn gốc trích dẫn rõ ràng, đầy đủ Hà Nội, 2018 Học viên Nguyễn Thị Ngọc Ánh iii MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN .ii MỤC LỤC iii DANH SÁCH KÝ HIỆU, TỪ VIẾT TẮT v DANH MỤC HÌNH VẼ vi MỞ ĐẦU Chƣơng TỔNG QUAN 1.1 Tổng quan khai phá liệu 1.1.1 Khai phá liệu 1.1.2 Quy trình khai phá liệu 1.1.3 Ứng dụng khai phá liệu 1.2 Khai phá liệu văn 1.2.1 Tổng quan khai phá liệu văn 1.2.2 Quy trình khai phá liệu văn 1.3 Tóm tắt văn tự động 1.3.1 Tóm tắt văn 1.3.2 Ứng dụng tóm tắt văn 10 1.3.3 Phân loại tóm tắt 10 1.3.4 Mơ hình tóm tắt văn 14 1.3.5 Quy trình thực tóm tắt văn 14 1.3.6 Đánh giá văn tóm tắt 17 1.3.7 Một số đặc trưng khó khăn tóm tắt văn tiếng việt 20 1.3.8 Phát biểu toán đơn văn tiếng Việt 22 1.3.9 Tóm tắt chương I 22 Chƣơng PHƢƠNG PHÁP XẾP HẠNG DỰA TRÊN ĐỒ THỊ 23 2.1 Các thuật toán xếp hạng dựa đồ thị 23 2.1.1 Thuật toán PageRank 23 2.1.2 Thuật toán HITS 26 iv 2.1.3 Đánh giá so sánh thuật toán PageRank thuật toán HITS 28 2.2 Thuật toán TextRank 29 2.2.1 Thuật toán TextRank 29 2.2.2 Các cơng thức tính độ tương đồng 31 2.2.3 Nhận xét thuật toán TextRank 34 2.3 Tóm tắt Chƣơng 35 Chƣơng THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 36 3.1 Yêu cầu toán tóm tắt đơn văn tiếng Việt 36 3.1.1 Yêu cầu chức 36 3.1.2 Các yêu cầu khác 36 3.1.3 Yêu cầu môi trường thực nghiệm 36 3.1.4 Yêu cầu liệu thực nghiệm 36 3.2 Mơ hình giải tốn 37 3.2.1 Tiền xử lý văn 38 3.2.2 Xây dựng đồ thị câu 40 3.2.3 Tính hạng câu đồ thị 41 3.2.4 Sinh văn tóm tắt 42 3.3 Thực nghiệm, đánh giá kết 42 3.3.1 Cài đặt chương trình 42 3.3.2 Đánh giá kết thực nghiệm 49 3.4 Tóm tắt Chƣơng 50 KẾT LUẬN 51 TÀI LIỆU THAM KHẢO 53 v DANH SÁCH KÝ HIỆU, TỪ VIẾT TẮT STT Từ cụm từ Từ viết tắt Recall-Oriented Understudy for Gisting Evaluation ROUGE Hyperlinked Induced Topic Search HITS Document Understanding Conference DUC Natural Language Processing LNP Text Analysis Conference TAC vi DANH MỤC HÌNH VẼ Hình 1.1: Quy trình khai phá liệu Hình 1.2: Quy trình khai phá liệu văn Hình 1.3: Minh hoạ trang báo điện tử sử dụng cơng cụ tóm tắt văn Hình 1.4 Mơ hình tóm tắt văn tự động 14 Hình 2.1: Mơ hình PageRank 24 Hình 2.2: Ý tƣởng PageRank 24 Hình 2.3: Mơ tả khái qt ý tƣởng PageRank 25 Hình 2.4: Trang Authority 27 Hình 2.5: Trang Hub 27 Hình 2.6: Mơ hình trang Authority trang Hub 27 Hình 2.7: Mơ hình trang Authority tốt trang Hub tốt 28 Hình 2.8: Đồ thị TextRank 31 Hình 2.9: Đồ thị TextRank với giá trị trọng số độ tƣơng đồng câu.34 Hình 3.1: Các bƣớc thực tóm tắt theo thuật tốn TextRank 37 Hình 3.2: Các bƣớc thực JvnTextPro3 38 Hình 3.3: Bảng PreText đầy đủ 42 Hình 3.4: Cấu trúc chƣơng trình 43 Hình 3.5: Giao diện chƣơng trình 44 Hình 3.6: Thanh chọn hiển thị yêu cầu 44 Hình 3.7: Nút chọn tệp 45 Hình 3.8: Lựa chọn phần trăm độ dài tóm tắt 45 Hình 3.9: Nút tóm tắt 45 Hình 3.10: Nút hiển thị đồ thị 45 Hình 3.11: Chọn số nút hiển thị 45 Hình 3.12: Nút hiển thị tồn 46 vii Hình 3.13: Nút hiển thị TextRank 46 Hình 3.14: Giao diện văn chi tiết 46 Hình 3.15: Giao diện tóm tắt 47 Hình 3.16: Giao diện hiển thị đồ thị TextRank theo yêu cầu số nút 47 Hình 3.17: Giao diện hiển thị 100% số nút 48 Hình 3.18: Giao diện hiển thị TextRank cho câu 48 MỞ ĐẦU Tính cấp thiết đề tài Ngày nay, phát triển mạnh mẽ công nghệ thông tin dịch vụ trực tuyến tạo nguồn thông tin khổng lồ, nhu cầu tổng hợp tóm tắt lại thông tin quan trọng trở thành vấn đề cấp thiết Tóm tắt liệu tự động hƣớng nghiên cứu quan trọng khai phá liệu có tính ứng dụng thực tiễn cao Bài tốn tóm tắt liệu tự động bao gồm tóm tắt liệu văn tóm tắt liệu đa phƣơng tiện nhƣ hình ảnh, âm thanh, đối tƣợng đồ họa, video Tóm tắt văn giúp ngƣời dùng tiết kiệm đƣợc thời gian, tăng hiệu tìm kiếm vấn đề Xuất phát từ nhu cầu đó, phƣơng pháp tóm tắt liệu tự động đƣợc nghiên cứu phát triển Bài toán tóm tắt văn tự động ngày nhận đƣợc nhiều quan tâm nghiên cứu nhà khoa học giới Các báo liên quan đến tóm tắt văn tự động đƣợc đề cập nhiều hội nghị tiếng nhƣ: DUC1 20012007, TAC2 2008, ACL3 2001-2007… Ngồi ra, có nhiều hệ thống tóm tắt văn độc lập tích hợp đƣợc phát triển nhƣ: MEAD, LexRank, chức tự động tóm tắt Microsoft Word Tuy nhiên, nghiên cứu chƣa đƣợc đánh giá cụ thể Nhƣ ta thấy đƣợc tầm quan trọng tóm tắt văn tự động cần có tiêu chí để đánh giá kết văn tóm tắt Với phân tích trên, luận văn lựa chọn đề tài: “Phƣơng pháp xếp hạng dựa đồ thị ứng dụng vào tóm tắt văn tự động” để nghiên cứu Mục tiêu nghiên cứu Tìm hiểu tổng quan phƣơng pháp xếp hạng dựa đồ thị TextRank, tốn tóm tắt văn tự động ứng dụng thuật toán TextRank xây dựng đồ thị câu, xếp hạng câu đồ thị Trên sở đó, cài đặt thử nghiệm tóm tắt đơn văn tiếng Việt, đánh giá kết thu đƣợc sau thực nghiệm Document Understanding Conference http://duc.nist.gov Text Analysis Conference http://www.nist.gov/tac Association for Computational Linguistics http://aclweb.org 40 cấu trúc văn tiếng Anh đa phần cách khoảng trắng Đối với văn tiếng Việt khơng thể làm nhƣ Bộ tách từ jvnTokenize đƣợc đề xuất Nguyễn Cẩm Tú cung cấp có độ xác 94.5% Ví dụ với đầu vào câu: “Chải thông thường làm mặt răng”, sau qua tách từ ta đƣợc “Chải thông_thường làm mặt răng” Thấy rằng, từ thông_thường đƣợc nối với dấu gạch dƣới Vậy để thu đƣợc danh sách từ, luận văn thực việc loại bỏ khoảng trắng câu Sau bƣớc này, từ văn đầu vào luận văn thu đƣợc danh sách câu văn bản, câu có danh sách từ đƣợc tách câu 3.2.2 Xây dựng đồ thị câu Đỉnh đồ thị (Node) bao gồm thuộc tính nhƣ sau: - Tập cạnh mà có kết nối với đỉnh - Nội dung gốc câu - Trọng số đỉnh (giá trị TextRank đỉnh) - Chỉ số câu văn đầu vào - Một biến đƣợc dùng làm khóa để xác định đỉnh đồ thị không bị trùng Trong bƣớc này, văn đầu vào đƣợc mơ hình hóa thành đồ thị câu Mỗi đỉnh đồ thị thể tƣơng đồng hai đỉnh đồ thị Sự tƣơng đồng hai đỉnh đƣợc tính tƣơng đồng hai câu văn Trong luận văn sử dụng phƣơng pháp Cosine để tính độ tƣơng đồng hai câu Trong đó, câu đƣợc coi tập hợp từ sau bƣớc tiền xử lý Luận văn sử dụng thƣ viện Simetrics.jar để tính độ tƣơng đồng Cosine hai câu Phƣơng pháp Cosine đƣợc trình bày phần 2.2.2c, chƣơng II Trong chƣơng trình: publicdoublesimilarity(Node otherNode) { ArrayList str1Tokens = new ArrayList(Arrays.asList(this.key.split(" "))); ArrayList str2Tokens = new ArrayList(Arrays.asList(otherNode.key.split(" "))); Set allTokens = new HashSet(); 41 allTokens.addAll(str1Tokens); int termsInString1 = allTokens.size(); Set secondStringTokens = new HashSet(); secondStringTokens.addAll(str2Tokens); int termsInString2 = secondStringTokens.size(); allTokens.addAll(secondStringTokens); int commonTerms = (termsInString1 + termsInString2) - allTokens.size(); return (float) (commonTerms) / (float) (Math.pow((float) termsInString1, 0.5f) * Math.pow((float) termsInString2, 0.5f)); } Sau tính đƣợc độ tƣơng đồng hai câu, đồ thị vơ hƣớng có trọng số đƣợc hình thành 3.2.3 Tính hạng câu đồ thị Sau xây dựng đƣợc đồ thị, câu văn đƣợc xếp hạng thông qua việc di chuyển ngẫu nhiên đồ thị G Trọng số đỉnh đƣợc tính giải thuật TextRank đƣợc áp dụng đồ thị vô hƣớng Với đồ thị vô hƣớng, bậc đầu vào bậc đầu Đầu vào: Văn đƣợc mơ hình hóa thành đồ thị sau bƣớc tiền xử lý Đầu ra: Các đỉnh đồ thị với trọng số đƣợc gán theo mức độ quan trọng Sau bƣớc này, luận văn thu đƣợc đồ thị với đỉnh gán trọng số Sau trình đƣa kết TextRank câu 42 Hình 3.3: Bảng PreText đầy đủ 3.2.4 Sinh văn tóm tắt Sau xếp hạng câu, câu có giá trị TextRank riêng Tuy nhiên, việc xếp hạng câu dựa vào giá trị TextRank dẫn đến việc dƣ thừa tƣơng tự câu dẫn tới điểm quan trọng chúng tƣơng tự Do đó, xếp hạng câu đơn dựa vào điểm câu tƣơng tự đƣợc đƣa vào kết cuối Điều gây dƣ thừa tóm tắt văn văn có chứa câu tƣơng tự Hơn thế, câu tƣơng tự gây việc bị thông tin Vậy nên, luận văn thực việc loại bỏ câu cặp câu có độ tƣơng đồng cao 0.75 (loại bỏ câu có độ dài ngắn cặp câu cần loại) Sau tiến hành lấy câu có trọng số cao Số lƣợng câu đƣợc xác định dựa vào tỷ lệ nén đƣợc đƣa vào Các câu sau tóm tắt đƣợc xếp dựa thứ tự văn 3.3 Thực nghiệm, đánh giá kết 3.3.1 Cài đặt chương trình 1) Cài đặt chương trình  Cơng cụ sử dụng: 43 Luận văn xây dựng ứng dụng tảng Java sử dụng công cụ Netbean 8.2 để lập trình Từ đó, luận văn đƣa demo chạy thử giao diện swing để hiển thị phần tóm tắt văn  Cấu trúc chƣơng trình: Hình 3.4: Cấu trúc chƣơng trình 44 2) Giao diện ứng dụng  Giao diện tổng hợp ứng dụng Hình 3.5: Giao diện chƣơng trình  Thanh chọn hiển thị theo yêu cầu Ngƣời dùng tóm tắt văn theo ý muốn Khi ngƣời dùng muốn tóm tắt văn bản, lựa chọn mức muốn thu gọn lại, để đƣa kết Trong giao diện có mục lựa chọn số lƣợng hiển thị nút theo mơ hình TextRank văn đƣợc thực tóm tắt Hình 3.6: Thanh chọn hiển thị yêu cầu 45  Button chọn tệp: Hình 3.7: Nút chọn tệp  Button tóm tắt: - Bƣớc 1: Lựa chọn việc tóm tắt phần trăm so với văn gốc: Hình 3.8: Lựa chọn phần trăm độ dài tóm tắt - Bƣớc 2: Kích chọn để thực tóm tắt Hình 3.9: Nút tóm tắt  Button mơ tả đồ thị: Hình 3.10: Nút hiển thị đồ thị Có chế độ hiển thị là: - Chọn số nút hiển thị: Hình 3.11: Chọn số nút hiển thị 46 - Chọn số nút hiển thị tồn bộ: Hình 3.12: Nút hiển thị toàn  Button thể giá trị TextRank đầy đủ hồn thiện Hình 3.13: Nút hiển thị TextRank  Giao diện tóm tắt văn chi tiết Hình 3.14: Giao diện văn chi tiết 47  Giao diện báo sau đƣợc tóm tắt Hình 3.15: Giao diện tóm tắt  Giao diện hiển thị kết đồ thị: Hình 3.16: Giao diện hiển thị đồ thị TextRank theo yêu cầu số nút 48 Hình 3.17: Giao diện hiển thị 100% số nút  Giao diện hiển thị kết tiền xử lý độ TextRank cho câu sau tiền xử lý Hình 3.18: Giao diện hiển thị TextRank cho câu 49 Đánh giá ứng dụng giao diện desktop - Ứng dụng gần nhƣ cung cấp đầy đủ tính ứng dụng tóm tắt - Giao diện chƣơng trình thân thiện, dễ sử dụng - Chƣa thu thập đƣợc nhiều liệu từ nhiều trang báo khác 3.3.2 Đánh giá kết thực nghiệm  Trong mục 1.3.6 , có trình bày số phƣơng pháp để thực đánh giá tóm tắt văn  Trong phần này, luận văn sử dụng công cụ đánh giá ROUGE [16], [21] để thực đánh giá tóm tắt đơn văn 1) Cài đặt  Tải công cụ ROUGE 2.0 tại: http://kavita-ganesan.com/content/rouge-2.0  Sau tải công cụ, ta tiến hành cài đặt sử dụng theo hƣớng dẫn: http://kavita-ganesan.com/content/rouge-2.0-documentation 2) Kết đánh giá Trong luận văn sử dụng liệu gồm 104 báo, có 68 báo thuộc chủ để văn hóa, trị - xã hội đƣợc đề xuất Lê Thanh Hƣơng cộng [1] Các báo thu thập báo điện tử nhƣ Tuoitre.vn, Vnexpress.net, Dantri.com.vn Các văn tóm tắt đƣợc thực ngƣời có 10% so với văn gốc Trên sở đó, tóm tắt đƣợc thực TextRank lấy khoảng 10% so với văn gốc Bảng 3.1: Kết đánh giá Rouge n ROUGE N=1 Recall TextRank Precision 0.513337 0.493195 ROUGE N=2 F-measure Recall Precision F-measure 0.49988 0.36077 0.249104 0.34833 50 Nhận xét: Với Rouge n=1 độ đo Recall=0.513337, Precision= 0.93195, Fmeasure=0.49988 Với ROUGE n=2 độ đo Recall=0.36077, Precision=0.493195, Fmeasure=0.34833 Kết thực nghiệm khảo sát cho thấy mức độ xác chƣơng trình tóm tắt văn dựa phƣơng pháp TextRank so với ngƣời chấp nhận đƣợc, bƣớc đầu tạo tiền đề xây dựng hệ thống tóm tắt văn tiếng Việt hồn chỉnh với độ xác cao 3.4 Tóm tắt Chƣơng Trong chƣơng đề cập phƣơng pháp luận văn sử dụng để tóm tắt văn Q trình thực trải qua bốn bƣớc, gồm bƣớc tiền xử lý, xây dựng đồ thị, tính hạng câu sinh văn tóm tắt Trên sở tốn tóm tắt văn bản, luận văn xây dựng ứng dụng thử nghiệm tóm tắt văn desktop Luận văn tiến hành đánh giá thực nghiệm tóm tắt văn dựa phƣơng pháp TextRank Bên cạnh ứng dụng áp dụng đầy đủ tính ứng dụng giao diện tóm tắt văn thử nghiệm desktop Ngồi luận văn đánh giá thực nghiệm văn dựa theo độ đo Rouge 2.0 Tuy nhiên cần cải thiện tốc độ 51 KẾT LUẬN Kết đạt đƣợc luận văn Luận văn tìm hiểu: - Những vấn đề chung khai phá liệu nói chung vận dụng vào tóm tắt văn bản, nắm vững bƣớc thực phƣơng pháp trích rút, tảng thuật tốn sử dụng - Triển khai đƣợc chƣơng trình tóm tắt văn theo phƣơng pháp TextRank góp phần xây dựng ứng dụng tóm tắt giao diện java swing, bƣớc đầu tạo tiền đề xây dựng mộ hệ thống tóm tắt văn tiếng Việt hồn chỉnh với độ xác cao Xây dựng đƣợc ứng dụng thử nghiệm làm tiền đề để phát triển thiết bị khác cách xác Hạn chế luận văn - Luận văn chƣa thực việc cải tiến tiền xử lý văn đầu vào - Bộ công cụ JvnTextPro với độ xác cao nhƣng bên cạnh có trƣờng hợp chƣa xác Bƣớc tiền xử lý tốt nâng cao chất lƣợng văn tóm tắt - Việc thu thập liệu nhiều thời gian nên kích thƣớc tập mẫu nhỏ Vậy nên chƣơng trình chƣa có nhiều điều kiện thử nghiệm với tập liệu lớn Luận văn tiếp tục thu thập thêm tóm tắt mẫu để đánh giá hơn, khách quan chƣơng trình thực nghiệm Bên cạnh ứng dụng tóm tắt văn bản, chức tóm tắt báo thực thi mang tính chất tƣơng đối, chƣa thu thập đƣợc liệu từ nhiều báo Cũng nhƣ dừng lại mức độ báo, văn chuyển hoá sang thành văn word Định hƣớng tƣơng lai - Phát triển kỹ thuật đo độ tƣơng tự câu văn theo độ liên kết ngữ nghĩa để tăng tính hiệu chƣơng trình - Cải thiện bƣớc tiền xử lý để tăng độ xác nhƣ tốc độ tính tốn chƣơng trình 52 - Nghiên cứu phƣơng pháp làm mƣợt kết đầu để thực việc tạo tóm tắt văn theo hƣớng tóm lƣợc (Abstract) - Tiếp tục phát triển đầy đủ chức ứng dụng tóm tắt thơng tin desktop - Cải tiến tốc độ tải tin, tốc độ tóm tắt báo - Chuyển ứng dụng sang thiết bị khác ví dụ nhƣ thiết bị di động, ipad… để tiện việc sử dụng toán - Xây dựng việc phân tích tóm tắt đƣợc văn gồm hình ảnh video mà khơng cần trình lọc từ trƣớc - Thu thập liệu từ nhiều nguồn báo khác 53 TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt [1] Lê Thanh Hƣơng, Hà Quang Thụy (2014), Nghiên cứu số phương pháp tóm tắt văn tự động máy tính áp dụng cho tiếng Việt [2] Nguyễn Lê Minh (2005), Sentence extraction and support vector machine ensemble [3] Nguyễn Trọng Phúc, Lê Thanh Hƣơng (2008), Tóm tắt văn tiếng Việt sử dụng cấu trúc diễn ngôn [4] Đỗ Duy Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng (2008), “Ứng dụng vào việc rút trích nội dung khối thơng điệp diễn đàn thảo luận.”, Tạp chí phát triển khoa học công nghệ, tập 11, số 05-2008 [5] Nguyễn Cẩm Tú (2010), JVnTextPro: A tool to process VietNamese vesion2 [6] Trần Mai Vũ (2000), Tóm tắt đa văn dựa vào trích xuất câu Tài liệu Tiếng Anh [7] Chin-Yew Lin and Eduard Hovy (1997), Identifying topics by position, Fifth Conference on Applied Natural Language Processing: 283–290, 1997 [8] Chin-Yew Lin and Eduard Hovy (2003), Automatic evaluation of summaries using n-gram co-occurrence statistics, In Human Technology Coference [9] H Luhn (1958) The automatic creation of literature abstracts, IBM Journal of Research and Development, (2):159-165, 1958 [10] H Edmundson (1969), New methods in automatic abstracting, Journal ofACM, 16 (2):264-285, 1969 [11] Inderjeet Mani and Mark T Maybury (eds) (1999), Advances in Automatic Text Summarization, MIT Press, 1999, ISBN 0-262-13359-8 [12] J.Kleinberg (1999), Authoritative sources in a hyperlinked environment [13] Jan O Pendersen, Kupiec Julian and Francine Chen (1995), A trainable document summarizer, Research and Development in Information Retrieval: 68 73, 1995 54 [14] J.Kleinberg (1999), Authoritative sources in a hyperlinked environment [15] Kathleen R McKeown and Dragomir R Radev (1995), Generating summaries of multiple news articles, ACM Conference on Research and Development in Information Retrieval (SIGIR’95): 74–82, Seattle, Washington, July [16] Lin and Hony (2014), Rouge: A Package for Automatic Evaluation of summarie [17] Luhn (1958), The automatic creation of literature abstract [18] Lin and Hovy (1998), Automated text summarization and the SUMMARIST [19] Mihalcea, P Tarau, and E Figa (2004), PageRank on semantic networks, with application to word sense disambiguation In Proceedings of the 20st International Conference on Computational Linguistics (COLING 2004), Geneva, Switzerland [20] Regina Barzilay and Michael Elhadad Using Lexical Chains for Text Summarization, In Advances in Automatic Text Summarization (Inderjeet Mani and Mark T Maybury, editors): 111–121, The MIT Press, 1999 [21] R.Mihalcea and P.Tarau (2004), TextRank: Bringing order into Texts [22] S.Brin and L.Page (1998), The Anatomy of a large-scale Hypertextual web search engin [23] R.Mihalcea (2004), Graph-based Ranking Algorithms for sentence Extraction Applied to Text Summarization ... Đầu vào văn tóm tắt - Chức văn tóm tắt - Mục đích văn tóm tắt - Đầu văn tóm tắt 1.3.3.1 Nhân tố đầu vào Dựa vào nhân tố đầu vào chia văn tóm tắt thành tóm tắt đơn văn tóm tắt đa văn  Tóm tắt. .. quan phƣơng pháp xếp hạng dựa đồ thị TextRank, tốn tóm tắt văn tự động ứng dụng thuật toán TextRank xây dựng đồ thị câu, xếp hạng câu đồ thị Trên sở đó, cài đặt thử nghiệm tóm tắt đơn văn tiếng... trọng tóm tắt văn tự động cần có tiêu chí để đánh giá kết văn tóm tắt Với phân tích trên, luận văn lựa chọn đề tài: “Phƣơng pháp xếp hạng dựa đồ thị ứng dụng vào tóm tắt văn tự động để nghiên

Ngày đăng: 06/05/2019, 14:51

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan