1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xử lý trùng lặp phân loại xác định từ khóa quan trọng và sinh tóm tắt cho văn bản trong một hệ thống thu thập tin tức tự động

15 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 15
Dung lượng 2,08 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ CẤN MẠNH CƯỜNG XỬ LÝ TRÙNG LẶP, PHÂN LOẠI, XÁC ĐỊNH TỪ KHÓA QUAN TRỌNG VÀ SINH TÓM TẮT CHO VĂN BẢN TRONG MỘT HỆ THỐNG THU THẬP TIN TỨC TỰ ĐỘNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ CẤN MẠNH CƯỜNG XỬ LÝ TRÙNG LẶP, PHÂN LOẠI, XÁC ĐỊNH TỪ KHÓA QUAN TRỌNG VÀ SINH TÓM TẮT CHO VĂN BẢN TRONG MỘT HỆ THỐNG THU THẬP TIN TỨC TỰ ĐỘNG Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN TRÍ THÀNH Hà Nội – 2016 i LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Thầy giáo, PGS TS Nguyễn Trí Thành tận tình bảo, hướng dẫn, động viên giúp đỡ tơi suốt q trình thực luận văn tốt nghiệp Tôi xin gửi lời cảm ơn tới thầy cô trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội – người tận tình giúp đỡ, cổ vũ, góp ý cho suốt thời gian học tập nghiên cứu trường Tôi xin gửi lời cảm ơn tới anh chị, bạn học viên học tập nghiên cứu Trường Đại học Công nghệ hỗ trợ tơi nhiều q trình học tập thực luận văn Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, người thân yêu bên cạnh, quan tâm, động viên tơi suốt q trình học tập thực luận văn tốt nghiệp Tôi xin chân thành cảm ơn! Hà Nội, tháng 05 năm 2016 Học viên Cấn Mạnh Cường ii LỜI CAM ĐOAN Tôi xin cam đoan giải pháp Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng sinh tóm tắt cho văn hệ thống thu thập tin tức tự động trình bày luận văn tơi thực hướng dẫn PGS TS Nguyễn Trí Thành Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan nước quốc tế Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Hà Nội, tháng năm 2016 Tác giả luận văn Cấn Mạnh Cường MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN ii MỤC LỤC .1 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH .5 DANH MỤC CÁC BẢNG Chương GIỚI THIỆU ĐỀ TÀI 1.1 Tổng quan hệ thống thu thập tin tức tự động 1.1.1 Tổng quan Crawler 1.1.2 Hệ thống thu thập tin tức tự động 11 1.2 Các tốn khn khổ đề tài 12 1.2.1 Bài toán xử lý trùng lặp tin tức 12 1.2.2 Bài toán phân loại tin tức 13 1.2.3 Bài toán xác định từ khóa quan trọng chọn tóm tắt 13 1.3 Ý nghĩa toán giải đề tài .14 1.3.1 Ý nghĩa khoa học 14 1.3.2 Ý nghĩa thực tiễn 14 1.4 Kết luận 14 Chương MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN 16 2.1 Các phương pháp tiếp cận toán trùng lặp tin tức 16 2.1.1 Bag of Words .16 2.1.2 Shingling 17 2.1.3 Hashing 19 2.1.4 MinHash 19 2.1.5 SimHash 21 2.2 Các phương pháp tiếp cận toán phân loại tin tức 23 2.2.1 Tiếp cận dựa phương pháp định 24 2.2.2 Phân loại liệu Naïve Bayes 25 2.2.3 Tiếp cận theo phương pháp SVM 28 2.3 Tiếp cận tốn xác định từ khóa quan trọng chọn câu tóm tắt 32 2.3.1 Phương pháp TF-IDF 32 2.3.2 Phương pháp Edmundson 33 2.4 Tổng kết 34 Chương ĐỀ XUẤT GIẢI PHÁP GIẢI QUYẾT CÁC BÀI TOÁN TRONG THỰC TẾ 35 3.1 Hệ thu thập tin tức tự động mở rộng 35 3.2 Giải toán trùng lặp tin tức 37 3.2.1 Yêu cầu thực tế toán xử lý trùng lặp tin tức 37 3.2.2 Mơ hình giải pháp thực tế 38 3.3 Giải toán phân loại tin tức 39 3.3.1 Yêu cầu toán thực tế 39 3.3.2 Mơ hình giải pháp thực tế 39 3.4 Giải tốn xác định từ khóa quan trọng chọn câu tóm tắt .40 3.4.1 Yêu cầu toán thực tế 40 3.4.2 Mơ hình giải pháp thực tế 42 3.5 Tổng kết 43 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 44 4.1 Môi trường thực nghiệm công cụ sử dụng thực nghiệm 44 4.2 Quá trình thu thập liệu tin tức tiền xử lý 45 4.2.1 Thu thập liệu tin tức .45 4.2.2 Tiền xử lý liệu 46 4.3 Đánh giá phát trùng lặp tin tức 46 4.3.1 Phương pháp đánh giá 46 4.3.2 Kết đánh giá .46 4.4 Đánh giá phân loại tin tức .47 4.4.1 Phương pháp đánh giá 47 4.4.2 Kết đánh giá .49 4.5 Đánh giá kết xác định từ khóa quan trọng chọn câu tóm tắt 50 4.5.1 Phương pháp đánh giá 50 4.5.2 Kết đánh giá .50 4.6 Tổng kết 51 TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN TƯƠNG LAI 52 Kết đạt 52 Hạn chế .52 Hướng phát triển 53 TÀI LIỆU THAM KHẢO .54 PHỤ LỤC 55 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Số thứ tự Ký hiệu, viết tắt Chú giải Crawler Trình thu thập nội dung trang web WebBrowser Trình duyệt web HTTP Giao thức truyền tải siêu văn URL Địa liên kết trang web Seed URL Tập hợp URL hạt nhân xuất phát Crawler Frontier Kho chứa URL chưa thăm Finger print Dấu vân, đại diện cho tài liệu độc lập Front End Phần xử lý giao diện tương tác với người dùng ID Định danh tài liệu 10 IP Giao thức kết nối Internet 11 Hashing Băm tài liệu 12 Search Engine Máy tìm kiếm 13 SEO Tối ưu hóa trang web hỗ trợ máy tìm kiếm 14 TF Tần số từ 15 IDF Tần số tài liệu đảo ngược 16 HTML Ngôn ngữ đánh dấu siêu văn 17 CSS Ngôn ngữ định dạng phần tử HTML 18 SVM Thuật toán máy véc-tơ hỗ trợ DANH MỤC CÁC HÌNH Hình 1.1 Kiến trúc thành phần Web Crawler Hình 1.2 Biểu đồ trạng thái Web Crawler .10 Hình 1.3 Mơ hình tổng quan hệ tổng hợp tin tự động 11 Hình 2.1 Mơ BagofWords 17 Hình 2.2 Ví dụ hashing .19 Hình 2.3 Mơ minhash 20 Hình 2.4 Ví dụ minhash 20 Hình 2.5 Mô việc lấy simhash 21 Hình 2.6 Mơ việc tính trùng lặp simhash 22 Hình 2.7 Mơ việc chia simhash theo bucket(khối) 22 Hình 2.8 Ví dụ hốn vị khối với simhash 23 Hình 2.10 H2 mặt phẳng tốt 28 Hình 2.11 Các điểm liệu biểu diễn R+ .29 Hình 2.12 Các vector hỗ trợ (support vector) chọn 29 Hình 2.13: Siêu phẳng biểu diễn R+ 31 Hình 3.1 Mơ hình tổng quan hệ tổng hợp tin tự động 35 Hình 3.2 Mơ hình dịch vụ xử lý phục vụ người dùng thơng qua API 37 Hình 3.3 Minh họa thực tế ứng dụng toán xử lý trùng lặp .37 Hình 3.4 Minh họa thực tế triển khai toán xử lý trùng lặp .38 Hình 3.5 Minh họa thực tế ứng dụng toán phân loại tin tức 39 Hình 3.6 Mơ hình triển khai thực tế triển khai toán phân loại tin tức 39 Hình 3.7 Minh họa thực tế ứng dụng xác định từ khóa quan trọng .41 Hình 3.8 Minh họa thực tế ứng dụng chọn câu tóm tắt 42 Hình 3.9 Mơ hình thực tế tốn xác định từ khóa quan trọng 42 Hình 4.1 So sánh tốc độ simhash shingling .47 DANH MỤC CÁC BẢNG Bảng 0.1 Thống kê số lượng tin tức báo tháng đầu 2016 .7 Bảng 4.1 Cấu hình phần cứng thực nghiệm 44 Bảng 4.2 Các công cụ phần mềm sử dụng 44 Bảng 4.3 Thống kê thời gian chạy với simhash shingling 46 Bảng 4.4 Kết phân loại chưa cải tiến .49 Bảng 4.5 Kết phân loại cải tiến .49 Bảng 4.6 Thống kê tỉ lệ tag tóm tắt đạt yêu cầu .50 MỞ ĐẦU Báo điện tử khơng cịn khái niệm xa lạ với chúng ta, dần thay hình thức phát hành báo, tạp chí truyền thống đặc điểm ưu việt như: tính thời - khả cập nhật trực tiếp, khả truyền tải đa phương tiện, khả lưu trữ tìm kiếm thông tin, khả tương tác với người dùng cao, báo điện tử khắc phục hạn chế loại hình báo chí truyền thống để trở thành loại hình báo chí ưu việt thời điểm Tính đến ngày 25/12/2014, nước có 838 quan báo chí in với 1.111 ấn phẩm báo chí (trong quan Trung ương có 86 báo in 507 tạp chí; địa phương có 113 báo in 132 tạp chí); 90 báo tạp chí điện tử, 215 trang tin điện tử tổng hợp quan báo chí Số báo tạp chí điện tử tăng gấp gần 1.5 lần so với số 62 báo điện tử vào năm 2012 [1] Cũng theo thống kê trang tổng hợp thông tin điện tử lớn Baomoi.com1 tháng từ tháng 12/2015 đến tháng 2/2016, số lượng tin báo, tạp chí điện tử, trang thơng tin điện tử thì: Bảng 0.1 Thống kê số lượng tin tức báo tháng đầu 2016 Tổng số tin 583.827 Tổng số tin đăng lại 137.823 Tổng số tin gốc bị đăng lại 123.805 Tổng số tin gốc không bị đăng lại 446.004 Với lượng thông tin khổng lồ từ 300 trang báo tin điện tử việc tổng hợp chọn lọc cách thủ cơng để mang lại nguồn thơng tin hữu ích dường điều không thể, việc thu thập thông tin tự động để xây dựng hệ thống đọc tin tự động thơng minh máy tính khơng cịn chủ đề mới, xong việc cải tiến, ứng dụng công nghệ vào hệ thống để hệ thống vận hành tốt bối cảnh liệu lớn dần tốn khơng đơn giản Để xây dựng hệ thống ta có nhiều bước cần phải sử dụng giải thuật xử lý văn nghiên cứu nhiều khai phá liệu văn bản, liệu web như: Thu thập nội dung tin tức, xử lý trùng lặp tin tức, phân loại tin theo danh mục, xác định từ khóa quan trọng nội dung tin tức sinh tóm tắt cho tin, kiểm lỗi tả tin tức, phát chủ đề nóng, chủ đề nhạy cảm, xu hướng đọc tin thời http://www.baomoi.com/Statistics/Report.aspx gian gần, … Đó lý mà tác giả chọn nghiên cứu đề tài: “Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng sinh tóm tắt cho văn hệ thống thu thập tin tức tự động” Luận văn chia thành phần sau: Chương Giới thiệu đề tài Chương trình tổng quan hệ thống thu thập tin tức tự động đồng thời giới thiệu số toán khai phá liệu hệ thu thập tin tức tự động, giới thiệu tốn khn khổ đề tài Chương Một số phương pháp tiếp cận Chương tập trung trình bày phương pháp tiếp cận cho toán xử lý trùng lặp, toán phân loại tin tức, tốn xác định từ khóa quan trọng chọn câu tóm tắt cho tin tức, phương pháp có nhận xét hữu ích Chương Đề xuất mơ hình giải Từ kết nghiên cứu từ chương 2, chương luận văn phương pháp phù hợp cho toán thực tế chọn lựa để đưa vào thực nghiệm Tiếp đến trình bày, mơ tả mơ hình chi tiết cách giải cho toán Chương Thực nghiệm đánh giá Chương cuối luận văn dựa phương hướng thực nghiệm cải tiến trình bày chương 3, để tiến hành bước thực nghiệm với ba toán: Phát tin tức trùng lặp, phân loại tin tức, xác định từ khóa quan trọng chọn câu tóm tắt cho tin Với toán, luận văn đưa phương pháp đánh giá, phép so sánh phù hợp trình bày kết đạt tương ứng Phần tổng kết: Phần tổng kết nêu lên kết đạt được, khó khăn hạn chế gặp phải q trình giải tốn cuối định hướng phát triển tương lai 9 Chương GIỚI THIỆU ĐỀ TÀI Trong chương này, luận văn tập trung giải vấn đề sau: giới thiệu tổng quan hệ thống thu thập tin tức tự động, tốn khn khổ đề tài, ý nghĩa khoa học ý nghĩa thực tiễn tốn 1.1 Tổng quan hệ thống thu thập tin tức tự động 1.1.1 Tổng quan Crawler Hệ thu thập tin tức tự động có thành phần cốt lõi trình thu thập nội dung trang tin tức từ Internet (gọi NewsCrawler), mơ hình kiến trúc thành phần News Crawler giống với trình thu thập nội dung Web (Web Crawler) thông thường khác, khác áp dụng hệ thu thập tin tức tự động thành phần URL nhân (hay gọi Seed) tập trang tin tức Phần giới thiệu mơ hình tổng quan Crawler vấn đề áp dụng vào toán thu thập tin tức tự động Web Crawler (một số với tên gọi khác WebRobot Web Spider) chương trình máy tính “duyệt web” cách tự động theo phương thức, hành vi xác định trước Vì chương trình máy tính nên q trình “duyệt web” Web Crawler khơng hồn tồn giống với q trình duyệt web người (Web Crawler sử dụng phương thức dựa HTTP trực tiếp không thông qua WebBrowser người) Kiến trúc Crawler bao gồm thành phần sau: Hình 1.1 Kiến trúc thành phần Web Crawler Giải thích thành phần hình 1.1: - WWW thành phần đại diện cho trang Web internet 54 TÀI LIỆU THAM KHẢO Tiếng Việt Bộ Thơng tin Truyền thơng (2015), Tình hình phát triển lĩnh vực báo chí năm 2015, Hà Nội Trần Mai Vũ (2009), Tóm Tắt Đa Văn Bản Dựa Vào Trích Xuất Câu, Đại Học Quốc Gia Hà Nội, Trường Đại Học Công Nghệ, 2009, tr.4 Tiếng Anh Christopher D Manning, Prabhakar Raghavan and Hinrich Schütze (2009), Introduction to Information Retrieval, Cambridge University Press 2009 Martin Law (2011), A Simple Introduction to Support Vector Machines, Michigan State University, Lecture for CSE 802 T Joachims (1999) Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning (ICML), 1999 Jin Huang, Jingjing Lu, Charles X Ling (2003) Comparing Naive Bayes, Decision Trees, and SVM with AUC and Accuracy The Third IEEE International Conference on Data Mining (ICML2003) Sarini, Sarini, McGree, James, White, Nicole, Mengersen, Kerrie, & Kerr, Graham (2015), Comparison of decision tree, support vector machines, and Bayesian network approaches for classification of falls in Parkinson’s disease International Journal of Applied Mathematics and Statistics, 53(6), pp 145-151 A Sopharak, B Uyyanonvara, S Barman, World Academy of Science, Engineering and Technology International Journal of Computer, Electrical, Automation, Control and Information Engineering Vol:8, No:5, 2014 Ranjeeta Rana, Vaishali Kolhe (2015) Analysis of Students Emotion for Twitter Data using Naïve Bayes and Non Linear Support Vector Machine Approachs International Journal on Recent and Innovation Trends in Computing and Communication ISSN: 2321-8169 10 HP Luhn (1958), The Automatic Creation of Literature Abstracts, IBM JOURNAL, pp 159-161 55 PHỤ LỤC CHỨNG NHẬN PHÁT TRIỂN VÀ TRIỂN KHAI THỰC TẾ ... NGHỆ CẤN MẠNH CƯỜNG XỬ LÝ TRÙNG LẶP, PHÂN LOẠI, XÁC ĐỊNH TỪ KHÓA QUAN TRỌNG VÀ SINH TÓM TẮT CHO VĂN BẢN TRONG MỘT HỆ THỐNG THU THẬP TIN TỨC TỰ ĐỘNG Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống. .. http://www.baomoi.com/Statistics/Report.aspx gian gần, … Đó lý mà tác giả chọn nghiên cứu đề tài: ? ?Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng sinh tóm tắt cho văn hệ thống thu thập tin tức tự động? ?? Luận văn chia thành phần... ĐOAN Tôi xin cam đoan giải pháp Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng sinh tóm tắt cho văn hệ thống thu thập tin tức tự động trình bày luận văn thực hướng dẫn PGS TS Nguyễn

Ngày đăng: 16/03/2021, 12:34

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN