Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
2,23 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ CẤN MẠNH CƯỜNG XỬ LÝ TRÙNG LẶP, PHÂN LOẠI, XÁC ĐỊNH TỪ KHÓA QUAN TRỌNG VÀ SINH TÓM TẮT CHO VĂN BẢN TRONG MỘT HỆ THỐNG THU THẬP TIN TỨC TỰ ĐỘNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ CẤN MẠNH CƯỜNG XỬ LÝ TRÙNG LẶP, PHÂN LOẠI, XÁC ĐỊNH TỪ KHÓA QUAN TRỌNG VÀ SINH TÓM TẮT CHO VĂN BẢN TRONG MỘT HỆ THỐNG THU THẬP TIN TỨC TỰ ĐỘNG Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN TRÍ THÀNH Hà Nội – 2016 i LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Thầy giáo, PGS TS Nguyễn Trí Thành tận tình bảo, hướng dẫn, động viên giúp đỡ tơi suốt q trình thực luận văn tốt nghiệp Tôi xin gửi lời cảm ơn tới thầy cô trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội – người tận tình giúp đỡ, cổ vũ, góp ý cho suốt thời gian học tập nghiên cứu trường Tôi xin gửi lời cảm ơn tới anh chị, bạn học viên học tập nghiên cứu Trường Đại học Công nghệ hỗ trợ tơi nhiều q trình học tập thực luận văn Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, người thân yêu bên cạnh, quan tâm, động viên tơi suốt q trình học tập thực luận văn tốt nghiệp Tôi xin chân thành cảm ơn! Hà Nội, tháng 05 năm 2016 Học viên Cấn Mạnh Cường ii LỜI CAM ĐOAN Tôi xin cam đoan giải pháp Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng sinh tóm tắt cho văn hệ thống thu thập tin tức tự động trình bày luận văn tơi thực hướng dẫn PGS TS Nguyễn Trí Thành Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan nước quốc tế Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Hà Nội, tháng năm 2016 Tác giả luận văn Cấn Mạnh Cường MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN ii MỤC LỤC .1 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH .5 DANH MỤC CÁC BẢNG Chương GIỚI THIỆU ĐỀ TÀI 1.1 Tổng quan hệ thống thu thập tin tức tự động 1.1.1 Tổng quan Crawler 1.1.2 Hệ thống thu thập tin tức tự động 11 1.2 Các tốn khn khổ đề tài 12 1.2.1 Bài toán xử lý trùng lặp tin tức 12 1.2.2 Bài toán phân loại tin tức 13 1.2.3 Bài toán xác định từ khóa quan trọng chọn tóm tắt 13 1.3 Ý nghĩa toán giải đề tài .14 1.3.1 Ý nghĩa khoa học 14 1.3.2 Ý nghĩa thực tiễn 14 1.4 Kết luận 14 Chương MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN 16 2.1 Các phương pháp tiếp cận toán trùng lặp tin tức 16 2.1.1 Bag of Words .16 2.1.2 Shingling 17 2.1.3 Hashing 19 2.1.4 MinHash 19 2.1.5 SimHash 21 2.2 Các phương pháp tiếp cận toán phân loại tin tức 23 2.2.1 Tiếp cận dựa phương pháp định 24 2.2.2 Phân loại liệu Naïve Bayes 25 2.2.3 Tiếp cận theo phương pháp SVM 28 2.3 Tiếp cận tốn xác định từ khóa quan trọng chọn câu tóm tắt 32 2.3.1 Phương pháp TF-IDF 32 2.3.2 Phương pháp Edmundson 33 2.4 Tổng kết 34 Chương ĐỀ XUẤT GIẢI PHÁP GIẢI QUYẾT CÁC BÀI TOÁN TRONG THỰC TẾ 35 3.1 Hệ thu thập tin tức tự động mở rộng 35 3.2 Giải toán trùng lặp tin tức 37 3.2.1 Yêu cầu thực tế toán xử lý trùng lặp tin tức 37 3.2.2 Mơ hình giải pháp thực tế 38 3.3 Giải toán phân loại tin tức 39 3.3.1 Yêu cầu toán thực tế 39 3.3.2 Mơ hình giải pháp thực tế 39 3.4 Giải tốn xác định từ khóa quan trọng chọn câu tóm tắt .40 3.4.1 Yêu cầu toán thực tế 40 3.4.2 Mơ hình giải pháp thực tế 42 3.5 Tổng kết 43 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 44 4.1 Môi trường thực nghiệm công cụ sử dụng thực nghiệm 44 4.2 Quá trình thu thập liệu tin tức tiền xử lý 45 4.2.1 Thu thập liệu tin tức .45 4.2.2 Tiền xử lý liệu 46 4.3 Đánh giá phát trùng lặp tin tức 46 4.3.1 Phương pháp đánh giá 46 4.3.2 Kết đánh giá .46 4.4 Đánh giá phân loại tin tức .47 4.4.1 Phương pháp đánh giá 47 4.4.2 Kết đánh giá .49 4.5 Đánh giá kết xác định từ khóa quan trọng chọn câu tóm tắt 50 4.5.1 Phương pháp đánh giá 50 4.5.2 Kết đánh giá .50 4.6 Tổng kết 51 TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN TƯƠNG LAI 52 Kết đạt 52 Hạn chế .52 Hướng phát triển 53 TÀI LIỆU THAM KHẢO .54 PHỤ LỤC 55 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Số thứ tự Ký hiệu, viết tắt Chú giải Crawler Trình thu thập nội dung trang web WebBrowser Trình duyệt web HTTP Giao thức truyền tải siêu văn URL Địa liên kết trang web Seed URL Tập hợp URL hạt nhân xuất phát Crawler Frontier Kho chứa URL chưa thăm Finger print Dấu vân, đại diện cho tài liệu độc lập Front End Phần xử lý giao diện tương tác với người dùng ID Định danh tài liệu 10 IP Giao thức kết nối Internet 11 Hashing Băm tài liệu 12 Search Engine Máy tìm kiếm 13 SEO Tối ưu hóa trang web hỗ trợ máy tìm kiếm 14 TF Tần số từ 15 IDF Tần số tài liệu đảo ngược 16 HTML Ngôn ngữ đánh dấu siêu văn 17 CSS Ngôn ngữ định dạng phần tử HTML 18 SVM Thuật toán máy véc-tơ hỗ trợ DANH MỤC CÁC HÌNH Hình 1.1 Kiến trúc thành phần Web Crawler Hình 1.2 Biểu đồ trạng thái Web Crawler .10 Hình 1.3 Mơ hình tổng quan hệ tổng hợp tin tự động 11 Hình 2.1 Mơ BagofWords 17 Hình 2.2 Ví dụ hashing .19 Hình 2.3 Mơ minhash 20 Hình 2.4 Ví dụ minhash 20 Hình 2.5 Mô việc lấy simhash 21 Hình 2.6 Mơ việc tính trùng lặp simhash 22 Hình 2.7 Mơ việc chia simhash theo bucket(khối) 22 Hình 2.8 Ví dụ hốn vị khối với simhash 23 Hình 2.10 H2 mặt phẳng tốt 28 Hình 2.11 Các điểm liệu biểu diễn R+ .29 Hình 2.12 Các vector hỗ trợ (support vector) chọn 29 Hình 2.13: Siêu phẳng biểu diễn R+ 31 Hình 3.1 Mơ hình tổng quan hệ tổng hợp tin tự động 35 Hình 3.2 Mơ hình dịch vụ xử lý phục vụ người dùng thơng qua API 37 Hình 3.3 Minh họa thực tế ứng dụng toán xử lý trùng lặp .37 Hình 3.4 Minh họa thực tế triển khai toán xử lý trùng lặp .38 Hình 3.5 Minh họa thực tế ứng dụng toán phân loại tin tức 39 Hình 3.6 Mơ hình triển khai thực tế triển khai toán phân loại tin tức 39 Hình 3.7 Minh họa thực tế ứng dụng xác định từ khóa quan trọng .41 Hình 3.8 Minh họa thực tế ứng dụng chọn câu tóm tắt 42 Hình 3.9 Mơ hình thực tế tốn xác định từ khóa quan trọng 42 Hình 4.1 So sánh tốc độ simhash shingling .47 DANH MỤC CÁC BẢNG Bảng 0.1 Thống kê số lượng tin tức báo tháng đầu 2016 .7 Bảng 4.1 Cấu hình phần cứng thực nghiệm 44 Bảng 4.2 Các công cụ phần mềm sử dụng 44 Bảng 4.3 Thống kê thời gian chạy với simhash shingling 46 Bảng 4.4 Kết phân loại chưa cải tiến .49 Bảng 4.5 Kết phân loại cải tiến .49 Bảng 4.6 Thống kê tỉ lệ tag tóm tắt đạt yêu cầu .50 41 Hình 3.7 Minh họa thực tế ứng dụng xác định từ khóa quan trọng Mục đích thực tế tốn xác định từ khóa quan trọng hỗ trợ việc tóm tắt đại ý nội dung tin phục vụ việc tạo chủ đề liên kết liên quan báo, hỗ trợ tối ưu máy tìm kiếm Bài tốn chọn câu tóm tắt 42 Hình 3.8 Minh họa thực tế ứng dụng chọn câu tóm tắt Đối với số nội dung không lấy đoạn trích dẫn tóm tắt nội dung, hệ thống tự tóm tắt đoạn trích dẫn nội dung tóm tắt cho viết Hoặc hỗ trợ biên tập viên, phóng viên đề xuất câu dùng làm câu tóm tắt mơ tả tin 3.4.2 Mơ hình giải pháp thực tế Bài tốn xác định từ khóa quan trọng Hình 3.9 Mơ hình thực tế tốn xác định từ khóa quan trọng 43 Các đóng góp quan trọng xác định từ khóa quan trọng: - Tham chiếu vị trí câu, vị trí tiêu đề, phần mô tả nội dung, sử dụng thêm trọng số Tf-idf - Tham chiếu từ từ khóa(Tags) có sẵn thu thập liệu từ internet, từ khóa từ việc phân tích xu hướng thông tin - Tham chiếu kết Google Suggestion Search Volumne để lấy lượng tìm kiếm, lượng tìm kiếm cao có nghĩa từ khóa có mức độ quan trọng cao Bài tốn chọn câu tóm tắt Bài tốn chọn câu tóm tắt đề tài sử dụng kết hợp phương pháp TF-IDF Edmundson, vừ dựa điểm trọng số cho từ khóa (TF-IDF), câu có nhiều từ khóa quan trọng, vừa xác định độ tương quan vị trí câu, nằm tiêu đề, phần mô tả, nội dung, cuối đoạn đầu đoạn tính tốn hợp lý để đề xuất danh sách câu quan trọng tin Việc chọn tỉ lệ câu đề xuất tổng số câu tin vấn đề định đến độ xác tin Với hệ thống sau kết kiểm nghiệm thực tế câu lấy đại diện câu quan trọng phù hợp với liệu tin tức 3.5 Tổng kết Từ kết nghiên cứu từ chương 2, luận văn phương pháp phù hợp cho toán thực tế chọn lựa để đưa vào thực nghiệm Sau đó, phát biểu, mơ tả mơ hình chi tiết cách giải cho tốn, số đóng góp quan trọng cải thiện độ xác kết Phần luận văn tiến hành đánh giá kết thực nghiệm đạt sau áp dụng mơ hình 44 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Ở chương này, luận văn tiến hành trình thực nghiệm đánh giá kết đề xuất dựa toán Với đặc điểm riêng tốn có cách đánh giá, so sánh riêng phù hợp với yêu cầu thực tế, đồng thời đảm bảo ý nghĩa khoa học tốn 4.1 Mơi trường thực nghiệm công cụ sử dụng thực nghiệm Cấu hình phần cứng, phần mềm gói kèm thực nghiệm sử dụng luận văn mô tả hai bảng sau đây: Công cụ phần cứng sử dụng: Bảng 4.1 Cấu hình phần cứng thực nghiệm Thành phần STT Chỉ số CPU Intel Core i5 4460 3.4GHZ RAM 8GB Hệ điều hành Ubuntu 14.04 Bộ nhớ ngồi 500GB Bảng 4.2 Các cơng cụ phần mềm sử dụng STT Tên phần mềm Chức Nguồn Apache Nutch 1.11 Tải liệu từ website http://nutch.apache.org/ Elasticsearch Eclipse Java EE Luna Index, lưu trữ liệu https://github.com/elastic/elasticsearch Tạo môi trường để viết chương trình https://eclipse.org/downloads/ 45 STT Tên phần mềm Chức Nguồn Readability Trích xuất nội dung https://github.com/mozilla/readability vnSentDetector 2.0.0 PhươngLH – Trích http://mim.hus.vnu.edu.vn/phuonglh/so xuất câu đoạn ftwares/vnSentDetector văn vn.hus.nlp.tokenizer4.1.1 PhươngLH - Tách từ http://mim.hus.vnu.edu.vn/phuonglh/so văn ftwares/vnTokenizer LibSVM 3.21 Redis Chih-Chung Chang https://www.csie.ntu.edu.tw/~cjlin/libs and Chih-Jen Lin – vm/ Phục vụ phân loại văn Cache Simhash vào http://redis.io/ memory, share cụm 4.2 Quá trình thu thập liệu tin tức tiền xử lý 4.2.1 Thu thập liệu tin tức Dữ liệu thu thập với phần mềm mã nguồn mở Apache Nutch 1.11 cấu hình chạy phân tán, Nutch tùy biến thêm Plugin(mô-đun) kế thừa việc trích xuất liệu việc đánh mục liệu lên Elasticsearch ( dạng máy tìm kiếm linh động với mức độ tùy biến tìm kiếm cao ) - - Plugin trích xuất liệu viết mã từ Readability, tùy biến để trích xuất hạng mục tin là: tiêu đề, phần mơ tả (tóm tắt), nội dung tin, tên tác giả ngày đăng tin Plugin đánh mục tùy biến giúp đánh mục thêm trường cần thiết lên ElasticSearch Dữ liệu thu thập chuẩn hóa lại font chữ, lọc tin nội dung ảnh, video, đảm bảo liệu text chuẩn hóa ( normalize–filter) phục vụ cho việc xử lý liệu 46 4.2.2 Tiền xử lý liệu Với liệu lấy dịch vụ tự động tiến hành xử lý tách từ, tách câu hai công cụ mã nguồn mở vnSentDetector 2.0.0 vnTokenizer 4.1.1, tiếp tin lấy dấu đại diện simhash – simhash lưu trữ riêng dạng đặc biệt để phục vụ việc phát trùng lặp, ngồi tin cịn xử lý lấy từ khóa quan trọng(tags) chọn vài câu đề xuất tóm tắt tin lấy khơng có câu tóm tắt Với từ khóa tách, URL gốc tin phân loại cách tự động Mơ hình giải chi tiết cho toán luận văn nêu chi tiết chương 3, phần nêu lên phương pháp đánh giá kết đánh giá toán 4.3 Đánh giá phát trùng lặp tin tức 4.3.1 Phương pháp đánh giá Trong thực tế có thuật giải kiểm tra trùng lặp cho kết tốt việc sử dụng hàm băm Simhash để tạo đại diện Tuy nhiên khuôn khổ luận văn tác giả đánh giá việc sử dụng Simhash phương diện phục vụ cho Crawler kiểm tra trùng lặp nên tốc độ kiểm tra trùng lặp yếu tố ưu tiên hàng đầu 4.3.2 Kết đánh giá Trong thí nghiệm đánh giá, so sánh tốc độ hai thuật toán Simhash Shingling tập liệu với số lượng liệu tăng dần từ 100 ghi lên đến 1500 ghi ghi tin tức thu thập trang báo điện tử VNExpress lưu trữ sở liệu Simhash lấy dạng Simhash 32bit Shingling lấy dạng token sau tách từ, kết thu cho bảng 4.3: Bảng 4.3 Thống kê thời gian chạy với simhash shingling Số ghi Simhash(ms) Shingling(ms) 100 2466 5389 200 2692 12851 300 3052 25841 400 3253 43918 500 3437 66225 600 3664 94262 700 3869 127710 800 4140 166124 900 4419 209418 1000 4697 258469 47 Số ghi Simhash(ms) Shingling(ms) 1100 4985 307823 1200 5261 366019 1300 5575 429911 1400 5935 498562 1500 6240 570506 Mơ hình hóa dạng biểu đồ: SIMHASH VS SHINGLING SPEEDS Simhash Shingling 600000 500000 400000 300000 200000 100000 0 200 400 600 800 1000 1200 1400 1600 Hình 4.1 So sánh tốc độ simhash shingling Thuật toán Shingling thể rõ độ phức tạp tính tốn theo thời gian O(n2) áp dụng Simhash cho thấy kết tốt rõ rệt với lý thuyết thời gian chạy logarit Hoàn toàn phù hợp với việc áp dụng vào thực tế 4.4 Đánh giá phân loại tin tức 4.4.1 Phương pháp đánh giá Trước tiên cần nói thêm trình thu thập liệu crawler, danh mục thuộc diện tin văn lấy đánh dấu riêng nằm 12 danh mục bao gồm:{"cong-nghe","giai-tri","giao-duc","kham-pha","kinh-te","phap-luat","quansu","suc-khoe","tam-su","the-gioi","the-thao","xe-360"} Việc đánh giá thuật toán phân loại sử dụng độ đo precision/recall F1 để đánh giá học liệu bao gồm 56400 văn chọn sẵn danh mục để học dựa nguồn VNExpress, 54000 văn thuộc 12 chủ đề ( tương đương với 4500 48 tin/1 chủ đề) dùng để huấn luyện(train), 2400 văn dùng để kiểm định (test), khuôn khổ luận văn thực đánh giá phương diện việc sử dụng SVM túy với nội dung tin việc cải tiến cho kết thực tế sao, chi tiết nêu phần kết Sau số độ đo sử dụng đánh giá: Ma trận nhầm lẫn (Confusion Matrix) TPi : Số lượng tin thuộc lớp ci phân loại xác vào lớp ci FPi: Số lượng tin không thuộc lớp ci bị phân loại nhầm vào lớp ci TNi: Số lượng tin không thuộc lớp ci phân loại (chính xác) FNi: Số lượng tin thuộc lớp ci bị phân loại nhầm (vào lớp khác ci) Độ đo Precision recall Hay cịn gọi Độ xác Độ bao phủ, Precision việc thể tập tìm (phân loại) Recall việc thể số tồn tại, tìm (phân loại) Đây hai độ đo phổ biến, hay sử dụng để đánh giá hệ thống phân loại văn - Precision lớp ci lớp tập lớp C ={c1, c2, …, cn} 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑡𝑝 𝑡𝑝 + 𝑓𝑝 Tổng số tin thuộc lớp ci phân loại xác chia cho tổng số tin phân loại vào lớp ci - Recall lớp ci 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑡𝑝 𝑡𝑝 + 𝑓𝑛 Tổng số tin thuộc lớp ci phân loại xác chia cho tổng số ví dụ thuộc lớp ci Recall gọi True Positive Rate hay Sensitivity (độ nhạy), precision gọi Positive predictive value (PPV); ngồi ra, ta có độ đo khác True Negative Rate Accuracy True Negative Rate gọi Specificity Độ đo F1 Tiêu chí đánh giá F1 kết hợp hai tiêu chí đánh giá Precision Recall 49 𝐹 =2∙ F1 trung chí Precision Recall bình 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∙ 𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 điều hòa (harmonic mean) tiêu F1 có xu hướng lấy giá trị gần với giá trị nhỏ hai giá trị Precision Recall, F1 có giá trị lớn hai giá trị Precision Recall lớn 4.4.2 Kết đánh giá Kết sau tiến hành phân loại sử dụng SVM kernel linear với liệu văn bao gồm nội dung văn túy chưa có cải tiến Bảng 4.4 Kết phân loại chưa cải tiến STT Danh mục Precison Recall F1 Cơng nghệ 75.5 82.51 78.85 Giải trí 66 75.43 70.4 Giáo dục 79 92.4 85.18 Khám phá 65 71.43 68.06 Kinh tế 66.5 73.08 69.63 Pháp luật 76.5 83.61 79.9 Quân 46.5 93.94 62.21 Sức khỏe 67.5 87.66 76.27 Tâm 89 84.36 86.62 10 Thế giới 88.5 40.69 55.75 11 Thể thao 83 91.71 87.14 12 Xe 360 81.5 66.8 73.42 73.71 78.64 74.45 Trung bình Áp dụng cải tiến vào phân loại xác định chủ đề văn bản, biện pháp nêu chương 3, kết đạt được cho bảng 4.5: Bảng 4.5 Kết phân loại cải tiến STT Danh mục Precison Recall F1 Công nghệ 80.9 90.58 85.47 Giải trí 81.7 83.29 82.49 Giáo dục 82.1 93.26 87.32 Khám phá 73.5 81.4 77.25 50 Kinh tế 76.9 77.25 77.07 Pháp luật 77.6 88.92 82.88 Quân 73.2 95.97 83.05 Sức khỏe 84.9 94.04 89.24 Tâm 91.2 93.58 92.37 10 Thế giới 88.7 93.41 90.99 11 Thể thao 92.6 92.62 92.61 12 Xe 360 73.9 88.24 80.44 81.43 89.38 85.1 Trung bình Kết bảng cho thấy, toàn kết phân loại cải thiện độ xác độ hồi tưởng, độ xác Precision trung bình từ 73.71% lên đến 81.43%, độ hồi tưởng Recall tăng từ 78.64% lên tới 89.38%, kéo theo độ đo F1 tăng rõ rệt 4.5 Đánh giá kết xác định từ khóa quan trọng chọn câu tóm tắt 4.5.1 Phương pháp đánh giá Việc đánh giá toán thực cách thủ công phần dựa ý kiến chuyên gia (expert judgment) đặc điểm đặc biệt toán: Để đánh giá toán xác định từ khóa quan trọng (tags) để phục vụ vấn đề nêu bật chủ đề tin hỗ trợ việc phục vụ tối ưu máy tìm kiếm (SEO) chọn câu tóm tắt cho chủ đề tin tin thiếu phần tóm tắt phức tạp địi hỏi người đánh giá vừa có kinh nghiệm SEO vừa có kinh nghiệm biên tập tin Luận văn sử dụng việc tổng hợp kết đánh giá từ ba người ban biên tập viên đào tạo kĩ SEO để thực đánh giá với bạn 100 tin Tổng số tin lấy từ khóa quan trọng, chọn câu tóm tắt 300 tin, tỉ lệ chọn (nén câu tóm tắt 5:1)[2] Chi tiết kết thu có phần kết đánh giá 4.5.2 Kết đánh giá Kết đánh giá thủ cơng ba lần ba biên tập viên có kinh nghiệm SEO đào tạo mảng biên tập lẫn kinh nghiệm đánh giá nội dung cho bảng 4.6 Bảng 4.6 Thống kê tỉ lệ tag tóm tắt đạt yêu cầu Tỉ lệ tags đạt Tỉ lệ tóm tắt đạt Lần (100 tin) 73% 71% Lần (100 tin) 76% 69% 51 Lần (100 tin) 78% 64% Trung bình 76% 68% Giải thích: Tỉ lệ Tags đạt 76% tức 100 tin lấy Tags tự động có 76 tin đạt yêu cầu theo ý kiến người đánh giá, có nghĩa phần tags chứa từ khóa thay người sử dụng phần tag nội dung tự động không cần người biên tập phải can thiệp, dùng làm tags phản ánh nội dung tin Tỉ lệ tóm tắt đạt 68% tức 100 tin lấy tổ hợp câu tóm tắt tự động có 68% tổ hợp câu có chứa câu chọn đại diện hỗ trợ biên tập viên đặt làm câu tóm tắt tin Qua đánh giá lấy ý kiến, sau ba lần với kết bình quân cho việc chọn tags tự động 76% việc đề xuất câu tóm tắt tự động 68% đánh giá cao có khả triển khai thực tế, ứng dụng vào hệ thống CMS tin tức tương lai 4.6 Tổng kết Chương tác giả trình bày kết thực nghiệm chứng minh phương pháp đề xuất chương Kết thực nghiệm tập trung vào ba tốn kiểm tra trùng lặp, phân loại tin tức sinh từ khóa nội dung chính, sinh câu đề xuất tóm tắt văn Kết thực nghiệm cho thấy phương pháp đề xuất phù hợp mức chấp nhận có phần kết khả quan sau thi đóng góp cải tiến 52 TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN TƯƠNG LAI Kết đạt Luận văn trình bày kiến thức phát trùng lặp, phân loại tin tức, xác định từ khóa quan trọng đề xuất câu tóm tắt cho tin tức miền liệu tiếng Việt Bên cạnh đó, luận văn trình bày chi tiết phương pháp tiếp cận toán, hướng giải kết thực tế Với toán phát trùng lặp tin tức từ phía Crawler luận văn đề cập phân tích ưu nhược điểm số phương pháp phổ biến để phát trùng lặp sau đề xuất mơ hình giải tốn với giải thuật SimHash từ đánh giá so sánh với thuật toán phát trùng lặp phổ biến shingling Với toán phân loại luận văn đưa vài toán phân loại lý sử dụng học máy bán giám sát với SVM, Cuối toán xác định từ khóa quan trọng, đề xuất câu đại diện chọn tóm tắt cho tin tức giải việc tổng hợp biện pháp Edmundson TF-IDF Các kết cho thấy phương pháp sử dụng Simhash để kiểm tra trùng lặp có tốc độ tính tốn tăng theo hàm loragit cải thiện nhiều so với O(n2) phương pháp shingling, cụ thể tập liệu lên tới 1500 tin tốc độ SimHash nhanh tốc độ Shingling tới 91,4 lần Phương pháp SVM tích hợp vào mơ đun phân loại cho kết tốt sau đóng góp số cải tiến so với sử dụng SVM túy tập liệu, với kết tốt Sử dụng độ đo xác (precision), độ đo hồi tưởng (recall), độ đo F-1 (F-1 measured) để đo lường kết cho thấy: độ đo xác (89.38%), độ đo hồi tưởng (89.3%), độ đo F-1 (85.1%) Với toán tự động đề xuất tags bao gồm từ khóa quan trọng đề xuất câu chọn làm tóm tắt cho kết tích cực sau áp dụng biện pháp cải tiến chương 3, tỉ lệ chấp nhận góc độ đánh giá người đào tạo (expert) lĩnh vực biên tập SEO cho thấy tỉ lệ tags đạt 76% tỉ lệ chọn câu tóm tắt chấp nhận đạt 68% Hạn chế Mặc dù kết đạt khả quan nhiên giải pháp luận văn không tránh khỏi số hạn chế nhược điểm cần khắc phục chẳng hạn như: Việc lấy hàm đại diện Simhash việc ánh xạ từ tập vô hạn sang tập hữu hạn nên xuất tỉ lệ trùng Simhash với hai văn khác nhau, điều khiến kiểm tra trùng lặp thêm thời gian để kiểm định thêm trường hợp kể tốc độ kiểm tra trùng lặp bị giảm xuống phần Việc phân loại phải thiết đặt luật cho Crawler để giới hạn tập danh mục 53 cụ thể tin phục vụ việc phân danh mục có độ xác cao, tin vắn, tin có chất lượng thấp chưa hỗ trợ Việc chọn từ khóa tóm tắt(tags) chọn câu tóm tắt cịn phụ thuộc nhiều vào việc tham chiếu kho từ cũ, kho từ xu hướng có sẵn để tăng cao độ xác, mà chưa tự chủ từ việc dựa vào thân văn Hướng phát triển Trong thời điểm tương lai gần, hướng phát triển trước mắt luận văn khắc phục hạn chế khuyết điểm mô đun nâng cao khả xác thuật tốn, cụ thể là: cải thiện tốc độ việc áp dụng Simhash để ứng phó với mơi trường liệu lớn hơn, cải thiện độ xác phân loại với nguồn tin tức đa dạng đồng thời nâng cao độ xác việc sinh từ khóa, đề xuất câu tóm tắt 54 TÀI LIỆU THAM KHẢO Tiếng Việt Bộ Thơng tin Truyền thơng (2015), Tình hình phát triển lĩnh vực báo chí năm 2015, Hà Nội Trần Mai Vũ (2009), Tóm Tắt Đa Văn Bản Dựa Vào Trích Xuất Câu, Đại Học Quốc Gia Hà Nội, Trường Đại Học Công Nghệ, 2009, tr.4 Tiếng Anh Christopher D Manning, Prabhakar Raghavan and Hinrich Schütze (2009), Introduction to Information Retrieval, Cambridge University Press 2009 Martin Law (2011), A Simple Introduction to Support Vector Machines, Michigan State University, Lecture for CSE 802 T Joachims (1999) Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning (ICML), 1999 Jin Huang, Jingjing Lu, Charles X Ling (2003) Comparing Naive Bayes, Decision Trees, and SVM with AUC and Accuracy The Third IEEE International Conference on Data Mining (ICML2003) Sarini, Sarini, McGree, James, White, Nicole, Mengersen, Kerrie, & Kerr, Graham (2015), Comparison of decision tree, support vector machines, and Bayesian network approaches for classification of falls in Parkinson’s disease International Journal of Applied Mathematics and Statistics, 53(6), pp 145-151 A Sopharak, B Uyyanonvara, S Barman, World Academy of Science, Engineering and Technology International Journal of Computer, Electrical, Automation, Control and Information Engineering Vol:8, No:5, 2014 Ranjeeta Rana, Vaishali Kolhe (2015) Analysis of Students Emotion for Twitter Data using Naïve Bayes and Non Linear Support Vector Machine Approachs International Journal on Recent and Innovation Trends in Computing and Communication ISSN: 2321-8169 10 HP Luhn (1958), The Automatic Creation of Literature Abstracts, IBM JOURNAL, pp 159-161 55 PHỤ LỤC CHỨNG NHẬN PHÁT TRIỂN VÀ TRIỂN KHAI THỰC TẾ