Tìm hiểu hệ thống thu thập tin tức tự động

THÔNG TIN TÀI LIỆU

Hệ thu thập tin tức tự động có thành phần cốt lõi là trình thu thập nội dung trang tin tức từ Internet (gọi là NewsCrawler), mô hình kiến trúc các thành phần của News Crawler giống với các trình thu thập nội dung Web (Web Crawler) thông thường khác, chỉ khác là khi áp dụng mới hệ thu thập tin tức tự động thì thành phần URL nhân (hay còn gọi là Seed) sẽ là tập các trang tin tức. Phần này sẽ giới thiệu mô hình tổng quan của Crawler và vấn đề áp dụng vào bài toán thu thập tin tức tự động. Web Crawler (một số với tên gọi khác là WebRobot hoặc Web Spider) là một chương trình máy tính có thể “duyệt web” một cách tự động theo một phương thức, hành vi nào đó được xác định trước. Vì là một chương trình máy tính nên quá trình “duyệt web” của các Web Crawler có thể không hoàn toàn giống với quá trình duyệt web của con người (Web Crawler có thể sử dụng các phương thức dựa trên HTTP trực tiếp chứ không thông qua WebBrowser như con người).

MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .4 DANH MỤC CÁC HÌNH DANH MỤC CÁC BẢNG Chương GIỚI THIỆU ĐỀ TÀI 10 1.1 Tổng quan hệ thống thu thập tin tức tự động 10 1.1.1 Tổng quan Crawler 10 1.1.2 Hệ thống thu thập tin tức tự động 12 1.2 Các tốn khn khổ đề tài 14 1.2.1 Bài toán xử lý trùng lặp tin tức 14 1.2.2 Bài toán phân loại tin tức 14 1.2.3 Bài toán xác định từ khóa quan trọng chọn tóm tắt .15 1.3 Ý nghĩa toán giải đề tài 16 1.3.1 Ý nghĩa khoa học 16 1.3.2 Ý nghĩa thực tiễn 16 1.4 Kết luận 16 Chương MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN 17 2.1 Các phương pháp tiếp cận toán trùng lặp tin tức .17 2.1.1 Bag of Words 17 2.1.2 Shingling 18 2.1.3 Hashing 20 2.1.4 MinHash 20 2.1.5 SimHash 22 2.2 Các phương pháp tiếp cận toán phân loại tin tức 24 2.2.1 Tiếp cận dựa phương pháp định 25 2.2.2 Phân loại liệu Naïve Bayes 26 2.2.3 Tiếp cận theo phương pháp SVM 29 2.3 Tiếp cận toán xác định từ khóa quan trọng chọn câu tóm tắt 33 2.3.1 Phương pháp TF-IDF 33 2.3.2 Phương pháp Edmundson 34 2.4 Tổng kết 36 Chương ĐỀ XUẤT GIẢI PHÁP VÀ CẢI TIẾN ÁP DỤNG GIẢI QUYẾT CÁC BÀI TOÁN TRONG THỰC TẾ 37 3.1 Hệ thu thập tin tức tự động mở rộng 37 3.2 Giải toán trùng lặp tin tức 39 3.2.1 Yêu cầu thực tế toán xử lý trùng lặp tin tức 39 3.2.2 Mơ hình giải pháp thực tế 39 3.3 Giải toán phân loại tin tức 40 3.3.1 Yêu cầu toán thực tế 40 3.3.2 Mơ hình giải pháp thực tế 41 3.4 Giải tốn xác định từ khóa quan trọng chọn câu tóm tắt 42 3.4.1 Yêu cầu toán thực tế 42 3.4.2 Mơ hình giải pháp thực tế 43 3.5 Tổng kết 44 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 46 4.1 Môi trường thực nghiệm công cụ sử dụng thực nghiệm 46 4.2 Quá trình thu thập liệu tin tức tiền xử lý 47 4.2.1 Thu thập liệu tin tức 47 4.2.2 Tiền xử lý liệu 47 4.3 Đánh giá phát trùng lặp tin tức 48 4.3.1 Phương pháp đánh giá 48 4.3.2 Kết đánh giá 48 4.4 Đánh giá phân loại tin tức 49 4.4.1 Phương pháp đánh giá 49 4.4.2 Kết đánh giá 51 4.5 Đánh giá kết xác định từ khóa quan trọng chọn câu tóm tắt 52 4.5.1 Phương pháp đánh giá 52 4.5.2 Kết đánh giá 52 4.6 Tổng kết 53 TỔNG KẾT 54 Kết đạt 54 Hạn chế 54 Hướng phát triển 55 TÀI LIỆU THAM KHẢO 56 PHỤ LỤC 57 MỞ ĐẦU Báo điện tử không khái niệm xa lạ với chúng ta, dần thay hình thức phát hành báo, tạp chí truyền thống đặc điểm ưu việt như: tính thời - khả cập nhật trực tiếp, khả truyền tải đa phương tiện, khả lưu trữ tìm kiếm thơng tin, khả tương tác với người dùng cao, báo điện tử khắc phục hạn chế loại hình báo chí truyền thống để trở thành loại hình báo chí ưu việt thời điểm Tính đến ngày 25/12/2014, nước có 838 quan báo chí in với 1.111 ấn phẩm báo chí (trong quan Trung ương có 86 báo in 507 tạp chí; địa phương có 113 báo in 132 tạp chí); 90 báo tạp chí điện tử, 215 trang tin điện tử tổng hợp quan báo chí Số báo tạp chí điện tử tăng gấp gần 1.5 lần so với số 62 báo điện tử vào năm 2012 [1] Cũng theo thống kê trang tổng hợp thông tin điện tử lớn Baomoi.com tháng từ tháng 12/2015 đến tháng 2/2016, số lượng tin báo, tạp chí điện tử, trang thơng tin điện tử thì: Bảng 0.1 Thống kê số lượng tin tức báo tháng đầu 2016 Tổng số tin 583827 Tổng số tin đăng lại 137823 Tổng số tin gốc bị đăng lại 123805 Tổng số tin gốc không bị đăng lại 446004 Với lượng thông tin khổng lồ từ 300 trang báo tin điện tử việc tổng hợp chọn lọc cách thủ công để mang lại nguồn thơng tin hữu ích dường điều không thể, việc thu thập thông tin tự động để xây dựng hệ thống đọc tin tự động thơng minh máy tính khơng chủ đề mới, xong việc cải tiến, ứng dụng công nghệ vào hệ thống để hệ thống vận hành tốt bối cảnh liệu lớn dần tốn khơng đơn giản Để xây dựng hệ thống ta có nhiều bước cần phải sử dụng giải thuật xử lý văn nghiên cứu nhiều khai phá liệu văn bản, liệu web như: Thu thập nội dung tin tức, xử lý trùng lặp tin tức, phân loại tin theo danh mục, xác định từ khóa quan trọng nội dung tin tức sinh tóm tắt cho tin, kiểm lỗi tả tin tức, phát chủ đề nóng, chủ đề nhạy cảm, xu hướng đọc tin thời gian gần, … Đó lý mà tác giả chọn nghiên cứu đề tài: “Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng sinh tóm tắt cho văn hệ thống thu thập tin tức tự động” Luận văn chia thành phần sau: Chương Giới thiệu đề tài Chương trình tổng quan hệ thống thu thập tin tức tự động đồng thời giới thiệu số toán khai phá liệu hệ thu thập tin tức tự động, giới thiệu toán khuôn khổ đề tài Chương Một số phương pháp tiếp cận Chương tập trung trình bày phương pháp tiếp cận cho toán xử lý trùng lặp, toán phân loại tin tức, toán xác định từ khóa quan trọng chọn câu tóm tắt cho tin tức, phương pháp có nhận xét hữu ích Chương Đề xuất mơ hình giải Từ kết nghiên cứu từ chương 2, chương luận văn phương pháp phù hợp cho toán thực tế chọn lựa để đưa vào thực nghiệm Tiếp đến trình bày, mơ tả mơ hình chi tiết cách giải cho toán Chương Thực nghiệm đánh giá Chương cuối luận văn dựa phương hướng thực nghiệm cải tiến trình bày chương 3, để tiến hành bước thực nghiệm với ba toán: Phát tin tức trùng lặp, phân loại tin tức, xác định từ khóa quan trọng chọn câu tóm tắt cho tin Với tốn, luận văn đưa phương pháp đánh giá, phép so sánh phù hợp trình bày kết đạt tương ứng Phần tổng kết: Phần tổng kết nêu lên kết đạt được, khó khăn hạn chế gặp phải trình giải toán cuối định hướng phát triển tương lai 10 Chương GIỚI THIỆU ĐỀ TÀI Trong chương này, luận văn tập trung giải vấn đề sau: giới thiệu tổng quan hệ thống thu thập tin tức tự động, tốn khn khổ đề tài, ý nghĩa khoa học ý nghĩa thực tiễn tốn 1.1 Tổng quan hệ thống thu thập tin tức tự động 1.1.1 Tổng quan Crawler Hệ thu thập tin tức tự động có thành phần cốt lõi trình thu thập nội dung trang tin tức từ Internet (gọi NewsCrawler), mơ hình kiến trúc thành phần News Crawler giống với trình thu thập nội dung Web (Web Crawler) thông thường khác, khác áp dụng hệ thu thập tin tức tự động thành phần URL nhân (hay gọi Seed) tập trang tin tức Phần giới thiệu mơ hình tổng quan Crawler vấn đề áp dụng vào toán thu thập tin tức tự động Web Crawler (một số với tên gọi khác WebRobot Web Spider) chương trình máy tính “duyệt web” cách tự động theo phương thức, hành vi xác định trước Vì chương trình máy tính nên q trình “duyệt web” Web Crawler khơng hồn tồn giống với q trình duyệt web người (Web Crawler sử dụng phương thức dựa HTTP trực tiếp không thông qua WebBrowser người) Kiến trúc Crawler bao gồm thành phần sau: Hình 1.1 Kiến trúc thành phần Web Crawler Giải thích thành phần hình 1.1: - WWW thành phần đại diện cho trang Web internet 11 - - DNS viết tắt Domain Name Service, dịch vụ phân rã tên miền phục vụ cho việc tìm kiếm địa IP thực trang Web Tải liệu (Fetch) trình tải trang Web, thường sử dụng giao thức HTTP để tải nội dung trang Web Trích xuất (Parse) q trình trích xuất nội dung trang Web, trích xuất liệu văn bản, liệu đa phương tiện (hình ảnh, video, âm thanh,…) , liên kết Web,… Lưu nội dung (Store content) việc lưu trữ nội dung pha trích xuất vào sở liệu dạng tài liệu (Document) Lọc URL (URL filter) thường gồm trình: o Kiểm tra tập tin robots.txt để xem URL phép truy cập tuân theo luật trang WEB mà Web Crawler thăm o Chuẩn hóa URL chẳng hạn vấn đề mã hóa văn (encoding) hay vấn đề tuyệt đối hóa đường dẫn tương đối Xóa URL trùng lặp (Dup URL Remove) trình loại bỏ URL trùng lặp trình thăm trang Web URL Frontier nơi chứa đường dẫn Web(URL) chưa Crawler duyệt đến, ban đầu URL Frontier chứa URL nhân hay gọi Seed URL Chi tiết trình hoạt động Web Crawler mô tả biểu đồ trạng thái sau: 12 Hình 1.2 Biểu đồ trạng thái Web Crawler Crawler chứa danh sách liên kết chưa thăm thường thiết kế dạng hang đợi (queue) gọi kho chứa URL (frontier) Danh sách tạo URL hạt nhân (Seed URL) hệ thống thu thập tin tức Seed URL tập URL trang tin tức Mỗi vòng lặp thu thập liệu gồm bước sau: chọn URL từ kho chứa URL(frontier), thăm URL (thường dùng giao thức HTTP), bóc tách nội dung trang web vừa tải để lấy nội dung, thông tin cần URL để thăm tiếp, kết thúc vòng lặp việc thêm URL vào kho chứa Q trình crawling kết thúc số lượng định trang web tải tùy chọn người quản lý Crawler khơng đường dẫn thăm Chương trình crawler khơng có trang web để tải dừng lại 1.1.2 Hệ thống thu thập tin tức tự động Hệ thống thu thập tin tức động với kì vọng liệu tin tức lấy từ Crawler tự đánh mục phục mục đích khác thể hình 1.3 vụ đây: 13 Hình 1.3 Mơ hình tổng quan hệ tổng hợp tin tự động Tin tức sau thu thập trình thu thập đánh mục lên máy tìm kiếm để hỗ trợ việc tra cứu tìm kiếm thơng tin cho biên tập viên - người tương tác, tra cứu tìm hiểu, tham khảo thông tin Hơn thế, liệu tin tức sau thu thập dùng với mục đích xuất nội dung tin trang tổng hợp tin tức động phục vụ người đọc tương tác tra cứu tìm kiếm thơng tin Với hệ thống hình 1.3 liệu tin tức lấy đánh mục thẳng lên máy tìm kiếm kết nối trực tiếp đến hệ quản trị nội dung trang tổng hợp thông tin tự động nảy sinh vấn đề bất cập sau: - Số lượng tin tức bị trùng lặp trang tin dẫn nguồn đăng lại nhiều Các tin tức không phân loại dẫn đến khó khăn việc tra cứu theo lĩnh vực, chủ đề Nhiều tin khơng có phần tóm tắt, khơng có từ khóa quan trọng nêu bật chủ đề, gây khó khăn việc tra cứu, tìm hiểu nội dung tin cách nhanh chóng Với Crawler thơng thường giải nhu cầu việc thu thập liệu Hệ thống thu thập tin tức tự động thực tế cần nhiều Để đáp ứng nhu cầu tổng hợp tin tức không trùng lặp, phân loại, xác định từ khóa quan trọng câu quan trọng, nội dung tin tức, phần luận văn thực việc xây dựng mô-đun xử lý liệu tin tức mở rộng hệ thống Chi tiết 14 toán cách giải vấn đề toán thực tế giới thiệu chương tiếp luận văn 1.2 Các tốn khn khổ đề tài 1.2.1 Bài toán xử lý trùng lặp tin tức Với crawler phân tán việc thực thăm đơn chống lại việc trùng lặp mức URL, nhiên chưa đủ, vấn đề đặt trang tổng hợp tin tin đăng lại chiếm lượng lớn gần 100% tin tức đăng đăng lại nơi khác (Theo số liệu Baomoi.com tháng 2/2016) Việc mở rộng site hạt nhân (seed) tác giả kiểm nghiệm bao gồm 120 trang báo chí thơng tin điện tử làm cho vấn đề trùng lặp trở nên phức tạp, lượng tin tức đổ ngày nhiều bình quân ước lượng với iNews tin có gần tới 3,5 lần đăng lại chép với nội dung tương tự Rõ ràng việc kiểm tra trùng lặp đơn URL khơng hiệu thực tế có trường hợp báo dẫn hai URL nói nội dung Đến việc xử lý trùng lặp nội dung trở nên cấp thiết Không đơn giản lấy dấu vân (finger print) nội dung cách xác chỉnh sửa nhỏ làm thay đổi dấu vân, biện pháp kiểm tra trùng lặp trở nên khó khăn lượng liệu lớn, trải rộng qua luồng, node crawler phân tán Tất tạo nên tốn khó thảo luận tìm hướng giải chương Phát biểu toán: Input: - Tập tin tức thu thập web - Tin tức thu thập, cần kiểm tra trùng lặp với tập cũ Output: Tin tức thu thập có bị trùng lặp hay không? Trong đề tài luận văn lấy ngưỡng(threshold) giống lớn 70% nội dung coi trùng lặp, lưu lại ID gốc tỉ lệ phần trăm trùng lặp 1.2.2 Bài toán phân loại tin tức Một vấn đề khác tin tức đổ lượng lớn, Crawler khó cung cấp cho phân tích tin thuộc chủ đề nào, rõ ràng phải có biện pháp phân loại lại danh mục tin để dễ dàng sử dụng với mục đích sau chẳng hạn để người dùng tra cứu với phần Front-end trang iNews Khơng phủ nhận có 41 Bài toán thực tế phân loại tin tức nói rõ chương quy tốn phân lớp văn túy nhằm mục đích để tổ chức xếp tin theo danh mục, phục vụ biên tập viên tra cứu theo danh mục đặc thù riêng biên tập viên báo Việc phân loại có ý nghĩa quan trọng nhằm đáp ứng nhu cầu phân danh mục tin tức cho trang tin tổng hợp tự động 3.3.2 Mơ hình giải pháp thực tế Hình 3.6 Mơ hình triển khai thực tế triển khai toán phân loại tin tức Dữ liệu mẫu sau tiền xử lý tách từ khóa xây dựng đặc trưng, đặc trưng đây thử nghiệm TF-IDF trọng số từ nội dung tin đưa vào triển khai huấn luyện mơ hình với thuật tốn SVM để tạo mơ hình (model) sau huấn luyện Một tin chưa phân danh mục xử lý biểu diễn dạng Vector với trọng số TF-IDF tham chiếu với mơ hình sau huấn luyện để kết luận văn thuộc danh mục Một số yếu tố đóng góp định đến chất lượng phân lớp: - Dữ liệu mẫu cần lựa chọn kĩ để đảm bảo đặc trưng lớp văn liệu mẫu luận văn hỗ trợ nhóm biên tập viên chọn lọc từ danh mục báo điện tử VNExpress Tiêu chuẩn liệu mẫu xem xét, tin mẫu xác định chuẩn với độ dài lớn 300 nhỏ 4000 kí tự - tin khơng q ngắn không dài 42 - Các chủ đề phân loại kép chia chủ đề danh mục nhỏ hơn, ví dụ tin tức chia thành danh mục lớn tin nước tin nước ngoài, danh mục tin nước có danh mục khác, danh mục tin nước - Việc lựa chọn đặc trưng xem xét nên lấy phần tiêu đề mô tả, câu quan trọng bài, hay nội dung để xây dựng nên vector tin - Với phân lớp sử dụng SVM cần thực tùy chỉnh tham số để kiểm nghiệm nhằm đạt kết phân loại tốt 3.4 Giải toán xác định từ khóa quan trọng chọn câu tóm tắt 3.4.1 Yêu cầu toán thực tế Bài toán xác định từ khóa quan trọng Hình 3.7 Minh họa thực tế ứng dụng xác định từ khóa quan trọng Mục đích thực tế tốn xác định từ khóa quan trọng hỗ trợ việc tóm tắt đại ý nội dung tin phục vụ việc tạo chủ đề liên kết liên quan báo, hỗ trợ tối ưu máy tìm kiếm Bài tốn chọn câu tóm tắt 43 Hình 3.8 Minh họa thực tế ứng dụng chọn câu tóm tắt Đối với số nội dung khơng lấy đoạn trích dẫn tóm tắt nội dung, hệ thống tự tóm tắt đoạn trích dẫn nội dung tóm tắt cho viết Hoặc hỗ trợ biên tập viên, phóng viên đề xuất câu dùng làm câu tóm tắt mơ tả tin 3.4.2 Mơ hình giải pháp thực tế Bài tốn xác định từ khóa quan trọng Hình 3.9 Mơ hình thực tế tốn xác định từ khóa quan trọng Các đóng góp quan trọng xác định từ khóa quan trọng: 44 - Tham chiếu vị trí câu, vị trí tiêu đề, phần mơ tả nội dung, sử dụng thêm trọng số Tf-idf - Tham chiếu từ từ khóa(Tags) có sẵn thu thập liệu từ internet, từ khóa từ việc phân tích xu hướng thơng tin - Tham chiếu kết Google Suggestion Search Volumne để lấy lượng tìm kiếm, lượng tìm kiếm cao có nghĩa từ khóa có mức độ quan trọng cao Bài tốn chọn câu tóm tắt Hình 3.10 Mơ hình thực tế tốn xác định câu tóm tắt Bài tốn chọn câu tóm tắt đề tài sử dụng kết hợp phương pháp Tf-idf Edmundson, vừa có điểm trọng số cho từ khóa, câu có nhiều từ khóa quan trọng, vừa xác định độ tương quan vị trí câu, nằm tiêu đề, phần mơ tả, nội dung, cuối đoạn đầu đoạn tính tốn hợp lý để đề xuất danh sách câu quan trọng tin Việc chọn tỉ lệ câu đề xuất tổng số câu tin vấn đề định đến độ xác tin Với hệ thống sau kết kiểm nghiệm thực tế câu lấy đại diện câu quan trọng phù hợp với liệu tin tức 3.5 Tổng kết Từ kết nghiên cứu từ chương 2, luận văn phương pháp phù hợp cho toán thực tế chọn lựa để đưa vào thực nghiệm Sau đó, phát biểu, mơ tả mơ hình chi tiết cách giải cho tốn, số đóng góp quan trọng cải thiện độ xác kết Phần luận văn tiến hành đánh giá 45 kết thực nghiệm đạt sau áp dụng mơ hình 46 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Ở chương này, luận văn tiến hành trình thực nghiệm đánh giá kết đề xuất dựa toán Với đặc điểm riêng tốn có cách đánh giá, so sánh riêng phù hợp với yêu cầu thực tế, đồng thời đảm bảo ý nghĩa khoa học tốn 4.1 Mơi trường thực nghiệm cơng cụ sử dụng thực nghiệm Cấu hình phần cứng, phần mềm gói kèm thực nghiệm sử dụng luận văn mô tả hai bảng sau đây: Công cụ phần cứng sử dụng: Stt Bảng 4.1 Cấu hình phần cứng thực nghiệm Thành phần Chỉ số CPU Intel Core i5 4460 3.4GHZ RAM 8GB Hệ điều hành Ubuntu 14.04 Bộ nhớ ngồi 500GB Bảng 4.2 Các cơng cụ phần mềm sử dụng STT Tên phần mềm Chức Nguồn http://nutch.apache.org/ Apache Nutch 1.11 Tải liệu từ website Elasticsearch Index, lưu trữ liệu https://github.com/elastic/elasticsearch Eclipse Java EE Luna Tạo môi trường để viết https://eclipse.org/downloads/ chương trình 47 Readability vnSentDetector 2.0.0 vn.hus.nlp.tokenizer4.1.1 LibSVM 3.21 Redis Trích xuất nội dung https://github.com/mozilla/readability PhươngLH – Trích xuất câu đoạn văn http://mim.hus.vnu.edu.vn/phuonglh/so ftwares/vnSentDetector PhươngLH - Tách từ http://mim.hus.vnu.edu.vn/phuonglh/so văn ftwares/vnTokenizer Chih-Chung Chang https://www.csie.ntu.edu.tw/~cjlin/libs and Chih-Jen Lin – vm/ Phục vụ phân loại văn Cache Simhash vào memory, share cụm http://redis.io/ 4.2 Quá trình thu thập liệu tin tức tiền xử lý 4.2.1 Thu thập liệu tin tức Dữ liệu thu thập với phần mềm mã nguồn mở Apache Nutch 1.11 cấu hình chạy phân tán, Nutch tùy biến thêm plugin kế thừa việc trích xuất liệu việc đánh mục liệu lên Elasticsearch ( dạng máy tìm kiếm linh động với mức độ tùy biến tìm kiếm cao ) - - Plugin trích xuất liệu implement từ Readability code, tùy biến để trích xuất hạng mục tin là: tiêu đề, phần mơ tả (tóm tắt), nội dung tin, tên tác giả ngày đăng tin Plugin index tùy biến giúp index thêm trường cần thiết lên ElasticSearch Dữ liệu thu thập chuẩn hóa lại font chữ, lọc tin nội dung ảnh, video, đảm bảo liệu text chuẩn hóa ( normalize–filter) phục vụ cho việc xử lý liệu 4.2.2 Tiền xử lý liệu Với liệu lấy dịch vụ tự động tiến hành xử lý tách từ, tách 48 câu hai công cụ mã nguồn mở vnSentDetector 2.0.0 vnTokenizer 4.1.1, tiếp tin lấy dấu đại diện simhash – simhash lưu trữ riêng dạng đặc biệt để phục vụ việc phát trùng lặp, tin xử lý lấy từ khóa quan trọng(tags) chọn vài câu đề xuất tóm tắt tin lấy khơng có câu tóm tắt Với từ khóa tách, URL gốc tin phân loại cách tự động Mơ hình giải chi tiết cho toán luận văn nêu chi tiết chương 3, phần nêu lên phương pháp đánh giá kết đánh giá toán 4.3 Đánh giá phát trùng lặp tin tức 4.3.1 Phương pháp đánh giá Trong thực tế có thuật giải kiểm tra trùng lặp cho kết tốt việc sử dụng hàm băm Simhash để tạo đại diện Tuy nhiên khuôn khổ luận văn tác giả đánh giá việc sử dụng Simhash phương diện phục vụ cho Crawler kiểm tra trùng lặp nên tốc độ kiểm tra trùng lặp yếu tố ưu tiên hàng đầu 4.3.2 Kết đánh giá Trong thí nghiệm đánh giá, so sánh tốc độ hai thuật toán Simhash Shingling tập liệu với số lượng liệu tăng dần từ 100 ghi lên đến 1500 ghi, Simhash lấy dạng Simhash 32bit Shingling lấy dạng token sau tách từ, kết thu cho bảng 4.3: Bảng 4.3 Thống kê thời gian chạy với simhash shingling NumRecords Simhash(ms) Shingling(ms) 100 2466 5389 200 2692 12851 300 3052 25841 400 3253 43918 500 3437 66225 600 3664 94262 700 3869 127710 800 4140 166124 900 4419 209418 1000 4697 258469 1100 4985 307823 1200 5261 366019 1300 5575 429911 49 1400 5935 498562 1500 6240 570506 Mơ hình hóa dạng biểu đồ: SIMHASH VS SHINGLING SPEEDS Simhash Shingling 600000 500000 400000 300000 200000 100000 0 200 400 600 800 1000 1200 1400 1600 Hình 4.1 So sánh tốc độ simhash shingling Thuật tốn Shingling thể rõ độ phức tạp tính tốn theo thời gian O(n ) áp dụng Simhash cho thấy kết tốt rõ rệt với lý thuyết thời gian chạy logarit Hoàn toàn phù hợp với việc áp dụng vào thực tế 4.4 Đánh giá phân loại tin tức 4.4.1 Phương pháp đánh giá Trước tiên cần nói thêm q trình thu thập liệu crawler, danh mục thuộc diện tin văn lấy đánh dấu riêng nằm 12 danh mục bao gồm:{"cong-nghe","giai-tri","giao-duc","kham-pha","kinh-te","phap-luat","quansu","suc-khoe","tam-su","the-gioi","the-thao","xe-360"} Việc đánh giá thuật toán phân loại sử dụng độ đo precision/recall F1 để đánh giá học liệu bao gồm 56400 văn chọn sẵn danh mục để học dựa nguồn VNExpress, 54000 văn thuộc 12 chủ đề ( tương đương với 4500 tin/1 chủ đề) dùng để huấn luyện(train), 2400 văn dùng để kiểm định (test), khuôn khổ luận văn thực đánh giá phương diện việc sử dụng SVM túy với nội dung tin việc cải tiến cho kết thực tế sao, chi tiết nêu phần kết 50 Sau số độ đo sử dụng đánh giá: Ma trận nhầm lẫn (Confusion Matrix) TPi : Số lượng tin thuộc lớp ci phân loại xác vào lớp ci FPi: Số lượng tin không thuộc lớp ci bị phân loại nhầm vào lớp ci TNi: Số lượng tin không thuộc lớp ci phân loại (chính xác) FNi: Số lượng tin thuộc lớp ci bị phân loại nhầm (vào lớp khác ci) Độ đo Precision recall Hay gọi Độ xác Độ bao phủ, Precision việc thể tập tìm (phân loại) Recall việc thể số tồn tại, tìm (phân loại) Đây hai độ đo phổ biến, hay sử dụng để đánh giá hệ thống phân loại văn - Precision lớp ci lớp tập lớp C ={c1, c2, …, cn} = + Tổng số tin thuộc lớp ci phân loại xác chia cho tổng số tin phân loại vào lớp ci - Recall lớp ci = + Tổng số tin thuộc lớp ci phân loại xác chia cho tổng số ví dụ thuộc lớp ci Recall gọi True Positive Rate hay Sensitivity (độ nhạy), precision gọi Positive predictive value (PPV); ngồi ra, ta có độ đo khác True Negative Rate Accuracy True Negative Rate gọi Specificity Độ đo F1 Tiêu chí đánh giá F1 kết hợp hai tiêu chí đánh giá Precision Recall =2∙ ∙ F1 trung bình điều hòa (harmonic mean) tiêu chí Precision Recall 51 F1 có xu hướng lấy giá trị gần với giá trị nhỏ hai giá trị Precision Recall, F1 có giá trị lớn hai giá trị Precision Recall lớn 4.4.2 Kết đánh giá Kết sau tiến hành phân loại sử dụng SVM kernel linear với liệu văn bao gồm nội dung văn túy chưa có cải tiến Bảng 4.4 Kết phân loại chưa cải tiến CatNo Category Precison Recall F1 cong-nghe 75.5 82.51 78.85 giai-tri 66 75.43 70.4 giao-duc 79 92.4 85.18 kham-pha 65 71.43 68.06 kinh-te 66.5 73.08 69.63 phap-luat 76.5 83.61 79.9 quan-su 46.5 93.94 62.21 suc-khoe 67.5 87.66 76.27 tam-su 89 84.36 86.62 10 the-gioi 88.5 40.69 55.75 11 the-thao 83 91.71 87.14 12 xe-360 81.5 66.8 73.42 Avg 73.71 78.64 74.45 Áp dụng cải tiến vào phân loại xác định chủ đề văn bản, biện pháp nêu chương 3, kết đạt được cho bảng 4.5: Bảng 4.5 Kết phân loại cải tiến CatNo Category Precison Recall F1 cong-nghe 80.9 90.58 85.47 giai-tri 81.7 83.29 82.49 giao-duc 82.1 93.26 87.32 kham-pha 73.5 81.4 77.25 kinh-te 76.9 77.25 77.07 phap-luat 77.6 88.92 82.88 quan-su 73.2 95.97 83.05 52 suc-khoe 84.9 94.04 89.24 tam-su 91.2 93.58 92.37 10 the-gioi 88.7 93.41 90.99 11 the-thao 92.6 92.62 92.61 12 xe-360 73.9 88.24 80.44 Avg 81.43 89.38 85.1 Kết bảng cho thấy, toàn kết phân loại cải thiện độ xác độ hồi tưởng, độ xác Precision trung bình từ 73.71% lên đến 81.43%, độ hồi tưởng Recall tăng từ 78.64% lên tới 89.38%, kéo theo độ đo F1 tăng rõ rệt 4.5 Đánh giá kết xác định từ khóa quan trọng chọn câu tóm tắt 4.5.1 Phương pháp đánh giá Việc đánh giá toán thực cách thủ công phần dựa ý kiến chuyên gia (expert judgment) đặc điểm đặc biệt toán: Để đánh giá tốn xác định từ khóa quan trọng (tags) để phục vụ vấn đề nêu bật chủ đề tin hỗ trợ việc phục vụ tối ưu máy tìm kiếm (SEO) chọn câu tóm tắt cho chủ đề tin tin thiếu phần tóm tắt phức tạp đòi hỏi người đánh giá vừa có kinh nghiệm SEO vừa có kinh nghiệm biên tập tin Luận văn sử dụng việc tổng hợp kết đánh giá từ ba người ban biên tập viên đào tạo kĩ SEO để thực đánh giá với bạn 100 tin Tổng số tin lấy từ khóa quan trọng, chọn câu tóm tắt 300 tin, tỉ lệ chọn (nén câu tóm tắt 5:1)[2] Chi tiết kết thu có phần kết đánh giá 4.5.2 Kết đánh giá Kết đánh giá thủ công ba lần ba biên tập viên có kinh nghiệm SEO đào tạo mảng biên tập lẫn kinh nghiệm đánh giá nội dung cho bảng 4.6 Bảng 4.6 Thống kê tỉ lệ tag tóm tắt đạt yêu cầu Tỉ lệ tags đạt Giải thích: Tỉ lệ tóm tắt đạt Lần (100 tin) 73% 71% Lần (100 tin) 76% 69% Lần (100 tin) 78% 64% Bình Quân 76% 68% 53 Tỉ lệ Tags đạt 76% tức 100 tin lấy Tags tự động có 76 tin đạt u cầu theo ý kiến người đánh giá, có nghĩa phần tags chứa từ khóa thay người sử dụng phần tag nội dung tự động không cần người biên tập phải can thiệp, dùng làm tags phản ánh nội dung tin Tỉ lệ tóm tắt đạt 68% tức 100 tin lấy tổ hợp câu tóm tắt tự động có 68% tổ hợp câu có chứa câu chọn đại diện hỗ trợ biên tập viên đặt làm câu tóm tắt tin Qua đánh giá lấy ý kiến, sau ba lần với kết bình quân cho việc chọn tags tự động 76% việc đề xuất câu tóm tắt tự động 68% đánh giá cao có khả triển khai thực tế, ứng dụng vào hệ thống CMS tin tức tương lai 4.6 Tổng kết Chương tác giả trình bày kết thực nghiệm chứng minh phương pháp đề xuất chương Kết thực nghiệm tập trung vào ba tốn kiểm tra trùng lặp, phân loại tin tức sinh từ khóa nội dung chính, sinh câu đề xuất tóm tắt văn Kết thực nghiệm cho thấy phương pháp đề xuất phù hợp mức chấp nhận có phần kết khả quan sau thi đóng góp cải tiến 54 TỔNG KẾT Kết đạt Luận văn trình bày kiến thức phát trùng lặp, phân loại tin tức, xác định từ khóa quan trọng đề xuất câu tóm tắt cho tin tức miền liệu tiếng Việt Bên cạnh đó, luận văn trình bày chi tiết phương pháp tiếp cận toán, hướng giải kết thực tế Với toán phát trùng lặp tin tức từ phía Crawler luận văn đề cập phân tích ưu nhược điểm số phương pháp phổ biến để phát trùng lặp sau đề xuất mơ hình giải tốn với giải thuật SimHash từ đánh giá so sánh với thuật toán phát trùng lặp phổ biến shingling Với toán phân loại luận văn đưa vài toán phân loại lý sử dụng học máy bán giám sát với SVM, Cuối tốn xác định từ khóa quan trọng, đề xuất câu đại diện chọn tóm tắt cho tin tức giải việc tổng hợp biện pháp Edmundson TF-IDF Các kết cho thấy phương pháp sử dụng Simhash để kiểm tra trùng lặp có tốc độ tính tốn tăng theo hàm loragit cải thiện nhiều so với O(n ) phương pháp shingling, cụ thể tập liệu lên tới 1500 tin tốc độ SimHash nhanh tốc độ Shingling tới 91,4 lần Phương pháp SVM tích hợp vào mơ đun phân loại cho kết tốt sau đóng góp số cải tiến so với sử dụng SVM túy tập liệu, với kết tốt Sử dụng độ đo xác (precision), độ đo hồi tưởng (recall), độ đo F-1 (F-1 measured) để đo lường kết cho thấy: độ đo xác (89.38%), độ đo hồi tưởng (89.3%), độ đo F-1 (85.1%) Với toán tự động đề xuất tags bao gồm từ khóa quan trọng đề xuất câu chọn làm tóm tắt cho kết tích cực sau áp dụng biện pháp cải tiến chương 3, tỉ lệ chấp nhận góc độ đánh giá người đào tạo (expert) lĩnh vực biên tập SEO cho thấy tỉ lệ tags đạt 76% tỉ lệ chọn câu tóm tắt chấp nhận đạt 68% Hạn chế Mặc dù kết đạt khả quan nhiên giải pháp luận văn không tránh khỏi số hạn chế nhược điểm cần khắc phục chẳng hạn như: Việc lấy hàm đại diện Simhash việc ánh xạ từ tập vô hạn sang tập hữu hạn nên xuất tỉ lệ trùng Simhash với hai văn khác nhau, điều khiến kiểm tra trùng lặp thêm thời gian để kiểm định thêm trường hợp kể tốc độ kiểm tra trùng lặp bị giảm xuống phần Việc phân loại phải thiết đặt luật cho Crawler để giới hạn tập danh mục 55 cụ thể tin phục vụ việc phân danh mục có độ xác cao, tin vắn, tin có chất lượng thấp chưa hỗ trợ Việc chọn từ khóa tóm tắt(tags) chọn câu tóm tắt phụ thuộc nhiều vào việc tham chiếu kho từ cũ, kho từ xu hướng có sẵn để tăng cao độ xác, mà chưa tự chủ từ việc dựa vào thân văn Hướng phát triển Trong thời điểm tương lai gần, hướng phát triển trước mắt luận văn khắc phục hạn chế khuyết điểm mô đun nâng cao khả xác thuật tốn, cụ thể là: cải thiện tốc độ việc áp dụng Simhash để ứng phó với mơi trường liệu lớn hơn, cải thiện độ xác phân loại với nguồn tin tức đa dạng đồng thời nâng cao độ xác việc sinh từ khóa, đề xuất câu tóm tắt ... quan hệ thống thu thập tin tức tự động, tốn khn khổ đề tài, ý nghĩa khoa học ý nghĩa thực tiễn tốn 1.1 Tổng quan hệ thống thu thập tin tức tự động 1.1.1 Tổng quan Crawler Hệ thu thập tin tức tự động. .. 1.1.2 Hệ thống thu thập tin tức tự động Hệ thống thu thập tin tức động với kì vọng liệu tin tức lấy từ Crawler tự đánh mục phục mục đích khác thể hình 1.3 vụ đây: 13 Hình 1.3 Mơ hình tổng quan hệ. .. hệ thống thu thập tin tức tự động Luận văn chia thành phần sau: Chương Giới thiệu đề tài Chương trình tổng quan hệ thống thu thập tin tức tự động đồng thời giới thiệu số toán khai phá liệu hệ

Ngày đăng: 25/06/2020, 15:20

Xem thêm: