Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 80 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
80
Dung lượng
2,57 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Lê Hữu Hảo ĐÁNH GIÁ VÀ THU THẬP THÔNG TIN TỰ ĐỘNG TRÊN INTERNET SỬ DỤNG DỊCH VỤ TÌM KIẾM LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2015 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Lê Hữu Hảo ĐÁNH GIÁ VÀ THU THẬP THÔNG TIN TỰ ĐỘNG TRÊN INTERNET SỬ DỤNG DỊCH VỤ TÌM KIẾM Chuyên ngành: Khoa học máy tính Mã số: 60 48 0101 LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH KHOA HỌC MÁY TÍNH Giáo viên hƣớng dẫn: TS Nguyễn Ngọc Hóa THÁI NGUYÊN - 2015 THÁI NGUYÊN - 2015 i LỜI CẢM ƠN Trong thời gian qua, nhận đƣợc nhiều hƣớng dẫn giúp đỡ động viên tận tình từ nhiều phía Tất điều trở thành nguồn động lực lớn giúp thực đƣợc đề tài nghiên cứu đƣợc giao Với tất cảm kích trân trọng, xin đƣợc gửi lời cảm ơn đến tất ngƣời Trƣớc hết xin chân thành cảm ơn thầy hƣớng dẫn – Tiến sĩ Nguyễn Ngọc Hóa ngƣời nhiệt tình bảo ban hƣớng dẫn, đóng góp ý kiến quý báu cho để học tập hoàn thành luận văn tốt nghiệp Xin gửi lời cảm ơn chân thành đến Ban giám hiệu trƣờng Đại học Công Nghệ Thông Tin truyền thông – Đại học Thái Nguyên tạo điều kiện giúp đỡ thực đề tài Cảm ơn toàn thể thầy cô công tác trƣờng Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên dạy dỗ truyền đạt kiến thức quí báu cho suốt thời gian học tập rèn luyện trƣờng Tôi xin đƣợc gửi lời biết ơn vô hạn tới cha mẹ, ngƣời thân nuôi dƣỡng tạo điều kiện tốt cho học tập sinh hoạt, bên lúc khó khăn để chuyên tâm thực luận văn Cuối cùng, xin cảm ơn tập thể lớp cao học CNTT K12E đặc biệt ngƣời ban tốt bên tôi, khuyến khích, động viên cho lời khuyên chân thành sống học tập Xin trân trọng cảm ơn! Thái Nguyên, ngày tháng Học viên Lê Hữu Hảo năm 2015 ii LỜI CAM ĐOAN Tôi xin cam đoan nghiên cứu "Đánh giá thu thập thông tin tự động Internet sử dụng dịch vụ tìm kiếm" mà viết luận văn thật Những viết không chép từ tài liệu, không sử dụng kết ngƣời khác mà không trích dẫn cụ thể Tôi xin cam đoan ứng dụng trình bày luận văn tự phát triển dƣới hƣớng dẫn thầy Nguyễn Ngọc Hóa, không chép mã nguồn ngƣời khác Nếu sai hoàn toàn chịu trách nhiệm theo quy định trƣờng Đại học Công nghệ Thông tin Truyền thông - Đại học Thái Nguyên Thái Nguyên, ngày tháng năm 2015 Học viên Lê Hữu Hảo iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC CÁC HÌNH VẼ v DANH MỤC BẢNG BIỂU vi GIỚI THIỆU CHUNG .1 CHƢƠNG 1: TỔNG QUAN VỀ TÌM KIẾM VÀ THEO DÕI THÔNG TIN 1.1 Tổng quan tìm kiếm thông tin 1.1.1 Dịch vụ tìm kiếm Google 1.1.2 Dịch vụ tìm kiếm Bing .4 1.1.3 Dịch vụ tìm kiếm Yahoo 1.1.4 Search Engine điển hình 1.2 Dữ liệu bán cấu trúc DOM 1.2.1 Dữ liệu bán cấu trúc việc trích xuất .8 1.2.2 Cây DOM .10 1.3 Theo dõi thu thập liệu 14 CHƢƠNG 2: MÔ HÌNH KIẾN TRÚC TỔNG THỂ VÀ MỘT SỐ THUẬT TOÁN ĐÁNH GIÁ THÔNG TIN 20 2.1 Mô hình kiến trúc tổng thể 20 2.2 Các kỹ thuật 21 2.2.1 Framework Struts 21 2.2.2 Hệ quản trị liệu MongoDB 23 2.2.3 Hệ quản trị sở liệu MySQL 29 2.3 Một số thuật toán đối sánh mẫu 31 2.3.1 Thuật toán Brute Force 31 iv 2.3.2 Thuật toán Knuth Morris Pratt .32 2.3.3 Thuật toán Boyer-Moore 41 2.4 So sánh thuật toán 46 CHƢƠNG 3: THỰC NGHIỆM ỨNG DỤNG ĐÁNH GIÁ VÀ THU THẬP THÔNG TIN .47 3.1 Mô hình toán 47 3.1.1 Theo dõi thu thập thông tin .47 3.1.2 Quản lý ngƣời dùng 51 3.1.3 Quản lý liệu hệ thống 57 3.2 Công cụ đánh giá thu thập thông tin tự động 61 3.2.1 Áp dụng thuật toán Knuth Morris Pratt đánh giá, đối sánh mẫu 61 3.2.2 Các công cụ phần mềm 62 3.3 Kết thực nghiệm .63 3.3.1 Kết thu thập thông tin 63 3.3.2 Kết ứng dụng Web 65 KẾT LUẬN CHUNG .69 TÀI LIỆU THAM KHẢO 71 v DANH MỤC CÁC HÌNH VẼ Hình 1.1: Kiến trúc máy tìm kiếm Google Hình 1.2: Ví dụ liệu bán cấu trúc Hình 1.3: Ví dụ biểu diễn DOM mã HTML 11 Hình 1.4: Ví dụ xây dựng DOM sử dụng hộp ảo 13 Hình 1.5: Các bƣớc xử lý máy chủ .16 Hình 1.6: Các kết hiển thị Google 16 Hình 1.7: Mã HTML kết thị .17 Hình 1.8: Mô hình DOM kết 18 Hình 2.1: Mô hình hệ thống 20 Hình 2.2: Kiến trúc Struts2 22 Hình 2.3: Lƣu trữ liệu dạng BSON .26 Hình 3.1: Biểu đồ class phía máy chủ 48 Hình 3.2: Biểu đồ phía máy chủ 51 Hình 3.3: Biểu đồ ca sử dụng ngƣời dùng 52 Hình 3.4: Biểu đồ lớp chức liên quan đến tin .55 Hình 3.5: Biểu đồ lớp chức quản lý ngƣời dùng 56 Hình 3.6: Lƣợc đồ sở liệu quản lý ngƣời dùng 59 Hình 3.7: Giao diện chƣơng trình 66 Hình 3.8: Màn hình .66 Hình 3.9: Lọc thông tin theo thời gian .67 Hình 3.10: Thông tin tài khoản 68 vi DANH MỤC BẢNG BIỂU Bảng 3.1: Các class package Model .53 Bảng 3.2: Các class package Controller 54 Bảng 3.3: Các class package DAO 54 Bảng 3.4: Các class package Util .54 Bảng 3.5: Mô tả collection sở liệu lƣu tin 58 Bảng 3.6: Mô tả thuộc tính quan hệ User 60 Bảng 3.7: Mô tả thuộc tính quan hệ keywords 60 Bảng 3.8: Mô tả thuộc tính quan hệ users_keywords .61 Bảng 3.9: Mô tả thuộc tính quan hệ trends .61 Bảng 3.10: Các công cụ phần mềm 62 Bảng 3.11: Cấu hình máy tính chạy thực nghiệm 63 Bảng 3.12: Bảng thời gian hoàn thành 65 Bảng 3.13: Bảng số lƣợng kết 65 GIỚI THIỆU CHUNG Hiện nay, sống kỉ 21, thời đại công nghệ thông tin có bƣớc phát triển vƣợt bậc để bắt kịp với xu hƣớng phát triển chung xã hội Kéo theo lƣợng thông tin khổng lồ tất lĩnh vực xã hội, trị, kinh tế, giải trí, v.v liên tục phát sinh phát triển nhanh chóng Nhu cầu hiểu biết tìm kiếm ngƣời ngày tăng theo với phát triển Tuy nhiên ngƣời, tổ chức lại có lĩnh vực quan tâm khác nhau, trình độ hiểu biết công nghệ thông tin khác nhau, nhu cầu không dừng lại cá nhân, mà phổ biến tất ngƣời, tổ chức Bên cạnh lƣợng thông tin Internet lớn hỗn tạp từ nhiều nguồn, nhiều loại khác dẫn đến trình tìm kiếm khó khăn vất vả Để đáp ứng nhu cầu tìm hiểu ngƣời, nhiều công cụ tìm kiếm đời cung cấp khả tìm kiếm thông tin với tốc độ phạm vi ngày nâng cao cải thiện Một công cụ tìm kiếm phổ biến đứng đầu Google, đứng thứ hai Bing, tiếp Yahoo Tuy nhiên công cụ tìm kiếm mang tính chất tức thời, tức ngƣời dùng có nhu cầu tìm kiếm họ phải trực tiếp vào nhập từ khóa cần tìm xem kết quả, ngƣời dùng khó nắm bắt quản lý thông tin cập nhật thƣờng xuyên liên quan đến vấn đề mà có nhu cầu theo dõi thƣờng xuyên Xuất phát từ thực tế đó, luận văn tốt nghiệp đƣợc hƣớng đến mục tiêu tự động theo dõi thông tin mà ngƣời dùng quan tâm đƣợc xuất Web, từ xử lý bƣớc đầu để khắc phục tình trạng tránh trùng lặp thông tin lƣu lại sở liệu (CSDL) hệ thống để ngƣời dùng dễ dàng tra cứu sau Theo thống kê nêu, công cụ tìm kiếm phổ biến đáp ứng đƣợc yêu cầu nguồn liệu lớn, tốc độ phản hồi nhanh kết có liên quan tƣơng đối sát với từ khóa cần tìm kiếm Vì ý tƣởng thực theo dõi thông tin Internet thông qua việc truy vấn thƣờng xuyên đến công cụ tìm kiếm phổ biến Google, Bing Yahoo, tổng hợp, đánh giác kết sớm lƣu trữ databasse vào sở liệu MongoDB Nhƣ ngƣời dùng muốn theo dõi thông tin truy cập vào hệ thống để xem đƣợc thông tin liên quan nhanh Để đảm bảo lƣu trữ đƣợc lƣợng liệu nhƣ vậy, mô hình quản trị sở liệu NoSQL đƣợc nghiên cứu, tìm hiểu để phục vụ việc lƣu trữ tin trả Phần giao diện tƣơng tác đƣợc thực thông qua ứng dụng Web Những kết thu đƣợc luận văn đƣợc tổng hợp chƣơng có nội dung sau: Giới thiệu chung: Trong mục giới thiệu chung luận văn: Nêu thực trạng cần giải quyết, từ giới thiệu toán xuất phát từ nhu cầu thực tế đó, mục tiêu nhƣ nội dung luận văn Chƣơng 1: Tổng quan tìm kiếm theo dõi thông tin: Trình bày số sở lý thuyết liên quan đến việc tiến hành nội dung luận văn nhƣ Search Engine, liệu cấu trúc DOM, thực trạng số dịch vụ tìm kiếm tiêu biểu nhƣ Google, Yahoo, Bing,… để lựa chọn triển khai ứng dụng theo dõi thông tin Internet Chƣơng 2: Mô hình kiến trúc tổng thể số thuật toán đánh giá thông tin Trong chƣơng trình bày mô hình kiến trúc tổng thể hệ thống nhƣ thành phần chi tiết phía máy chủ, máy khách sở liệu lƣu trữ thông tin Trình bày kỹ thuật (Framework Strusts, MongoDB, NoSQL ), phƣơng pháp giải thuật áp dụng cho phần Chƣơng 3: Thực nghiệm ứng dụng đánh giá thu thập thông tin - Trình bày cách sử dụng hệ thống, kết đạt đƣợc Đánh giá kết đạt đƣợc tồn hệ thống Kết luận chung Tóm tắt lại trình xây dựng, kết đạt đƣợc, ý nghĩa thực tiễn hệ thống 58 Bảng 3.5: Mô tả collection sở liệu lưu tin Collection _id: int title: text description: text displayUrl: text url: text sourceCode: text time: datetime Trong đó, trƣờng tƣơng ứng với liệu trích xuất từ kết trả Google: - Trƣờng _id: đƣợc gán cho kết quả, đƣợc đánh tự tăng sở liệu - Trƣờng title: tiêu đề trang web kết - Trƣờng description: mô tả ngắn gọn nội dung trang web kết - Trƣờng displayUrl: hiển thị liên kết đến trang web gốc - Trƣờng url: đƣờng dẫn đến trang web gốc - Ngoài trƣờng trƣờng đƣợc lấy từ việc phân tích kết trả về, ta có thêm trƣờng sourceCode mã nguồn trang kết có url tƣơng ứng, trƣờng time thời gian lƣu trữ vào sở liệu 3.1.3.2 Cơ sở liệu quản lý người dùng Với ƣu điển dễ dàng quản lý lƣu trữ hệ quản trị sở liệu quan hệ, hệ thống sử dụng hệ quản trị sở liệu MySQL để quản lý ngƣời dùng, gồm bảng: 59 Hình 3.6: Lược đồ sở liệu quản lý người dùng Trong sở liệu chứa bảng: - Bảng Users: chứa thông tin cá nhân ngƣời dùng gồm cột: 60 Bảng 3.6: Mô tả thuộc tính quan hệ User Tên cột Mô tả Định danh ngƣời dùng, hệ thống tự sinh Id cho ngƣời dùng Username Là tên mà ngƣời dùng đăng kí dùng để đăng nhập vào ứng dụng web Mật ngƣời dùng, phải gồm kí password tự Hệ thống sử dụng mã hóa MD5 để mã hóa bảo vệ mật Email ngƣời dùng, ngƣời dùng sử dụng địa mail nhất, sử dụng ngƣời Email dùng muốn khôi phục lại mật trƣờng hợp ngƣời dùng quên mật - Bảng keywords chứa từ khóa mà tất ngƣời dùng đăng kí với hệ thống gồm trƣờng: Bảng 3.7: Mô tả thuộc tính quan hệ keywords Tên cột Mô tả key_id Định danh từ khóa Keyname Tên từ khóa - Do mối quan hệ ngƣời dùng từ khóa quan hệ nhiều nhiều (một ngƣời dùng có nhiều từ khóa, từ khóa đƣợc đăng kí nhiều ngƣời) nên sinh thêm bảng users_keywords bảng tham chiếu từ ngƣời dùng với từ khóa họ, bảng có trƣờng sau: 61 Bảng 3.8: Mô tả thuộc tính quan hệ users_keywords Tên cột Mô tả User_id Định dinh ngƣời dùng Key_id Định danh từ khóa Day_start Day_stop Thời gian mà từ khóa đƣợc đăng kí với hệ thống ngƣời dùng Thời gian gần mà từ khóa bị tạm dừng theo dõi Trạng thái từ khóa, với stt = nghĩa từ khóa đƣợc theo dõi, stt = từ khóa Stt bị tạm dừng - Ngoài hệ thống quản lý từ khóa mà đƣợc tìm kiếm nhiều Google Google thống kê qua trang web Google Xu hƣờng bảng trends gồm trƣờng: Bảng 3.9: Mô tả thuộc tính quan hệ trends Tên cột Mô tả Id Định danh từ khóa Trend_name Tên từ khóa Searches url Timesave Số lƣợng tìm kiếm qua Google đƣợc thống kê Google Xu hƣớng Liên kết đến trang Google tìm kiếm từ khóa Thời gian lƣu vào sở liệu 3.2 Công cụ đánh giá thu thập thông tin tự động 3.2.1 Áp dụng thuật toán Knuth Morris Pratt đánh giá, đối sánh mẫu Qua đánh giá so sánh thuật toán chƣơng 2, trình đối sánh theo thuật toán Knuth Morris Pratt nhƣ đƣợc ứng dụng theo bƣớc để cài đặt vào phần mềm mã nguồn mở Quá trình đánh giá đƣợc thực nhƣ sau: 62 chƣơng trình thực tìm kiếm thông tin với từ khóa đăng ký thông qua khả tìm kiếm google, với liệu tìm thấy đƣợc lƣu trữ vào sở liệu MongoDB Sau phút hệ thống tự động tìm kiếm lần thứ 2, kết tìm kiếm đƣợc đƣợc đối sánh với kết lần 1, với thông tin trang web đƣợc cập nhập thêm thông tin hệ thống update vào sở liệu, với trang chƣa có sở liệu đƣợc lƣu trữ vào sở liệu, với trang trùng với trang có sở liệu đƣợc bỏ qua để tránh trƣờng hợp trùng lặp liệu 3.2.2 Các công cụ phần mềm Bảng sau trình bày công cụ, gói phần mềm, phiên chúng mà sử dụng để xây dựng hệ thống Theo dõi thông tin Internet Bảng 3.10: Các công cụ phần mềm STT Tên công cụ Eclipse SDK Apache Tomcat ver 7.0.34 Framework struts Ghi Môi trƣờng phát triển ứng dụng Là server để chạy ứng dụng java servlet Là framework hỗ trợ xây dựng ứng dụng web Thƣ viện java hỗ trợ việc parse mã Jsoup ver 1.7.3 nguồn HTML trang web hỗ trợ việc phân tích DOM Hệ quản trị sở liệu MongoDB 2.5.4 Mongo 2.10.1 MySQL server 5.1 Hệ quản trị sở liệu MySQL Mysql-connector-java- Thƣ viện hỗ trợ kết nối với hệ quản 5.1.18-bin trị sở liệu MySQL MongoDB Thƣ viện hỗ trợ kết nối với hệ quản trị sở liệu MongoDB 63 Máy tính sử dụng thực nghiệm có cấu hình nhƣ sau: Bảng 3.11: Cấu hình máy tính chạy thực nghiệm LENONO Thinkpad T520 CPU Intel® Core ™ i5-2520M CPU @ 2.5GHz Memory 8GB OS Windows 64-bits 3.3 Kết thực nghiệm 3.3.1 Kết thu thập thông tin Ban đầu hệ thống thu thập kết thông tin dựa ba công cụ tìm kiếm lớn Google, Bing Yahoo Với từ khóa “Thi tốt nghiệp 2015”, công cụ lại cung cấp mức độ tìm kiếm khác nhau, cụ thể: Google cho phép truy vấn qua url cách thêm cặp tham số - giá trị vào đƣờng dẫn, sử dụng tham số tìm kiếm để thêm vài url là: lr=lang_vi: ngôn ngữ Việt Nam q=“Thi tốt nghiệp 2015” : từ khóa tìm kiếm Đối với từ khóa tìm kiếm chữ in hoa chữ thƣờng hệ thống cho kết safe=“off”: chế độ tìm kiếm an toàn start=i: i vị trí bắt đầu trang Với i = 1, trang tìm kiếm trả có 10 kết kết số 1, tƣơng tự với i = 11, trang tìm kiếm trả trang với 10 kết trang số 11 tbs=qdr:h: lọc kết thời gian trở lại Google trả số lƣợng kết lớn, tỉ lệ trang Tiếng Việt nhiều đa phần tin từ trang đƣợc xếp hạng cao Google[2] Bing cung cấp hạn chế tham số truyền vào giới hạn khả tìm kiếm Cùng với từ khóa, sử dụng tìm kiếm trực tiếp mà không đăng nhập vào tài khoản Microsoft lƣợng kết hạn chế nhiều so với đăng nhập Để lọc tin theo thời gian Bing cung cấp tham số: 64 filters=ex1%3a”ez1” để lọc theo 24 qua, filters=ex1%3a”ez2” để lọc theo tuần qua, v.v mà không lọc đƣợc theo qua Mặt khác trang web đƣợc Bing ƣu tiên đƣa lên đầu hầu hết trang nƣớc ngoài, tần số trang Việt Nam hạn chế sử dụng từ khóa Tiếng Việt Yahoo: sử dụng số cặp tham số - giá trị mà yahoo cung cấp để thêm vào url tìm kiếm : ei=UTF-8: encode utf-8 p=”Thi+tốt+nghiệp+2015”: từ khóa tìm kiếm btf=d: lọc kết 24 qua b=i: i vị trí kết trang Với i 1, trả trang với 10 kết kết số Với i 11, trả trang với 10 kết kết số 11 Tƣơng tự nhƣ Bing, Yahoo cho phép lọc kết 24 qua thay qua nhƣ Google Các trang kết trả từ website có xếp hạng cao Yahoo đánh giá Vì thế, nhƣ yêu cầu thực tế đặt trình bày chƣơng 2, kết tìm kiếm phải liên quan đến từ khóa, từ nguồn đƣợc đánh giá cao, thời gian sớm (ít trở lại thời điểm tại) nên luận văn sử dụng kết tìm kiếm từ công cụ Google search để phục vụ cho yêu cầu hệ thống Hệ thống thực truy vấn đến Google với từ khóa giới hạn trang kết để lấy 50 kết Sau 10 phút hệ thống thực vấn tìm kiếm lần Kết tìm kiếm với hai từ khóa: “Thi tốt nghiệp 2015” “Nguyễn Thị Ánh Viên” - Về thời gian phản hồi: Tùy vào tốc độ mạng cấu hình máy thực nghiệm mà cho thời gian phản hồi có biên độ khác lớn Với từ khóa xét lần truy vấn gần từ 19h đến 21h ngày 14 tháng năm 2015 ta có bảng thời gian chạy nhƣ sau: 65 Bảng 3.12: Bảng thời gian hoàn thành - STT Thời gian hoàn thành (ms) 366382 366060 380143 374018 371823 369082 390283 380271 Trung bình 374757.8 Về số lƣợng kết quả: hệ thống chạy liên tục ngày từ 10h ngày tháng năm 2015 đến 22h ngày 15 tháng năm 2015 thu đƣợc số lƣợng kết sở liệu nhƣ sau Bảng 3.13: Bảng số lượng kết Từ khóa Số lƣợng kết Thi tốt nghiệp 2015 1871 Nguyễn Thị Ánh Viên 1653 3.3.2 Kết ứng dụng Web Ứng dụng web đƣợc viết ngôn ngữ java, chạy server Apache Tomcat 7.0.34 Với kết trang web nhƣ sau Giao diện hình truy cập ứng dụng web 66 Hình 3.7: Giao diện chương trình Màn hình hiển thị kết theo dõi từ khóa ngƣời dùng đăng kí với hệ thống, hình cung cấp chức xem danh sách kết theo từ khóa ngƣời dùng, xem lại thông tin (CSDL) lƣu trữ MongoDB cách click vào mục " Xem lưu" (hình 3.8) Hình 3.8: Màn hình 67 Cho phép lọc tin lƣu sở liệu theo thời gian trƣớc, ngày trƣớc …(hình 3.9) Hình 3.9: Lọc thông tin theo thời gian Chức xem thông tin cá nhân ngƣời dùng Trong thống kê chi tiết từ khóa ngƣời dùng, từ khóa tiếp tục đƣợc theo dõi, từ khóa ngừng việc theo dõi : 68 Hình 3.10: Thông tin tài khoản Màn hình xem thông tin cá nhân chi tiết từ khóa ngƣời dùng đăng kí nhƣ trạng thái từ khóa đó: Qua kết thực nghiệm đạt đƣợc trình bày trên, nhận thấy hệ thống phần đáp ứng đƣợc yêu cầu toán đặt từ đầu chƣơng Qua thực nghiệm cho thấy thời gian cho lần thu thập liệu thấp chấp nhận đƣợc, số lƣợng kết tƣơng đối nhiều đáp ứng đƣợc mục đích hiển thị yêu cầu hệ thống Tuy nhiên hệ thống có nhiều điểm chƣa thực tốt Phía máy chủ chịu trách nhiệm thu thập theo dõi tin thủ công giai đoạn phân tích mã nguồn HTML trang tìm kiếm nên tốc độ chậm trƣờng thông tin đơn giản Chƣa có chức lọc nội dung từ tin kết cho liên quan đến từ khóa nhiều mà dừng lại việc lƣu trữ hiển thị kết công cụ tìm kiếm Google, nên tin chƣa thực liên quan đáp ứng đƣợc nhu cầu cập nhật tin tức ngƣời dùng Giao diện web đáp ứng đƣợc chức đơn giản ngƣời dùng chƣa có nhiều chức chuyên sâu phục vụ việc xếp theo dõi 69 KẾT LUẬN CHUNG Kết đạt đƣợc luận văn: - Luận văn trình bày kiến trúc nguyên tắc hoạt động chung hệ thống tìm kiếm thông tin mạng - Trên sở tìm hiểu hệ thống tìm kiếm, nhƣ cách thức tìm kiếm mạng luận văn tập trung phân tích đánh giá số thuật toán đỗi sánh mẫu để áp dụng cho hệ thống tìm kiếm - Xây dựng ứng dụng sở mã nguồn mở, ngôn ngữ lập trình Java số công cụ phần mềm Ứng dụng đánh giá thu thập thông tin chạy trình chủ localhost, hoạt động dựa theo nguyên lý chung hệ thống tìm kiếm google Với khả theo dõi xếp cập nhật thông tin liên quan đến lĩnh vực mà ngƣời dùng quan tâm cách nhanh ứng dụng thực đƣợc chức dò tìm tệp html, phân tích tệp mà tìm đƣợc lƣu trữ database vào MongoDB Tuy nhiên hạn chế thời gian, khả tìm hiểu, thiếu sót kinh nghiệm nên kết thu đƣợc hạn chế cần tiếp tục xây dựng cải thiện nhiều tƣơng lai tới Hƣớng phát triển: - Xây dựng hoàn thiện chức có hệ thống để cải thiện hiệu suất - Thêm chức phân tích ngôn ngữ tự nhiên để phân tích nội dung tin bài, lọc đƣợc tin liên quan đến từ khóa ngƣời dùng đăng kí Thêm khả phân loại, xếp hạng, nhận dạng chủ đề liên quan Cải thiện khả theo dõi với nhiều từ khóa từ nhiều ngƣời sử dụng - Nghiên cứu cách cải thiện hiệu truy xuất lƣu trữ sở liệu MongoDB - Thêm chức cho phép ngƣời dùng tƣơng tác nhiều với ứng dụng web 70 Trong thời gian tới, cố gắng hoàn thiện hệ thống để phục vụ cách tốt nhu cầu đặt nói riêng nhu cầu ngƣời dùng nói chung 71 TÀI LIỆU THAM KHẢO [1] "Cấu trúc Struts2," [Online] Available: http://www.tutorialspoint.com/struts_2/struts_quick_guide.htm [2] "Google Check Rank," [Online] Available: http://checkpagerank.net/ [3] "Google Trends," [Online] Available: http://www.google.com/trends/ [4] "Nhánh phát triển MySQL đƣợc sử dụng Google," [Online] Available: http://code.google.com/p/google-mysql/ [5] "Nhánh phát triển MySQL đƣợc sử dụng Twitter," [Online] Available: https://github.com/twitter/mysql [6] "NoSQL - Nhữ Đình Thuận," 13 10 2010 [Online] Available: http://blog.vietspider.org/2010/10/nosql.html [7] "NoSQL Resources," [Online] Available: http://nosql-database.org/ [8] "Web Mining Book," 12 2006 [Online] Available: http://www.cs.uic.edu/~liub/WebMiningBook.html [9] B Liu, Web Datamining, Exploring Hyperlinks, Contents, and Usage Data, 2011 [10] BING, "Bing Search API," [Online] Available: http://www.bing.com/toolbox/bingsearchapi [11] Bing, "Datamarket - Bing search," [Online] Available: http://datamarket.azure.com/dataset/bing/search [12] DB-ENGINES, "Xếp hạng hệ quản trị sở liệu," [Online] Available: http://db-engines.com/en/ranking [13] http://www.dcs.bbk.ac.uk/~ptw/teaching/ssd/toc.html [14] http://www.w3.org/TR/xpath [15] https://www.mongodb.com/ [16] IBM, "Dữ liệu có cấu trúc," [Online] Available: 72 http://www.ibm.com/developerworks/vn/library/dm-0506melnyk/ [17] Kristina Chodorow - Michael Dirolf, MongoDB: The Definitive Guide, O‟reilly, 2010 [18] Ranking http://blog.vietspider.org/2009/06/lam-search-engine-thoi-web20-phan-tich.html [19] S & P L Brin, The anatomy of a large-scale hypertextual Web search engine., 1998 [20] Sean A Golliher – Publisher, SEMJ.org Search Engine Ranking Variables and Algorithms VOLUME 1, SUPPLEMENTAL ISSUE, AUGUST 2008 [21] W - DOM [Online] Available: http://www.w3schools.com/js/js_htmldom.asp [22] Y a Z H Yang, HTML Page Analysis Based on Visual Cues, In 6th International Conference on Document Analysis and Recognition, Seattle, Washington, USA, 2001 [23] Yahoo, "Yahoo BOSS Pricing," [Online] Available: https://info.yahoo.com/legal/us/yahoo/boss/pricing/ [24] Yahoo, "Yahoo BOSS," [Online] Available: https://developer.yahoo.com/boss/search/ [...]... 1.1.3 Dịch vụ tìm kiếm Yahoo BOSS là công cụ tìm kiếm mở và dịch vụ nền tảng dữ liệu của Yahoo Mục tiêu của nó là thúc đẩy sự đổi mới trong ngành công nghiệp tìm kiếm Các nhà phát triển và các công ty internet lớn có thể sử dụng để xây dựng các sản phẩm tìm kiếm web qui mô sử dụng công nghệ và dữ liệu của công cụ tìm kiếm yahoo [23] BOSS API là một dịch vụ cung cấp RESTful truy cập web, hình ảnh, tin. .. VỀ TÌM KIẾM VÀ THEO DÕI THÔNG TIN 1.1 Tổng quan về tìm kiếm thông tin Phần lớn các công cụ tìm kiếm đều cung cấp API cho các nhà phát triển để truy cập và sử dụng các kết quả của mình Tuy nhiên không phải API nào cũng miễn phí, và nó đều giới hạn số lƣợng kết quả trả về cũng nhƣ số truy vấn đến các công cụ tìm kiếm đó Sau đây sẽ giới thiệu về APIs của ba công cụ tìm kiếm phổ biến nhất: Google, Bing và. .. xuất các thông tin về tên sách và tác giả viết sách Mẫu trích xuất đƣợc xây dựng sau: 14 1.3 Theo dõi và thu thập dữ liệu Máy chủ (server) là phần chịu trách nhiệm tìm kiếm, xử lý và lƣu trữ các tin bài liên quan đến những từ khóa, vấn đề mà ngƣời dùng đã đăng kí với hệ thống Phía máy chủ thực hiện các chức năng của mình thông qua việc tìm kiếm các tin bài trên Internet thông qua công cụ tìm kiếm Google... cầu tìm kiếm Do hệ thống chỉ sử dụng kết quả duy nhất từ trang tìm kiếm của Google, cần số lƣợng lớn các kết quả liên quan đến vấn đề mà ngƣời dùng mong muốn theo dõi Nên để tăng hiểu quả, trong hệ thống phía máy chủ của mình, tôi sử dụng cách thứ hai, đó là trích xuất trực tiếp thông tin trên mã nguồn HTML của trang web tìm kiếm Chức năng theo dõi và thu thập dữ liệu là phần chứa các hàm phục vụ việc... khách và cơ sở dữ liệu lƣu trữ thông tin Trình bày về các thu t toán đánh giá, đối sánh thông tin, các kỹ thu t, các phƣơng pháp giải thu t áp dụng cho mỗi phần 2.1 Mô hình kiến trúc tổng thể Xuất phát từ bài toán thực tế đã trình bày trong phần giới thiệu chung Và dựa trên những nghiên cứu, những cơ sở lý thuyết đã trình bày trong chƣơng 1, tôi đã nghiên cứu xây dựng hệ thống Theo dõi thông tin ngƣời trên. .. pháp tự động: tự động tìm các mẫu hoặc các cấu trúc để trích xuất thông tin từ những trang web đã cho trƣớc Phƣơng pháp này không cần đến sự gán nhãn bằng tay nên có thể trích xuất đƣợc dữ liệu từ một lƣợng khổng lồ các trang 1.2.1.2 Phương pháp đánh giá Để đánh giá chất lƣợng phƣơng pháp trích xuất thông tin cho dữ liệu bán cấu trúc ngƣời ta thƣờng sử dụng một số độ đo nhƣ độ hồi tƣởng (R), độ tin. .. cầu đƣợc trả về, bộ tìm kiếm tự động chuyển đến bƣớc 8 Có nghĩa là có thể các kết quả tìm kiếm tối ƣu phụ đƣợc trả về 1.1.4.8 Hệ thống xếp hạng Google lƣu trữ nhiều thông tin về tài liệu web Mỗi trang có các thông tin nhƣ các URL trỏ đến trang đó, và các URL mà trang đó trỏ đến Việc xây dựng hàm xếp hạng sao cho không có bất kỳ một thông tin nào có quá nhiều ảnh hƣởng Hệ thống tìm kiếm Google có khả... đó tiến hành phân tích và lƣu trữ những thông tin cần thiết vào cơ sở dữ liệu Có hai cách cơ bản để lấy về các tin bài từ các công cụ tìm kiếm: - Cách thứ nhất là sử dụng các APIs nhƣ đã trình bày trong chƣơng 1 để yêu cầu và lấy về phản hồi của công cụ tìm kiếm dƣới dạng JSON hoặc XML Sau đó tiến hành phân tích kết quả và trích xuất ra những trƣờng kết quả mong muốn và lƣu vào cơ sở dữ liệu Tuy nhiên... trở nên bị động và bị phụ thu c vào APIs của các nhà cung cấp Bị giới hạn về mặt số lƣợng kết quả, số yêu cầu cho phép, và có thể sẽ phải trả phí để có đƣợc những kết quả mong muốn - Cách thứ hai đó là trích xuất kết quả trực tiếp từ trang web của các công cụ tìm kiếm Do bằng cách này ngƣời phát triển sẽ chủ động tìm 15 kiếm mà không phụ thu c vào các APIs của công cụ tìm kiếm nên sẽ chủ động đƣợc số... tạo và xóa công cụ Custom Search 1.1.2 Dịch vụ tìm kiếm Bing Bing là công cụ tìm kiếm do Microsoft tạo ra và phát triển Từ tháng 8 năm 2012 Bing Seach API chuyển sang Azure Marketplace – một cửa hàng cho các tập dữ liệu, các ứng dụng điện toán đám mây và các công cụ phân tích [10] Bing API cho phép các nhà phát triển có thể nhúng một công cụ tìm kiếm trong các trang web hoặc ứng dụng của mình sử dụng