Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 80 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
80
Dung lượng
2,62 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Lê Hữu Hảo ĐÁNH GIÁ VÀ THU THẬP THÔNG TIN TỰ ĐỘNG TRÊN INTERNET SỬ DỤNG DỊCH VỤ TÌM KIẾM LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2015 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Lê Hữu Hảo ĐÁNH GIÁ VÀ THU THẬP THÔNG TIN TỰ ĐỘNG TRÊN INTERNET SỬ DỤNG DỊCH VỤ TÌM KIẾM Chun ngành: Khoa học máy tính Mã số: 60 48 0101 LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH KHOA HỌC MÁY TÍNH Giáo viên hƣớng dẫn: TS Nguyễn Ngọc Hóa THÁI NGUYÊN - 2015 THÁI NGUYÊN - 2015 i LỜI CẢM ƠN Trong thời gian qua, nhận đƣợc nhiều hƣớng dẫn giúp đỡ động viên tận tình từ nhiều phía Tất điều trở thành nguồn động lực lớn giúp tơi thực đƣợc đề tài nghiên cứu đƣợc giao Với tất cảm kích trân trọng, xin đƣợc gửi lời cảm ơn đến tất ngƣời Trƣớc hết xin chân thành cảm ơn thầy hƣớng dẫn – Tiến sĩ Nguyễn Ngọc Hóa ngƣời nhiệt tình bảo ban hƣớng dẫn, đóng góp ý kiến quý báu cho tơi để học tập hồn thành luận văn tốt nghiệp Xin gửi lời cảm ơn chân thành đến Ban giám hiệu trƣờng Đại học Công Nghệ Thông Tin truyền thông – Đại học Thái Ngun tạo điều kiện giúp đỡ tơi thực đề tài Cảm ơn toàn thể thầy cô công tác trƣờng Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên dạy dỗ truyền đạt kiến thức quí báu cho suốt thời gian học tập rèn luyện trƣờng Tôi xin đƣợc gửi lời biết ơn vô hạn tới cha mẹ, ngƣời thân nuôi dƣỡng tạo điều kiện tốt cho học tập sinh hoạt, bên tơi lúc khó khăn để chuyên tâm thực luận văn Cuối cùng, xin cảm ơn tập thể lớp cao học CNTT K12E đặc biệt ngƣời ban tốt bên tôi, khuyến khích, động viên tơi cho tơi lời khuyên chân thành sống học tập Xin trân trọng cảm ơn! Thái Nguyên, ngày tháng Học viên Lê Hữu Hảo năm 2015 ii LỜI CAM ĐOAN Tôi xin cam đoan nghiên cứu "Đánh giá thu thập thông tin tự động Internet sử dụng dịch vụ tìm kiếm" mà tơi viết luận văn thật Những tơi viết không chép từ tài liệu, không sử dụng kết ngƣời khác mà khơng trích dẫn cụ thể Tôi xin cam đoan ứng dụng tơi trình bày luận văn tơi tự phát triển dƣới hƣớng dẫn thầy Nguyễn Ngọc Hóa, khơng chép mã nguồn ngƣời khác Nếu sai tơi hồn tồn chịu trách nhiệm theo quy định trƣờng Đại học Công nghệ Thông tin Truyền thông - Đại học Thái Nguyên Thái Nguyên, ngày tháng năm 2015 Học viên Lê Hữu Hảo iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC CÁC HÌNH VẼ v DANH MỤC BẢNG BIỂU vi GIỚI THIỆU CHUNG .1 CHƢƠNG 1: TỔNG QUAN VỀ TÌM KIẾM VÀ THEO DÕI THÔNG TIN 1.1 Tổng quan tìm kiếm thơng tin 1.1.1 Dịch vụ tìm kiếm Google 1.1.2 Dịch vụ tìm kiếm Bing .4 1.1.3 Dịch vụ tìm kiếm Yahoo 1.1.4 Search Engine điển hình 1.2 Dữ liệu bán cấu trúc DOM 1.2.1 Dữ liệu bán cấu trúc việc trích xuất .8 1.2.2 Cây DOM .10 1.3 Theo dõi thu thập liệu 14 CHƢƠNG 2: MƠ HÌNH KIẾN TRÚC TỔNG THỂ VÀ MỘT SỐ THUẬT TOÁN ĐÁNH GIÁ THÔNG TIN 20 2.1 Mơ hình kiến trúc tổng thể 20 2.2 Các kỹ thuật 21 2.2.1 Framework Struts 21 2.2.2 Hệ quản trị liệu MongoDB 23 2.2.3 Hệ quản trị sở liệu MySQL 29 2.3 Một số thuật toán đối sánh mẫu 31 2.3.1 Thuật toán Brute Force 31 iv 2.3.2 Thuật toán Knuth Morris Pratt .32 2.3.3 Thuật toán Boyer-Moore 41 2.4 So sánh thuật toán 46 CHƢƠNG 3: THỰC NGHIỆM ỨNG DỤNG ĐÁNH GIÁ VÀ THU THẬP THÔNG TIN .47 3.1 Mơ hình tốn 47 3.1.1 Theo dõi thu thập thông tin .47 3.1.2 Quản lý ngƣời dùng 51 3.1.3 Quản lý liệu hệ thống 57 3.2 Công cụ đánh giá thu thập thông tin tự động 61 3.2.1 Áp dụng thuật toán Knuth Morris Pratt đánh giá, đối sánh mẫu 61 3.2.2 Các công cụ phần mềm 62 3.3 Kết thực nghiệm .63 3.3.1 Kết thu thập thông tin 63 3.3.2 Kết ứng dụng Web 65 KẾT LUẬN CHUNG .69 TÀI LIỆU THAM KHẢO 71 v DANH MỤC CÁC HÌNH VẼ Hình 1.1: Kiến trúc máy tìm kiếm Google Hình 1.2: Ví dụ liệu bán cấu trúc Hình 1.3: Ví dụ biểu diễn DOM mã HTML 11 Hình 1.4: Ví dụ xây dựng DOM sử dụng hộp ảo 13 Hình 1.5: Các bƣớc xử lý máy chủ .16 Hình 1.6: Các kết hiển thị Google 16 Hình 1.7: Mã HTML kết thị .17 Hình 1.8: Mơ hình DOM kết 18 Hình 2.1: Mơ hình hệ thống 20 Hình 2.2: Kiến trúc Struts2 22 Hình 2.3: Lƣu trữ liệu dạng BSON .26 Hình 3.1: Biểu đồ class phía máy chủ 48 Hình 3.2: Biểu đồ phía máy chủ 51 Hình 3.3: Biểu đồ ca sử dụng ngƣời dùng 52 Hình 3.4: Biểu đồ lớp chức liên quan đến tin .55 Hình 3.5: Biểu đồ lớp chức quản lý ngƣời dùng 56 Hình 3.6: Lƣợc đồ sở liệu quản lý ngƣời dùng 59 Hình 3.7: Giao diện chƣơng trình 66 Hình 3.8: Màn hình .66 Hình 3.9: Lọc thơng tin theo thời gian .67 Hình 3.10: Thơng tin tài khoản 68 vi DANH MỤC BẢNG BIỂU Bảng 3.1: Các class package Model .53 Bảng 3.2: Các class package Controller 54 Bảng 3.3: Các class package DAO 54 Bảng 3.4: Các class package Util .54 Bảng 3.5: Mô tả collection sở liệu lƣu tin 58 Bảng 3.6: Mơ tả thuộc tính quan hệ User 60 Bảng 3.7: Mơ tả thuộc tính quan hệ keywords 60 Bảng 3.8: Mô tả thuộc tính quan hệ users_keywords .61 Bảng 3.9: Mơ tả thuộc tính quan hệ trends .61 Bảng 3.10: Các công cụ phần mềm 62 Bảng 3.11: Cấu hình máy tính chạy thực nghiệm 63 Bảng 3.12: Bảng thời gian hoàn thành 65 Bảng 3.13: Bảng số lƣợng kết 65 GIỚI THIỆU CHUNG Hiện nay, sống kỉ 21, thời đại cơng nghệ thơng tin có bƣớc phát triển vƣợt bậc để bắt kịp với xu hƣớng phát triển chung xã hội Kéo theo lƣợng thơng tin khổng lồ tất lĩnh vực xã hội, trị, kinh tế, giải trí, v.v liên tục phát sinh phát triển nhanh chóng Nhu cầu hiểu biết tìm kiếm ngƣời ngày tăng theo với phát triển Tuy nhiên ngƣời, tổ chức lại có lĩnh vực quan tâm khác nhau, trình độ hiểu biết công nghệ thông tin khác nhau, nhu cầu không dừng lại cá nhân, mà phổ biến tất ngƣời, tổ chức Bên cạnh lƣợng thơng tin Internet lớn hỗn tạp từ nhiều nguồn, nhiều loại khác dẫn đến trình tìm kiếm khó khăn vất vả Để đáp ứng nhu cầu tìm hiểu ngƣời, nhiều cơng cụ tìm kiếm đời cung cấp khả tìm kiếm thông tin với tốc độ phạm vi ngày nâng cao cải thiện Một công cụ tìm kiếm phổ biến đứng đầu Google, đứng thứ hai Bing, tiếp Yahoo Tuy nhiên cơng cụ tìm kiếm mang tính chất tức thời, tức ngƣời dùng có nhu cầu tìm kiếm họ phải trực tiếp vào nhập từ khóa cần tìm xem kết quả, ngƣời dùng khó nắm bắt quản lý thơng tin cập nhật thƣờng xuyên liên quan đến vấn đề mà có nhu cầu theo dõi thƣờng xuyên Xuất phát từ thực tế đó, luận văn tốt nghiệp đƣợc hƣớng đến mục tiêu tự động theo dõi thông tin mà ngƣời dùng quan tâm đƣợc xuất Web, từ xử lý bƣớc đầu để khắc phục tình trạng tránh trùng lặp thông tin lƣu lại sở liệu (CSDL) hệ thống để ngƣời dùng dễ dàng tra cứu sau Theo thống kê nêu, cơng cụ tìm kiếm phổ biến đáp ứng đƣợc yêu cầu nguồn liệu lớn, tốc độ phản hồi nhanh kết có liên quan tƣơng đối sát với từ khóa cần tìm kiếm Vì ý tƣởng thực theo dõi thông tin Internet thông qua việc truy vấn thƣờng xuyên đến cơng cụ tìm kiếm phổ biến Google, Bing Yahoo, tổng hợp, đánh giác kết sớm lƣu trữ databasse vào sở liệu MongoDB Nhƣ ngƣời dùng muốn theo dõi thông tin truy cập vào hệ thống để xem đƣợc thơng tin liên quan nhanh Để đảm bảo lƣu trữ đƣợc lƣợng liệu nhƣ vậy, mô hình quản trị sở liệu NoSQL đƣợc nghiên cứu, tìm hiểu để phục vụ việc lƣu trữ tin trả Phần giao diện tƣơng tác đƣợc thực thông qua ứng dụng Web Những kết thu đƣợc luận văn đƣợc tổng hợp chƣơng có nội dung sau: Giới thiệu chung: Trong mục giới thiệu chung luận văn: Nêu thực trạng cần giải quyết, từ giới thiệu tốn xuất phát từ nhu cầu thực tế đó, mục tiêu nhƣ nội dung luận văn Chƣơng 1: Tổng quan tìm kiếm theo dõi thơng tin: Trình bày số sở lý thuyết liên quan đến việc tiến hành nội dung luận văn nhƣ Search Engine, liệu cấu trúc DOM, thực trạng số dịch vụ tìm kiếm tiêu biểu nhƣ Google, Yahoo, Bing,… để lựa chọn triển khai ứng dụng theo dõi thông tin Internet Chƣơng 2: Mơ hình kiến trúc tổng thể số thuật tốn đánh giá thơng tin Trong chƣơng trình bày mơ hình kiến trúc tổng thể hệ thống nhƣ thành phần chi tiết phía máy chủ, máy khách sở liệu lƣu trữ thơng tin Trình bày kỹ thuật (Framework Strusts, MongoDB, NoSQL ), phƣơng pháp giải thuật áp dụng cho phần Chƣơng 3: Thực nghiệm ứng dụng đánh giá thu thập thơng tin - Trình bày cách sử dụng hệ thống, kết đạt đƣợc Đánh giá kết đạt đƣợc tồn hệ thống Kết luận chung Tóm tắt lại trình xây dựng, kết đạt đƣợc, ý nghĩa thực tiễn hệ thống 58 Bảng 3.5: Mô tả collection sở liệu lưu tin Collection _id: int title: text description: text displayUrl: text url: text sourceCode: text time: datetime Trong đó, trƣờng tƣơng ứng với liệu trích xuất từ kết trả Google: - Trƣờng _id: đƣợc gán cho kết quả, đƣợc đánh tự tăng sở liệu - Trƣờng title: tiêu đề trang web kết - Trƣờng description: mô tả ngắn gọn nội dung trang web kết - Trƣờng displayUrl: hiển thị liên kết đến trang web gốc - Trƣờng url: đƣờng dẫn đến trang web gốc - Ngoài trƣờng trƣờng đƣợc lấy từ việc phân tích kết trả về, ta có thêm trƣờng sourceCode mã nguồn trang kết có url tƣơng ứng, trƣờng time thời gian lƣu trữ vào sở liệu 3.1.3.2 Cơ sở liệu quản lý người dùng Với ƣu điển dễ dàng quản lý lƣu trữ hệ quản trị sở liệu quan hệ, hệ thống sử dụng hệ quản trị sở liệu MySQL để quản lý ngƣời dùng, gồm bảng: 59 Hình 3.6: Lược đồ sở liệu quản lý người dùng Trong sở liệu chứa bảng: - Bảng Users: chứa thơng tin cá nhân ngƣời dùng gồm cột: 60 Bảng 3.6: Mô tả thuộc tính quan hệ User Tên cột Mơ tả Định danh ngƣời dùng, hệ thống tự sinh Id cho ngƣời dùng Username Là tên mà ngƣời dùng đăng kí dùng để đăng nhập vào ứng dụng web Mật ngƣời dùng, phải gồm kí password tự Hệ thống sử dụng mã hóa MD5 để mã hóa bảo vệ mật Email ngƣời dùng, ngƣời dùng sử dụng địa mail nhất, sử dụng ngƣời Email dùng muốn khôi phục lại mật trƣờng hợp ngƣời dùng quên mật - Bảng keywords chứa từ khóa mà tất ngƣời dùng đăng kí với hệ thống gồm trƣờng: Bảng 3.7: Mơ tả thuộc tính quan hệ keywords Tên cột Mô tả key_id Định danh từ khóa Keyname Tên từ khóa - Do mối quan hệ ngƣời dùng từ khóa quan hệ nhiều nhiều (một ngƣời dùng có nhiều từ khóa, từ khóa đƣợc đăng kí nhiều ngƣời) nên sinh thêm bảng users_keywords bảng tham chiếu từ ngƣời dùng với từ khóa họ, bảng có trƣờng sau: 61 Bảng 3.8: Mô tả thuộc tính quan hệ users_keywords Tên cột Mơ tả User_id Định dinh ngƣời dùng Key_id Định danh từ khóa Day_start Day_stop Thời gian mà từ khóa đƣợc đăng kí với hệ thống ngƣời dùng Thời gian gần mà từ khóa bị tạm dừng theo dõi Trạng thái từ khóa, với stt = nghĩa từ khóa đƣợc theo dõi, stt = từ khóa Stt bị tạm dừng - Ngồi hệ thống cịn quản lý từ khóa mà đƣợc tìm kiếm nhiều Google Google thống kê qua trang web Google Xu hƣờng bảng trends gồm trƣờng: Bảng 3.9: Mơ tả thuộc tính quan hệ trends Tên cột Mô tả Id Định danh từ khóa Trend_name Tên từ khóa Searches url Timesave Số lƣợng tìm kiếm qua Google đƣợc thống kê Google Xu hƣớng Liên kết đến trang Google tìm kiếm từ khóa Thời gian lƣu vào sở liệu 3.2 Công cụ đánh giá thu thập thông tin tự động 3.2.1 Áp dụng thuật toán Knuth Morris Pratt đánh giá, đối sánh mẫu Qua đánh giá so sánh thuật tốn chƣơng 2, q trình đối sánh theo thuật toán Knuth Morris Pratt nhƣ đƣợc ứng dụng theo bƣớc để cài đặt vào phần mềm mã nguồn mở Quá trình đánh giá đƣợc thực nhƣ sau: 62 chƣơng trình thực tìm kiếm thơng tin với từ khóa đăng ký thơng qua khả tìm kiếm google, với liệu tìm thấy đƣợc lƣu trữ vào sở liệu MongoDB Sau phút hệ thống tự động tìm kiếm lần thứ 2, kết tìm kiếm đƣợc đƣợc đối sánh với kết lần 1, với thông tin trang web đƣợc cập nhập thêm thơng tin hệ thống update vào sở liệu, với trang chƣa có sở liệu đƣợc lƣu trữ vào sở liệu, với trang trùng với trang có sở liệu đƣợc bỏ qua để tránh trƣờng hợp trùng lặp liệu 3.2.2 Các cơng cụ phần mềm Bảng sau trình bày cơng cụ, gói phần mềm, phiên chúng mà sử dụng để xây dựng hệ thống Theo dõi thông tin Internet Bảng 3.10: Các công cụ phần mềm STT Tên công cụ Eclipse SDK Apache Tomcat ver 7.0.34 Framework struts Ghi Môi trƣờng phát triển ứng dụng Là server để chạy ứng dụng java servlet Là framework hỗ trợ xây dựng ứng dụng web Thƣ viện java hỗ trợ việc parse mã Jsoup ver 1.7.3 nguồn HTML trang web hỗ trợ việc phân tích DOM Hệ quản trị sở liệu MongoDB 2.5.4 Mongo 2.10.1 MySQL server 5.1 Hệ quản trị sở liệu MySQL Mysql-connector-java- Thƣ viện hỗ trợ kết nối với hệ quản 5.1.18-bin trị sở liệu MySQL MongoDB Thƣ viện hỗ trợ kết nối với hệ quản trị sở liệu MongoDB 63 Máy tính sử dụng thực nghiệm có cấu hình nhƣ sau: Bảng 3.11: Cấu hình máy tính chạy thực nghiệm LENONO Thinkpad T520 CPU Intel® Core ™ i5-2520M CPU @ 2.5GHz Memory 8GB OS Windows 64-bits 3.3 Kết thực nghiệm 3.3.1 Kết thu thập thông tin Ban đầu hệ thống thu thập kết thơng tin dựa ba cơng cụ tìm kiếm lớn Google, Bing Yahoo Với từ khóa “Thi tốt nghiệp 2015”, cơng cụ lại cung cấp mức độ tìm kiếm khác nhau, cụ thể: Google cho phép truy vấn qua url cách thêm cặp tham số - giá trị vào đƣờng dẫn, tơi sử dụng tham số tìm kiếm để thêm vài url là: lr=lang_vi: ngôn ngữ Việt Nam q=“Thi tốt nghiệp 2015” : từ khóa tìm kiếm Đối với từ khóa tìm kiếm chữ in hoa chữ thƣờng hệ thống cho kết safe=“off”: chế độ tìm kiếm an tồn start=i: i vị trí bắt đầu trang Với i = 1, trang tìm kiếm trả có 10 kết kết số 1, tƣơng tự với i = 11, trang tìm kiếm trả trang với 10 kết trang số 11 tbs=qdr:h: lọc kết thời gian trở lại Google trả số lƣợng kết lớn, tỉ lệ trang Tiếng Việt nhiều đa phần tin từ trang đƣợc xếp hạng cao Google[2] Bing cung cấp hạn chế tham số truyền vào giới hạn khả tìm kiếm Cùng với từ khóa, tơi sử dụng tìm kiếm trực tiếp mà không đăng nhập vào tài khoản Microsoft lƣợng kết hạn chế nhiều so với đăng nhập Để lọc tin theo thời gian Bing cung cấp tham số: 64 filters=ex1%3a”ez1” để lọc theo 24 qua, filters=ex1%3a”ez2” để lọc theo tuần qua, v.v mà không lọc đƣợc theo qua Mặt khác trang web đƣợc Bing ƣu tiên đƣa lên đầu hầu hết trang nƣớc ngoài, tần số trang Việt Nam hạn chế sử dụng từ khóa Tiếng Việt Yahoo: sử dụng số cặp tham số - giá trị mà yahoo cung cấp để thêm vào url tìm kiếm : ei=UTF-8: encode utf-8 p=”Thi+tốt+nghiệp+2015”: từ khóa tìm kiếm btf=d: lọc kết 24 qua b=i: i vị trí kết trang Với i 1, trả trang với 10 kết kết số Với i 11, trả trang với 10 kết kết số 11 Tƣơng tự nhƣ Bing, Yahoo cho phép lọc kết 24 qua thay qua nhƣ Google Các trang kết trả từ website có xếp hạng cao Yahoo đánh giá Vì thế, nhƣ yêu cầu thực tế đặt trình bày chƣơng 2, kết tìm kiếm phải liên quan đến từ khóa, từ nguồn đƣợc đánh giá cao, thời gian sớm (ít trở lại thời điểm tại) nên luận văn sử dụng kết tìm kiếm từ cơng cụ Google search để phục vụ cho yêu cầu hệ thống Hệ thống thực truy vấn đến Google với từ khóa giới hạn trang kết để lấy 50 kết Sau 10 phút hệ thống thực vấn tìm kiếm lần Kết tìm kiếm với hai từ khóa: “Thi tốt nghiệp 2015” “Nguyễn Thị Ánh Viên” - Về thời gian phản hồi: Tùy vào tốc độ mạng cấu hình máy thực nghiệm mà cho thời gian phản hồi có biên độ khác lớn Với từ khóa xét lần truy vấn gần từ 19h đến 21h ngày 14 tháng năm 2015 ta có bảng thời gian chạy nhƣ sau: 65 Bảng 3.12: Bảng thời gian hoàn thành - STT Thời gian hoàn thành (ms) 366382 366060 380143 374018 371823 369082 390283 380271 Trung bình 374757.8 Về số lƣợng kết quả: hệ thống chạy liên tục ngày từ 10h ngày tháng năm 2015 đến 22h ngày 15 tháng năm 2015 thu đƣợc số lƣợng kết sở liệu nhƣ sau Bảng 3.13: Bảng số lượng kết Từ khóa Số lƣợng kết Thi tốt nghiệp 2015 1871 Nguyễn Thị Ánh Viên 1653 3.3.2 Kết ứng dụng Web Ứng dụng web đƣợc viết ngôn ngữ java, chạy server Apache Tomcat 7.0.34 Với kết trang web nhƣ sau Giao diện hình truy cập ứng dụng web 66 Hình 3.7: Giao diện chương trình Màn hình hiển thị kết theo dõi từ khóa ngƣời dùng đăng kí với hệ thống, hình cung cấp chức xem danh sách kết theo từ khóa ngƣời dùng, xem lại thơng tin (CSDL) lƣu trữ MongoDB cách click vào mục " Xem lưu" (hình 3.8) Hình 3.8: Màn hình 67 Cho phép lọc tin lƣu sở liệu theo thời gian trƣớc, ngày trƣớc …(hình 3.9) Hình 3.9: Lọc thông tin theo thời gian Chức xem thơng tin cá nhân ngƣời dùng Trong thống kê chi tiết từ khóa ngƣời dùng, từ khóa tiếp tục đƣợc theo dõi, từ khóa ngừng việc theo dõi : 68 Hình 3.10: Thơng tin tài khoản Màn hình xem thông tin cá nhân chi tiết từ khóa ngƣời dùng đăng kí nhƣ trạng thái từ khóa đó: Qua kết thực nghiệm đạt đƣợc trình bày trên, nhận thấy hệ thống phần đáp ứng đƣợc yêu cầu toán đặt từ đầu chƣơng Qua thực nghiệm cho thấy thời gian cho lần thu thập liệu thấp chấp nhận đƣợc, số lƣợng kết tƣơng đối nhiều đáp ứng đƣợc mục đích hiển thị yêu cầu hệ thống Tuy nhiên hệ thống có nhiều điểm chƣa thực tốt Phía máy chủ chịu trách nhiệm thu thập theo dõi tin cịn thủ cơng giai đoạn phân tích mã nguồn HTML trang tìm kiếm nên tốc độ chậm trƣờng thơng tin cịn đơn giản Chƣa có chức lọc nội dung từ tin kết cho liên quan đến từ khóa nhiều mà dừng lại việc lƣu trữ hiển thị kết cơng cụ tìm kiếm Google, nên đơi cịn tin chƣa thực liên quan đáp ứng đƣợc nhu cầu cập nhật tin tức ngƣời dùng Giao diện web đáp ứng đƣợc chức đơn giản ngƣời dùng chƣa có nhiều chức chuyên sâu phục vụ việc xếp theo dõi 69 KẾT LUẬN CHUNG Kết đạt đƣợc luận văn: - Luận văn trình bày kiến trúc nguyên tắc hoạt động chung hệ thống tìm kiếm thơng tin mạng - Trên sở tìm hiểu hệ thống tìm kiếm, nhƣ cách thức tìm kiếm mạng luận văn tập trung phân tích đánh giá số thuật toán đỗi sánh mẫu để áp dụng cho hệ thống tìm kiếm - Xây dựng ứng dụng sở mã nguồn mở, ngôn ngữ lập trình Java số cơng cụ phần mềm Ứng dụng đánh giá thu thập thông tin chạy trình chủ localhost, hoạt động dựa theo nguyên lý chung hệ thống tìm kiếm google Với khả theo dõi xếp cập nhật thông tin liên quan đến lĩnh vực mà ngƣời dùng quan tâm cách nhanh ứng dụng thực đƣợc chức dị tìm tệp html, phân tích tệp mà tìm đƣợc lƣu trữ database vào MongoDB Tuy nhiên hạn chế thời gian, khả tìm hiểu, thiếu sót kinh nghiệm nên kết thu đƣợc hạn chế cần tiếp tục xây dựng cải thiện nhiều tƣơng lai tới Hƣớng phát triển: - Xây dựng hoàn thiện chức có hệ thống để cải thiện hiệu suất - Thêm chức phân tích ngơn ngữ tự nhiên để phân tích nội dung tin bài, lọc đƣợc tin liên quan đến từ khóa ngƣời dùng đăng kí Thêm khả phân loại, xếp hạng, nhận dạng chủ đề liên quan Cải thiện khả theo dõi với nhiều từ khóa từ nhiều ngƣời sử dụng - Nghiên cứu cách cải thiện hiệu truy xuất lƣu trữ sở liệu MongoDB - Thêm chức cho phép ngƣời dùng tƣơng tác nhiều với ứng dụng web 70 Trong thời gian tới, cố gắng hồn thiện hệ thống để phục vụ cách tốt nhu cầu đặt nói riêng nhu cầu ngƣời dùng nói chung 71 TÀI LIỆU THAM KHẢO [1] "Cấu trúc Struts2," [Online] Available: http://www.tutorialspoint.com/struts_2/struts_quick_guide.htm [2] "Google Check Rank," [Online] Available: http://checkpagerank.net/ [3] "Google Trends," [Online] Available: http://www.google.com/trends/ [4] "Nhánh phát triển MySQL đƣợc sử dụng Google," [Online] Available: http://code.google.com/p/google-mysql/ [5] "Nhánh phát triển MySQL đƣợc sử dụng Twitter," [Online] Available: https://github.com/twitter/mysql [6] "NoSQL - Nhữ Đình Thuận," 13 10 2010 [Online] Available: http://blog.vietspider.org/2010/10/nosql.html [7] "NoSQL Resources," [Online] Available: http://nosql-database.org/ [8] "Web Mining Book," 12 2006 [Online] Available: http://www.cs.uic.edu/~liub/WebMiningBook.html [9] B Liu, Web Datamining, Exploring Hyperlinks, Contents, and Usage Data, 2011 [10] BING, "Bing Search API," [Online] Available: http://www.bing.com/toolbox/bingsearchapi [11] Bing, "Datamarket - Bing search," [Online] Available: http://datamarket.azure.com/dataset/bing/search [12] DB-ENGINES, "Xếp hạng hệ quản trị sở liệu," [Online] Available: http://db-engines.com/en/ranking [13] http://www.dcs.bbk.ac.uk/~ptw/teaching/ssd/toc.html [14] http://www.w3.org/TR/xpath [15] https://www.mongodb.com/ [16] IBM, "Dữ liệu có cấu trúc," [Online] Available: 72 http://www.ibm.com/developerworks/vn/library/dm-0506melnyk/ [17] Kristina Chodorow - Michael Dirolf, MongoDB: The Definitive Guide, O‟reilly, 2010 [18] Ranking http://blog.vietspider.org/2009/06/lam-search-engine-thoi-web20-phan-tich.html [19] S & P L Brin, The anatomy of a large-scale hypertextual Web search engine., 1998 [20] Sean A Golliher – Publisher, SEMJ.org Search Engine Ranking Variables and Algorithms VOLUME 1, SUPPLEMENTAL ISSUE, AUGUST 2008 [21] W - DOM [Online] Available: http://www.w3schools.com/js/js_htmldom.asp [22] Y a Z H Yang, HTML Page Analysis Based on Visual Cues, In 6th International Conference on Document Analysis and Recognition, Seattle, Washington, USA, 2001 [23] Yahoo, "Yahoo BOSS Pricing," [Online] Available: https://info.yahoo.com/legal/us/yahoo/boss/pricing/ [24] Yahoo, "Yahoo BOSS," [Online] Available: https://developer.yahoo.com/boss/search/ ... HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Lê Hữu Hảo ĐÁNH GIÁ VÀ THU THẬP THÔNG TIN TỰ ĐỘNG TRÊN INTERNET SỬ DỤNG DỊCH VỤ TÌM KIẾM Chun ngành: Khoa học máy tính Mã số:... TỔNG QUAN VỀ TÌM KIẾM VÀ THEO DÕI THÔNG TIN 1.1 Tổng quan tìm kiếm thơng tin 1.1.1 Dịch vụ tìm kiếm Google 1.1.2 Dịch vụ tìm kiếm Bing .4 1.1.3 Dịch vụ tìm kiếm Yahoo ... đoan nghiên cứu "Đánh giá thu thập thông tin tự động Internet sử dụng dịch vụ tìm kiếm" mà tơi viết luận văn thật Những tơi viết không chép từ tài liệu, không sử dụng kết ngƣời khác mà khơng trích