Web Spider

Trong phần trước chúng ta đã biết phương pháp Gadget sử dụng để lấy thông tin từ một web là dùng AJAX kết nối đến máy chủ của trang web này lấy về các file XML hoặc RSS chứa thông tin mong muốn, sau đó sử dụng DOM, Xpath để phân tích. Vì vậy mà Gadget mới chỉ có thể lấy được thông tin từ các trang web cung cấp các file XML hay RSS và địa chỉ hyperlink trỏ đến các file này chúng ta phải biết trước. Trong phần này khóa luận sẽ trình bày các kiến thức về Web Spider để xây dựng tính năng tìm kiếm thông tin từ một trang web bất kỳ do người dùng nhập vào cho Gadget.

Một Web Spider là một chương trình máy tính có thể “duyệt web” một cách tự động và theo một phương thức nào đó được xác định trước. Các Web Spider thường bắt đầu với một danh sách URL của các trang web để ghé thăm đầu tiên. Khi ghé

thăm một URL, Web Spider sẽ đọc nội dung trang web lọc ra thông tin cần thiết, sau đó lại tìm tất cả các hyperlink có trong trang web đó và đưa các URL được trỏ tới bới các hyperlink đó vào danh sách URL. Dựa vào danh sách URL này, Web Spider lại tiếp tục quá trình duyệt đệ quy để ghé thăm tất cả các URL chưa được duyệt đến. Quá trình này được gọi là Web Spider hoặc là Web Crawler, các Web Spider còn được gọi là các robot (bot). Thường thì các Web Spider được tạo ra để phục vụ cho một mục đích, tác vụ nào đó. Ví dụ các máy tìm kiếm (Search Engine) sử dụng Web Spider để tải các trang web, các trang web này sau đó được Search Engine đánh chỉ mục để có thể cho kết quả nhanh hơn khi được tìm kiếm.

Trích xuất thông tin sử dụng Web Spider

Cấu trúc của chương trình