Spider, crawler, hay bot – tìm trang web
Index – danh sách kết quả ở dạng chỉ mục Search engine utility – cung cấp kết quả tìm kiếm
37
Công cụ Máy tìm kiếm
Search Engines thường sử dụng các robots hay còn gọi là “Spiders” để phân loại trang web.
Khi 1 website mới đăng ký hay một trang bất kỳ vào một Search Engine, hệ thống “spider” ngay lập tức sẽ tiến hành xếp loại những yêu cầu cụ thể mà website đưa ra.
38
Công cụ Máy tìm kiếm
Phương thức hoạt động cụ thể như sau:
Spider, đôi lúc còn được gọi là Crawler hay
Web Crawler sẽ truy cập vào trang web để đọc và tiếp nhận thông tin nội dung của trang web và của các trang khác qua các đường link liên kết trong trang web.
Hệ thống này sẽ thường xuyên truy cập lại trang web theo một chu kỳ thời gian nhất định để cập nhật những thông tin mới.
Ngay sau khi có được tất cả các thông tin của trang web, Spider sẽ quay trở lại các Search Engine và bắt đầu phân loại những gì mà nó tìm kiếm thấy.
39
Công cụ Máy tìm kiếm
Không cần phải đăng ký trang web lên các Search Engine bởi vì xét về mặt lý thuyết, hệ thống Spider thường xuyên truy cập vào các trang web mới và chắc chắn nó sẽ tìm thấy trang web của ta và xếp loại vào trong các danh sách tìm kiếm trên Search Engines. ???
40
Công cụ Máy tìm kiếm
Nhưng trên thực tế, thì trang web này sẽ không được đưa vào danh sách tìm kiếm, và sẽ không bao giờ tồn tại trong danh
sách đó.
Trừ khi trang web này có đường link kết nối từ những trang web lớn, chủ đạo khác, hay đã đăng ký trang web lên một Search Engine khác
Một số Search Engine phổ biến sử dụng Spider là:
Alta Vista · Excite · HotBot · Infoseek · Lycos · WebCrawler
41