Trong hoạt động của một search engine thì công đoạn phải thực hiện đầu tiên khi khởi động hệ thống là thu thập tài liệu, đó là quá trình tập hợp tài liệu từ các nguồn khác nhau trên mạng. Việc thu thập tài liệu thường được cài đặt bằng các Web Robot hoặc các agent.
Web Robot là những chương trình có khả năng tự động dò tìm để đi đến các địa chỉ khác nhau trên mạng, tải các trang web về theo giao thức HTTP.
Hình 5.4: Lưu đồ xử lý quy trình thu thập thông tin
Thuật toán duy trì thông tin cho máy tìm kiếm
Đối với các trang Web trên mạng Internet ngày nay, việc cập nhật và thay đổi dữ liệu rất thường xảy ra. Các thông tin trên mạng Internet luôn là những thông tin được cập nhật mới nhất. Có một số trang Web việc cập nhật xảy ra hàng ngày, thậm chí hàng giờ. Song song đó, cũng có một số trang web không còn tồn tại nữa, hoặc được chuyển đi nơi khác. Để đáp ứng nhu cầu có được những thông tin mới nhất cho người sử dụng và những gì tìm kiếm được qua search engine là tồn tại và có thể tham khảo tới được, cần phải liên tục duy trì và bảo quản các trang web đã tìm kiếm được.
Hình 5.5: Lưu dồ xử lý quy trình duy trì thông tin cho máy tìm kiếm
Thuật toán:
Duyệt qua nội dung các trang web. Đối với mỗi trang web:
Kiểm tra xem tình trang của trang web trên mạng Internet bằng cách đưa ra một yêu cầu kết nối đến trang web
o Nếu kết nối đến trang web thành công thì trang Web vẫn còn tồn tại. Qua bước kế tiếp
o Nếu kết nối đến trang web không được , tức là trang web không còn tồn tại , thì thực hiện việc xóa trang web khỏi cơ sở dữ liệu. Lấy các thông tin tiêu đề của trang web: Last Modified và Content- Length. Nếu một trong hai thông tin này khác với các thông tin được lưu trong cơ sở dữ liệu tức là nội dung trang web đã bị thay đổi. Thực hiện việc download lại trang web này về
Lặp lại công việc sau một khoảng thời gian qui định.