Trong hoạt động của một search engine thì công đoạn phải thực hiện đầu tiên khi khởi động hệ thống là thu thập tài liệu, đó là quá trình tập hợp tài liệu từ các nguồn khác nhau trên mạng. Việc thu thập tài liệu thường được cài đặt bằng các Web Robot hoặc các agent.
Web Robot là những chương trình có khả năng tựđộng dò tìm để đi đến các địa chỉ khác nhau trên mạng, tải các trang web về theo giao thức HTTP.
Hình 5.6-1: Lưu đồ xử lý qui trình thu thập thông tin
¾ Thuật toán duy trì thông tin cho máy tìm kiếm
Đối với các trang Web trên mạng Internet ngày nay, việc cập nhật và thay đổi dữ liệu rất thường xảy ra. Các thông tin trên mạng Internet luôn là những thông tin được cập nhật mới nhất. Có một số trang Web việc cập nhật xảy ra hàng ngày, thậm chí hàng giờ. Song song đó, cũng có một số trang web không còn tồn tại nữa, hoặc được chuyển đi nơi khác. Để đáp ứng nhu cầu có được những thông tin mới nhất cho người sử dụng và những gì tìm kiếm được qua search engine là tồn tại và có thể tham khảo tới được, cần phải liên tục duy trì và bảo quản các trang web đã tìm kiếm được.
Thuật toán:
- Duyệt qua nội dung các trang web.
- Đối với mỗi trang web:
Kiểm tra xem tình trang của trang web trên mạng Internet bằng cách đưa ra một yêu cầu kết nối đến trang web.
o Nếu kết nối đến trang web thành công thì trang Web vẫn còn tồn tại. Qua bước kế tiếp
o Nếu kết nối đến trang web không được , tức là trang web không còn tồn tại , thì thực hiện việc xóa trang web khỏi cơ sở dữ liệu.
Lấy các thông tin tiêu đề của trang web: Last Modified và Content-Length. Nếu một trong hai thông tin này khác với các thông tin được lưu trong cơ sở dữ liệu tức là nội dung trang web đã bị thay đổi. Thực hiện việc download lại trang web này về.
- Lặp lại công việc sau một khoảng thời gian qui định.
5.6.2. Phần thu thập dữ liệu
Các tài liệu thu thập về sẽđược hệ thống lập chỉ mục lọc các thông tin thừa, chuyển thành những tài liệu dưới dạng thuần văn bản. Trang web qua bước tiền xử lý để lọc bỏ các tag, các thông tin không liên quan tới nội dung tài liệu như chú thích, meta data, xử lý các kí tựđặc biệt ( các kí tựđược thay thế bằng chuỗi bắt đầu bằng dấu kí tự “&” và kết thúc bằng kí tự “;”) để chuyển về dạng thông thường.
Ví dụ: chuỗi “>" tương ứng với kí tự “>” chuỗi "&” ứng với kí tự “&”
Sau đó thực hiện công đoạn tách từ. Việc lập chỉ mục sẽ trích ra các mục từ quan trọng của tài liệu và ghi các mục từ này vào cơ sở dữ liệu của hệ thống với tần suất xuất hiện tương ứng của nó.
Hình 5.6-3: Lưu đồ xử lý qui trình lập chỉ mục
Khi hệ thống tìm kiếm đã khởi động thì mo-đun phân tích, xử lý dữ liệu sẽ hoạt động liên tục, thực hiện phân tích nội dung các trang web, bỏ các dữ liệu thừa và xử lý nội dung văn bản của tài liệu. Hoạt động này là một phần tách biệt trong hệ thống, không ảnh hưởng đến tốc độ và thời gian xử lý hay tìm kiếm thông tin
chung của toàn hệ thống. Mục đích chính là làm tăng khối lượng các trang web mà hệ thống đã xử lý, lưu trữ vào cơ sở dữ liệu để tìm kiếm sau này.