1.2.1 Các bộ phận cấu thành hệ thống search engine
1.2.1.1. Robot – Bộ thu thập thông tin
Robot là một chương trình tự động duyệt qua các cấu trúc siêu liên kết, sử dụng các chiến thuật: tìm kiếm theo chiều sâu, tìm kiếm theo chiều rộng và tìm kiếm ngẫu nhiên để thu thập tài liệu.[14]
Robot được biết đến dưới nhiều tên gọi khác nhau : spider, web wanderer hoặc web worm,… Những tên gọi này đôi khi gây nhầm lẫn, như từ ‘spider’, ‘wanderer’ làm người ta nghĩ rằng robot tự nó di chuyển và từ ‘worm’ làm người ta liên tưởng đến virus. " Về bản chất robot chỉ là một chương trình duyệt và thu
thập thơng tin từ các site theo đúng giao thức web ". Những trình duyệt thơng thường khơng được xem là robot do thiếu tính chủ động, chúng chỉ duyệt web khi có sự tác động của con người.
Robot thường được sử dụng cho những mục đích sau:
• Phân tích thống kê: đếm số lượng web server, số tài liệu trung bình của một
server, tỉ lệ các dạng file khác nhau, kích thước trung bình của một trang web,…
• Duy trì siêu liên kết: phát hiện các liên kết hỏng và duy trì các cấu trúc siêu
liên kết cùng nội dung của một trang web.
• Ánh xạ địa chỉ web: một ánh xạ (mirror) sẽ sao chép toàn bộ cấu trúc cây thư
mục và thường xuyên cập nhật những file bị thay đổi.
• Phát hiện tài nguyên: giúp thu thập tài liệu, tạo và duy trì cơ sở dữ liệu, phát
hiện và xóa bỏ các liên kết hỏng nếu có, kết hợp với cơng cụ tìm kiếm cung cấp thơng tin cần thiết cho con người.
• Kết hợp các chức năng trên trong quá trình hoạt động.
1.2.1.2. Index – Bộ lập chỉ mục
Hệ thống lập chỉ mục hay cịn gọi là hệ thống phân tích và xử lý dữ liệu, thực hiện việc phân tích, trích chọn những thơng tin cần thiết (thường là các từ đơn, từ ghép, cụm từ quan trọng) từ những dữ liệu mà robot thu thập được và tổ chức thành cơ sở dữ liệu riêng để có thể tìm kiếm trên đó một cách nhanh chóng,
hiệu quả. Hệ thống chỉ mục là danh sách các từ khoá, chỉ rõ các từ khoá nào xuất hiện ở trang nào, địa chỉ nào. [14]
Mơ hình xử lý tổng qt của một hệ thống lập chỉ mục [1, tr. 19] như hình sau:
Hình 1.2. Mơ hình xử lý tổng qt của một hệ thống lập chỉ mục
1.2.2 Search engine – Bộ tìm kiếm thơng tin
1.2.2.1. Search engine – Bộ tìm kiếm thơng tin
Search engine là cụm từ dùng chỉ toàn bộ hệ thống bao gồm bộ thu thập thơng tin, bộ lập chỉ mục & bộ tìm kiếm thơng tin. Các bộ này hoạt động liên tục từ lúc khởi động hệ thống, chúng phụ thuộc lẫn nhau về mặt dữ liệu nhưng độc lập với nhau về mặt hoạt động. [4]
Search engine tương tác với user thơng qua giao diện web, có nhiệm vụ tiếp nhận & trả về những tài liệu thoả u cầu của user. Nói nơm na, tìm kiếm từ là tìm kiếm các trang mà những từ trong câu truy vấn (query) xuất hiện nhiều nhất, ngoại trừ stopword (các từ quá thông dụng như mạo từ a, an, the,…). Một từ càng
xuất hiện nhiều trong một trang thì trang đó càng được chọn để trả về cho người dùng. Và một trang chứa tất cả các từ trong câu truy vấn thì tốt hơn là một trang khơng chứa một hoặc một số từ.
Ngồi chiến lược tìm chính xác theo từ khố, các search engine cịn cố gắng “hiểu” ý nghĩa thực sự của câu hỏi thông qua những câu chữ do người dùng cung cấp. Điều này được thể hiện qua chức năng sửa lỗi chính tả, tìm cả những hình thức biến đổi khác nhau của một từ. Ví dụ: search engine sẽ tìm những từ như speaker, speaking, spoke khi người dùng nhập vào từ speak.