Theo David P.Habib và Robert L.Barriot[6] có bốn loại công cụ tìm kiếm tất cả, đó là:
o Công cụ tìm kiếm thư mục (A directory search tool): tìm thông tin theo chủ đề, đó là dạng tìm phân cấp.
o Công cụ máy tìm kiếm : tìm thông tin theo từ khoá.
o Công cụ máy tìm kiếm cùng với thư mục: tìm kiếm dựa trên cả chủ đề và từ khoá .
o Công cụ máy tìm kiếm meta: sử dụng kết quả từ các máy tìm kiếm khác. Ta xem xét hai máy tìm kiếm là :Máy tìm kiếm meta và Máy tìm kiếm thông thường
Máy tìm kiếm Meta
Không giống như những máy tìm kiếm thông thường khác, máy tìm kiếm meta không có cơ sở dữ liệu riêng cũng như không có hệ thống lập chỉ mục tài liệu và robot. Chính vì vậy máy tìm kiếm meta hoạt động dựa vào cơ sở dữ liệu của những hệ thống khác. Tiếp nhận câu truy vấn của người dùng, dựa vào cơ sở dữ liệu của những hệ thống khác chọn ra những tài liệu có độ tương thích cao (cần phải chọn bao nhiêu, phải chọn thế nào tuỳ vào đặc điểm của từng hệ thống cụ thể) và trả kết quả cho người dùng.
Trong một máy tìm kiếm meta, ta nhập từ khoá cần tìm vào, nó sẽ chuyển từ đó đồng thời đến nhiều máy tìm kiếm cá nhân, trong một vài giây, ta nhận kết quả trả về từ tất cả những máy tìm kiếm được truy vấn.
Ý tưởng của việc tìm kiếm meta thì rất tốt, sẽ tiết kiệm nhiều thời gian bởi việc tìm kiếm chỉ ở một nơi và không cần đến việc sử dụng và học một số máy tìm kiếm khác nhau.
Có ba loại của máy tìm kiếm meta vào thời điểm này :
o Trước tiên, những công cụ máy tìm kiếm meta sử dụng cho việc đào sâu trong nhiều nguồn tài nguyên, với khả năng hùng mạnh giúp tìm những gì cần thiết nằm trong kết quả tìm kiếm.
o Thứ hai là máy tìm kiếm meta Good, chấp nhận những tìm kiếm phức tạp, tích hợp kết quả tốt, loại trừ trùng lấp, và những đặc tính truyền thống như sắp xếp thông minh hoặc phân nhóm dựa vào đề tài trong kết quả tìm kiếm.
o Thứ ba là máy tìm kiếm meta mà tìm một số nơi và trả kết quả không có những đặc tính trên.
Những mặt không thuận lợi của loại này:
o Hầu hết những máy tìm kiếm meta có sẵn miễn phí đều tìm trên Google. o Nếu kết quả không tìm thấy, điều mà ta có thể làm là thêm một thuật ngữ và tìm nơi nào máy tìm kiếm meta đang gởi nó.
o Không có máy tìm kiếm meta nào truy vấn đến tất cả máy tìm kiếm mà nó muốn truy vấn. Chúng tìm những gì có sẵn ở lúc ta submit truy vấn, và ta không biết chắc những gì nó truy vấn cho đến khi đọc được kết quả.
Máy tìm kiếm thông thường
Nguyên lý hoạt động được mô tả như sau:
Hình 4.1: Mô hình hoạt động của máy tìm kiếm thông thường
Hệ thống thu thập dữ liệu :
Chịu trách nhiệm tìm thông tin trên Internet từ địa chỉ URL cho trước. Thông thường hệ thống máy tìm kiếm có một server chịu trách nhiệm gửi những URL cho các robot. Robot tải tài liệu về và lưu trong kho dữ liệu, rồi lại tiếp tục nhận URL khác, tiến trình hoạt động liên tục từ khi khởi động hệ thống. Robot lấy những nội dung dạng văn bản, còn hình ảnh hay âm thanh hay những dữ liệu không thể đánh chỉ mục thì bỏ qua.
Chịu trách nhiệm phân tích tài liệu và lập chỉ mục thông tin cho tài liệu đó. Từ kho dữ liệu hệ thống lập chỉ mục tiến hành lấy từng tài liệu trong kho, lọc bỏ thông tin thừa(loại bỏ tag định dạng, ghi chú, script …), phân tích các siêu liên kết và lưu chúng vào danh sách URL, bỏ các từ stop word (từ không có nghĩa trong tài liệu), đưa tài liệu về dạng thuần văn bản, tiến hành phân tích từ sau đó tính trọng số của từ đó và lập chỉ mục cho chúng và lưu chúng vào cơ sở dữ liệu. Bên cạnh kỹ thuật trên Google áp dụng phương pháp tính độ quan trọng của tài liệu(pagerank) dựa vào số lượng liên kết chỉ đến tài liệu. Ý tưởng đó là nếu một tài liệu có nhiều liên kết (hyperlink), hoặc từ một tài liệu có độ quan trọng cao chỉ đến thì được coi như là tài liệu đó cũng có độ quan trọng cao. Dựa vào kỹ thuật mà Google tự hào rằng mình có thể tìm kiếm được file ảnh, âm thành và những tài liệu phi văn bản khác.
Hệ thống tìm kiếm(truy vấn) dữ liệu :
Tiếp nhận câu truy vấn của người dùng thông qua giao diện web, phân tích câu truy vấn và trả kết quả tìm kiếm. Hệ thống này phân tích câu truy vấn của người dùng cũng giống như phương pháp phân tích từ của hệ thống lập chỉ mục, điều này nhằm nâng cao độ tương tự và tính chính xác của hệ thống. Sau đó tiến hành tìm kiếm trên cơ sở dữ liệu đã được lập chỉ mục và trả kết quả tìm kiếm cho người dùng.