Tổng quan về Search Engine (bộ máy tìm kiếm)
Chúng ta thường nghe nói đến các trang web tìm kiếm như Google, Yahoo!, MSN… và đồng nhất chúng cùng là những Search Engine (SE). Thực ra, có hai
dạng bộ máy tìm kiếm: Web
Directory và Search Engine. Dạng thứ nhất,
Web Directory, tiêu biểu là Yahoo! (www.yahoo.com) sử dụng các trình soạn thảo
để xếp đặt các website vào
những mục (category) xác
định. Do vậy nó cịn được
gọi là "human-based" search
engine. Dạng thứ hai,
Search Engine, sử dụng các phần mềm robot, gọi là “con bọ” (spider hoặc là crawler) thu thập thông tin từ các trang web trên mạng. Dạng này còn gọi "spider- based" hoặc "crawler-based" search engine.
Search Engine (SE):
Một SE có ba thành phần cơ bản:
o Các spider, dùng tìm kiếm thu nạp các trang web, sau đó xây dựng danh
sách các từ, ngữ tìm thấy trong các trang đó thành CSDL.
o Bộ phận tạo chỉ mục (index) cho CSDL trên những từ ngữ đó, gọi là các
indexer.
o Bộ phận cho phép người dùng cuối tìm kiếm bằng từ khoá (keyword)
trong CSDL. SE so khớp từ khố người dùng cung cấp để tìm trang web thoả mãn những thông tin người dùng yêu cầu. Bộ phận này gọi là query
Khi người dùng yêu cầu tìm kiếm, SE tìm từ khố người dùng cung cấp theo chỉ mục trong CSDL. Thường hệ thống chỉ mục này được cập nhật 4-6 tuần một lần.
Để tìm ra những trang web gần đúng nhất với câu truy vấn, các SE cũng gắn
trọng số cho từng từ, ngữ trong trang web. Có nhiều cách để gán trọng số. Ví dụ như từ đó càng xuất hiện nhiều lần trong trang web, trọng số của nó càng cao. Cũng có thể gán trọng số lớn cho những từ xuất hiện ở đầu trang, hoặc xuất hiện ở những vị trí đặc biệt như tiêu đề, trong phần thẻ meta 4,… Mỗi SE thường có một cơng thức tính tốn trọng số riêng. Những công thức sử dụng cho mỗi SE hầu như thay
đổi từng ngày để bảo đảm tính an tồn, bảo mật. Web Directory
Khác với SE, Web Directory sử dụng các trình soạn thảo để tạo danh sách
kết quả tìm kiếm. Khi bạn muốn đưa trang web của mình vào một Directory (thư
mục), nhà quản lý Directory sẽ dùng các trình soạn thảo và xem xét để trang web của bạn chỗ nào trong thư mục.
Mỗi trang web hiển thị trong một Directory theo nhiều cách, nhưng nói chung vẫn là chia theo từng mục. Cách tổ chức ta thường thấy là theo dạng cây. Từ
đó, các cơng cụ tìm kiếm như Yahoo! sẽ tìm trong Directory những trang web liên
quan bằng cách duyệt cây hoặc tìm theo từ khoá.
Hầu hết Web Directory thường nhỏ, do vậy kết quả tìm kiếm thường được bổ sung thêm bằng những kết quả tìm kiếm sử dụng SE. Khi khơng tìm thấy thơng tin mong muốn trong Directory, kết quả có thể được hiển thị nhờ sử dụng kết quả tìm kiếm gần đúng của SE, và ghi trong phần tiêu đề trang kết quả là “Những trang web tương tự” hoặc gần như vậy.
4 Trong HTML có khái niệm thẻ Meta, đánh dấu những từ, cụm từ có ý nghĩa quan trọng, là keyword khi tìm kiếm
Biết được cách thức hoạt động của SE, ta sẽ hiểu được cơ chế xử lý bên trong của Greenstone, qua thành phần nịng cốt của nó – Managing Gigabyte (MG), sẽ được giới thiệu chi tiết trong phần Phụ lục C.