Các phương tiện tìm kiếm thông tin (Search Engines)

Một phần của tài liệu xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin (Trang 27 - 29)

Hình 2 minh họa cấu trúc cơ bản của các phương tiện tìm kiếm. Một phương tiện tìm kiếm là một hệ thống tìm kiếm thông tin, tuy nhiên, nó không giống hoàn toàn với hệ thống tìm kiếm thông tin cổđiển đã mô tảở trên. Sự khác biệt giữa các hệ thống tìm kiếm thông tin cổđiển và các phương tiện tìm kiếm bắt nguồn từ sự

khác biệt nguồn gốc dữ liệu, có nghĩa là một kho lưu trữ khép kín được định nghĩa tốt trái ngược với World Wide Web. Vì không có cách tiếp cận trực tiếp đến các tài liệu trên Web (như là có trong kho ngữ liệu thư viện), phương tiện tìm kiếm phải cần đến thành phần crawler ( tạm gọi là đường chạy của xích). Thành phần

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

phần mềm này chịu trách nhiệm lấy các trang web về và lưu trữ chúng trong một kho nội bộ. Cơ chế crawling (đường chạy của xích) đưa ra các thách thức công nghệ liên quan đến hiệu năng của quá trình và đến sự liên quan của tài liệu – vì các trang web là động, nên crawler phải giữ cho kho nội bộ luôn được cập nhật hằng ngày.

Việc crawling các tài liệu ngoài Web thì không đủ bởi vì dữ liệu web gồm có nhiều thông tin dư thừa. Phân tích toàn cục có trách nhiệm loại bỏ dữ liệu không quan trọng như các trang Web giống nhau và các trang bao gồm sách báo không lành mạnh. Ngoài ra, phân tích toàn cục cũng chịu trách nhiệm tính toán toàn cục

được dùng trong các hệ thống tìm kiếm thông tin như sắp xếp thứ tự trang (thứ tự

trang hầu hết được xác định bởi những trang có liên kết với nó và những trang nó liên kết tới).

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Một phần của tài liệu xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin (Trang 27 - 29)