Giải thuật Best-First được trình bày bởi Cho et al và Hersovice et al (1998). Ý tưởng cơ bản là căn cứ vào một vài tiêu chí được ước lượng trước để lựa chọn ranhững liên kết được nhận định là tốt nhất trong quá trình phân tích để đưa vào Frontier. Việc lựa chọn những liên kết được quyết định bởi những phép tính so sánh sự tương đương về mặt ngữ nghĩa của nội dung bên trong trang của liên kết và những từ khóa trong chủ đề của máy tìm kiếm. Cũng như thế, sự tương đương giữa trang P và các từ khóa trong chủ đề được sử dụng để ước tính mức độ phù hợp của những trang được liên kết đến bởi P. URL với sự ước tính tốt nhất sẽ được đưa vào Frontier đầu tiên. Hình 2.7 sẽ giúp hiểu rõ hơn về quy trình hoạt động của Best-First Crawler:
34
Hình 2.8: Thuật toán tìm kiếm tối ưu (Best-First)
Hàm sim () trả về cosine độ tương đồng gữa topic và page:
𝑠𝑖𝑚(𝑞, 𝑝) = ∑𝑘∈𝑞∩𝑝𝑓𝑘𝑞𝑓𝑘𝑝 √(∑ 𝑓𝑘𝑝2
𝑘∈𝑝 )(∑ 𝑓𝑘𝑞2
𝑘∈𝑞 ) (2.1)
35
CHƯƠNG 3. CÁC KỸ THUẬT LƯU TRỮ
Chương này nhằm cung cấp các kỹ thuật trong việc lưu trữ cho hệ thống tìm kiếm thông tin. Trình bày một số kỹ thuật tách từ cho tiếng Việt. Đồng thời, với các mô hình tìm kiếm thông tin đã trình bày ở chương 1, trong chương này sẽ tập trung vào phân tích kỹ phương pháp lập chỉ mục cho tài liệu tiếng Việt theo mô hình chỉ mục ngữ nghĩa ngầm LSỊ