Công thức trừu tượng trong tìm kiếm thông tin

Một phần của tài liệu XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN (Trang 31 - 32)

Gọi D là tập hợp các tài liệu và Q là tập hợp các câu truy vấn.

Hàm f: D × Q → R là hàm tính độ tương quan của một cặp (tài liệu, câu truy vấn) bởi mức độ tương quan của tài liệu đối với câu truy vấn. Đối với mỗi câu truy vấn q trong Q , f chỉ ra một thứ tự ( riêng phần) πq trên D.

Hoạt động của một hệ thống tìm kiếm thông tin bao gồm 2 pha chính. Trong suốt pha đầu tiên, D được tiền xử lí và chỉ mục I được tạo ra tương ứng. Trong pha thứ 2 , cho trước một câu truy vấn trong Q, I được dùng để xuất ra một hoán vị π

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Mục tiêu chính của một hệ thống tìm kiếm thông tin là xuất ra một hoán vị π

gần với πq bằng cách sử dụng một chỉ mục đặc và phản hồi trong một thời gian ngắn. Chẳng hạn, chúng ta không muốn đạt độ chính xác cao bằng cách sử dụng chỉ mục lớn trong đó bao gồm một hoán vị trên D cho mỗi câu truy vấn có thể có hoặc bằng cách duyệt toàn bộ chỉ mục cho mỗi câu truy vấn.

Chúng ta sử dụng khái niệm tokens để biểu diễn tài liệu. Đặt T là không gian tokens. Không gian tokens có thể bao gồm , ví dụ như là :toàn bộ từ trong tiếng Anh, một tập hợp các cụm từ hoặc một tập hợp các URLs. Chúng ta định nghĩa một tài liệu là một vec-tơ thực d trong Rk (k là số tokens trong không gian tokens). Goị i d là trọng lượng của i t trong d. Có rất nhiều cách để tính i d ,cách dễ nhất là tính số lần xuất hiện của i t trong d.

Một phần của tài liệu XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN (Trang 31 - 32)