GọiDlàtậphợpcáctàiliệuvàQlàtậphợpcáccâutruyvấn.
Hàm f: D × Q→ R là hàmtính độtương quan của mộtcặp (tàiliệu, câu truy
vấn)bởimứcđộtươngquancủatàiliệuđốivới câutruyvấn.Đốivới mỗicâutruy vấnqtrongQ,fchỉramột thứtự(riêngphần)
πq trên D.
Hoạt động của một hệ thống tìm kiếm thông tin bao gồm 2 pha chính. Trong
suốtphađầutiên, Dđượctiềnxửlívàchỉmục Iđượctạoratương ứng.Trongpha thứ2,chotrướcmột câutruy vấntrongQ,I đượcdùngđể xuấtramột hoánvị
π
trênD.
Trang 31
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Mục tiêu chính của một hệ thống tìm kiếm thôngtin là xuất ra một hoán vị
π
gần với
πq bằng cách sử dụng một chỉ mục đặc và phản hồi trong một thời gian
ngắn. Chẳng hạn, chúng ta không muốn đạt độ chính xác cao bằng cách sử dụng
chỉ mụclớn trongđó bao gồmmột hoán vị trên Dcho mỗi câutruy vấn có thểcó
hoặcbằngcáchduyệttoànbộchỉmụcchomỗicâutruyvấn.
Chúng ta sử dụng khái niệm tokens để biểu diễn tài liệu.Đặt T là không gian
tokens. Không gian tokens có thể bao gồm , ví dụ như là :toàn bộ từ trong tiếng
Anh, một tập hợp các cụm từ hoặc một tập hợp các URLs. Chúng ta định nghĩa
mộttàiliệulàmột vec-tơthựcdtrong Rk (klàsốtokenstrong khônggiantokens).
Goị d làtrọnglượngcủa t trongd.Córấtnhiềucáchđểtính d ,cách dễnhấtlà
i i i
tínhsốlầnxuấthiệncủa t trongd.
i