Công thức trừu tượng trong tìm kiếm thông tin

Một phần của tài liệu Xây dựng bộ ngữ liệu để đánh giá bằng tiếng việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin (Trang 31 - 32)

GọiDlàtậphợpcáctàiliệuvàQlàtậphợpcáccâutruyvấn.

Hàm f: D × Q→ R là hàmtính độtương quan của mộtcặp (tàiliệu, câu truy

vấn)bởimứcđộtươngquancủatàiliệuđốivới câutruyvấn.Đốivới mỗicâutruy vấnqtrongQ,fchỉramột thứtự(riêngphần)

πq trên D.

Hoạt động của một hệ thống tìm kiếm thông tin bao gồm 2 pha chính. Trong

suốtphađầutiên, Dđượctiềnxửlívàchỉmục Iđượctạoratương ứng.Trongpha thứ2,chotrướcmột câutruy vấntrongQ,I đượcdùngđể xuấtramột hoánvị

π

trênD.

Trang 31

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Mục tiêu chính của một hệ thống tìm kiếm thôngtin là xuất ra một hoán vị

π

gần với

πq bằng cách sử dụng một chỉ mục đặc và phản hồi trong một thời gian

ngắn. Chẳng hạn, chúng ta không muốn đạt độ chính xác cao bằng cách sử dụng

chỉ mụclớn trongđó bao gồmmột hoán vị trên Dcho mỗi câutruy vấn có thểcó

hoặcbằngcáchduyệttoànbộchỉmụcchomỗicâutruyvấn.

Chúng ta sử dụng khái niệm tokens để biểu diễn tài liệu.Đặt T là không gian

tokens. Không gian tokens có thể bao gồm , ví dụ như là :toàn bộ từ trong tiếng

Anh, một tập hợp các cụm từ hoặc một tập hợp các URLs. Chúng ta định nghĩa

mộttàiliệulàmột vec-tơthựcdtrong Rk (klàsốtokenstrong khônggiantokens).

Goị d làtrọnglượngcủa t trongd.Córấtnhiềucáchđểtính d ,cách dễnhấtlà

i i i

tínhsốlầnxuấthiệncủa t trongd.

i

Một phần của tài liệu Xây dựng bộ ngữ liệu để đánh giá bằng tiếng việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin (Trang 31 - 32)

Tải bản đầy đủ (DOCX)

(210 trang)
w