Tập dữ liệu về tài liệu
B A∩ B
A
Tập tài liệu có liên quan Tậptàiliệutrảvề
Tập tài liệu trả về có liên quan
Có liên quan Không liên quan
(Relevant) (non- relevant)
Tìm thấy (retrieved)
Không tìm thấy (not retrieved)
Độbaophủ(R): R= A∩ B B Độchínhxác(P): P = A∩ B (1) (2) A
Khảnăngloạibỏ:(Fallout -F):
F = ∩B (3)
Trang 42
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Mối liênhệgiữaR,P,F:
F = R*G (4)
R * G + F* (1-G)
G : là nhân tố tổng quát đo độ dày đặc của tài liệu liên quan trong tập dữ
liệu Gchobiếtđộliênquancủatàiliệusovới câutruyvấnlàcaohaythấp
A Với S là tập tài liệu (5)
G= S
Vấnđềđođộbaophủ:
Tính độ bao phủ là một vấn đề khó khăn trong việc đánh giá hệ thống tìm
kiếm thông tin bởi vì nó liên quan đến việc định giá thủ công tổng số tài liệu liênquan trongtậptàiliệu đốivới mỗicâu truyvấn(vấn đềtạo bảngliên quan lýthuyết),việcđịnhgiánhưvậyrấttốnkémnếutậpdữliệulớn.Đểgiảiquyết
“pooling” làtrong danh sáchtài liệu trảvề chỉ lấy ntài liệu đầu,nđược gọi là chiềudàicủa“pool”.
Việctạobảngliênquanlýthuyếtápdụngphươngpháp“pooling”đượctiến
hành như sau: tiến hành tìm kiếm trên nhiều hệ thống áp dụng phương pháp
“pooling”, có thểtài liệu liênquanđược trả về củamột hệ thốnglàcao, ta tiến hành giao các tập tài liệu liên quan trả về của các hệ thốngđó và chỉ lấy n tài liệuđầu.
Bởi vì tập kết quả trả về được sắp xếp theo thứ tự nên độ chính xác và độ
baophủcóthểtínhđượctạicácngưỡngvịtríthứtựthứitàiliệu.
Vấnđềbảng liênquanthựctế
Đối với cách tínhtrên ta phảiquan niệm vềđộ liên quancủa tài liệutrên 2
mức độ : hoặc là tài liệu có liên quan hoặc là tài liệu không liên quan. Cách
Trang 43
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
quy ước như vậy nhằmlàm đơn giản hoá cách đánh giá. Trên thực tế, độ liên
quancủatàiliệukhôngchỉlà2mứcđộmàcóthểcónhiềumứcđộ.