Cách tính độ bao phủ (R) và độ chính xác (P)

Một phần của tài liệu Xây dựng bộ ngữ liệu để đánh giá bằng tiếng việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin (Trang 42 - 44)

Tập dữ liệu về tài liệu

B A∩ B

A

Tập tài liệu có liên quan Tậptàiliệutrảvề

Tập tài liệu trả về có liên quan

Có liên quan Không liên quan

(Relevant) (non- relevant)

Tìm thấy (retrieved)

Không tìm thấy (not retrieved)

Độbaophủ(R): R= A∩ B B Độchínhxác(P): P = A∩ B (1) (2) A

Khảnăngloạibỏ:(Fallout -F):

F = ∩B (3)

Trang 42

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Mối liênhệgiữaR,P,F:

F = R*G (4)

R * G + F* (1-G)

G : là nhân tố tổng quát đo độ dày đặc của tài liệu liên quan trong tập dữ

liệu Gchobiếtđộliênquancủatàiliệusovới câutruyvấnlàcaohaythấp

A Với S là tập tài liệu (5)

G= S

Vấnđềđođộbaophủ:

Tính độ bao phủ là một vấn đề khó khăn trong việc đánh giá hệ thống tìm

kiếm thông tin bởi vì nó liên quan đến việc định giá thủ công tổng số tài liệu liênquan trongtậptàiliệu đốivới mỗicâu truyvấn(vấn đềtạo bảngliên quan lýthuyết),việcđịnhgiánhưvậyrấttốnkémnếutậpdữliệulớn.Đểgiảiquyết

“pooling” làtrong danh sáchtài liệu trảvề chỉ lấy ntài liệu đầu,nđược gọi là chiềudàicủa“pool”.

Việctạobảngliênquanlýthuyếtápdụngphươngpháp“pooling”đượctiến

hành như sau: tiến hành tìm kiếm trên nhiều hệ thống áp dụng phương pháp

“pooling”, có thểtài liệu liênquanđược trả về củamột hệ thốnglàcao, ta tiến hành giao các tập tài liệu liên quan trả về của các hệ thốngđó và chỉ lấy n tài liệuđầu.

Bởi vì tập kết quả trả về được sắp xếp theo thứ tự nên độ chính xác và độ

baophủcóthểtínhđượctạicácngưỡngvịtríthứtựthứitàiliệu.

Vấnđềbảng liênquanthựctế

Đối với cách tínhtrên ta phảiquan niệm vềđộ liên quancủa tài liệutrên 2

mức độ : hoặc là tài liệu có liên quan hoặc là tài liệu không liên quan. Cách

Trang 43

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

quy ước như vậy nhằmlàm đơn giản hoá cách đánh giá. Trên thực tế, độ liên

quancủatàiliệukhôngchỉlà2mứcđộmàcóthểcónhiềumứcđộ.

Một phần của tài liệu Xây dựng bộ ngữ liệu để đánh giá bằng tiếng việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin (Trang 42 - 44)

Tải bản đầy đủ (DOCX)

(210 trang)
w