Xây dựng bảng đánh giá liên quan chuẩ n

Bảng đánh giá liên quan chuẩn là bảng chứa các chủđề và các tài liệu liên quan thật sự của các chủ đề đó. Dựa trên bảng đánh giá liên quan chuẩn này, người đánh giá xác định các tài liệu nào là thật sự liên quan đến chủđề nào sau khi chạy các hệ thống tìm kiếm. TREC hầu như sử dụng bảng đánh giá liên quan theo độ liên quan nhị phân (hoặc tài liệu liên quan đến chủ đề hoặc không). Để biết là tài liệu đó có liên quan thật sự hay không thì người đánh giá sẽ xem trong phần tường thuật của chủ đề. Phần này ghi rất chi tiết về những tài liệu như thế nào là liên quan. Sau đó, người đánh giá sẽ đánh dấu tài liệu nào là liên quan và tài liệu nào không liên quan.

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Ví dụ : Chủ đề về “kinh tế tri thức”, nó có tường thuật là : “Các tài liệu

được gọi là liên quan là những tài liệu nói về nền kinh tế tri thức, thế nào là nền kinh tế tri thức, ảnh hưởng của nền kinh tế tri thức của các nước trên thế

giới”.

Nhưng cách đánh giá bằng thủ công của người không thể thực hiện được với số lượng tài liệu quá lớn, đặc biệt là tài liệu của TREC. Vì vậy, TREC áp dụng phương pháp Pooling để làm bảng đánh giá liên quan chuẩn. Phương pháp này chúng tôi đã trình bày ở trên. Tại NIST, khi những người tham gia

đăng ký hệ thống tìm kiếm của họ tại NIST, họ phải thực hiện tìm kiếm với các chủđề của NIST bằng hệ thống tìm kiếm của họ. Sau đó, kết quảđược sắp xếp theo thứ tự các tài liệu trong bộ ngữ liệu kiểm tra đối với từng chủđề. NIST sẽ

chọn một số các kết quả và trộn lại với nhau, nếu chọn càng nhiều hệ thống thì bảng đánh giá liên quan chuẩn càng chính xác. Sau mỗi lần chạy, X tài liệu

đúng nhất (thường X =100) được thêm vào trong Pool hay còn gọi là danh sách các tài liệu chính xác của từng chủđề. Nhiều tài lịêu được tìm thấy trong trong X có trong nhiều hơn một lần chạy để tìm kiếm, vì vậy Pool thường nhỏ hơn con số lý thuyết X*số_lượng _các_bảng_kết_quả_được_chọn.

Bộ ngữ liệu dùng để đánh giá theo phương pháp Pooling mặc dù không công bằng lắm trong trường hợp đánh giá các hệ thống chưa tham gia vào tìm kiếm

để lấy bảng đánh giá liên quan chuẩn nhưng phương pháp này cho ra kết quả

có thể tin cậy được. Và sự khác biệt khi tính độ bao phủ, độ chính xác không chênh lệch nhiều so với đánh giá bằng thủ công.

Xây dựng bảng đánh giá liên quan chuẩ n

Đánh giá sự liên quan

Các vấn đề về độ liên quan