Độ chính xác (precision, [6]) và độ hồn chỉnh (recall, [6]) trong thu thập thông
tin phụ thuộc vào kết quả của một truy vấn (hình oval) đối với các tài liệu liên quan (nửa bên trái) và các tài liệu khơng liên quan (nửa bên phải).
Độ chính xác được định nghĩa là tỉ lệ giữa số lượng các tài liệu liên quan trong
các tài liệu thu được (phần bên trái trong hình oval) trên tổng số tài liệu thu được (hình oval). Độ chính xác ứng với mũi tên ngang.
22
Độ hoàn chỉnh được định nghĩa là tỉ lệ giữa số lượng các tài liệu liên quan trong
các tài liệu thu được (phần bên trái trong hình oval) trên tổng số tài liệu liên quan hiện tại (phần bên trái). Độ hoàn chỉnh ứng với mũi tên chéo.
Càng nhiều kết quả đúng (phần phần bên trái trong hình oval càng lớn) thì kết
quả càng chính xác và càng hồn chỉnh.
1.4.2.1. Thước đo độ chính xác
Chúng ta sẽ thảo luận một số thước đo độ chính xác [1] :
+ Tỉ lệ thu được : Trong trường hợp chúng ta có điểm số liên quan chúng ta có thể đo được tỉ lệ rõ ràng của những trang tốt tìm thấy. Do đó, nếu có 50 trang liên quan
được tìm thấy trong 500 trang được thu thập đầu tiên, chúng ta sẽ có tỉ lệ thu được hay
tỉ lệ thu hoạch là 10% của 500 trang.
+ Độ liên quan trung bình: Nếu như điểm số liên quan là liên tục thì chúng có thể
được tính trung bình trên các trang đã thu thập. Đây là một dạng tổng quát hơn tỉ lệ thu
hoạch. Điểm số có thể được cung cấp thơng qua độ tương đồng cosin đơn giản hoặc bộ phân loại huấn luyện. Như vậy độ trung bình có thể được tính qua sự tiến bộ của thu thập dữ liệu (100 trang đầu, 200 trang đầu ...). Đơi khi độ trung bình được tính trên một cửa sổ của một vài trang web (ví dụ 50 trang mới nhất từ một điểm thu thập thơng tin)
1.4.2.2. Thước đo độ hồn chỉnh
Do các thước đo độ hồn chỉnh là rất khó tính tốn cho nên tôi đã sử dụng một số cách gián tiếp để ước lượng độ hoàn chỉnh. Một số cách có thể kể đến như :
+ Thu hồi mục tiêu : Một tập hợp các URL liên quan được chia thành 2 bộ là hạt giống và mục tiêu. Trình thu thập bắt đầu từ các trang hạt giống và thu hồi các trang mục tiêu. Việc thu hồi mục tiêu được tính như sau:
23
Trong đó Pt là tập các trang mục tiêu , Pc là tập các trang được thu thập. Lưu ý rằng giả định ban đầu là các mục tiêu là tập hợp ngẫu nhiên của các trang liên quan.