Hình minh họa về độ hoàn chỉnh và độ chính xác

Một phần của tài liệu Luận văn:Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin doc (Trang 28 - 30)

Độ chính xác (precision, [6]) và độ hồn chỉnh (recall, [6]) trong thu thập thông

tin phụ thuộc vào kết quả của một truy vấn (hình oval) đối với các tài liệu liên quan (nửa bên trái) và các tài liệu khơng liên quan (nửa bên phải).

Độ chính xác được định nghĩa là tỉ lệ giữa số lượng các tài liệu liên quan trong

các tài liệu thu được (phần bên trái trong hình oval) trên tổng số tài liệu thu được (hình oval). Độ chính xác ứng với mũi tên ngang.

22

Độ hoàn chỉnh được định nghĩa là tỉ lệ giữa số lượng các tài liệu liên quan trong

các tài liệu thu được (phần bên trái trong hình oval) trên tổng số tài liệu liên quan hiện tại (phần bên trái). Độ hoàn chỉnh ứng với mũi tên chéo.

Càng nhiều kết quả đúng (phần phần bên trái trong hình oval càng lớn) thì kết

quả càng chính xác và càng hồn chỉnh.

1.4.2.1. Thước đo độ chính xác

Chúng ta sẽ thảo luận một số thước đo độ chính xác [1] :

+ Tỉ lệ thu được : Trong trường hợp chúng ta có điểm số liên quan chúng ta có thể đo được tỉ lệ rõ ràng của những trang tốt tìm thấy. Do đó, nếu có 50 trang liên quan

được tìm thấy trong 500 trang được thu thập đầu tiên, chúng ta sẽ có tỉ lệ thu được hay

tỉ lệ thu hoạch là 10% của 500 trang.

+ Độ liên quan trung bình: Nếu như điểm số liên quan là liên tục thì chúng có thể

được tính trung bình trên các trang đã thu thập. Đây là một dạng tổng quát hơn tỉ lệ thu

hoạch. Điểm số có thể được cung cấp thơng qua độ tương đồng cosin đơn giản hoặc bộ phân loại huấn luyện. Như vậy độ trung bình có thể được tính qua sự tiến bộ của thu thập dữ liệu (100 trang đầu, 200 trang đầu ...). Đơi khi độ trung bình được tính trên một cửa sổ của một vài trang web (ví dụ 50 trang mới nhất từ một điểm thu thập thơng tin)

1.4.2.2. Thước đo độ hồn chỉnh

Do các thước đo độ hồn chỉnh là rất khó tính tốn cho nên tôi đã sử dụng một số cách gián tiếp để ước lượng độ hoàn chỉnh. Một số cách có thể kể đến như :

+ Thu hồi mục tiêu : Một tập hợp các URL liên quan được chia thành 2 bộ là hạt giống và mục tiêu. Trình thu thập bắt đầu từ các trang hạt giống và thu hồi các trang mục tiêu. Việc thu hồi mục tiêu được tính như sau:

23

Trong đó Pt là tập các trang mục tiêu , Pc là tập các trang được thu thập. Lưu ý rằng giả định ban đầu là các mục tiêu là tập hợp ngẫu nhiên của các trang liên quan.

Một phần của tài liệu Luận văn:Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin doc (Trang 28 - 30)

Tải bản đầy đủ (PDF)

(60 trang)