Do các thước đo độ hoàn chỉnh là rất khó tính toán cho nên tôi đã sử dụng một số cách gián tiếp để ước lượng độ hoàn chỉnh. Một số cách có thể kể đến như :
+ Thu hồi mục tiêu : Một tập hợp các URL liên quan được chia thành 2 bộ là hạt giống và mục tiêu. Trình thu thập bắt đầu từ các trang hạt giống và thu hồi các trang mục tiêu. Việc thu hồi mục tiêu được tính như sau:
23
Trong đó Pt là tập các trang mục tiêu , Pc là tập các trang được thu thập. Lưu ý rằng giả định ban đầu là các mục tiêu là tập hợp ngẫu nhiên của các trang liên quan.
Hình 5: Hình mình họa thu hồi mục tiêu
+ Độ mạnh mẽ: Các URL hạt giống được chia thành hai bộ tách rời là Sa và Sb.
Mỗi bộ thường khởi tạo một trường hợp của cùng một trình thu thập. Sự chồng chéo trong các trang thu thập bắt nguồn từ hai bộ này là không tránh khỏi. Một lượng lớn sự chồng chéo được giải quyết bởi độ mạnh mẽ của trình thu thập.
Độ mạnh mẽ là một số liệu dùng để đo hiệu suất của trình thu thập trong một cách mà kết hợp cả độ chính xác và độ hoàn chỉnh. Ví dụ, cách tìm kiếm độ dài của một số các trang được thu thập trước khi một tỷ lệ nhất định của các trang liên quan được lấy.
Hình 6 là một ví dụ về biểu đồ hiệu suất cho hai trình thu thập khác nhau. Hiệu suất của trình thu thập được mô tả như là một quỹ đạo theo thời gian (được xấp xỉ bằng số lượng các trang đã thu thập ). Trình thu thập tối ưu ngây thơ được so sánh với trình thu thập theo chiều rộng dựa trên đánh giá trên 159 chủ đề với 10000 trang đã thu thập bởi mỗi trình thu thập trên mỗi chủ đề (vì thế việc đánh giá liên quan đến hàng triệu trang)
24
Hình 6: So sánh giữa thuật toán breadth-first và naive best-first: (a) Theo độ chính xác trung bình (b) Theo độ thu hồi mục tiêu trung bình
25
Chương 2. XÂY DỰNG WEBSITE TỔNG HỢP THÔNG TIN
Trong chương này chúng ta sẽ từng bước hiện thực hóa việc xây dựng website tổng hợp thông tin. Phần đầu chương sẽ tìm hiểu về các kiến thức nền tảng và các công nghệ liên quan, ở phần tiếp theo là các đánh giá phân tích và các giải pháp nhằm nâng cao hiệu suất của trình thu thập, phần cuối chương là việc hiện thực hóa ứng dụng thông qua việc xây dựng hệ thống cơ sở dữ liệu và thiết kế giao diện website.