Theo một ý nghĩa chung, một trình thu thập có thể dựa vào các đánh giá của mình để lấy các trang ‘tốt’. Tuy nhiên, một trở ngại chính là vấn đề trong việc công nhận những trang ‘tốt’ này. Trên thực tế người dùng có thể đưa ra đánh giá sự thích hợp của các trang được thu thập cho phép chúng ta xác định được việc thu thập dữ liệu có thành công hay không. Thật không may, những cuộc thử nghiệm liên quan đến người dùng thực tế để đánh giá các trang web thu thập thường cực kỳ khó thực hiện. Ví dụ quy mô cực lớn của web cho thấy rằng để có được một khái niệm hợp lý của một trình thu thập thông tin hiệu quả cần phải tiến hành một lượng lớn thu thập, nghĩa là liên quan đến một số lượng lớn người sử dụng.
Thứ hai là, thu thập những trang web ‘sống’ sẽ tốn nhiều thời gian. Do đó việc thu thập các trang web có thời gian sống ngắn sẽ lãng phí thời gian cho người dùng. Chúng ta có thể lựa chọn để tránh thời gian tải bằng cách chỉ trả về cho người dùng kết quả tiêu đề và phần mô tả của tất cả các thu thập nhưng điều này lại giới hạn mức độ
thu thập thông tin.
Biện pháp để giải quyết vấn đề này là xây dựng các tiêu chí đánh giá cho các trình thu thập. Đầu tiên là phải có những tiêu chí đánh giá được độ quan trọng của một trang web. Khi đã xác định được những trang web quan trọng và có giá trị, trình thu thập sẽ viếng thăm thường xuyên hơn và sâu hơn. Thứ hai là phải có cơ chế phân tích tổng quát để đánh giá các mức độ chính xác và hoàn chỉnh của các trang đã thu thập với truy vấn của người dùng . Nhiều khi các trang mà trình thu thập cho là quan trọng và có giá trị lại chưa chắc mang thông tin mà người dùng cần tìm kiếm. Nguyên do của điều này là việc các trang web chuyên về tiếp thị hay quảng cáo luôn luôn tìm cách
20
lọt vào danh sách các trang tuyển chọn của trình thu thập, và qua đó họ có thể giới thiệu sản phẩm của họ đến người dùng. Ngược lại, trong đa số các trường hợp, người dùng không muốn tìm các quảng cáo tiếp thị mà chỉ muốn tìm thông tin mà họ quan tâm.