Giải quyết các vấn đề của webrobot

3.1 Tránh sự lặp lại

Trong qúa trình hoạt động của robot ứng dụng dùng 3 danh sách :

¾ Hàng đợi URL : chứa các URL chưa xử lý theo nguyên tắc FIFO.

¾ Danh sách các URL kết nốI được với server.

¾ Danh sách các URL không kết nối được với server.

Nhờ lưu lại dấu vết của mỗi spider nên ứng dụng sẽ không xử lý một liên kết nhiều lần nhưng chưa khắc phục được các liên kết tồn tại dưới nhiều tên khác nhau (DSN, IP, …)

3.2 Tránh làm qúa tải server

Các spider hoạt động đồng hành nhưng bắt đầu từ những địa chỉ khác nhau. Kết hợp sự đồng bộ spider và duy trì thời gian đợi giữa 2 lần truy xuất liên tiếp đến một server nên server tránh bị áp lực quá mức. Tuy nhiên biện pháp này không thể khắc phục triệt để vấn đề do các URL cùng site thường được đặt cạnh nhau trong hàng đợi. Áp dụng chiến lươc duyệt ngẫu nhiên sẽ cho kết quả tốt hơn.

3.3 Tránh truy xuất đến các dạng tài nguyên không thích hợp

Ứng dụng chỉ lập chỉ mục trên những file có thể đánh được chỉ mục, cụ thể là dạng file text, sẽ download tài liệu nếu cần. Trong quá trình download chỉ lấy về các file thoả yêu cầu do đó tránh lãng phí tài nguyên cho những tài liệu không dùng đến.

3.4 Tránh các lỗ đen(black holes)

Ứng dụng chỉ theo dấu các URL còn trong giớI hạn độ sâu cho phép nên luôn

đảm bảo có điểm dừng.

3.5 Tránh những nơi cấm robot

Nhưđã trình bày trong những phần trước, các chuẩn loạI trừ robot không hiệu quả do bị lạm dụng hoặc do thiếu tính chặt chẽ nên hầu hết các site trên thế giới đều không hỗ trợ chuẩn này vì vậy vấn đề xem nhưđược thông qua.

Giá trị độ phân biệt của mục từ:

Lập chỉ mục tự động cho tài liệu