Giải quyết các vấn đề của webrobot

Một phần của tài liệu Tài liệu Luận văn Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt ppt (Trang 88 - 89)

3.1 Tránh s lp li

Trong qúa trình hoạt động của robot ứng dụng dùng 3 danh sách :

¾ Hàng đợi URL : chứa các URL chưa xử lý theo nguyên tắc FIFO.

¾ Danh sách các URL kết nốI được với server.

¾ Danh sách các URL không kết nối được với server.

Nhờ lưu lại dấu vết của mỗi spider nên ứng dụng sẽ không xử lý một liên kết nhiều lần nhưng chưa khắc phục được các liên kết tồn tại dưới nhiều tên khác nhau (DSN, IP, …)

3.2 Tránh làm qúa ti server

Các spider hoạt động đồng hành nhưng bắt đầu từ những địa chỉ khác nhau. Kết hợp sự đồng bộ spider và duy trì thời gian đợi giữa 2 lần truy xuất liên tiếp đến một server nên server tránh bị áp lực quá mức. Tuy nhiên biện pháp này không thể khắc phục triệt để vấn đề do các URL cùng site thường được đặt cạnh nhau trong hàng đợi. Áp dụng chiến lươc duyệt ngẫu nhiên sẽ cho kết quả tốt hơn.

3.3 Tránh truy xut đến các dng tài nguyên không thích hp

Ứng dụng chỉ lập chỉ mục trên những file có thể đánh được chỉ mục, cụ thể là dạng file text, sẽ download tài liệu nếu cần. Trong quá trình download chỉ lấy về các file thoả yêu cầu do đó tránh lãng phí tài nguyên cho những tài liệu không dùng đến.

3.4 Tránh các l đen(black holes)

Ứng dụng chỉ theo dấu các URL còn trong giớI hạn độ sâu cho phép nên luôn

đảm bảo có điểm dừng.

3.5 Tránh nhng nơi cm robot

Nhưđã trình bày trong những phần trước, các chuẩn loạI trừ robot không hiệu quả do bị lạm dụng hoặc do thiếu tính chặt chẽ nên hầu hết các site trên thế giới đều không hỗ trợ chuẩn này vì vậy vấn đề xem nhưđược thông qua.

Một phần của tài liệu Tài liệu Luận văn Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt ppt (Trang 88 - 89)