Một số giải thuật Crawler

Một phần của tài liệu Đề tài kỹ thuật tách từ trong câu tiếng việt và ứng dụng tìm kiếm thông tin trên website (Trang 32 - 33)

 Khi một trang được phân tích bởi Crawler, những liên kết trong trang đó sẽ được đưa vào danh sách của những trang chưa được phân tích, danh sách này chính là Frontier. Một trong những bước quan trọng nhất trong tiến trình hoạt động của một Crawler là xác định liên kết tiếp theo phù hợp nhất với tiêu chí của Crawler để tiến hành bước phân tích tiếp theọ

 Việc thiết kế thuật toán để lựa chọn liên kết tiếp theo trong Frontier nhằm phục vụ cho vòng lặp kế tiếp trong quá trình di chuyển của Crawler là bước mấu chốt để quyết định nét đặt trưng của Crawler. Nói một cách khác, một Crawler duyệt trên Internet nhằm mục đích liệt kê ra tất cả thông tin của tất cả các trang Web trên Internet sẽ được thiết kế khác với một Crawler chỉ liệt kê thông tin của những trường Đại Học hoặc chỉ là liệt kê những trang Web có nội dung giới thiệu phim ảnh. Đối với Crawler đầu tiên, thứ tự và độ ưu tiên của việc lựa chọn URL tiếp theo trong Frontier là không mấy quan trọng. Nhưng đối với Crawler thứ hai, Crawler mà chỉ tìm duyệt những trang Web của các trường đại học, thì công việc lấy URL tiếp theo trong Frontier cần phải có sự cân nhắc đến cấu trúc của URL, như là chỉ lấy ra hoặc thêm vào những URL với domain là .edụ Trong khi đó, Crawler thứ ba ở ví dụ trên, lại phải căn cứ vào nội dung và những từ khóa ở trong Site, nó chỉ duyệt qua những Site có chủ đề là moviẹ Vì vậy, khi thiết kế một Crawler, các nhà thiết kế cần phải cân nhắc thuật toán nào cần phải cài đặt để quyết định tính hiệu quả và thu thập đúng dữ liệu của những nhà cung cấp dịch vụ tìm kiếm đề rạ

32

Một phần của tài liệu Đề tài kỹ thuật tách từ trong câu tiếng việt và ứng dụng tìm kiếm thông tin trên website (Trang 32 - 33)

Tải bản đầy đủ (PDF)

(62 trang)