2.1 Cấu trỳc bộ tỡm duyệt
2.1.3 Tối ưu số lượng cỏc bộ tỡm duyệt
Để tăng năng suất thu nhận cỏc trang Web mới, cũng như cập nhật cỏc trang Web cú trong cơ sở dữ liệu của hệ tỡm kiếm nhưng đó cập nhật bởi người dựng, cỏc
41
hệ tỡm kiếm cú thể được thiết kế với nhiều bộ tỡm duyệt việc chọn số lượng cỏc Web phụ thuộc vào nhiều yếu tố khỏc nhau như cấu hỡnh mỏy chạy hệ tỡm kiếm, tốc độ đường truyền của mạng, tốc độ tạo chỉ mục của bộ tạo chỉ mục,...
Đối với cỏc hệ tỡm kiếm cú nhiều bộ tỡm duyệt, khi một bộ tỡm duyệt thu nhận được một trang Web, nú chuyển đến bộ tạo chỉ mục. Nếu bộ tạo chỉ mục xử lý khụng kịp, vựng đệm lưu trữ của bộ tạo chỉ mục đầy thỡ trang Web đú sẽ bị mất. Trong trường hợp này khả năng thu nhận trang Web mới hay cập nhật lại trang Web cũ của bộ tỡm duyệt khụng được tận dụng hết khả năng và khụng tận dụng hết tài nguyờn mạng. Ngược lại, nếu toàn bộ cỏc bộ tỡm duyệt khụng thu nhận kịp cỏc trang Web cho bộ tạo chỉ mục xử lý, vựng đệm nhận dữ liệu của bộ tạo chỉ mục rỗng, bộ tạo chỉ mục ở trạng thỏi nghỉ thỡ hệ thống khụng đạt hiệu quả thu nhận thụng tin và khụng tận dụng hết thời gian để cập nhật dữ liệu. Để trỏnh trường hợp thứ nhất, cần phải giảm số lượng cỏc bộ tỡm duyệt và ngược lại, cần tăng bộ tỡm duyệt thỡ mỏy tỡm kiếm làm việc cú hiệu quả hơn.
Web crawler 2 Site1 Site2 Site3 Site4 Web crawler 1 Indexing Engine Database
42