1. MỤC ĐÍC H
1.5.4. Làm tươi trang Web (pages refresh)
Một khi các trang Web mà crawler cho là quan trọng đã được tải về và đánh chỉ mục. Nó có nhiệm vụ làm tươi các trang Web đó một cách định kỳ để đảm bảo sự cập nhật của chúng. Có nhiều cách thức để thực hiện điều này và các chiến lược sử dụng khác nhau sẽ có các kết quả khác nhau về mức độ tươi của các trang Web. Hai chiến lược sau đây là minh chứng cho điều này:
Uniform refresh policy: Crawler không quan tâm đến tốc độ thay đổi khác nhau của các trang Web khác nhau mà tiến hành làm tươi các trang Web mà nó có được với
tần suất làm tươi (refesh frequency) giống nhaụ
Proportional refresh policy: Crawler viếng thăm lại các trang Web với tần suất khác nhau, tùy thuộc vào tốc độ thay đổi của chúng. Các trang Web hay thay đổi sẽ được viếng thăm thường xuyên hơn. Giả sử λi là tần số thay đổi của trang Web ei và fi
là tần suất mà crawler viếng thăm trang Web đó. Khi đó tỷ số λi/fi có giá trị như nhau đối với mọi trang Web mà crawler biết. Một trang Web có tốc độ thay đổi nhanh gấp
10 lần trang khác thì tần suất viếng thăm nó cũng phải lớn gấp 10 lần tần suất viếng thăm trang Web kiạ
1.5.4.1. Các chiến lược làm tươi
Lấy một ví dụ đơn giản về crawler có nhiệm vụ duy trì tập S gồm 2 trang Web
e1 (thay đổi 9 lần trong 1 ngày) và e2 (thay đổi 1 lần trong 1 ngày). Mục đích của
chúng ta là làm sao cho S luôn cập nhật nhất. Hình 17 cho ta một phương pháp đơn
giản. Đối với e1, một ngày được chia thành 9 khoảng thời gian, còn đối với e2 thì con
số đó là 1. Chúng ta không biết chính xác thời điểm mà các trang Web được thay đổị
Hình 15. Tập gồm hai trang Web với tốc độ thay đổi khác nhau
Giả sử crawler có khả năng hạn chế, chỉ làm tươi được 1 trang Web trong 1
ngàỵ Như vậy nó phải lựa chọn ra 1 trong 2 trang Web e1 hoặc e2 để làm tươị Trang
Web nào được lựa chọn sẽ tùy thuộc vào độ tươi của S trong cả hai trường hợp. Nếu e2
được thay đổi vào giữa ngày và chúng ta làm tươi e2 sau khi nó được sửa đổi thì e2 cập
nhật trong 1/2 ngày còn lạị Tuy nhiên xác suất để e2 được thay đổi vào thời điểm giữa
ngày là 1/2. Vì vậy lợi ích về độ tươi thu được khi làm tươi e2 là1/2 x 1/2 = 1/4ngày. Bằng suy luận tương tự với việc làm tươi e1 vào thời điểm giữa ngày, lợi ích về độ tươi thu được là 1/2 x 1/8 = 1/36 ngày. Như vậy dễ dàng nhận ra việc chọn e2 để làm tươi sẽ mang lại hiệu quả cao hơn.
Trên thực tế, chúng ta không biết chắc chắn trang Web sẽ thay đổi với khoảng thời gian được biết. Hơn nữa, cũng cần phải quan tâm đến độ cũ của các trang Web (Ở thí dụ trên, chúng ta luôn chọn e2 để làm tươi dẫn đến độ cũ của e1 tăng liên tục).