Làm tươi trang Web (pages refresh)

Một phần của tài liệu xây dựng một công cụ tìm kiếm thực sự (Trang 40 - 41)

1. MỤC ĐÍC H

1.5.4.Làm tươi trang Web (pages refresh)

Một khi các trang Web mà crawler cho là quan trọng đã được tải về và đánh chỉ mục. Nó có nhiệm vụ làm tươi các trang Web đó một cách định kỳ để đảm bảo sự cập nhật của chúng. Có nhiều cách thức để thực hiện điều này và các chiến lược sử dụng khác nhau sẽ có các kết quả khác nhau về mức độ tươi của các trang Web. Hai chiến lược sau đây là minh chứng cho điều này:

Uniform refresh policy: Crawler không quan tâm đến tốc độ thay đổi khác nhau của các trang Web khác nhau mà tiến hành làm tươi các trang Web mà nó có được với

tần suất làm tươi (refesh frequency) giống nhaụ

Proportional refresh policy: Crawler viếng thăm lại các trang Web với tần suất khác nhau, tùy thuộc vào tốc độ thay đổi của chúng. Các trang Web hay thay đổi sẽ được viếng thăm thường xuyên hơn. Giả sử λi là tần số thay đổi của trang Web eifi

là tần suất mà crawler viếng thăm trang Web đó. Khi đó tỷ số λi/fi có giá trị như nhau đối với mọi trang Web mà crawler biết. Một trang Web có tốc độ thay đổi nhanh gấp

10 lần trang khác thì tần suất viếng thăm nó cũng phải lớn gấp 10 lần tần suất viếng thăm trang Web kiạ

1.5.4.1. Các chiến lược làm tươi

Lấy một ví dụ đơn giản về crawler có nhiệm vụ duy trì tập S gồm 2 trang Web

e1 (thay đổi 9 lần trong 1 ngày) và e2 (thay đổi 1 lần trong 1 ngày). Mục đích của

chúng ta là làm sao cho S luôn cập nhật nhất. Hình 17 cho ta một phương pháp đơn

giản. Đối với e1, một ngày được chia thành 9 khoảng thời gian, còn đối với e2 thì con

số đó là 1. Chúng ta không biết chính xác thời điểm mà các trang Web được thay đổị

Hình 15. Tập gồm hai trang Web với tốc độ thay đổi khác nhau

Giả sử crawler có khả năng hạn chế, chỉ làm tươi được 1 trang Web trong 1

ngàỵ Như vậy nó phải lựa chọn ra 1 trong 2 trang Web e1 hoặc e2 để làm tươị Trang

Web nào được lựa chọn sẽ tùy thuộc vào độ tươi của S trong cả hai trường hợp. Nếu e2

được thay đổi vào giữa ngày và chúng ta làm tươi e2 sau khi nó được sửa đổi thì e2 cập

nhật trong 1/2 ngày còn lạị Tuy nhiên xác suất để e2 được thay đổi vào thời điểm giữa

ngày là 1/2. Vì vậy lợi ích về độ tươi thu được khi làm tươi e2 là1/2 x 1/2 = 1/4ngày. Bằng suy luận tương tự với việc làm tươi e1 vào thời điểm giữa ngày, lợi ích về độ tươi thu được là 1/2 x 1/8 = 1/36 ngày. Như vậy dễ dàng nhận ra việc chọn e2 để làm tươi sẽ mang lại hiệu quả cao hơn.

Trên thực tế, chúng ta không biết chắc chắn trang Web sẽ thay đổi với khoảng thời gian được biết. Hơn nữa, cũng cần phải quan tâm đến độ cũ của các trang Web (Ở thí dụ trên, chúng ta luôn chọn e2 để làm tươi dẫn đến độ cũ của e1 tăng liên tục).

Một phần của tài liệu xây dựng một công cụ tìm kiếm thực sự (Trang 40 - 41)