Thước đo độ hoàn chỉnh

Một phần của tài liệu tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin (Trang 29 - 32)

Do các thước đo độ hoàn chỉnh là rất khó tính toán cho nên tôi đã sử dụng một số

cách gián tiếp đểước lượng độ hoàn chỉnh. Một số cách có thể kểđến như :

+ Thu hồi mục tiêu : Một tập hợp các URL liên quan được chia thành 2 bộ là hạt giống và mục tiêu. Trình thu thập bắt đầu từ các trang hạt giống và thu hồi các trang mục tiêu. Việc thu hồi mục tiêu được tính như sau:

23

Trong đó Pt là tập các trang mục tiêu , Pc là tập các trang được thu thập. Lưu ý rằng giảđịnh ban đầu là các mục tiêu là tập hợp ngẫu nhiên của các trang liên quan.

Hình 5: Hình mình họa thu hồi mục tiêu

+ Độ mạnh mẽ: Các URL hạt giống được chia thành hai bộ tách rời là Sa và Sb.

Mỗi bộ thường khởi tạo một trường hợp của cùng một trình thu thập. Sự chồng chéo trong các trang thu thập bắt nguồn từ hai bộ này là không tránh khỏi. Một lượng lớn sự

chồng chéo được giải quyết bởi độ mạnh mẽ của trình thu thập.

Độ mạnh mẽ là một số liệu dùng để đo hiệu suất của trình thu thập trong một cách mà kết hợp cả độ chính xác và độ hoàn chỉnh. Ví dụ, cách tìm kiếm độ dài của một số các trang được thu thập trước khi một tỷ lệ nhất định của các trang liên quan

được lấy.

Hình 6 là một ví dụ về biểu đồ hiệu suất cho hai trình thu thập khác nhau. Hiệu suất của trình thu thập được mô tả như là một quỹ đạo theo thời gian (được xấp xỉ

bằng số lượng các trang đã thu thập ). Trình thu thập tối ưu ngây thơđược so sánh với trình thu thập theo chiều rộng dựa trên đánh giá trên 159 chủđề với 10000 trang đã thu thập bởi mỗi trình thu thập trên mỗi chủ đề (vì thế việc đánh giá liên quan đến hàng triệu trang)

24

Hình 6: So sánh giữa thuật toán breadth-first và naive best-first: (a) Theo độ

chính xác trung bình (b) Theo độ thu hồi mục tiêu trung bình

25

Chương 2. XÂY DNG WEBSITE TNG HP THÔNG TIN

Trong chương này chúng ta sẽ từng bước hiện thực hóa việc xây dựng website tổng hợp thông tin. Phần đầu chương sẽ tìm hiểu về các kiến thức nền tảng và các công nghệ liên quan, ở phần tiếp theo là các đánh giá phân tích và các giải pháp nhằm nâng cao hiệu suất của trình thu thập, phần cuối chương là việc hiện thực hóa ứng dụng thông qua việc xây dựng hệ thống cơ sở dữ liệu và thiết kế giao diện website.

Một phần của tài liệu tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin (Trang 29 - 32)

Tải bản đầy đủ (PDF)

(60 trang)