CHƯƠNG 1 TÌM HIỂU VỀ TRÌNH THU THẬP WEB
1.4. ĐÁNH GIÁ CỦA TRÌNH THU THẬP
1.4.1. quan trọng của trang web
Độ quan trọng của trang web có thể được đánh giá theo một số tiêu chí chung
như ([1],[8]):
+ Từ khóa trong tài liệu : Một trang được xem là có liên quan nếu nó chứa một phần hoặc tất cả từ khóa trong truy vấn
+ Tần số phát sinh : được hiểu là tổng số lần xuất hiện của một chữ hay một
cụm từ của từ khố trong nội dung một trang Web nào đó. Theo sự đánh giá của các
chuyên gia, thì tần số phát sinh của một trang Web càng cao sẽ chứng tỏ nội dung của trang Web đó càng liên quan hay càng đề cập nhiều đến những gì nêu trong từ khố. Do đó, mật độ từ khóa đóng vai trò quan trọng trong việc đánh giá độ quan trọng của
một trang Web.
+ Thẻ meta và câu lệnh title: Trong nhiều trình thu thập, người thiết kế cịn cho rằng sự xuất hiện các chi tiết hay toàn bộ nội dung của từ khoá càng sớm trong một trang mã HTML thì điều đó chứng tỏ trang đó có thể có chủ đề liên quan càng nhiều
đến từ khố. Hậu quả là một trang Web có thể được đánh giá quan trọng hơn nếu các
phần hay tồn bộ từ khố có mặt sớm hơn trong phần mã HTML. Như vậy, trong một số thẻ meta, trình thu thập sẽ đọc nội dung và đánh giá độ quan trọng. Các thẻ meta
có nhiều hiệu lực cho việc đánh giá là:
<META name="description" content="(miêu tả ngắn nội dung trang Web)"> <META name="keywords" content="(danh sách từ khoá)">
Với lý do tương tự, nếu câu lệnh <title>(tựa đề của trang Web)</title> khơng bị bỏ trống thì độ quan trọng của nó có thể được nâng cao hơn.
+ Sự tương đồng với các trang hạt giống: Các trang tương ứng với các URL hạt giống thường là đơn vị đo cho độ liên quan của các trang đã thu thập. Các trang hạt giống được liên kết với lại thành một tài liệu duy nhất. Độ quan trọng của một trang web được thu thập được đánh giá bằng độ tương đồng cosin của nó và bộ tài liệu này
21
+ Tính phổ biến của liên kết : Một trình thu thập có thể sử dụng kết quả xếp hạng các liên kết của các trang như alecxa, Google Page Rank để đưa ra đánh giá về
độ quan trọng của trang. Các trang web phân hạng có thể xếp hạng liên kết dựa trên rất
nhiều tiêu chí. Ví dụ như, alecxa là số lượng truy cập còn google là nội dung, mã nguồn, tên miền vv...
+ Số lượng liên kết ngoài: Theo sự đánh giá của nhiều chuyên gia thì nếu một trang Web được nhiều nơi khác đề cập tới hay mở liên kết tới địa chỉ của nó thì rõ ràng giá trị của trang Web này cao hơn là các trang Web cùng kiểu nhưng lại khơng có hay ít được liên kết hay đề cập từ các trang khác. Như vậy, các trang Web nào được nhiều trang Web khác liên kết tới (hay đề cập tới) thì chất lượng của nó có thể cao hơn và quan trọng hơn.