Quan trọng của trang web

Một phần của tài liệu KHAI PHÁ DỮ LIỆU WEB VÀ MÁY TÌM KIẾM potx (Trang 29 - 31)

Chúng ta cùng liệt kê một số phương pháp đã được sử dụng để đo độ quan trọng của các trang web.

Các từ khóa trong văn bản: Một trang web được coi là hợp lệ nếu nó có chứa một số hoặc tất cả các từ khóa trong câu truy vấn. Cũng như vậy, tần số xuất hiện của từ khóa trong trang cũng được xem xét.

Mức độ tương tự với câu truy vấn: Thông thường một người dùng chỉ định một thông tin cần tìm bởi một câu truy vấn ngắn. Trong một số trường hợp người dùng có thể có một mô tả về điều cần biết bằng các cụm từ dài hơn. Mức độ tương tự giữa các mô tả ngắn hay dài của người dùng với mỗi trang web được tải về có thể sử dụng để xác định tính hợp lệ của trang.

Mức độ tương tự với trang hạt nhân: Các trang tương ứng với các URL hạt nhân được sử dụng để đo mức độ hợp lệ của mỗi trang được tải. Trang web hạt nhân được kết hợp với nhau thành một văn bản lớn duy nhất và mức độ gần nhau của trang văn bản này với các trang web đang được duyệt được sử dụng làm điểm số của trang web đó.

Điểm số phân lớp: một bộ phân lớp có thể được huấn luyện để xác đinh các trang phù hợp với thông tin hoặc nhiệm vụ cần làm. Việc huấn luyện được tiến hành sử dụng các trang hạt nhân (hoặc các trang web hợp lệ được chỉ định trước) như là các ví dụ dương. Các bộ phân lớp được huấn luyện sau đó sẽ gán các điểm số nhị phân (0,1) hoặc liên tiếp cho các trang web được duyệt [9].

Tính hạng cho hệ thống các trang lấy được: N crawler khác nhau cùng bắt đầu bởi cùng một tập các trang hạt nhân và được chạy cho tới khi mỗi crawler lấy được P trang web. Tất cả N.P trang tập hợp được từ các crawler được tính hạng dựa trên câu truy vấn ban đầu hoặc mô tả bằng cách sử dụng một hệ thống phục hồi (truy xuất thông tin) retrieval system chẳng hạn SMART. Các thứ hạng được cung cấp bởi hệ thống này được sử dụng như là mức độ hợp lệ của trang web [21].

Tính phổ biến dựa trên liên kết (link-based popularity): Một crawler có thể sử dụng các thuật toán như PageRank hoặc HITS [16], để cung cấp một sự đánh giá tính phổ cập của mỗi trang web được duyệt. Một phương pháp đơn giản hơn là chỉ sử dụng số lượng các liên kết tới trang web đó để xác định thông tin đó. Rất nhiều biến thể của các phương pháp dựa trên các liên kết sử dụng các trọng số của chủ đề được sử dụng để đo tính phổ biến về chủ đề đó của trang web [4, 7].

Một phần của tài liệu KHAI PHÁ DỮ LIỆU WEB VÀ MÁY TÌM KIẾM potx (Trang 29 - 31)

Tải bản đầy đủ (PDF)

(68 trang)