Quan trọng của trang web

Một phần của tài liệu Giới thiệu về máy tìm kiếm ASPseek và đề xuất giải pháp song song hóa. (Trang 29 - 31)

Chúng ta cùng liệt kê một số phương pháp đã được sử dụng để đo độ quan trọng của các trang web.

Các từ khĩa trong văn bản: Một trang web được coi là hợp lệ nếu nĩ cĩ chứa một số hoặc tất cả các từ khĩa trong câu truy vấn. Cũng như vậy, tần số xuất hiện của từ khĩa trong trang cũng được xem xét.

Mức độ tương tự với câu truy vấn: Thơng thường một người dùng chỉ định một thơng tin cần tìm bởi một câu truy vấn ngắn. Trong một số trường hợp người dùng cĩ thể cĩ một mơ tả về điều cần biết bằng các cụm từ dài hơn. Mức độ tương tự giữa các mơ tả ngắn hay dài của người dùng với mỗi trang web được tải về cĩ thể sử dụng để xác định tính hợp lệ của trang.

Mức độ tương tự với trang hạt nhân: Các trang tương ứng với các URL hạt nhân được sử dụng để đo mức độ hợp lệ của mỗi trang được tải. Trang web hạt nhân được kết hợp với nhau thành một văn bản lớn duy nhất và mức độ gần nhau của trang văn bản này với các trang web đang được duyệt được sử dụng làm điểm số của trang web đĩ.

Điểm số phân lớp: một bộ phân lớp cĩ thể được huấn luyện để xác đinh các trang phù hợp với thơng tin hoặc nhiệm vụ cần làm. Việc huấn luyện được tiến hành sử dụng các trang hạt nhân (hoặc các trang web hợp lệ được chỉ định trước) như là các ví dụ dương. Các bộ phân lớp được huấn luyện sau đĩ sẽ gán các điểm số nhị phân (0,1) hoặc liên tiếp cho các trang web được duyệt [9].

Tính hạng cho hệ thống các trang lấy được: N crawler khác nhau cùng bắt đầu bởi cùng một tập các trang hạt nhân và được chạy cho tới khi mỗi crawler lấy được P trang web. Tất cả N.P trang tập hợp được từ các crawler được tính hạng dựa trên câu truy vấn ban đầu hoặc mơ tả bằng cách sử dụng một hệ thống phục hồi (truy xuất thơng tin) retrieval system chẳng hạn SMART. Các thứ hạng được cung cấp bởi hệ thống này được sử dụng như là mức độ hợp lệ của trang web [21].

Tính phổ biến dựa trên liên kết (link-based popularity): Một crawler cĩ thể sử dụng các thuật tốn như PageRank hoặc HITS [16], để cung cấp một sự đánh giá tính phổ cập của mỗi trang web được duyệt. Một phương pháp đơn giản hơn là chỉ sử dụng số lượng các liên kết tới trang web đĩ để xác định thơng tin đĩ. Rất nhiều biến thể của các phương pháp dựa trên các liên kết sử dụng các trọng số của chủ đề được sử dụng để đo tính phổ biến về chủ đề đĩ của trang web [4, 7].

Một phần của tài liệu Giới thiệu về máy tìm kiếm ASPseek và đề xuất giải pháp song song hóa. (Trang 29 - 31)