6. Cấu trúc của luận vă n
2.1.7.1. Anchor text và các đặc trưng để phân biệt các trang web
Nhưđã biết, Link text hay cịn gọi là anchor text là đoạn văn bản được dùng để
hiển thị link . Hay anchor text là chuỗi các ký tựẩn chứa đường dẫn tới một trang Web hay các tài nguyên khác (Hình 2.6 (15)).
Hình 2.6: Ví dụ về quan hệ giữa anchor text và URL.
Các từ trong anchor text này chính là điểm đặc trưng để phân biệt các trang web, và cũng chính là điểm đặc trưng để dựđốn giá trịQ cho một link khi crawling. Theo [2], cĩ một số cách để lấy ra các đặc trưng phân biệt các trang web:
Cách 1: Text only.
Cách này chỉ sử dụng text của tồn bộ trang web chứa link đĩ. Cách 2: Text + Title.
Cách này, với mỗi link lấy ra:
- Text của tồn bộ trang web chứa link đĩ; - Title (tiêu đề) của trang web chứa link đĩ.
Cách 3: Kiểu này gọi là full-page, với mỗi link ta lấy ra 2 đoạn text. - Text của tồn bộ trang web chứa link đĩ;
- Anchor text của link đĩ cùng với một số từ xung quanh.
Nếu: Một link xuất hiện trên nhiều trang khác nhau thì lấy text trên tất cả các trang mà link xuất hiện.
Cách 4: Kiểu này gọi là related, mỗi link lấy ra 4 đoạn text. - Text của tồn bộ trang web chứa link đĩ;
- Anchor text của link đĩ;
- Thư mục và tên file trong URL;
- Một số từ xuất hiện trước và sau link đĩ.
(15) Nguồn: http://news.google.com.vn/nwshp?hl=vi&tab=wn
Ở đây chúng tơi dùng cách 3, vì các thực nghiệm của [2] đã cho thấy hiệu quả
của cách 1 và cách 2 là thấp, cịn hiệu quả của cách 4 so với cách 3 tuy cĩ cao hơn đơi chút nhưng độ phức tạp tính tốn lại lớn hơn rất nhiều.