1.2.2.1. PageRank theo chủ đề (Topic sensitive PageRank)
PageRank là phương pháp xếp hạng hiệu quả và hiện đang được áp dụng trên máy tìm kiếm Google. Tuy nhiên phương pháp này chỉ quan tâm đến các liên kết mà không quan tâm đến nội dung của trang Web có chứa liên kết đó, do vậy có thể dẫn tới những sai lạc trong thông tin tìm kiếm được. Yêu cầu đặt ra là cần phải tìm kiếm một phương pháp có tốc độ nhanh như phương pháp PageRank và lại có quan tâm đến nội dung của trang Web có chứa những liên kết cần thiết. Hơn nữa, nếu khai thác được mối quan tâm của người dùng đối với các trang Web trong việc tính độ phù hợp của trang Web với câu hỏi người dùng thì việc đó càng có ý nghĩa. Nhằm đáp ứng những yêu cầu trên, Taher H. Haveliwala [35] đã đề xuất phương pháp PageRank theo chủ đề (Topic sensitive PageRank) sử dụng khái niệm “phạm vi ngữ cảnh” để biểu thị mối quan tâm của người dùng. Phương pháp nắm được độ quan trọng của các trang Web, cho phép tìm kiếm theo ngữ cảnh và điều quan trọng là có thể tìm kiếm những trang phù hợp với nội dung truy vấn của người dùng với tốc độ cho phép.
Thuật toán gồm hai bước được mô tả sơ bộ như sau.
o Bước đầu tiên được thực hiện ngoại tuyến (offline) trong suốt quá trình tiền xử lí của bộ tìm duyệt và hoàn toàn độc lập đối với những truy vấn như phương pháp
16
PageRank thông thường. Tại bước này, các trang Web trong cơ sở dữ liệu được phân thành các lớp theo các chủ đề , , … , ; gọi là tập hợp những trang Web theo chủ đề của . Mỗi lớp tương ứng với một vector PageRank của mỗi trang trong lớp. Vector PageRank của chủ đề được tính bằng ⃗ = ⃗ trong đó
= 1
ế ∈ 0 ượ ạ
(1.17)
Gọi ⃗ là vector các từ khóa, gồm tất cả các từ khóa trong các tài liệu của các chủ
đề; là số lần xuất hiện của từ khóa t trong tất cả các tài liệu của chủ đề . o Bước thứ hai của thuật toán được thực hiện trong thời gian truy vấn, nghĩa là khi
máy tìm kiếm nhận được câu truy vấn của người dùng thì mới thực hiện công việc tính toán độ quan trọng cho các trang. Giả sử chúng ta có truy vấn , gọi là phạm vi ngữ cảnh của . Phạm vi ngữ cảnh nghĩa là nếu truy vấn được yêu cầu bằng cách tô sáng từ khóa trong trang Web u nào đó thì sẽ chứa các từ khóa trong u bao gồm cả . Với truy vấn bình thường không tìm theo ngữ cảnh thì = . Sau đó ta tính xác suất để thuộc về các chủ đề khác nhau. Bước này có thể coi như là bước phân lớp xem xét thuộc về lớp nào trong các lớp chủ đề. Sử dụng thuật toán phân lớp Bayes với:
Tập huấn luyện: gồm những trang được liệt kê trong các chủ đề.
Đầu vào: câu truy vấn hoặc phạm vi ngữ cảnh của câu truy vấn.
Đầu ra: xác suất để đầu vào thuộc mỗi chủ đề.
Gọi là từ khóa thứ i trong ngữ cảnh . Với mỗi lớp , xác suất để ∈ là:
= . ( | )
( ) ≈ . (1.18)
Trong đó được tính từ vector các từ khóa ⃗ được định nghĩa ở trên.
Giá trị được xác định hoặc là các giá trị bằng nhau cho mọi chủ đề hoặc có thể làm như sau: chúng ta giả sử rằng có k người dùng, ta sẽ biết được số lần mà người dùng này có câu truy vấn liên quan đến chủ đề nào, từ đó có thể tính được
( ); rồi tổ hợp các giá trị này thì nhận được .
Gọi là hạng của văn bản d cho bởi vector ( , ⃗) – vector PageRank của chủ đề thì độ quan trọng dựa theo câu truy vấn được tính như sau:
17
= ( | ) . (1.19)
Phương pháp PageRank theo chủ đề có thể cho những kết quả tính toán chính xác hơn vì nó dựa trên cả những liên kết và nội dung trang Web. Tuy nhiên phương pháp này cũng gặp phải những trở ngại là: việc phân chia các chủ đề có thể không đầy đủ, không bao hàm được tất cả các chủ đề; vấn đề này có thể giải quyết bằng cách tăng thêm các chủ đề nhưng việc tăng thêm các chủ đề chắc chắn sẽ làm tăng thời gian tính toán...