Thuật toán xếp hạng BrowseRank

II. Bing

2. Thuật toán xếp hạng BrowseRank

2.1. Dữ liệu về hành vi người dùng

Khi nghiên cứu chỉ số BrowseRank, Microsoft cho rằng: “Càng nhiều người truy cập trang và thời gian duyệt trang càng lâu thì chứng tỏ nội dung trang càng hấp dẫn. Chúng tôi có thể dựa vào thói quen sử dụng của hàng trăm triệu người dùng để xác định mức độ quan trọng của trang”.

Khi lướt web, người dùng sẽ có một số thông tin họ cần. Để duyệt một trang mới, người dùng có thể nhấp chọn một liên kết đến nó, hoặc nhập địa chỉ URL vào trình duyệt web. Người dùng có thể lặp đi, lặp lại điều này cho tới khi tìm thấy thông tin họ cần hoặc từ bỏ. Dữ liệu hành vi người dùng có thể được ghi lại và được mô tả bởi 3 tham số <URL, TIME, TYPE>. Các dữ liệu được sắp xếp theo thứ tự thời gian. Trong đó:

- URL: Là địa chỉ trang web truy cập của người sử dụng. - TIME: Là thời gian của chuyến thăm.

- TYPE: Cho biết kiểu truy cập là URL (INPUT), hay là một siêu liên kết trên trang trước đó (CLICK).

2.2. Ước lượng qii

Một quá trình Q-Process có thời gian tạm trú Ti trên đỉnh thứ i được quản lý bởi một phân phối tham số mũ qii có công thức như sau:

P(Ti > t) = exp(qii , t)

Tuy nhiên, nhiệm vụ này không đơn giản như vậy, bởi vì các quan sát trong hành vi dữ liệu người dùng thường chứa các thông tin nhiễu do tốc độ kết nối Internet, kích thước trang, cấu trúc trang, và các yếu tố khác. Nói cách khác, các giá trị quan sát không hoàn toàn đáp ứng theo cấp số nhân phân phối. Để giải quyết thách thức này, thuật toán sử dụng một mô hình tiếng ồn phụ (an additive noise model) để mô tả các quan sát, thực hiện một ước lượng khách quan và nhất quán cho tham số qii.

Giả sử trang i, có quan sát mi về thời gian tạm trú trong các dữ liệu hành vi người dùng, ký hiệu là Z1, Z2,..., Zmi, và chúng có cùng một phân phối biến

ngẫu nhiên Z. Để không mất tính tổng quát, chúng ta giả sử rằng Z là sự kết hợp của thời gian thực tạm trú Ti và độ nhiễu U, tức là: Z = U + Ti

Giả sử độ nhiễu U được quản lý bởi phân phối Chi-square Chi(k), thì giá trị trung bình và phương sai của nó lần lượt là k và 2k. Tiếp tục giả sử giá trị trung bình và phương sai của Z là , giả sử U và Ti độc lập, ta có:

Giá trị trung bình của Z là: Và phương sai là:

qii sẽ được tính tối ưu như sau:

Phân phối Chi-square sử dụng rộng rãi mô hình tiếng ồn phụ có giá trị nằm trong khoảng [0, + ∞).

2.3. Ước lượng EMC

Ta sẽ bắt đầu với người dùng duyệt web có đồ thị G =< V, W, T , σ >, sau đó ta sẽ thêm một đỉnh giả định là đỉnh thứ (N + 1) vào G và thêm hai loại cạnh như sau:

- Cạnh thứ nhất: Cạnh từ trang cuối cùng trong mỗi phiên đến đỉnh giả đỉnh, kết hợp với số lần nhấp chuột của trang cuối được xem như là trọng số của nó.

- Cạnh thứ hai: Cạnh từ đỉnh giả đỉnh đến trang đầu tiên trong mỗi phiên, kết hợp với khả năng thiết lập lại xác suất. Lúc này, ta sẽ có một đồ thị mới là:

Trong đó, , ,

2 σ µ và

Sau đó, chúng ta giải thích mô hình EMC (embedded Markov chian) như là duyệt ngẫu nhiên trên đồ thị , được tính như sau:

Khi chúng ta lướt trên đồ thị duyệt web, ta có thể đi tới trước dọc theo cạnh có xác suất α, hoặc khởi động lại một trang mới có xác suất ( 1- α ). Việc chọn một trang mới sẽ thiết lập lại xác suất.

2.4. Đánh giá mức độ quan trọng của trang

Giả sử X là một Q-Process, Y là một EMC xuất phát từ Q-matrix. Cho và biểu diễn một phân bố xác suất tĩnh của quá trình X và Y, ta có:

2.5. Thuật toán

Input: Dữ liệu hành vi người dùng.

Output: π: Mức độ quan trong của trang.

Mã giả:

B1. Xây dựng cấu trúc đồ thị duyệt web của người dùng. B2. Ước lượng qii cho tất cả các trang (theo 2.2).

B3. Ước lượng ma trận xác suất chuyển của EMC và nhận lại phân bố xác suất tĩnh của nó (theo 2.3).

B4. Tính phân bố xác suất tĩnh của Q-Process (theo 2.4).

2.6. So sánh

Các nhà nghiên cứu Microsoft đã trích ví dụ về Website Adobe như sau: Website này được Google đánh giá rất cao, với bằng chứng là chỉ số PageRank đạt điểm tối đa 10/10, bởi đường dẫn tới Adobe Flash hay Adobe Reader được trích dẫn rất nhiều trên Internet. Đó là các ứng dụng để đọc tập tin có định dạng *.flv hay các tập tin văn bản có định dạng *.pdf. Và Microsoft đã chỉ trích rằng: “Tuy vậy, người dùng Internet không viếng thăm thường xuyên trang này và nó

không thể được đánh giá cao hơn những trang như MySpace.com và Facebook.com”.

Microsoft và những cộng sự cho biết, phương pháp của họ hiệu quả hơn bởi nó dựa trên một biểu đồ mô tả các hành vi của người dùng Internet. Nhờ vậy, BrowseRank có thể biểu diễn một cách chính xác hơn việc lướt ngẫu nhiên của người dùng trên Internet, và từ đó đánh giá hữu hiệu hơn độ quan trọng của trang web. Hơn nữa, thời gian mà người dùng ở lại trên trang web đó cũng được tính đến trong phương pháp của BrowseRank.

Dưới đây là bảng so sánh về xếp hạng của 20 trang web hàng đầu được thực hiện bởi ba thuật toán PageRank, TrustRank, BrowseRank.

Các dịch vụ tìm kiếm của Google

Các dịch vụ tìm kiếm của Google