Thuật toán PageRank

Một phần của tài liệu KHAI PHÁ DỮ LIỆU WEB BẰNG KỸ THUẬT PHÂN CỤM (Trang 88 - 89)

Google dựa trên thuật toán PageRank [brin98], nó lập chỉ mục các liên kết giữa các Web site và thể hiện một liên kết từ A đến B như là xác nhận của B bởi A. Các liên kết có những giá trị khác nhau. Nếu A có nhiều liên kết tới nó và C có ít các liên kết tới nó thì một liên kết từ A đến B có giá trị hơn một liên kết từ C đến B. Giá trị được xác định như thế được gọi là PageRank của một trang và xác định thứ tự sắp xếp của nó trong các kết quả tìm kiếm (PageRank được sử dụng trong phép cộng để quy ước chỉ số văn bản để tạo ra các kết quả tìm kiếm chính xác cao). Các liên kết có thể được phân tích chính xác và hiệu quả hơn đối với khối lượng chu chuyển hoặc khung nhìn trang và trở thành độ đo của sự thành công và việc biến đối thứ hạng của các trang.

Hình 3.14. Kết quả của thuật toán PageRank

PageRank không đơn giản chỉ dựa trên tổng số các liên kết đến. Các tiếp cận cơ bản của PageRank là một tài liệu trong thực tế được xét đến quan trọng

hơn là các tài liệu liên kết tới nó, nhưng những liên kết về (tới nó) không bằng nhau về số lượng. Một tài liệu xếp thứ hạng cao trong các phần tử của PageRank nếu như có các tài liệu thứ hạng cao khác liên kết tới nó. Cho nên trong khái niệm PageRank, thứ hạng của một tài liệu được dựa vào thứ hạng cao của các tài liệu liên kết tới nó. Thứ hạng ngược lại của chúng được dựa vào thứ hạng thấp của các tài liệu liên kết tới chúng.

Một phần của tài liệu KHAI PHÁ DỮ LIỆU WEB BẰNG KỸ THUẬT PHÂN CỤM (Trang 88 - 89)

Tải bản đầy đủ (PDF)

(110 trang)