Giới thiệuThuật toán PageRank Cải tiến thuật toán PageRank Thuật toán HITS Cài đặt các thuật toán Nội dung... Giới thiệuThuật toán PageRank Cải tiến thuật toán PageRank Thuật to
Trang 1Seminar Tin ứng dụng
Web graph and Page rank
Bùi Đ c Hi u ứ ệ
Ph m Anh Tu n ạ ấ Nguy n Văn Vũ ễ
Đại học Bách Khoa Hà Nội Viện Toán ứng dụng và Tin học
Trang 2Giới thiệu
Trang 3Giới thiệu
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Cài đặt các thuật toán
Nội dung
Trang 4 Trong 2 thập kỷ qua, mạng internet phát triển rất mạnh mẽ Trang web đầu tiên trên thế giới là info.cern.ch (Tim Berners-Lee), đến năm 2008 chúng ta đã có 162 triệu trang web
Giới thiệu
Trang 5Giới thiệu
Trang 7Giới thiệu
Trang 8Đồ thị: là một tập các đối tượng gọi là đỉnh nối với nhau bởi các cạnh.
Đồ thị
Trang 9Một số khái niệm liên quan đến đồ thị:
Đồ thị vô hướng
Đồ thị
Trang 10 Đồ thị có hướng
Đồ thị
Trang 11Ma trận: trong toán học ma trận là một bảng chứa dữ liệu theo hàng và cột
3
6 3
2
Trang 13Vector riêng và trị riêng:
Trang 14Giới thiệu
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Nội dung
Trang 16Định nghĩa:
Các trang web ngoài các đặc trưng về sự hiển thị trên trình duyệt qua ngôn ngữ HTML, CSS mà chúng còn có sự liên kết, kết nối đến nhau Chính những liên kết này tạo nên đồ thị web
Đồ thị web
Trang 17Đồ thị web
Trang 18Đồ thị web
Trang 19Đồ thị và ma trận biểu diễn sự liên kết giữa các trang
Trang 20Tính chất của đồ thị web
Các trang web được xem như là các nút của đồ thị
Các siêu liên kết được xem như là các cạnh của đồ thị
Đồ thị web
Cạnh Nút
Trang 21Các thuật toán phân hạng web hiện nay:
Trang 23Cấu trúc đồ thị web
Trang 24Liên kết được nhiều trang web với nhau
Mạng lưới của những liên kết này là nguồn phong phú của các thông tin tiềm ẩn
Ý nghĩa của đồ thị web
Trang 25S: kích thước của trang web ở thời điểm �
Trang 27Các thuộc tính trong mô hình đồ thị web
On-line property
Power law degree distribution
Small world property
Mô hình trong đồ thị web
Trang 29Một số mô hình trong đồ thị web:
Mô hình tập tin đính kèm ưu đãi ( preferential attachment models)
Mô hình LCD PA (The LCD PA model)
Mô hình sao chép (The copying model)
Mô hình growth-deletion ( growth – deletion models)
Mô hình hình học (geometric model)
Mô hình off – line (off – line model)
Mô hình trong đồ thị web
Trang 30Giới thiệu
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Nội dung
Trang 31 Vấn đề:
Thuật toán PageRank
Trang 32Thuật toán PageRank
CẦN MỘT PHƯƠNG PHÁP KHAI THÁC THÔNG TIN
Trang 34 Tổng quan
Thuật toán PageRank
Trang 35 Kết quả thừa nhận
Thuật toán PageRank
Trang A được trỏ bởi càng nhiều link thì càng
quan trọng
“A => B thì độ quan trọng của trang A cũng
ảnh hưởng đến độ quan trọng của trang B”
Trang 36 Ý tưởng.
Sử dụng:
Thuật toán PageRank
Trang 37 Xây dựng mô hình bài toán.
Xây dựng đồ thị có hướng G=(V,E):
• V={Vi : Vi đại diện cho 1 web, i = 1 n }
• E={(i,j): có liên kết từ i tới j; i,j=1 n}
Mọi tính toán hạng trang thực hiện trên đồ thị này
Thuật toán PageRank
Trang 38Thuật toán PageRank
Trang 39• Các trang được xếp hạng theo page rank thực
Thuật toán PageRank
Trang 40 Thuật toán - Hướng tiếp cận ban đầu.
Giả thuyết: G(V,E) liên thông
Công thức:
• Trong đó:
– r(i): Hạng của trang web i.
– N(j): Số liên kết ra khỏi trang j
Thuật toán PageRank
Trang 41 Vấn đề:
Số lượng thông tin rất lớn.
Giải quyết:
Thử đưa về mô hình toán học, áp dụng các thuật toán tính toán nhanh
Thuật toán PageRank
Cần phương pháp để tính toán
Trang 42Xây dựng mô hình toán học
Trang 44 Thuật toán – Cải tiến
Vì sao phải cải tiến?
Liệu có trang web nào có page rank bằng 0?
Thuật toán PageRank
Trang 45Thuật toán cải tiến
Trang 47Giới thiệu
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Cài đặt các thuật toán
Nội dung
Trang 48Topic Sensitive PageRank
Trang 49Taher H Haveliwala đề xuất, 2002
Trang 50Adaptive PageRank
Trang 51Sepandar D Kamvar và cộng sự, 2003
Tận dụng những trang hội tụ sớm và kết quả độ quan trọng của các trang đã hội tụ có thể không cần tính tiếp
Adaptive PageRank
Trang 52Timed PageRank
Trang 53Tích hợp tìm kiếm PageRank theo thời gian
Xin Li, Bing Liu, và Philip S Yu đề xuất, 2006
Thay hệ số hãm d bằng hàm thời gian f(t)
f(t) sẽ chọn đi theo 1 outbound link (liên kết đi)
(1-f(t)) sẽ nhảy sang 1 trang khác
Timed PageRank
Trang 54Giới thiệu
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Nội dung
Trang 55 HITS - Hypertext Induced Topic Selection
Jon M Kleinberg đề xuất, 1998 - 1999
Không giống như PageRank - một thuật toán xếp hạng tĩnh, HITS phụ thuộc vào truy vấn tìm kiếm.
HITS
Trang 56Authority pages: là những trang được xem là phù hợp nhất đối với mỗi câu truy vấn cụ thể nào đó
Authority
Auth
Trang 57Hub pages: là những trang không cần có đặc tính “authority” nhưng lại trỏ tới nhiều trang có đặc tính “authority”.
Hub
Hub
Trang 58Hub và Authority
Trang 59Trang có hub tốt là trang có nhiều liên kết ra
Trang có authority tốt là trang có nhiều liên kết tới
Trang trỏ tới trang có authority cao thì trọng số hub càng cao, trang nào được nhiều trang có hub cao trỏ tới thì trọng số authority càng cao
Ý tưởng của HITS
Trang 60Xác định tập hợp cơ sở S
Cho phép thiết lập các dữ liệu trả về bởi một công cụ tìm kiếm tiêu chuẩn được gọi là các
root set (thiết lập gốc) R
Khởi tạo S cho R
HITS - 1
Trang 61Thêm vào S tất cả các trang được trỏ đến bởi bất kỳ trang nào trong R.
Thêm vào S tất cả các trang trỏ đến bất kỳ trang nào trong R
Duy trì cho mỗi trang p trong S:
Trọng số authority : (vector a)
Trọng số hub : (vector h)
HITS - 2
Trang 62Đối với mỗi nút khởi tạo và với 1/n
Trong mỗi lần lặp tính toán trọng số authority cho mỗi nút trong S
HITS - 3
Trang 63Trong mỗi lần lặp tính toán trọng số hub cho mỗi nút trong S
Lưu ý: Các trọng số hub được tính từ trọng số authority hiện hành, và trọng số hub trước đó.
HITS - 4
Trang 64Sau khi trọng số mới được tính toán cho tất cả các nút, các trọng số được chuẩn hóa:
HITS - 5
Trang 65Initialize for all
Trang 66 Root Set R {1,2,3,4}
Ví dụ
Trang 67Kết quả của ví dụ
Authority
Hub
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Trang 68HITS nhấn mạnh tăng cường lẫn nhau giữa các trang authority và hub, trong khi PageRank thì không PageRank xếp hạng trang chỉ bởi các trang authority.
HITS được áp dụng cho các vùng lân cận của các trang xung quanh kết quả của một truy vấn trong khi PageRank được áp dụng cho toàn bộ trang web
HITS là truy vấn phụ thuộc nhưng PageRank là truy vấn độc lập
PageRank - HITS
Trang 69Cả HITS và PageRank đều tính toán trên ma trận.
Đều không ổn định: thay đổi một số liên kết có thể dẫn đến bảng xếp hạng khác nhau
PageRank không quản lý các trang không có cạnh ngoài rất tốt, vì nó giảm PageRank tổng thể
PageRank - HITS
Trang 70Khai phá dữ liệu Web(Web mining) có ý nghĩa quan trọng trong cuộc sống và công nghệ.
PageRank hay HITS là các thuật toán cơ bản để xây dựng các Search Engine
Tuy nhiên, các search engine nổi tiếng như Google, Yahoo hay Bing đều có những cải tiến
và các thuật toán khác không được công bố!
Kết luận
Trang 71 Giới thiệu
Đồ thị Web
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Nội dung
Trang 72Q & A