1. Trang chủ
  2. » Công Nghệ Thông Tin

Khai phá dữ liệu thuật toán Page rank ĐH Bách Khoa HN

73 926 24

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 4,25 MB

Nội dung

Giới thiệuThuật toán PageRank Cải tiến thuật toán PageRank Thuật toán HITS Cài đặt các thuật toán Nội dung... Giới thiệuThuật toán PageRank Cải tiến thuật toán PageRank Thuật to

Trang 1

Seminar Tin ứng dụng

Web graph and Page rank

Bùi Đ c Hi u ứ ệ

Ph m Anh Tu n ạ ấ Nguy n Văn Vũ ễ

Đại học Bách Khoa Hà Nội Viện Toán ứng dụng và Tin học

Trang 2

Giới thiệu

Trang 3

Giới thiệu

Thuật toán PageRank

Cải tiến thuật toán PageRank

Thuật toán HITS

Cài đặt các thuật toán

Nội dung

Trang 4

 Trong 2 thập kỷ qua, mạng internet phát triển rất mạnh mẽ Trang web đầu tiên trên thế giới là info.cern.ch (Tim Berners-Lee), đến năm 2008 chúng ta đã có 162 triệu trang web

Giới thiệu

Trang 5

Giới thiệu

Trang 7

Giới thiệu

Trang 8

Đồ thị: là một tập các đối tượng gọi là đỉnh nối với nhau bởi các cạnh.

Đồ thị

Trang 9

Một số khái niệm liên quan đến đồ thị:

 Đồ thị vô hướng

Đồ thị

Trang 10

 Đồ thị có hướng

Đồ thị

Trang 11

Ma trận: trong toán học ma trận là một bảng chứa dữ liệu theo hàng và cột

3

6 3

2

Trang 13

Vector riêng và trị riêng:

Trang 14

Giới thiệu

Thuật toán PageRank

Cải tiến thuật toán PageRank

Thuật toán HITS

Nội dung

Trang 16

Định nghĩa:

Các trang web ngoài các đặc trưng về sự hiển thị trên trình duyệt qua ngôn ngữ HTML, CSS mà chúng còn có sự liên kết, kết nối đến nhau Chính những liên kết này tạo nên đồ thị web

Đồ thị web

Trang 17

Đồ thị web

Trang 18

Đồ thị web

Trang 19

Đồ thị và ma trận biểu diễn sự liên kết giữa các trang

Trang 20

Tính chất của đồ thị web

 Các trang web được xem như là các nút của đồ thị

 Các siêu liên kết được xem như là các cạnh của đồ thị

Đồ thị web

Cạnh Nút

Trang 21

Các thuật toán phân hạng web hiện nay:

Trang 23

Cấu trúc đồ thị web

Trang 24

Liên kết được nhiều trang web với nhau

Mạng lưới của những liên kết này là nguồn phong phú của các thông tin tiềm ẩn

Ý nghĩa của đồ thị web

Trang 25

S: kích thước của trang web ở thời điểm �

Trang 27

Các thuộc tính trong mô hình đồ thị web

On-line property

Power law degree distribution

Small world property

Mô hình trong đồ thị web

Trang 29

Một số mô hình trong đồ thị web:

Mô hình tập tin đính kèm ưu đãi ( preferential attachment models)

Mô hình LCD PA (The LCD PA model)

Mô hình sao chép (The copying model)

Mô hình growth-deletion ( growth – deletion models)

Mô hình hình học (geometric model)

Mô hình off – line (off – line model)

Mô hình trong đồ thị web

Trang 30

Giới thiệu

Thuật toán PageRank

Cải tiến thuật toán PageRank

Thuật toán HITS

Nội dung

Trang 31

 Vấn đề:

Thuật toán PageRank

Trang 32

Thuật toán PageRank

CẦN MỘT PHƯƠNG PHÁP KHAI THÁC THÔNG TIN

Trang 34

 Tổng quan

Thuật toán PageRank

Trang 35

 Kết quả thừa nhận

Thuật toán PageRank

Trang A được trỏ bởi càng nhiều link thì càng

quan trọng

“A => B thì độ quan trọng của trang A cũng

ảnh hưởng đến độ quan trọng của trang B”

Trang 36

 Ý tưởng.

 Sử dụng:

Thuật toán PageRank

Trang 37

 Xây dựng mô hình bài toán.

 Xây dựng đồ thị có hướng G=(V,E):

V={Vi : Vi đại diện cho 1 web, i = 1 n }

E={(i,j): có liên kết từ i tới j; i,j=1 n}

 Mọi tính toán hạng trang thực hiện trên đồ thị này

Thuật toán PageRank

Trang 38

Thuật toán PageRank

Trang 39

• Các trang được xếp hạng theo page rank thực

Thuật toán PageRank

Trang 40

Thuật toán - Hướng tiếp cận ban đầu.

Giả thuyết: G(V,E) liên thông

 Công thức:

• Trong đó:

r(i): Hạng của trang web i.

N(j): Số liên kết ra khỏi trang j

Thuật toán PageRank

Trang 41

 Vấn đề:

 Số lượng thông tin rất lớn.

 Giải quyết:

 Thử đưa về mô hình toán học, áp dụng các thuật toán tính toán nhanh

Thuật toán PageRank

Cần phương pháp để tính toán

Trang 42

Xây dựng mô hình toán học

Trang 44

 Thuật toán – Cải tiến

 Vì sao phải cải tiến?

 Liệu có trang web nào có page rank bằng 0?

Thuật toán PageRank

Trang 45

Thuật toán cải tiến

Trang 47

Giới thiệu

Thuật toán PageRank

Cải tiến thuật toán PageRank

Thuật toán HITS

Cài đặt các thuật toán

Nội dung

Trang 48

Topic Sensitive PageRank

Trang 49

Taher H Haveliwala đề xuất, 2002

Trang 50

Adaptive PageRank

Trang 51

Sepandar D Kamvar và cộng sự, 2003

Tận dụng những trang hội tụ sớm và kết quả độ quan trọng của các trang đã hội tụ có thể không cần tính tiếp

Adaptive PageRank

Trang 52

Timed PageRank

Trang 53

Tích hợp tìm kiếm PageRank theo thời gian

Xin Li, Bing Liu, và Philip S Yu đề xuất, 2006

Thay hệ số hãm d bằng hàm thời gian f(t)

f(t) sẽ chọn đi theo 1 outbound link (liên kết đi)

(1-f(t)) sẽ nhảy sang 1 trang khác

Timed PageRank

Trang 54

Giới thiệu

Thuật toán PageRank

Cải tiến thuật toán PageRank

Thuật toán HITS

Nội dung

Trang 55

HITS - Hypertext Induced Topic Selection

 Jon M Kleinberg đề xuất, 1998 - 1999

 Không giống như PageRank - một thuật toán xếp hạng tĩnh, HITS phụ thuộc vào truy vấn tìm kiếm.

HITS

Trang 56

Authority pages: là những trang được xem là phù hợp nhất đối với mỗi câu truy vấn cụ thể nào đó

Authority

Auth

Trang 57

Hub pages: là những trang không cần có đặc tính “authority” nhưng lại trỏ tới nhiều trang có đặc tính “authority”.

Hub

Hub

Trang 58

Hub và Authority

Trang 59

Trang có hub tốt là trang có nhiều liên kết ra

Trang có authority tốt là trang có nhiều liên kết tới

Trang trỏ tới trang có authority cao thì trọng số hub càng cao, trang nào được nhiều trang có hub cao trỏ tới thì trọng số authority càng cao

Ý tưởng của HITS

Trang 60

Xác định tập hợp cơ sở S

Cho phép thiết lập các dữ liệu trả về bởi một công cụ tìm kiếm tiêu chuẩn được gọi là các

root set (thiết lập gốc) R

Khởi tạo S cho R

HITS - 1

Trang 61

Thêm vào S tất cả các trang được trỏ đến bởi bất kỳ trang nào trong R.

Thêm vào S tất cả các trang trỏ đến bất kỳ trang nào trong R

Duy trì cho mỗi trang p trong S:

Trọng số authority : (vector a)

Trọng số hub : (vector h)

HITS - 2

Trang 62

Đối với mỗi nút khởi tạo và với 1/n

Trong mỗi lần lặp tính toán trọng số authority cho mỗi nút trong S

HITS - 3

Trang 63

Trong mỗi lần lặp tính toán trọng số hub cho mỗi nút trong S

Lưu ý: Các trọng số hub được tính từ trọng số authority hiện hành, và trọng số hub trước đó.

HITS - 4

Trang 64

Sau khi trọng số mới được tính toán cho tất cả các nút, các trọng số được chuẩn hóa:

HITS - 5

Trang 65

Initialize for all

Trang 66

 Root Set R {1,2,3,4}

Ví dụ

Trang 67

Kết quả của ví dụ

Authority

Hub

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Trang 68

HITS nhấn mạnh tăng cường lẫn nhau giữa các trang authority và hub, trong khi PageRank thì không PageRank xếp hạng trang chỉ bởi các trang authority.

HITS được áp dụng cho các vùng lân cận của các trang xung quanh kết quả của một truy vấn trong khi PageRank được áp dụng cho toàn bộ trang web

HITS là truy vấn phụ thuộc nhưng PageRank là truy vấn độc lập

PageRank - HITS

Trang 69

Cả HITS và PageRank đều tính toán trên ma trận.

Đều không ổn định: thay đổi một số liên kết có thể dẫn đến bảng xếp hạng khác nhau

PageRank không quản lý các trang không có cạnh ngoài rất tốt, vì nó giảm PageRank tổng thể

PageRank - HITS

Trang 70

Khai phá dữ liệu Web(Web mining) có ý nghĩa quan trọng trong cuộc sống và công nghệ.

 PageRank hay HITS là các thuật toán cơ bản để xây dựng các Search Engine

Tuy nhiên, các search engine nổi tiếng như Google, Yahoo hay Bing đều có những cải tiến

và các thuật toán khác không được công bố!

Kết luận

Trang 71

 Giới thiệu

 Đồ thị Web

 Thuật toán PageRank

 Cải tiến thuật toán PageRank

 Thuật toán HITS

Nội dung

Trang 72

Q & A

Ngày đăng: 10/02/2017, 06:18

TỪ KHÓA LIÊN QUAN

w