1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo môn Đại số tuyến tính pagerank

23 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Pagerank
Tác giả Đinh Khỏnh Toàn, Huỳnh Quốc Thụng, Phan Trần Hoàng Trõm, Thỏi Thịnh, Tiến Nguyễn, Toàn Lờ, Trần Thỏi Mỹ Trõn, Vĩnh Thụy
Người hướng dẫn Nguyễn Xuõn Mỹ
Trường học Đại Học Quốc Gia TP Hồ Chí Minh
Chuyên ngành Đại Số Tuyến Tính
Thể loại báo cáo
Năm xuất bản năm …
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 23
Dung lượng 3,81 MB

Nội dung

-Mô hình Markov là một công cụ toán học được sử dụng đểphân tích xác suất chuyển đổi của một hệ thống từ trạng thái này sang trạng thái khác theo thời gian.. Xch Markov hữu hạn trạng th

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

KHOA

� ···☼··· �

BÁO CÁO MÔN Đại số tuyến tính:Pagerank Giảng viên hướng dẫn: Nguyễn Xuân Mỹ Sinh viên thực hiện Mã số sinh viên Đinh Khánh Toàn 231 Huỳnh Quốc Thông 2313332

Phan Trần Hoàng Trâm 231

Thái Thịnh 231

Tiến Nguyễn 231

Toàn Lê 231

Trần Thái Mỹ Trân 231

Vĩnh Thụy 231

Thành phố Hồ Chí Minh, tháng …, năm …

Trang 2

1 Giới thiệu mô hình Markov

-Markov là một kỹ thuật ước tính xác suất các sự kiện xảy

ra trong tương lai bằng việc phân tích xác suất biết trong hiện tại Mô hình Markov là một mô hình toán học được sử dụng rộng rãi trong nhiều lĩnh vực gồm kinh tế, tài chính, kỹ thuật

và máy tính Mô hình này dựa trên ý tưởng rằng trạng thái tương lai của một hệ thống chỉ phụ thuộc vào trạng thái hiện tại chứ không phụ thuộc vào bất kỳ trạng thái nào trước đó

-Mô hình Markov là một công cụ toán học được sử dụng đểphân tích xác suất chuyển đổi của một hệ thống từ trạng thái này sang trạng thái khác theo thời gian Nó cho rằng xác suất chuyển sang trạng thái mới chỉ dựa trên trạng thái hiện tại và không bị ảnh hưởng bởi bất kỳ sự kiện nào trong quá khứ Một trong những ứng dụng chính của mô hình Markov là phân tích các hệ thống phức tạp thể hiện hành vi ngẫu nhiên

-Mô hình Markov có thể được áp dụng cho nhiều loại hệ thống khác nhau, bao gồm các hệ thống đơn giản như tung đồng xu, cũng như các hệ thống phức tạp hơn như mô hình tài chính, mô hình sinh học và môi trường thậm chí cả xử lý ngôn ngữ tự nhiên

2 Xích Markov và phân bố dừng

2.1 Gii thiệu v xch Markov

Trong toán học, một xích Markov đặt theo tên nhà toán học người Nga Andrei Andreyevich Markov: là một quá trình ngẫu nhiên thời gian rời rạc với tính chất Markov Trong một

Trang 3

quá trình như vậy, quá khứ không liên quan đến việc tiên đoán tương lai mà việc đó chỉ phụ thuộc theo kiến thức về hiện tại

2.2 Xch Markov hữu hạn trạng thái đồng nhất thời gian

-Xích Markov là một mô hình toán học mô tả quá trình chuyển dịch từ một trạng thái sang một trạng thái khác dựa trên một số quy luật xác suất nhất định

-Nếu giả định rằng biến ngẫu nhiên trạng thái quan sát được là biến ngẫu nhiên rời rạc, hay Xt {1→ k} trạng thái, lúc này mô hình của ta là xích Markov hữu hạn trạng thái Xác suất có điều kiện chuyển dịch khi biết trạng thái hiện tại

�(� �+|� �) có thể viết lại dưới dạng ma trận k×k, được gọi là

ma trận chuyển dịch , với P Pij là xác suất chuyển dịch từ trạngthái j → trạng thái Mỗi cột của ma trận có tổng 1, vì vậy i P =

ma trận này gọi là ma trận ngẫu nhiên

-Khi mà ma trận chuyển dịch độc lập với thời gian, nghĩa

là quá khứ, hiện tại và tương lai chúng ta chỉ có duy nhất một

ma trận chuyển dịch thôi, chúng ta gọi đây là một xích Markov

đồng nhất thời gian

2.3 Phân b& d(ng

-Hệ mà chúng ta đang xét là một xích Markov hữu hạn trạng thái đ ồ n g nhất thời gian Phân bố xác suất chuyển

trạng thái có thể được biểu diễn dưới dạng một ma trận, gọi là

ma trận chuyển trạng thái , với thành phần thứ P (� �, ) là xác suất chuyển dịch từ trạng thái trạng thái ji

Trang 4

��= ( �(� �+�= | �|� �= )

� �+�= × � � �

(π là ma trận biểu diễn theo vector cột, kích thước k×1)

-Nếu là ma trận chuyển của một xích Markov, thì phần P

tử thứ (� �, ) của ma trận � � cho chúng ta xác suất chuyển dịch

từ trạng thái j → trạng thái sau thực hiện i n

�1 = × 0

Ví dụ: Cho ma trận chuyển trạng thái P và ma trận giá trị ban đầu X0

Ta nhận thấy rằng khi càng lớn, các ma trận dường n

như hội tụ dần về một ma trận có giá trị ổn định

Trang 5

-Ta nhận thấy rằng nếu ma trận chuyển trạng thái P của xích Markov hữu hạn trạng thái đồng nhất thời gian thỏa các điều kiện của định lý thì ma trận P tồn tại duy nhất một phân bốdừng Hay nói cách khác, (khi n 

∞) hội tụ dần về duy nhất một ma trận π *

-Phân bố dừng là một vector thỏa mãn phương trình:

�� =∗ ∗

-Người ta gọi đây là trạng thái cân bằng và phân bố lúc này

là phân bố dừng của xích Markov hữu hạn trạng thái đồng nhất thời gian

-h đây ta quay về bài toán trị riêng, vector riêng của ma trận P với trị riêng λ=1 Một trị riêng có thể có rất nhiều λ

vector riêng, hơn nữa P chưa chắc có trị riêng λ=1 Nhưng định

lý Perron Frobenius đã chứng minh, những ma trận thỏa điều kiện trên thì sẽ chắc chắn có trị riêng là λ=1 và duy nhất một vector riêng ứng với λ=1

Trang 6

3.1 PageRank là gì?

-PageRank là thuật toán phân tích các liên kết (link) được dùng trong Google Search để xếp hạng các trang web phát triển tại Đại học (Mỹ) PageRank được đặt tên theo Larry Page, nhà đồng sáng lập Google và sau đó được Sergey Brin tiếp tục nghiên cứu và ứng dụng trong một dự án nghiên cứu về một loại công cụ tìm kiếm mới Dự án này được bắt đầu từ năm

1995, kết quả của nó là sự ra đời của Google vào năm 1998 Không lâu sau đó Page và Brin thành lập công ty Google với cung cấp công cụ tìm kiếm là Google Trong khi chỉ một trong nhiều yếu tố xác định thứ hạng của kết quả tìm kiếm thì PageRank tiếp tục cung cấp các cơ sở khác phục vụ cho công

cụ tìm kiếm trên web này PageRank phát triển dựa trên công trình Citation Analysis của Eugene Garfield vào những năm

1950 tại Đại học Pennsylvania, các nhà sáng lập Google cũng

đã từng trích dẫn công trình của Garfield trong trang gốc của

họ

+ Thuật toán này chỉ định giá trị nhất định cho mỗi thành phần của một tập hợp các văn bản liên kết với nhau Ví dụ như World Wide Web

+ Mục đích ‘’đo” tầm quan trọng tương đối của các liên kết trong tập hợp các văn bản liên kết với nhau

+ Áp dụng cho bất kỳ tập hợp văn bản nào có trích dẫn đối xứng và liên kết cụ thể

+ Giá trị (weight) mà nó gán cho bất kỳ thành phần A được

gọi là Pagerank của A và ký hiệu là PR(A)

3.2 Tại sao cần có thuật toán PageRank?

Trang 7

-Thuật toán PageRank được phát triển bởi Google với mục đích đánh giá tầm quan trọng tương đối của Website trong toàn bộ hệ thống World Wide Web Việc đánh giá này rất quan trọng trong việc so sánh trang web mình với các trang web khác và từ đó phát triển các chiến lược phù hợp để cải thiện thứ hạng trang web đó

-Ngoài ra, PageRank cũng giúp Google đưa ra các kết quả tìm kiếm phù hợp và chính xác hơn với ý muốn của người dùng Tóm lại, PageRank là một yếu tố quan trọng giúp hệ thống tìm kiếm hoạt động tốt hơn và giúp các nhà phát triển nâng cao hiệu quả của trang web mình

3.3 Một - tưởng chưa hoàn tất – BadRank

3.3.1 Thuật toán BadRank

-Đặt L ij =1 nếu như trang web có liên kết đến trang web , j i

ngược lại L ij =0

Ta coi như không có liên kết từ trang web đến chính nó (j P ij =

0 vi i=j ) Lúc này ta có m j là tổng số liên kết mà web trỏ j

đến các trang web khác Với hai ý tưởng xây dựng thuật toán được nêu trên, chúng ta có thể “tạm” định nghĩa độ đo

BadRank như sau:

Công thức trên thỏa mãn hai ý tưởng về thuật toán ban đầu:

-Đồng biến với : nếu như trang web là một trang web nổiPj j

tiếng và có liên kết đến với thì sẽ tăng mức xếp hạng của i i

-Nghịch biến với : nếu như trang web có quá nhiều liên mj j

kết tới các trang web khác thì uy tín mà đóng góp cho càng ít.j i

Trang 8

-Giải thuật PageRank phát triển dựa trên việc phân tích liên kết giữa các trang (web link analysis) PageRank của Google hiển thị trên GoogleToolbar là một số nguyên từ 0

10 Đơn vị PageRank có tỷ lệ logarithmic dựa trên khối lượng link trỏ đến và chất lượng những trang web chứa đường link xuất phát này

-PageRank là thước đo duy nhất mà Google cung cấp cho Webmaster để đánh giá mức độ phổ biến của trang PageRank

sẽ ảnh hưởng tới thứ hạng trên trang kết quả tìm kiếm Trang

có PageRank càng cao thì vị trí của nó trên trang kết quả tìm kiếm càng được ưu tiên

3.3.2 Diễn giKi BadRank dưi dạng xch Markov

- Mỗi trang web có thể xem như một trạng thái Tại mỗitrang web có j mj liên kết khác nhau, xem xác suất mà chúng ta chuyển sang trang web khác là

Giờ chúng ta có thể diễn giải BadRank dưới dạng xích Markov hữu hạn trạng thái đồng nhất thời gian:

- Ma trận chuyển dịch P với xác suất chuyển dịch trạngthái:

+ Nếu có liên kết từ j đến i:

+ Ngược lại: �� = 0

⇒ Khi đó, ma trận chuyển xác suất được tính bằng công P thức:

Trang 9

= ×

Trong đó:

L là ma trận kích c„ k×k là ma trận kề với phần tử

+ Lij=1 nếu trang web j có link đến trang web i

+ Lij=0 nếu trang web j không có link đến trang web i + Trang web j không có link đến chính nó (Lij=0 khi i=j)

⇒ M là ma trận chéo kích c„ k×k với các phần tử m là số liênj

kết trỏ đi của trang web j

và phụ thuộc vào số lượng và giá trị của các trang mà có xếp hạng cho thấy quan trọng của từng trang cụ thể Mỗi đường link tới trang web sẽ được tính như một sự hỗ trợ làm tăng thêm giá trị PageRank

Trang 10

Hình 4.1 Mô tK PageRank

- Giá trị ink dẫn đến trang đó Một trang wed có chứa l

nhiều link liên kết từ các trang web có giá trị PageRank cao thì giá trị PageRank của trang đó cũng sẽ cao đồng nghĩa với trang web quan trọng n và được xếp hạng cao trong kết quả

tìm kiếm

H&nh 4.2 Mô t3 PageRank

Trang 11

5 Thuật toán PageRank

5.1 Thuật toán PageRank là gì?

-PageRank là thuật toán tìm kiếm được phát triển bởi hai nhà đồng sáng lập Google là Larry Page và Sergey Brin với giả thuyết: “Sự lớn mạnh của một trang web có thể được đánh giá bởi số hyperlink (siêu liên kết) được trỏ đến trang web”

-PageRank là sự phân bố xác suất, được sừ dụng để thể hiện khả năng khi một người click chuột ngẫu nhiên vào đườnglink và sẽ tới được trang web cụ thể Xác suất có giá trị từ 0 đến 1, khi một trang web có Pagerank là 0.5 thì nó có 50% cơ hội được click vào link chỉ đến trang web đó

5.2 Ý tưởng hình thành thuật toán PageRank

Giả sử chúng ta có tập trang web được đánh số từ k 1 k, PageRank của trang web được tính dựa trên các liên kết trangi

web khác đến nó (trang web liên kết trỏ đến ), nhưng không j i

phải bất kì liên kết nào cũng cũng được tính điểm như nhau, chúng ta mong muốn một thuật toán thật công bằng Thuật toán PageRank được xây dựng dựa trên hai ý tưởng cơ bản nhưsau:

+ Trang web A trỏ liên kết đến B, nếu A là một trang web xếp hạng cao thì phải giúp B có xếp hạng cao hơn ( Rank B đồngbiến với Rank A)

+ Trang web A trỏ liên kết đến B, A trỏ đến càng nhiều trangweb thì giúp B tăng thứ hạng càng ít (Rank B nghịch biến với số link trỏ đi của A)

Trang 12

5.3 Mô tK thuật toán một cách đơn giKn hóa

-Giả sử một nhóm gồm 4 trang web: A, B, C và D Những liên kết từ một trang đến chính nó không được tính, mỗi trang web có một đường dẫn duy nhất đến một trang web khác Giá trị PageRank của các trang ban đầu được cho là bằng nhau Giả sử giá trị ban đầu cho mỗi trang là 0,25 PageRank chuyển

từ một trang đến các trang khác bằng các đường link, trong những bước tính tiếp theo giá trị sẽ được chia đều cho tất cả các liên kết đó Nếu các liên kết duy nhất trong hệ thống từ các trang B, C và D tới A, mỗi liên kết sẽ chuyển giá trị bằng 0,25 PageRank A khi tính trong lần tiếp, tổng cộng là 0,75

có nghĩa nó sẽ chuyển 1/3 giá trị tương đương với 0,083 tới A

Hoặc

Giá trị PageRank đối với bất kỳ trang ‘u’ có thể tính như sau:

Trang 13

-Giá trị PageRank đối với trang u phụ thuộc vào giá trị )

��(� có chứa trong set (tập hợp chứa trang có link đến � �

trang u), chia cho số có trang ( �(�) link từ trang v

-Thuật toán PageRank đối với một số hệ thống liên kết đơn giản sẽ được hiển thị tỉ lệ bằng % Trang C có một

Pagerank cao hơn so với trang D, mặc dù ít liên kết đến trang C; một link duy nhất dẫn tới C từ một trang quan trọng và chính vì thế mà C có giá trị cao

-Thuật toán PageRank ví như một lớp học nho nhỏ vậy, khi

đó giáo viên chính là thuật toán cuối cùng đánh giá lớp học đó,các bạn trong lớp viết ra tên những người bạn mà mình đánh giá cao kèm theo tên của mình Kết quả cuối cùng công bố cho

cả lớp công bằng nhất là khi:

+ Một bạn trong lớp được đánh giá cao, bạn ấy đánh giá cao một bạn khác trong lớp thì điều đó phải đáng tin cậy hơn một bạn khác ít được đánh giá cao hơn

+ Một bạn đánh giá quá nhiều bạn thì có vẻ lập trường không vững, chúng

ta sẽ giảm bớt một ít niềm tin vào những đánh giá này

5.4 Phương pháp tnh thuật toán PageRank

5.4.1 Mô tK dưi dạng công thức

Thuật toán PageRank chỉnh sửa lại ý tưởng ban đầu – BadRank, bằng cách thêm một tham số d (được gọi là Damping Factor)

Trang 14

+ = ��−� là ma trận chuyển xác suất khi chưa có yếu tố Damping

+ Ta đã biết, khi thêm yếu tố Damping vào thì xác suất người dùng click vào link trên trang web chỉ c•n là 85%, 15% c•n lại người dùng sẽ chuyển đến 1 trang web ngẫu nhiên trên tổng số k trang web

+ Vậy phần tử � �� (xác xuất từ trang j ⟶trang i) trong ma trận chuyển trạng thái P sẽ nhân với xác suất 0,85 và được cộng

Trang 15

thêm xác suất ngẫu nhiên có giá trị Ta sẽ được ma trận Q là

ma trận chuyển trạng thái khi có yếu tố Damping

- Ngược lại Lij=0 nếu trang web không có liên kết trỏ j

đến trang web Và không có liên kết từ trang web trỏ đến i j chính nó L jj=0

Lúc này ta thành ma trận M là ma trận chéo kích thước k×k

với phần tử mj là tổng số đường link mà trang web dẫn đến cácj

Trang 16

⇒ Khi đó các phần tử pij là xác suất người dùng từ trang web

j chuyển trang web i

Bưc 2 : Thành lập ma trận là ma trận chuyển xác suất cóQ

chứa yếu tố damping Ta có (với là ma trận vuông c„ với các E k phần tử đều bằng 1)

Bưc 3: Tìm ma trận PageRank R

Trang 17

h trạng thái cân bằng = × � �, phân bố lúc này là phân bố dừng của xích Markov hữu hạn trạng thái đồng nhất thời gian Ma trận chuyển trạng thái thỏa điều kiện của định Q

lý Perron Frobenius Chính vì vậy mà chỉ tồn tại 1 vector Q

riêng với trị riêng bằng 1 Các giá trị của ma trận lần lượt R R

là PageRank của trang web k

- = × ⇒ � � (� − ) × = � � � (I là ma trận đơn vị

cấp k)

- ( (� − ) khi khai triển thành bậc thang có 1 hàng

bằng 0, ta sẽ bỏ 1 hàng của ma trận( (� − ) và thay bằng phương trình: ++ ⋯ + � �=

⇒ Giải hệ phương trình trên ta tìm được PageRank của các

trang web

6 Yếu tố Damping

-Theo lý thuyết Google PageRank cho rằng: Ngay cả một người dùng click ngẫu nhiên vào các Website cũng sẽ dừng lại.Xác suất người dùng tiếp tục click trong bất cứ bước nào được gọi là yếu tố Damping

-Giá trị PageRank thể hiện những cơ hội mà người dùng ngẫu nhiên sẽ được chuyển đến page bằng cách click vào đường link Khi tính PageRank, những page không có link trỏ đicác trang khác sẽ được giả định có link trỏ đến tất cả các pagetrong tập văn bản Như vậy giá trị PageRank sẽ được chia đều cho các trang khác

Trang 18

-Khái niệm được sử dụng để tránh vấn đề đường cụt được

mô tả ở hình 2.8 và 2.9 h hình 2.8 có 3 trang web: u, v, k nhưng không có outlink từ k Vì vậy tất cả xếp hạng đều dồn ở

k và không ra ngoài h hình 2.9, có 2 trang web u và v: hai trang này liên kết với nhau Vì vậy xếp hạng chỉ chuyển giữa hai trang với nhau

H&nh 6 Yu t+ Damping

-Khả năng nhảy này trong PageRank đặc trưng bởi hệ số

“Damping factor” (d) Hệ số này thường được đặt là 0.85 Côngthức trở thành:

-Theo Google thống kê, nếu như một người lướt web từ một trang bất kì thì có xác suất 85% chọn một link ngẫu nhiên trên trang mà họ đang xem và 15% họ sẽ chọn chuyển sang một trang web bất kỳ từ toàn bộ các hệ thống liên kết

Ngày đăng: 19/12/2024, 15:34

w