Trong khi chỉ mCt trong nhiTu yếu tố xác định thứ hMng của kết quH tìm kiếm thì Pageợank tiếp tục cung cấp các cơ sở khác phục vụ cho công cụ tìm kiếm trên web nay.. VY du 2: Hãy tưởng t
Trang 1DE TAI
THUAT TOAN GOOGLE PAGERANK
TRONG DANH GIA WEB
GVHD: Th.S NGUYEN XUAN MY LOP L03, NHOM 15:
Sinh viên thực hiện Mã số sinh viên
Dinh Khánh Toàn 2313476
Nguyễn Đăng Vĩnh Thụy 2313373
Cao Quang Thuyên 2313363
Nguyễn Hoàng Tiến 2313435
Lê Chí Toàn 2313478
Phan Trần Hoàng Trâm 2313538
Tran Thai My Tran 2313557
Tp HCM, 12/2023
^^<
“ ĐẠI HỌC QUỐC GIÁ THÀNH PHÓ HÒ CHÍMINH #Š
TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC ỨNG DỤNG
Trang 2
ĐẠI HỌC QUỐC GIA TP HO CHI MINH TRUONG DAI HOC BACH KHOA KHOA KHOA HOC UNG DUNG
phân công tham gia
1 Dinh Khanh Toan 2313476 | Nhom truong 100%
2 Nguyễn Thái Thịnh 2313301 Ứng dụng 100%
3 Huỳnh Quốc Thông 2313332 CSLT 100%
4_ | Nguyễn Đăng Vĩnh Thụy | 2313373 Ứng dụng 100%
5 Cao Quang Thuyên 2313363 Viết Code 100%
6 Nguyễn Hoàng Tiên 2313435 CSLT 100%
7 Lé Chi Toan 2313478 Viết Code 100%
8 Phan Trần Hoàng Trâm | 2313538 CSLT 100%
9 Tran Thai My Tran 2313557 CSLT 100%
THUAT TOAN GOOGLE PAGERANK TRONG
DANH GIA WEB
Tp HCM, 12/2023
Trang 3MỤC LỤC
3 THUẬT TOÁN PAGERANK: 13 3.1 Thuật todn PageRank là øU? 13 3.2 Y tưởng hUnh thành thuật todn PagelRanll: - << = «se sss se se se 13 3.3 Phương phúp tYnh thuật todn PagelRanik: o5 555555 sssss ssssss 15 3.3.1 Mô tả dưSi dcng công thức: 15 3.3.2 Mo ta dwSi deng ma tran: 16 3.3.3 Phuong phdp tYnh: 16
5 UNG DỤNG CỦA THUẬT TOÁN PAGERANK VÀ CODE MATLAB: 21 5.1 Code và giải thYch code: 2I
5.2 Tiến hành chey thử chương trUnh: 5- 2 s2 s2 se scss seses 22
6 LOL KHUYEN KHI THIET KE 1 WEBSITE: 23
7, TiM HIEU VE GOOGLE ANALYTICS: 24 7.1 GiSi thiệu Google Analytics: 24
Trang 41.1 GiSĩ thiệu mồ hUnh Markov
- Markov la mCt ky thuat ước tính xác suất các sự kiện xHy ra trong tương lai bKng
việc phân tích xác suất biết trong hiện tMi Mô hình Markov là mCt mô hình toán hPc
được sŠ dụng rCng rãi trong nhiTu lĩnh vực gồm kinh tế, tài chính, kỹ thuật và máy tính Mô hình này dựa trên ý tưởng rKng trMng thái tương lai của mCt hệ thống chỉ phụ thuCc vào trMng thái hiện tMi chứ không phụ thuCc vào bất kỳ trMng thái nào trước đó
- Mô hình Markov là mCt công cụ toán hPc duoc sS dung để phân tích xác suất
chuyên đổi của mCt hệ thống từ trMng thái nảy sang trMng thái khác theo thời gian
Nó cho rKng xác suất chuyên sang trMng thái mới chỉ dựa trên trMng thái hiện tMi và không bị Hnh hướng bởi bất kỳ sự kiện nào trong quá khứ MCt trong những ứng
dụng chính của mô hình Markov 1a phan tích các hệ thông phức tMp thê hiện hành vi
1.2 XYch Markov và phân bố dừng:
1.2.1 Giơi thiệu về xích Markoy:
Trong toán hPc, mCt xích Markov đct theo tên nhà toán hPc người Noa Andreli Andreyevich Markov: là mCt quá trình ngau nhiên thời gian rời rMc với tính chất Markov Trong mCt quá trình như vậy, quá khứ không liên quan đến việc tiên đoán tương lai mà việc đó chi phy thuCc theo kiến thức vT hiện tMI
1.2.2 Xích Markov hbu hen treng thdi đồng nhgt thhi gian:
- uich Markov la mCt m6 hinh toan hPc m6 tag qua trinh chuyén dich tir mCt trMng thai sang mCt trMng thai khac dia trén mCt s6 quy luat xác suất nhất định
4
Trang 5- Nếu gias định rKng biến ngau nhiên trMng thái quan sát được là biến noau nhiên rời rMc, hay Xt {1— k} trMng thai, lhe nay m6 hinh của ta là xích Markov hữu hMn trMng
thai uac suat co diTu kign chuyên dịch khi biết trMng thái hiện tM¡ P(X/+1|X?) có thé
viết [Mi dưới dMng ma trận kxk, được gPi là ma trận chuyển dịch P, với Pi là xác suất chuyên dịch từ trMng thái j — trMng thái ¡ Mpi cCt của ma trận P có tổng bKng
mCt, vi vay ma tran nay gPi la ma tran ngau nhiên
- Khi mà ma trận chuyên dịch đCc lập với thời gian, nghĩa là quá khứ, hiện tMi và tương lai chhng ta chỉ có duy nhất mCt ma trận chuyến dịch thôi, chhng ta gPi day là mCt xích Markov đồng nhất thời gian
1.2.3 Phân bố dửng:
- Hệ mà chhng ta đang xqt là mCt xích Markov hữu hMn trMng thái đồng nhất thời gian Phân bố xác suất chuyến trMng thái có thế được biếu diễn dưới dMng mCt ma trận, øPi là ma trận chuyền trMng thái P, với thành phần tht (i,j) là xác suất chuyển dich te trMng thai j — trMng thai 1
PÿỤ=P(X:+1=ilÄ:=)
(+U)=Pxx()
(z là ma trận biêu diễn theo vector cCt, kích thước kx1)
- Nếu P là ma trận chuyên của mCt xích Markov, thì phần tug thứ (, 7) của ma trận P* cho chhng ta xác suất chuyền dịch từ trMng thái j > trMng thai ¡ sau n thực hiện
71 =Pxz0
VY dụ: Cho ma trận chuyền trMng thai P va ma tran ø1á trị ban đầu ủ0
TM = PxXm, = PXPX Tm) = P*X Trọ
Trang 6Ta nhan thay rKng khi n cảng lớn, các ma tran?’ duong nhu hCi tu dần vT mCt ma trận có g1á trị ổn định
® Dinh ly Perron Frobenius
“Nếu ma trận P là ma trận ngẫu nhiên cột (tổng thành phân từng cột bằng 1) vả P
là ma trận dương (cơ từng thả nh phân PỤ > 0) thì ma trận P chỉ( cơ duy nhất một phân bố dừng (duy nhất một vector riêng ứng vơ ¡ trì riêng bằ ng 1)ứ Tất ca( các trì riêng co n lại nho( hơn lứ”
- Ta nhận thấy rKng nếu ma trận chuyền trMng thái P của xich Markov hitu hMn trMng thai đồng nhất thời gian thua các điTu kiện của định lyy thì ma trận P ton tMi duy nhat
mCt phân bố dừng Hay nói cách khác,Ttn = P” X T0 (khin-›s) hCi tụ dần vT
duy nhất mCt ma trận x
- Phân bố dừng là mCt vector thua mãn phương trình: Pz*=z*
- Người ta gPi day 1a trMng thái cân bKng và phân bồ lhc này là phân bố dừng của
xích Markov hữu hMn trMng thái đồng nhất thời gian
Trang 7- x day ta quay vT bai toan tri méng, vector néng cua ma tran P với trị riêng À=I MCt tri riêng 2 có thế có rất nhiTu vector riêng, hơn nữa P chưa chắc có trị riêng A=1 Nhung dinh ly, Perron Frobenmius đã chứng minh, những ma trận thua đi Tu kiện
trên thì s| chắc chắn có trị riêng là =1 và duy nhất mCt vector riêng ứng với 2=I
2 Định nghĩa PageRank:
2.1 PageRank la gU?
- Pagegank 1a thuat toan phan tich cac lién két (link) duoc ding trong doogle Search dé xép hMng cac trang web phat trién tMi DMi hPc (My) Pagegank duge det tén theo Larry Page, nha déng sang lap aoogle va sau do duoc Sergey Brin tiếp tục nghiên cứu và ứng dụng trong mCt dự án nghiên cứu vT mCt loMi céng cy tim kiém mới ậự án này được bắt đầu từ năm 1995, kết quH của nó là sự ra đời của ấoogle vào năm 1998 Không lâu sau đó Page và Brin thành lập công ty ấoogle với cung cấp công cụ tìm kiếm là ấoogle Trong khi chỉ mCt trong nhiTu yếu tố xác định thứ hMng của kết quH tìm kiếm thì Pageợank tiếp tục cung cấp các cơ sở khác phục vụ cho công cụ tìm kiếm trên web nay Pageoank phát triển dựa trên công trình
Citation Analysis cua đớugene ấarfñeld vào những năm 1950 tMi DMi hPc
Pennsylvania, các nhà sáng lập doogle cbng đã từng trích dan công trình của aarfield trong trang gốc của hP
+ Thuật toán này chỉ định giá trị nhất định cho mọi thành phần của mCt tập hợp các văn bHn liên kết với nhau
VY du 1: yorld yide yeb
+ Mục đích “đo” tầm quan trPng tương đối của các liên kết trong tập hợp các văn
bMn liên kết với nhau
+ Ap dung cho bat kỳ tập hợp văn bHn nào có trích dan đối xứng và liên kết cụ thé + aia tri (weight) ma no gan cho bat ky thanh phan A duoc gPi la Pagerank cua A
và ký hiệu là PR(A)
Trang 82.2 Tci sao cần có thuật todn PageRank?
- Thuật toán Papeợank được phát triển bởi oogle với mục đích đánh giá tam quan trPng tương đối của ýebsite trong toàn bC hệ thống ýorld ýide ýeb Việc đánh
giá này rất quan trPng trong việc so sánh trang web mình với các trang web khác và
từ đó phát triển các chiến lược phù hợp đề cH¡ thiện thứ hMng trang web đó
- Ngoài ra, Pagegank cbng øihp ấoogle đưa ra các kết quH tìm kiếm phủ hợp và chính xác hơn với ý muốn của người dùng Tóm Mi, Pagegank là mCt yếu tố quan
trPng gihp hé thong tìm kiếm hoMt đCng tốt hơn vả gihp các nhà phát triển nâng cao hiệu quH của trang web mình
VY du 2: Hãy tưởng tượng bMn đang xem xqt mCt trang web tin tức và bMn muốn tìm hiểu vT mCt chu dT cy thé, chang hMn như "điện thoMi di đCng mới." Các trang web
có liên quan đến điện thoMI di dCng s| duoc hién thi trong két quH tim kiếm, và thứ
tự của chhng có thé được xác định bởi Pageoank
Trang A (Dién thoci Di Dong Express):
Co nhiTu bai viét chat lượng vT dién thoMi di dCng
Có liên kết từ các trane web uy tín vT công nghệ
Trang B (Tin Công Nghệ Hàng Đầu):
Co nhiTu đánh giá chị tiết vT điện thoMI di đCng mới nhất
Nhận được nhiTu liên kết từ các trang web uy tín trong lĩnh vực công nghệ
Trang C (Blog Cd Nhân về Điện Thoci):
Chia sẻ ý kiến cá nhân và trHi nghiệm vT các mô hình điện thoMHI di đCng
Có mCt số liên kết đến từ cCng đồng đánh giá sHn phẩm
Nếu Pageơank đánh giá các liên kết này mCt cách tích cực, khi bMn tìm kiếm "điện
thoMi di dCng mdi," co khH năng cao Trang A và Trang B s| xuất hiện ở phía trên
trong kết quH tìm kiếm, vì chhng có uy tín cao trong lĩnh vực điện thoMi di đCng DiTu nay gihp bMn tim được thông tin chất lượng và đáng tin cậy vT chủ ấT bMn quan tâm
Trang 92.3 Một ý tưởng chưa hoàn tgt— BadRank:
2.3.1 Thuật todn BadRank:
- Det Lij=1 néu nhu trang web j có liên kết đến trang web i, ngược IMi¡ Lij=0
Ta coi như không có liên kết từ trang web j đến chính nó (Pij = 0 vSi i=j) Lhc này
ta có mị là tổng số liên kết mà web j tru đến các trang web khác
- Với hai ý tưởng xây dựng thuật toán được nêu trên, chhng ta có thể “tMm” định nghĩa đC đo Badợank như sau:
- Công thức trên thua mãn hai ý tưởng vT thuật toán ban đầu:
Đồng biến với P;: nếu như trang web j là mCt trang web nổi tiếng và có liên kết đến
với ¡ thì s| tấng mức xêp hMng của i
Nghịch biến với mị: nếu như trang web j có quá nhiTu liên kết tới các trang web khác thi uy tín mà j đóng góp cho 1 càng ít
- ẤiHi thuật Papeợank phát triển dựa trên việc phân tích liên kết giữa các trang (web link analysis) Pagegank của ấoogle hiển thị trên ấoogleToolbar là mCt số nguyên
tr 0 —10 Don vi Pagegank co ty lệ loparithmic dựa trên khối lượng link tru đến
và chất lượng những trang web chứa đường link xuất phát này
- Paeeơank là thước đo duy nhất mà áoogle cung cấp cho ýebmaster đề đánh giá mức đC phổ biến của trang Papeơank s| Hnh hưởng tới thứ hMng trên trang kết quH tìm kiếm Trang có Pagegank càng cao thì vị trí của nó trên trang kết quH tìm kiếm cảng được ưu tiên
Trang 102.3.2 Dién giai BadRank duSi deng xYch Markov:
- Mpi trang web cé thé xem như mCt trMng thai TMi mpi trang web j co m; lién lién kết khác nhau, xem xác suất mà chhng ta chuyén sang trang web khac + lạ:
+ Li=1 nếu trang web j có link đến trang web i
+ Lự=0 nếu trang web j không có link đến trang web ¡
+ Trang web j không có link đến chính nó (L=0 khi i=j)
= M là ma trận chqo kích cỡ kxk với các phân tS m, là số liên kết tru đi của trang web J
2.4 Mô tả PageRank:
- Pagegank la phan bố xác suất, được sS dụng dé thé hién khH nang khi mCt
ngwoi click chuCt ngau nhién vao duong link va s| toi duge trang web cu thé
- Aid tri Papeơank hình thành từ thuật toán toán hPc dựa trên biểu đồ web các trang web được coi như các đỉnh và các đường link là các cMinh Papeơank được định nehĩa đệ quy và phụ thuCc vào số lượng và giá trị của các trane mà có xếp hMng cho
10
Trang 11thấy quan trPng của từng trang cụ thể Mpi đường link tới trang web s| được tính như mCt sự hp trợ làm tăng thêm giá trị Papegank
Hinh 2.4.1 M6 ta PageRank
- aia tri link dan dén trang d6 MCt trang wed có chứa nhiTu link liên kết từ các trang web có gia tr Pageoank cao thi gia tri Pagegank cua trang do cbng s| cao déng nghia voi trang web quan trPng n va duge xép hMng cao trong két quH tim kiém
PageRank™
Simulator
Hinh 2.4.2 M6 ta PageRank
11
Trang 12VY dụ 3: Đề xếp hMng trang web dựa trên mức đC quan trPng của chhng trong mMIng liên kết âưới day la mCt vi dụ ø1H định với 3 trang web A, B, va C
+ Á¡H sS trang A có mCt liên kết đến trang B va mCt lién két dén trang C Trang C cbng có mCt liên kết đến trang A
Hình 2.4.3 Liên kết trong Thuật todn Pagerank
Ma trận xác suất chuyên trMng thai, thường được ký hiệu là P Ma trận này thể hiện xác suất từ trang i chuyền đến trang j Trong trường hợp nảy, chhng ta có:
0 05 05 0.5 0 0 0.5 0 0 aiH sS ta bat dau vi mCt vector xép hMng ban dau 1a 61/3, 1/3, 1/3ừ cho ba trang web Sau mpi lan lcp, ta tính toán vector xếp hMng moi bKng cách nhân ma trận xác
suất chuyên trMng thái với vector xếp hMng hiện tMI
ê1/⁄3, 1⁄3, 1/3ừ *P=ễ1/⁄3, 1⁄6, l/6ừ
Vậy trang A s| được xếp đầu
12
Trang 133 Thuật todn PageRank:
3.1 Thuật todn PageRank là øU?
- Pageoank là thuật toán tìm kiếm được phát triển bởi hai nhà đồng sáng lập ấoogle
la Larry Page va Sergey Brin voi giH thuyét: “Su lon mMnh cua mCt trang web có thé duoc danh gia boi sé hyperlink (siéu liên kết) được tru đến trang web”
- Pagegank la sw phan bố xác suất, được sử dụng để thể hiện khH năng khi mCt người click chuCt ngau nhiên vào đường link và s| tới được trang web cụ thê ủác suất có giá trị từ 0 đến 1, khi mCt trang web có Pagerank là 0.5 thì nó có 50% co hCi duoc click vao link chỉ đến trang web đó
3.2.Ý tưởng hUnh thành thuật todn PageRank:
- aiH sS chhng ta có tập k trang web được đánh số từ I—›k, Papeợank của trang web ¡ được tính dựa trên các liên kết trang web khác đến nó (trang web j liên kết tru đến ï), nhưng không phHi bất kì liên kết nào cbng cbng được tính điểm như nhau, chhng ta mong muốn mCt thuật toán thật công bKng Thuật toán Paeegank được xây dựng dựa trên hai ý tưởng cơ bHn như sau:
+ Trang web A tru liên kết đến B, nếu A là mCt trang web xếp hMng cao thì phHi
gihp B có xếp hMng cao hơn ( gank B đồng biến với gank A)
+ Trang web A tru liên kết đến B, A tru đến càng nhĩTu trang web thì gihp B tăng
thứ hMng cảng ít (gank B nghịch biến với số link tru đi của A)
- 4iH sS mCt nhom gém 4 trang web: A, B, C và ậ Những liên kết từ mCt trang đến chính nó không được tính, mpi trang web có mCt đường dan duy nhất đến mCt trang web khac aia trị Pagegank của các trang ban đầu được cho là bKng nhau ã¡ïH sS giá trị ban đầu cho mọi trang là 0,25 Pagegank chuyến từ mCt trang đến các trang khác bKng các đường link, trone những bước tính tiếp theo giá trị s| được chia đTu
cho tat cH các liên kết đó Nếu các liên kết duy nhất trong hệ thống từ các trang B, C
và ậ tới A, mpi liên kết s| chuyén gid tri bKng 0,25 Pageoank A khi tính trong lần
tiếp, tổng cCng là 0,75
13