TÌM HIỂU VÀ CÀI ĐẶT CÁC THUẬT TOÁN XẾP HẠNG TRANG WEB

Chỉ số PageRank của một website nào đó không chỉ phụ thuộc vào số liên kết ngượcBackLink tới website đó, mà còn nó còn dựa vào mức độ quan trọng của các liên kếtngược đó.. Cần phải tăng

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CAO HỌC CÔNG NGHỆ THÔNG TIN QUA MẠNG

CƠ SỞ DỮ LIỆU NÂNG CAO

BÀI THU HOẠCH:

TÌM HIỂU VÀ CÀI ĐẶT CÁC THUẬT TOÁN

Trang 2

Xin chân thành cám ơn gia đình và bạn bè đã ủng hộ, giúp đỡ và động viên em trongthời gian học tập và nghiên cứu.

Mặc dù đã cố gắng hoàn thành bài luận nhưng chắc chắn không tránh khỏi thiếu sót Emkính mong nhận được sự thông cảm và tận tình chỉ bảo của quý thầy cô

Học viên thực hiệnHuỳnh Tuấn AnhTpHCM, 08/2012

Trang 3

Mục Lục

Trang 4

Chương 1: Thuật toán PageRank

I Giới thiệu về PageRank:

1.1 Định nghĩa:

PageRank hay Ranking viết tắt là PR tạm dịch là thứ hạng trang Khi nói đếnPageRank người ta thường nghĩ đến ngay Google PageRank Đó là một hệ thống xếp hạngtrang Web của các máy tìm kiếm nhằm sắp xếp thứ tự ưu tiên đường dẫn URL trong trangkết quả tìm kiếm

PageRank™ là một thương hiệu của Google, được phát triển ở Đại học Stanford bởiLarry Page và Sergey Brin (2 nhà đồng sáng lập Google Inc) trong một dự án về công cụtìm kiếm năm 1995

PageRank là chỉ số xếp hạng của một trang web theo cách nhìn của Google có giá trịthay đổi từ 0 đến 10 (0 là không quan trọng chút nào và 10 là rất, rất quan trọng)

Chỉ số PageRank của một website nào đó không chỉ phụ thuộc vào số liên kết ngược(BackLink) tới website đó, mà còn nó còn dựa vào mức độ quan trọng của các liên kếtngược đó Nói một cách khác, chỉ số PageRank của một website nào đó là kết qủa bầu chọncủa tất cả các trang web khác trên toàn thế giới WWW cho website đó về mức độ quantrọng của trang Mỗi liên kết ngược là 1 phiếu bầu Các phiếu bầu này có mức độ ảnh hưởngkhác nhau, sự khác nhau đó phụ thuộc vào chất lượng (hay tính quan trọng) của mỗi trangđặt liên kết ngược Website nào có chỉ số PageRank cao thì chứng tỏ đó là website chấtlượng quan trọng (High-quality, Important)

Google kiểm tra số lần mà từ khóa xuất hiện trên trang và xem xét tất cả các khíacạch khác (Người ta thường gọi là yếu tố thứ n+1, vì Google từ lâu vẫn giấu kín thuậttoán xếp hạng trang web của mình và tất cả những gì mọi người biết là một điểm khá chungchung: Nếu trang web của bạn càng được nhiều trang khác chỉ đến thì trang của bạn 'có lẽ'

sẽ được xếp hạng cao hơn.) về nội dung của trang (và cả nội dungtìm kiếm tốt nhất chongười dùng của các trang liên kết tới nó) để xác định kết quả

Kết luận, Google PageRank là hệ thống kiểm định giá trị liên kết nhận được, dựa vào

số lượng và chất lượng liên kết, để quyết định tầm quan trọng của trang web Ngoài raPageRank còn tính dựa trên những yếu tố khác mà Google không công khai (vì e ngạiwebmaster sẽ “chạy đua PageRank” một cách không công bằng)

1.2 Những lợi ích của PageRank:

Google PageRank hiện nay được coi là chỉ số đáng tin cậy nhất đánh giá giá trị mỗi

Trang 5

cho khách truy cập, điều này đặc biệt có ý nghĩa với các website kinh doanh thương mạiđiện tử.

Google PageRank ảnh hưởng trực tiếp tới vị trí hiển thị của mỗi trang web khi cạnhtranh thứ hạng hiển thị trong danh sách kết quả tìm kiếm của Google Nếu bạn muốnwebsite của mình tăng thứ hạng trong danh sách kết quả tìm kiếm của Google, hãy nâng caoGoogle PageRank cho các trang web trong website của bạn

Google PageRank là một công cụ hỗ trợ các webmaster quản trị website Đồng thời,một trang web có Google PageRank cao phần nào chứng minh năng lực quản trị tốt củawebmaster website đó

1.3 Làm thế nào để xem Google PageRank của một trang web?

Bạn có thể sử dụng Google Toolbar – thanh công cụ hỗ trợ người dùng duyệt web.Hoặc bạn có thể kiểm tra Google PageRank trực tuyến tại các máy chủ của Google

1.4 Làm thế nào để tăng Google PageRank?

Về cơ bản, theo các chuyên gia của Google: "Không được sử dụng các phương phápgiả tạo, hãy tạo ra các trang web cho mọi người chứ không phải cho các công cụ tìm kiếm"

Cấu trúc website, cấp bậc cần rõ ràng, nội dung thông tin cần phong phú, hữu ích.Website không được chứa các liên kết lỗi, các lỗi HTML, lỗi câu lệnh

Đăng ký website vào Open Directory Project và Yahoo Directory!, cũng như cácwebsite chất lượng khác

II Thuật toán PageRank

Page và Brin đã đưa ra một thuật toán nhằm giúp cho công việc tính toán hạng trang.

Thuật toán này dựa trên ý tưởng rằng: nếu có links từ trang A đến trang B thì có thể coi như

là một sự tiến cử của trang A đối với trang B Điều này cũng có thể thấy được một cách trựcquan rằng nếu một trang Web nào đó được liên kết với trang Yahoo thì chắc chắn sẽ quantrọng hơn nêu nó được liên kết với một trang vô danh nào đó Giả sử ta có một tập các trangWeb với các liên kết giữa chúng, khi đó ta có một đồ thị với các đỉnh là các trang Web vàcác cạnh là các liên kết giữa chúng

2.1 Thuật toán PageRank:

Trước tiên chúng ta giới thiệu một định nghĩa về PageRank thể hiện những điều taxem xét ở trên và bàn về khía cạnh tính toán nó trước khi đạt được một phương pháp có thểđược áp dụng trong thực tế Công việc được tiến hành như sau:

Trang 6

+ Đánh số các trang Web có được từ 1,2 … đến n.

+ Gọi N(i) là số liên kết ra ngoài của trang thứ i

+ Gọi B(i) là số các trang Web có liên kết đến trang i

Giả sử rằng các trang Web tạo thành một đồ thị liên thông Khi đó với công thức PageRankthô, gọi r(i) là hạng tương ứng với trang i:

(

i B j

j N j r i

r

Ta có thể viết các phương trình này dưới dạng r =ATr trong đó:

+ r là vector [r(1),…,r(n) ] trong đó các thành phần tương ứng là các hạng của các trangWeb

+ A là ma trận kích thước n.n trong đó các phần tử a ij = 1 /N j nếu có liên kết từ i đến j, và a

1 s← vector bất kỳ

2 r←ATs

3 Nếu r−s <e thì kết thúc, khi đó ta nhận được r là vector PageRank.

s

r− phải tuân theo một chuẩn nào đó như chuẩn Euclide hay chuẩn bình phương.

4 Nếu không thì r←s, quay lại bước 2

Trong thực tế không phải lúc nào chúng ta cũng gặp trường hợp các trang Web lậpthành một đồ thị liên thông Trên WWW có rất nhiều các trang Web mà chúng không hề cótrang nào liên kết tới hay không liên kết tới trang Web nào khác cả Đối với những trangkhông có liên kết tới trang khác khi tính toán PageRank của nó sẽ rất khó được tính toán dotập hợp các liên kết ra ngoài là N(i)=0, do vậy sẽ không tính được PageRank Điều này có

Trang 7

đời cũng đều có ý nghĩa của nó, không có trang nào có ý nghĩa (hạng) bằng 0 cả, cho dùtrang đó của cá nhân thì nó cũng có ý nghĩa riêng cho người đó Do vậy cần phải cải tiếncông thức PageRank cho phù hợp với thực tế Công thức PageRank được sửa đổi có dạngnhư sau:

∑

∈

−+

∗

=

i

B j

n d j

N j r d i

r( ) ( )/ ( ) (1 )/

Việc thêm “hệ số hãm” d (thường được chọn d=0.85) có ý nghĩa như sau: bổ sungthêm giá trị PageRank vào cho các trang không có link ra ngoài Ta cũng nhận thấy khi d=1thì công thức sẽ quay lại trường hợp PageRank thô

Page và Brin [2] cũng đã chỉ ra rằng các giá trị này có thể hội tụ khá nhanh, trongvòng khoảng 50 vòng lặp chúng ta có thể nhận được kết quả với sai số không lớn lắm

2.2 Thuật toán Adaptive PageRank:

PageRank là một trong những thuật toán thịnh hành nhất và có hiệu quả nhất trongcông việc tìm kiếm các thông tin trên Internet hiện nay, và thuật toán đó cũng đang đượctìm kiếm trong máy Google Như chúng ta đã xem xét ở trên, PageRank sẽ tìm cách đánhgiá hạng các trang thông qua các liên kết giữa các trang Web Việc đánh giá này có thểđược thực hiện thông qua việc tính toán vector riêng của ma trận kề biểu diễn cho các trangWeb Nhưng với kích cỡ khổng lồ của mình, WWW có thể làm cho công việc tính toán nàytốn rất nhiều ngày Cần phải tăng được tốc độ tính toán này lên vì hai lý do:

+ Cần có được kết quả sớm để đưa được những thông tin sang các bộ phận khác trong cùngmáy tìm kiếm, việc tính toán nhanh vector PageRank có thể giúp giảm thiểu thời gian chếtcủa những bộ phận đó

+ Hiện nay, các phương pháp nghiên cứu mới đều tập trung vào việc đánh giá dựa trênnhững tiêu chí do cả người dùng quan tâm, do vậy cần phải tính toán nhiều vectorPageRank, mỗi vector hướng tới một tiêu đề khác nhau Việc tính toán nhiều vector nàycũng đòi hỏi mỗi vector thành phần được tính toán nhanh chóng

Việc tăng cường tốc độ tính toán có thể vấp phải nhiều khó khăn kích thước củaWWW Vì vậy trong [3], đã giới thiệu một cách để giúp đỡ cho quá trình tính toán đượcnhanh hơn Phương pháp này xuất phát từ ý tưởng sau: khi cài đặt chương trình và chạy, cáctrang Web có tốc độ hội tụ không giống nhau Vậy chúng ta có thể tận dụng những trang hội

tụ trước và kết quả của những trang đã hội tụ đó có thể không cần phải tính lại nữa Như vậy

ta có thể giảm được những tính toán dư thừa và làm tăng được hiệu suất tính toán của hệthống Thực sự như vậy thuật toán này là một cải tiến của thuật toán PageRank, thuật toánnày có thể làm tăng được tốc độ tính toán bằng cách giảm đi những tính toán dư thừa

Trang 8

2.2.1 Adaptive PageRank:

Giả sử việc tính toán vector PageRank của chúng ta đã được thực hiện đến vòng lặpthứ k Ta cần tính toán

) ( ) 1 (k A.r k

r + =

(*)gọi C là tập hợp các trang Web đã hội tụ đến mức được chấp nhận nào đó và N là tập cáctrang Web chưa hội tụ Khi đó ta chia ma trận A ra làm hai ma trận con, AN cỡ m.n là matrận kề đại diện cho những liên kết của m trang chưa hội tụ, còn Ac cỡ (n-m).n là ma trận kềđại diện cho những liên kết của (n-m) trang đã hội tụ

Tương tự, ta cũng chia vactor r(k) ra thành hai vector r N (k) tương ứng với những thànhphần của r(k) đã hội tụ còn r C (k)tương ứng với những thành phần của r(k) chưa hội tụ

Vậy ta có thể viết lại ma trận A và r(k) dưới dạng như sau:

k C

k N k

r

r r

và = C

N A

A A

ta có thể viết lại phương trình (*) như sau:

+

) (

) ( )

1 (

) 1 (

. k

C

k N C

N k

C

k N

r

r A

A r

r

Do những thành phần của r C kđã hội tụ do vậy ta không cần tính r C k+1nữa và như vậyviệc tính toán sẽ giảm đi do không phải tính toán A C r (k) nữa

) ( ) 1 (

) 1

k C

k N N

k N r r

r A r

=

=+ +

2.2.2 Những cải tiến của phương pháp này:

Theo [3], việc giảm những tính toán của phương pháp PageRank giúp chúng ta cóthể tính toán nhanh hơn tuy nhiên đây chưa phải là đến đích cuối cùng cần đạt được

2.2.2.1 Filter-Based Adaptive PageRank:

Vì ma trận A có kích cỡ cực lớn nên việc sắp xếp lại ma trận A để tạo ma trận con

AN sẽ khó có thể thực hiện được trong mỗi vòng lặp Hơn nữa không có cách hiệu quả đểphớt lờ đi những đầu vào không cần thiết (những liên kết tới các trang đã hội tụ) do vậytrong thực tế việc cài đặt thuật toán có thể được thực hiện như sau:

Trang 9

Do AC không được sử dụng trong việc tính toán PageRank nên ta có thể định nghĩa

một ma trận =0 

' A N A

và ′ = k

C

k C r

Với những định nghĩa này phương trình (*) có thểđược viết như sau:

k C k k

r r A

r( + 1 ) = ′ ( ) + ′

Những định nghĩa trên cũng có thể được mô tả theo một cách khác:

Định nghĩa ma trận A” như sau:

C i if

r

k k C

Nghĩa là đối với ma trận A” nhận được thưa hơn rất nhiều so với ma trận A nên việctính toán sẽ trở nên nhanh hơn so với khi chúng ta sắp xếp lại ma trận đại diện cho các phần

tử đã hội tụ hay chưa hội tụ

2.2.2.2 Modified Adaptive PageRank:

Trong thuật toán Adaptive PageRank tốc độ tính toán được tăng nhanh lên do đãgiảm đi được những tính toán dư thừa bằng cách không tính những giá trị đã hội tụ Trong[3] đã đưa ra những thử nghiệm tính toán dư thừa bằng cách không tính những giá trị đã hội

NN NN A A

A A A

với ANN là ma trận kề đại diện cho những liên kết của các trang chưa hội tụ tới những trangchưa hội tụ, ACN là ma trận kề đại diện cho những liên kết của các trang đã hội tụ tới nhữngtrang chưa hội tụ và tương tự cho các phần tử khác ANC, ACC Vì rC và ANCrC không thay đổisau vòng lặp thứ k vì chúng đã hội tụ, nên phương trình (*) có thể được viết lại:

) ( )

( )

1

C CN

k N NN

k

r + = +

Ma trận A đã được chia nhỏ ra đồng thời không phải tính lại giá trị một số

ma trận con do vậy công việc tính toán được giảm đi đáng kể

2.3 Topic-sensitive PageRank:

ngược lại

Trang 10

PageRank là phương pháp tìm kiếm hiện đang được áp dụng trên máy tìm kiếmGoogle Tuy nhiên phương pháp này chỉ quan tâm đến các liên kết mà không quan tâmđến nội dung của trang Web có chứa liên kết đó, do vậy có thể dẫn tới những sai lạctrong thông tin tìm kiếm được Yêu cầu đặt ra là cần phải đưa ra một phương pháp cótốc độ nhanh như phương pháp PageRank và lại có quan tâm đến nội dung của trangWeb thông qua "chủ đề" của nó Hơn nữa, nếu khai thác được mối quan tâm củangười dùng đối với các trang Web trong việc tính độ phù hợp của trang Web vớicâu hỏi người dùng thì việc đó càng có ý nghĩa Taher H Haveliwala [5,6] đề xuất

phương pháp mới nhằm đáp ứng yêu cầu trên, đó là phương pháp PageRank theo chủ đề (Topic sensitive PageRank) Các tác giả sử dụng khái niệm "phạm vi ngữ

cảnh" để biểu thị mối quan tâm của người dùng Trong [4], thuật toán tìm kiếm trangWeb có nội dung tương tự cho một cách tiếp cận khác khi đề cập tới xem xét khía cạnhnội dung trang Web trong bài toán tìm kiếm

Thuật toán gồm hai bước được mô tả sơ bộ như dưới đây

Tại bước đầu tiên, các trang Web trong cơ sở dữ liệu được phân thành các lớp

theo chủ đề c 1 ,c 2 , ,cn; gọi Tj là tập hợp những trang Web theo chủ đề cj Mỗi lớp

tương ứng với một vector PageRank của chủ đề mà mỗi thành phần là giá trị PageRankcủa mỗi trang trong lớp

Vector PageRank của chủ đề được tính như bình thường tuy nhiên thay vì sử dụng

=[1/N], thuật toán sử dụng vector = trong đó:

ij

T i

T i T v

0

|

|/1

Gọi là vector các từ khóa, gồm tất cả các từ khóa trong các tài liệu của các chủ đề;

Djt là số lần xuất hiện của từ khóa t trong tất cả các tài liệu của chủ đề c j

Bước thứ hai được thực hiện trong thời gian hỏi- đáp Giả sử có truy vấn q, gọi q’ là phạm vi ngữ cảnh của q [4, 5] Mô tả sơ bộ khái niệm phạm vi ngữ cảnh như sau Với truy vấn thông thường (từ hộp thoại) thì thì q’ chính là q Trường hợp truy vấn q được đặt bằng cách tô sáng từ khoá q trong trang Web u thì q’ sẽ chứa các từ khoá trong u bao gồm cả q Sau đó tính xác suất để q’ thuộc về các chủ đề khác nhau.

Sử dụng thuật toán phân lớp Bayes với (i) Tập huấn luyện gồm những trang đượcliệt kê trong các chủ đề; (ii) Đầu vào là câu truy vấn hoặc phạm vi ngữ cảnh của câutruy vấn; (iii) Đầu ra là xác suất để đầu vào thuộc mỗi chủ đề

Trang 11

Dưới đây là một số công thức của một số giá trị xác suất nói trên Gọi q i ’ là từ

khoá thứ i trong ngữ cảnh q ’ Với mỗi c j, xác suất đề q ’∈ c j là:

P(c j |q ’ ) = ≈ P(c j ).π.P(q i ’ |c j ) Trong đó P(q i ’ |c j ) được tính từ vector các từ khóa được xác định tại bước 1 Giá trị P(c j ) được xác định hoặc là các giá trị bằng nhau cho mọi chủ đề (các chủ đề đồng khả

năng) hoặc tính toán thống kê qua tham chiếu tới các trang Web thuộc mỗi chủ đề của tậphợp người dùng

Theo [5,6], với kí hiệu rank jd là hạng của văn bản d cho bởi vector PR(d, ) – vector PageRank của chủ đề c j thì độ quan trọng s qd dựa theo câu truy vấn được tính toán như sau:

Max: 0.241; Total: 1.541; Mean: 0.220

i

A

CB

GF

ED

Trang 12

Max: 0.839; Total: 2.248; Mean: 0.321

GF

ED

A

CB

GF

ED

Trang 13

CB

GF

ED

Trang 14

Max: 1.000; Total: 7.000; Mean: 1.000

IV Ưu điểm và nhược điểm của PageRank

4.1 Ưu điểm:

PageRank là một thuật toán tốt, tốc độ tìm kiếm rất nhanh, PageRank sẽ tính toánmột giá trị toàn cục cho tất cả các trang Web một cách độc lập với các câu truy vấn Hơnnữa quá trình tính toán lại được tiến hành một cách ngoại tuyến, nghĩa là tính toán trong cơ

sở dữ liệu của mình, do vậy sẽ đỡ mất thời gian Đối với các câu truy vấn liên quan đếnkhoa học hay nghiên cứu thì PageRank cho kết quả rất tuyệt vời vì những tài liệu nàythường được trích dẫn nhiều từ tài liệu khác

Google nhấn mạnh rằng PageRank, được trao bằng sáng chế cho Đại học Stanford,không phải là phương pháp duy nhất để xác định kết quả tìm kiếm Thực vậy, Google chobiết họ sử dụng kết quả của hơn 200 phương pháp khác nhau để đánh giá toàn thể cấu trúcWeb và xác định những trang nào là quan trọng nhất

4.2 Nhược điểm:

Các vấn đề trên WWW không chỉ có về khoa học mà còn có nhiều chủ đề khác nữa,

do thuật toán PageRank không quan tâm đến nội dung của trang Web có chứa câu truyvấn, nên đôi khi sẽ đưa ra những trang Web không phù hợp với yêu cầu của người dùng.Hơn nữa, thuật toán này chỉ quan tâm đến các liên kết, vậy cứ trang nào có nhiều liên kết tớithì trang đó có thể có thứ hạng cao Điều này dẫn tới việc không chính xác thông tin, và cóthể có người thuê các trang Web danh tiếng liên kết đến trang Web của họ để họ đượchưởng chỉ số PageRank cao

PageRank không tính đến độ tiếp cận thường xuyên và thời gian ở lại trang web củangười dùng

PageRank của Google đánh giá độ quan trọng của một trang web dựa trên phươngpháp xử lí gọi là Thuật toán phân tích liên kết (Link Analysis Algorithm) Phương pháp nàyđánh giá trang độ quan trọng của một trang web dựa trên những liên kết trên internet VàGoogle cho biết, "trang nào được chúng tôi đánh giá quan trọng sẽ được ưu tiên hiện trướctrong danh sách kết quả tìm kiếm Chúng tôi luôn tìm cách đánh giá một cách hữu hiệu nhất

để tăng chất lượng kết quả tìm kiếm và tạo ra một sản phẩm có ích, và công nghệ PageRankcủa chúng tôi sử dụng tính cộng đồng trên internet để xác định độ quan trọng của một trangweb."

Việc đánh giá thích đáng sự tìm kiếm trên internet rất quan trọng với những công tynhư Google, Yahoo và Microsoft bởi điều này cho phép những công ty tìm kiếm trực tuyếnhàng đầu này đặt quảng cáo của họ theo đúng như những gì người dùng tìm kiếm NhưngMicrosoft và những cộng sự cho rằng PageRank đã không làm tốt trong việc đánh giá độ

Trang 15

quan trọng của trang web do kết quả của PageRank có thể bị lợi dụng và thổi phồng mộtcách không chính xác.

Ví dụ như trang Adobe.com được đánh giá rất cao bởi PageRank bởi trang này đượcliên kết đến rất nhiều trên internet để tải về các sản phẩm Acrobat Reader và Flash Player

"Tuy nhiên, người dùng internet không thực sự đến trang này một cách thường xuyên và nókhông thể được đánh giá cao hơn những trang như MySpace.com và Facebook.com."Microsoft cho biết

Chương 2: Hypertext Induced Topics Search (HITS)

I Mô tả thuật toán HITS:

Thuật toán này dựa trên việc lựa chọn các trang Web và kết hợp chúng thành một đồ thịcác trang Web Sau đó phân tích các liên kết trong đồ thị con đó để xác định được trang nào

là trang “authority”, trang nào là trang “hub” đối với truy vấn được đưa vào Tập hợp cáctrang Web này có thể được chọn bằng cách như sau: đầu tiên chọn một số trang web bất kỳ

có chứa xâu ký tự của truy vấn gọi là tập mở đầu, sau đó cứ loang dần ra những trang gần

kề, nghĩa là những trang có liên kết với những trang trong tập mở đầu, công việc kết thúc ta

sẽ nhận được một tập hợp các trang Web Việc loang này sẽ được dừng khi vượt quá giớihạn nào đó: như là kích cỡ cho trước của tập hợp các trang Web kết quả, hoặc nguồn cáctrang trong tập mở đầu không còn nữa Gọi tập kết quả nhận được là S

+ Đánh số các trang trong tập kết quả S từ 1 đến n

+ Gọi B(i) là số trang Web có liên kết tới trang i

+ Gọi F(i) là số trang Web được trang i trỏ tới

Các chỉ số “authority” ai và “hub” hi cho mỗi trang Web sẽ được tính trong các bước I và

O Trong bước I: chỉ số ai của trang i sẽ được tính bằng tổng các chỉ số “hub” của những

Trang 16

trang trỏ tới i Trong bước O: chỉ số hi của trang i sẽ được tính bằng tổng của các chỉ số

“authority” mà nó trỏ tới Điều này phần nào thể hiện được ý tưởng ta nói ở trên về sự liênquan giữa chỉ số “hub” và “authority”

Nếu ta gọi A là ma trận kề biểu diễn liên kết giữa các trang Web với aij=1 nếu trang i

có liên kết đến trang j và bằng 0 nếu ngược lại Như vậy các bước I và O có thể được viết lạidưới dạng ma trận

và h=ATa (2)

trong đó vector a=[a1,…,an] có các thành phần đại diện cho các chỉ số “authority” của cáctrang Web trong tập S còn vector h=[h1,…,hn] có các thành phần đại diện cho các chỉ số

“hub” của các trang Web trong tập S

Từ (1) và (2) ta có thể thấy được a=AATa và h=ATAh nên vector a và h chính là cácvector riêng của ma trận AAT cùng ma trận ATA

Thuật toán HITS dưới dạng mã giả như sau:

Cho 1 truy vấn tìm kiếm q, HITS xây dựng một tập hợp các trang web như sau:

1/ Dùng một search engine để tìm kiếm q

2/ Lấy t (t=200 theo Kleinberg) trang webs có thứ hạng cao nhất Tập các web này gọi làRoot Set W

3/ Mở rộng W bằng cách lấy tất cả các trang web được bất kỳ một trang nào trong W trỏđến và bất kỳ một trang nào (d=50) trỏ đến một trang trong W Tập các trang web này gọi làBase Set W (1000-5000 trang)

4/ Mỗi trang web trong S được gán 1 authority score và 1 hub score, tất cả đều bằng 1.5/ Xác định số phần tử n của S

6/ Dùng đồ thị G=(V,E) để biểu diễn S, dùng ma trận kề L:

L ij

0

) , ( 1

7/ Gọi authority score của trang i là a(i), và hub score của trang i là h(i)

∑

a

Định dạng
Số trang	34
Dung lượng	718,17 KB