CHƢƠNG 2 KIẾN TRÚC PORTAL VÀ NHỮNG THÀNH PHẦN CƠ BẢN
3.4. Một số thuật toỏn tỡm kiếm dữ liệu trong hệ thống thụng tin phõn tỏn
3.4.2.3. Xếp hạng và phõn tớch cỏc liờn kết
Vấn đề tiếp theo là xếp hạng kết quả tỡm kiếm, tập hợp dữ liệu cỏc trang web trờn Internet là rất lớn, để tớnh hạng cỏc trang web ngƣời ta dựa vào cỏc qui tắc sau :
1) Dựa vào vị trớ xuất hiện của từ khoỏ xuất hiện trong trang web.
2) Dựa vào vị trớ tƣơng đối giữa cỏc từ khoỏ tỡm kiếm trong trang web, cỏc trang cú cỏc từ khoỏ đứng gần nhau thỡ cú hạng cao hơn.
3) Dựa vào thuộc tớnh của từ khoỏ trong trang web, chẳng hạn chỳng đƣợc đặt trong cỏc thẻ H1, H2…H5.
4) Dựa vào giỏ trị hạng trang. Cỏch tớnh hạng trang đƣợc thực hiện nhƣ sau: Tớnh hạng trang web là một kỹ thuật tớnh toỏn độ quan trọng của cỏc trang web dựa trờn cấu trỳc của cỏc mối liờn kết. Kỹ thuật này dựa vào quan điểm là trang web quan trọng thỡ sẽ đƣợc nhiều trang khỏc liờn kết tới. Hạng của trang web đƣợc tớnh nhƣ sau :
Cho u là một trang web, gọi Rn là hạng của u: Ru=Pagerank(u) Gọi Nu là số cỏc siờu liờn kết ra từ trang u.
Gọi v1,v2,..vm là cỏc trang web cú siờu liờn kết đến trang u
Ta cú Ru=d(Rv1/Nv1+….+ Rvm/Nvm)+(1 - d) trong đú d là hệ số hóm.
Quỏ trỡnh tớnh toỏn sẽ đƣợc lặp đi lặp lại cho đến khi hội tụ. Việc tớnh hạng trang web khụng tốn nhiều thời gian, mỏy tỡm kiếm Google chỉ cần sử dụng mỏy trạm cỡ trung bỡnh để tớnh toỏn trong vài giờ khi thực hiện tớnh hạng cho khoảng 26 triệu trang web.
Chỳ ý rằng, hạng của trang web là đại lƣợng đại diện cho sự phõn bố xỏc suất của cỏc trang web trong một tập cỏc trang web xỏc định, do đú tổng cỏc hạng của tất cả cỏc trang web trong kho web cú giỏ trị bằng 1.
Hỡnh 3.3:Tớnh hạng trang Web