2.1 Cấu trỳc bộ tỡm duyệt
2.1.4 Thứ tự tải cỏc trang Web của bộ tỡm duyệt
Với lượng khổng lồ cỏc trang Web cú trờn Internet và được thay đổi hằng ngày, hằng giờ nờn việc quyết định trang Web nào được tải về cho cơ sở dữ liệu của hệ tỡm kiếm và thứ tự thu nhập chỳng như thế nào là một vấn đề rất quan trọng vỡ điều đú ảnh hưởng trực tiếp đến hiệu quả tỡm kiếm. Sự giới hạn nguồn tài nguyờn của hệ tỡm kiếm cũng như giới hạn về thời gian thực hiện thu nhập dữ liệu làm cho bộ tỡm duyệt cần phải cú quyết định về tần suất cập nhật lại cỏc trang Web đó tải về nhưng chỳng đó được thay đổi bởi người chủ trang Web đú. Phần lớn cỏc bộ tỡm duyệt khụng thể truy cập được mọi trang Web bởi cỏc lý do sau:
1 - Giới hạn của thiết bị lưu trữ: hiện nay tổng kớch thước cỏc trang Web (dạng text) vào khoảng 1.5TB và ngày nay lượng cỏc trang Web càng tăng cao cả về số lượng và kớch thước và rất nhanh. Vỡ thế cỏc bộ tỡm duyệt khụng muốn và khụng thể chụp lại toàn bộ cỏc trang Web về cho hệ tỡm kiếm.
2 – Việc tải cỏc trang Web phải mất một thời gian nhất định khụng ớt, trong khi cỏc trang Web được cập nhật thường xuyờn. Khoảng 600 GB thay đổi hàng thỏng, do đú để cập nhật được cỏc trang Web tải về thỡ bộ tỡm duyệt phải bỏ qua một số trang Web khỏc mà bộ tỡm duyệt cho rằng khụng cần thiết.
Giải quyết vấn đề này, bộ tỡm duyệt được thiết kế cú khả năng tải về những trang Web cú “độ quan trọng” cao hơn được ưu tiờn trước và dành thời gian cập nhật cỏc trang Web đó được tải về.
Ký hiệu “độ quan trọng” của trang Web P là I(P).
Giả sử bộ tỡm duyệt bắt đầu tải cỏc trang Web tại trang Web P0 và kết thỳc sau khi đó tải về k trang. Lỳc này, một bộ tỡm duyệt đạt hiệu quả cao nhất là tải về
được cỏc trang Web R1,R2, ..., Rk. Trong đú, R1 cú độ quan trọng cao nhất, R2 cú độ quan trọng cao thứ hai,... Cỏc trang Web được tải về này, chỳng được gọi là trang Web “núng”. Trong số k trang Web được tải về bởi một bộ tỡm duyệt thực tế chỉ cú m trang cú độ quan trọng khụng nhỏ hơn I(Rk). Khi đú, hiệu suất của bộ tỡm duyệt
C được xỏc định như sau:
43
P(C) = (m*100)/k
Hiệu suất lý tưởng của bộ tỡm duyệt là 100%. Với bộ tỡm duyệt tải về cỏc trang Web một cỏch ngẫu nhiờn sẽ cú hiệu suất là (k*100)/T, ở đõy T là tổng số
trang Web cú trờn mạng Internet. Và mỗi trang Web được tải về là trang Web “núng” với xỏc suất k/T.
Giả sử rằng, bộ tỡm duyệt đó tải về k tài liệu, ta xỏc định một ngưỡng cú độ quan trọng là G. Mỗi trang Web P cú độ quan trọng là I(P) sẽ được xem là trang
Web “núng” nếu: I(P)G
Và giả sử trong k trang Web tải về cú h trang Web là trang Web núng, khi đú hiệu suất của bộ tỡm duyệt C được xỏc định như sau: (h*100)/k
Vậy, bộ tỡm duyệt là bộ tỡm duyệt lý tưởng nếu hk, nghĩa là đạt hiệu suất
100%, ngược lại bộ tỡm duyệt đạt hiệu suất (h*100)/k.
Mỗi bộ tỡm duyệt truy cập vào một trang Web ngẫu nhiờn, số cỏc trang Web núng cú thể tải về được kể từ lỳc bộ tỡm duyệt bắt đầu tải đến thời điểm đang xột (thời điểm bộ tỡm duyệt kết thỳc cụng việc tải Web) là: (h/T)*k. Khi đú, hiệu suất
của bộ tỡm duyệt là (k*100)/T. Với cỏc bộ tỡm duyệt truy cập ngẫu nhiờn này, hiệu
suất của nú chỉ đạt 100% nếu nú tải vể tất cả T cỏc trang Web cú trờn Internet. Vậy “Độ quan trọng” của cỏc trang Web được đỏnh giỏ dựa vào đõu? Cũn
gọi là việc xếp hạng trang Web.
Với từng chủ đề cụ thể nào đú, cỏc trang Web được bộ tỡm duyệt quan tõm ở một mức độ khỏc nhau, hay cũn gọi là cú độ quan trọng khỏc nhau. Cỏc trang Web cú liờn quan sỏt với chủ đề hơn sẽ được bộ tỡm duyệt quan tõm hơn và sẽ được ưu tiờn tải về trước cỏc trang Web khỏc. Và trang Web nào được cỏc trang Web khỏc liờn kết đến nhiều hơn (số này được gọi là backlink) thỡ trang Web đú được ưu tiờn hơn.
44
Trang Web được tải về cú nội dung tương tự với yờu cầu thu nhận thụng tin Q
(truy vấn Q). Yờu cầu thu nhận thụng tin Q quyết định xử lý thu nhận thụng tin nào của bộ tỡm duyệt và I(P) được xỏc định bằng sự tương tự giữa P và Q. Chỳng ta qui định
độ quan trọng của trang Web theo cỏch tớnh này là: IS(P) (tương ứng với I(P)).
Để xỏc định độ tương tự này, ta xem mỗi tài liệu (P hoặc Q) như một vector
n chiều <w1,w2,...,wn>. Trong đú, toạ độ wi tương ứng với từ thứ i trong bảng từ
vựng. Nếu wi xuất hiện thỡ giỏ trị của nú biểu diễn mức độ quan trọng của từ đú. Một trong cỏch tớnh thụng thường là nhõn số lần xuất hiện của từ thứ i trong tài liệu với tần số nghịch đảo của nú. Giỏ trị idf được xỏc định là giỏ trị nghịch đảo của số lần xuất hiện của từ thứ i trong một tập cỏc tài liệu mà chỳng ta đang xem xột. Giỏ trị idf thể hiện một cỏch tương đối mức độ phõn biệt của từ. Từ xuất hiện ớt trong cỏc tài liệu sẽ cú chỉ số idf lớn, ngược lại từ xuất hiện nhiều trong cỏc tài liệu thỡ lại cú chỉ số idf nhỏ. Cỏc giỏ trị wi cũng cú thể được đỏnh giỏ theo cỏch khỏc, chẳng hạn, nếu là từ xuất hiện trong tiờu đề thỡ từ đú cú độ quan trọng lớn hơn từ xuất hiện trong thõn tài liệu.
Độ tương tự của P và Q được xỏc định bằng tớch của hai vector P và Q. Trong trường hợp, chỳng ta khụng sử dụng cỏc giỏ trị idf thỡ độ quan trọng của một trang Web cũng cú thể được tớnh với cỏc thụng tin cục bộ, chẳng hạn với cỏc thụng tin của P và Q. Ngược lại, nếu chỳng ta sử dụng cỏc giỏ trị idf thỡ cỏc giỏ trị idf này khụng được tớnh dựa trờn toàn bộ Web của Internet mà chỉ được tớnh tương đối dựa trờn số cỏc trang Web được bộ tỡm duyệt tải về. Giỏ trị idf được tớnh chớnh xỏc khi tải về tất cả cỏc trang Web trờn toàn cầu, Vỡ thế, ta chỉ cú thể tớnh
IS(P) với idf tương đối.
Cỏch 2: Đỏnh giỏ “độ quan trọng” dựa vào giỏ trị Backlink.
Backlink của trang Web P chớnh bằng số cỏc trang Web khỏc liờn kết trỏ đến trang Web P trờn toàn Internet.
Độ quan trọng của trang Web P được tớnh dựa vào số backlink ta ký hiệu là
IB(P).
45
Bằng trực quan ta thấy trang Web nào cú nhiều trang Web khỏc liờn kết trỏ thỡ đú là trang Web quan trọng hơn cỏc trang Web ớt được cỏc trang Web khỏc liờn kết trỏ đến. Cú rất nhiều hệ tỡm kiếm sử dụng IB(P) để sắp xếp cỏc tài liệu tỡm thấy trước khi trả về cho người dựng.
Cỏch tớnh này cũng cú nhược điểm giống như cỏch tớnh dựa vào độ tương tự, giỏ trị tinh được chỉ chớnh xỏc khi bộ tỡm duyệt tải về tất cả cỏc trang Web từ Internet. Thực tế cỏc bộ tỡm duyệt chỉ xỏc định IB(P) dựa trờn số trang Web mà bộ tỡm duyệt đó tải về.
Cỏch 3: Đỏnh giỏ “độ quan trọng” dựa vào mức độ của từng backlink Cỏch tớnh độ quan trọng của trang Web IB(P) như ở cỏch 2, xem cỏc liờn kết trỏ giữa cỏc trang Web là như nhau, bỡnh đẳng với nhau. Vớ như, liờn kết trỏ từ Yahoo cũng cú giỏ trị như liờn kết trỏ từ cỏc trang Web khỏc.
Cỏch tớnh cú phõn loại hạng trang Web này xỏc định độ quan trọng IR(P)
của trang Web P bằng cỏch đệ quy với tổng cỏc trọng số của cỏc backlink trỏ đến tài liệu.
Giả sử, trang Web P khụng cú liờn kết nào trỏ ra ngoài, và T1,T2,...,Tn là cỏc
trang Web liờn kết trỏ đến trang Web P. V1,V2,...,Vn lần lượt là cỏc liờn kết trỏ ra của
Ti (i=1..n), khi đú, độ quan trọng PageRank(P) của trang Web P được tớnh như sau:
IR(P)=(1-d)+d(IR(t1)/V1+IR(T2)/V2+...+IR(Tn)/Vn) Trong đú, 0d1, d được gọi là hệ số hóm
Quỏ tỡnh tớnh toỏn được lặp đi lặp lại cho đến khi hội tụ, việc tớnh độ quan trọng trang Web khụng mất nhiều thời gian. Hệ tỡm kiếm Google chỉ cần sử dụng một mỏy trạm cỡ trung bỡnh để tớnh toỏn trong vài giờ, khi thực hiện tớnh độ quan trọng cho khoảng 26 triệu trang Web.
Dựa vào giỏ trị IR(P) tớnh được, bộ tỡm duyệt sẽ quyết định tải về trang Web nào trước, trang Web nào sau. Cỏc trang Web cú độ quan trọng IR bằng 1 sẽ được tải về trước tiờn. Tại mỗi bước giỏ trị IR(P) mới được tớnh từ cỏc IR(T) cú trước, và
46
thực hiện so sỏnh cỏc giỏ trị IR, từ đú bộ tỡm duyệt quyết định xem trang Web nào được tải về tiếp theo, và cứ thế.
Mụ hỡnh trực quan của PageRank cho chỳng ta cú thể hỡnh dung một người dựng truy cập Web trờn Internet, họ bắt đầu từ một trang Web bất kỳ và chọn ngẫu nhiờn một liờn kết trỏ đến trang Web tiếp theo. Khi người dựng gặp trang Web khụng cú kết nối trỏ đền trang Web tiếp theo, họ lại chọn ngẫu nhiờn một trang Web mới. Hoặc khi người dựng ở một trang Web nào đú, họ truy cập đến trang tiếp theo là hoàn toàn ngẫu nhiờn (tức là chọn một trong số cỏc liờn kết trỏ đến trang Web tiếp theo). Cú hệ số hóm d (0d1) vỡ người dựng sẽ khụng truy cập vào được tất cả cỏc liờn kết mà chỉ truy cập vào một trong cỏc liờn kết trỏ đến trang Web mới.
Cỏch 4: Đỏnh giỏ “độ quan trọng” dựa vào địa chỉ URL
Độ quan trọng của trang Web khụng chỉ phụ thuộc vào nội dung trang Web mà cũn thể hiện ở địa chỉ URL của chỳng. Gọi IL(P) là độ quan trọng của trang
Web P cú điạc chỉ URL là u, khi đú IL(P)=f(u), hàm f được xỏc định tuỳ theo mỗi bộ tỡm duyệt. Như cỏc URL kết thỳc bằng “.com” cú thể cú độ quan trọng lớn hơn cỏc URL kết thỳc bằng cỏc giỏ trị khỏc. Cỏc URL bắt đầu bằng “home” cú độ quan
trọng lớn hơn cỏc URL bắt đầu bằng cỏc ký tự khỏc. Hoặc cỏc URL cú độ sõu nhỏ sẽ cú độ quan trọng lớn hơn cỏc URL cú độ sõu hơn.
Cỏch 5: Bộ tỡm duyệt cú thể đỏnh giỏ “độ quan trọng” của trang Web bằng cỏch kết hợp một hoặc nhiều cỏch tớnh trờn.
Chẳng hạn: I(P)= k1*IB(P) + k2*IR(P) +k3*IL(P) Và k1,k2,k3 là cỏc hệ số do bộ tỡm duyệt chọn.