Web
B ng d i đây bi u di n s khác bi t gi a các h th ng tìm ki m thông tin c
đi n (IR c đi n) và các h th ng tìm ki m thông tin Web (Web IR).
IR c đi n Web IR Kích th c L n Kh ng l Ch t l ng d li u S ch, không trùng l p L n x n, trùng l p T l thay đ i d li u Hi m Liên t c Kh n ng truy c p d li u Có th Truy c p m t ph n a d ng đnh d ng ng nh t, cùng ngu n g c R t đa d ng Tài li u V n b n HTML # liên quan Nh L n
K thu t IR D a n i dung D a liên k t
Kh i l ng d li u trong m t h th ng IR c đi n khá l n, trong khi đó kh i l ng d li u này trong h th ng Web IR là kh ng l . Khác bi t l n nh t trong kh i l ng d li u, chính là các th t c a l ng, nh h ng đ n ph n c ng đ c
đòi h i (m t máy tính thì không bao gi đ , b nh không th ch a toàn b d li u) và các thu t toán (các đnh ngh a hi u n ng c a th i gian và không gian b thay đ i).
M t khác bi t n a là khác bi t c a d li u. Trong h th ng IR c đi n d li u
đ c làm s ch, trong khi đó d li u trên Web IR thì ph c t p, c hai đ u do s trùng l p vô ý và do các spam có d ng ý t ng th h ng c a trang đó ho c ch t o s l n x n .
Nh đã đ c p trên, s thay đ i d li u trong IR c đi n là không th ng xuyên ,do đó nó th ng đ c l p ch m c 1 l n. Ng c l i, d li u trên Web thì
Lu n v n : ánh giá các h th ng tìm ki m thông tin
thay đ i th ng xuyên nên ch m c c ng c n đ c c p nh t. H n n a, tính kh truy c p c a d li u là không quan tr ng trong Web IR.
Tài li u trong IR c đi n th ng đ ng nh t v đnh d ng còn tài li u trong Web IR g m nhi u lo i khác nhau: b t c ai c ng có th t o m t trang web trong b t kì
đnh d ng nào và b t kì ngôn ng nào.
M t đi m khác bi t quan tr ng n a là tài li u web không th ng xuyên đ c vi t d ng v n b n thô nh trong tài li u IR c đi n. Trang Web th ng đ c vi t
b ng HTML (Hypertext Markup Language) , v a có nh ng l i ích và b t l i
đ i v i h th ng tìm ki m thông tin : m t m t, nó bao g m d li u có c u trúc giúp vi c phân tích d dàng h n ; m t khác, nó th ng không ch a nhi u v n b n (h th ng IR d a trên th này), do đó khó phân lo i h n.
K t qu tr v trong Web IR c ng nhi u h n so v i IR c đi n, do đó khó đ
s p th t danh sách k t qu h n.
Và cu i cùng, IR c đi n s d ng k thu t s p th t ch d a trên n i dung (content-based). Tuy nhiên, k thu t này không th áp d ng v i Web IR. Nó đã t ng là m t k thu t thông d ng cho đ n khi Google gi i thi u k thu t s p th t
m i d a trên liên k t (link-based) . K thu t s p th t d a trên liên k t s d ng siêu liên k t (hyperlink) gi a các tài li u web đ s p th t các trang web m t cách hi u qu và ch c ch n h n.