So sánh tìm k im thông tin cđ in và tìm k im thông tin trên Web

Một phần của tài liệu Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx (Trang 29 - 30)

Web

B ng d i đây bi u di n s khác bi t gi a các h th ng tìm ki m thông tin c

đi n (IR c đi n) và các h th ng tìm ki m thông tin Web (Web IR).

IR c đi n Web IR Kích th c L n Kh ng l Ch t l ng d li u S ch, không trùng l p L n x n, trùng l p T l thay đ i d li u Hi m Liên t c Kh n ng truy c p d li u Có th Truy c p m t ph n a d ng đnh d ng ng nh t, cùng ngu n g c R t đa d ng Tài li u V n b n HTML # liên quan Nh L n

K thu t IR D a n i dung D a liên k t

Kh i l ng d li u trong m t h th ng IR c đi n khá l n, trong khi đó kh i l ng d li u này trong h th ng Web IR là kh ng l . Khác bi t l n nh t trong kh i l ng d li u, chính là các th t c a l ng, nh h ng đ n ph n c ng đ c

đòi h i (m t máy tính thì không bao gi đ , b nh không th ch a toàn b d li u) và các thu t toán (các đnh ngh a hi u n ng c a th i gian và không gian b thay đ i).

M t khác bi t n a là khác bi t c a d li u. Trong h th ng IR c đi n d li u

đ c làm s ch, trong khi đó d li u trên Web IR thì ph c t p, c hai đ u do s trùng l p vô ý và do các spam có d ng ý t ng th h ng c a trang đó ho c ch t o s l n x n .

Nh đã đ c p trên, s thay đ i d li u trong IR c đi n là không th ng xuyên ,do đó nó th ng đ c l p ch m c 1 l n. Ng c l i, d li u trên Web thì

Lu n v n : ánh giá các h th ng tìm ki m thông tin

thay đ i th ng xuyên nên ch m c c ng c n đ c c p nh t. H n n a, tính kh truy c p c a d li u là không quan tr ng trong Web IR.

Tài li u trong IR c đi n th ng đ ng nh t v đnh d ng còn tài li u trong Web IR g m nhi u lo i khác nhau: b t c ai c ng có th t o m t trang web trong b t kì

đnh d ng nào và b t kì ngôn ng nào.

M t đi m khác bi t quan tr ng n a là tài li u web không th ng xuyên đ c vi t d ng v n b n thô nh trong tài li u IR c đi n. Trang Web th ng đ c vi t

b ng HTML (Hypertext Markup Language) , v a có nh ng l i ích và b t l i

đ i v i h th ng tìm ki m thông tin : m t m t, nó bao g m d li u có c u trúc giúp vi c phân tích d dàng h n ; m t khác, nó th ng không ch a nhi u v n b n (h th ng IR d a trên th này), do đó khó phân lo i h n.

K t qu tr v trong Web IR c ng nhi u h n so v i IR c đi n, do đó khó đ

s p th t danh sách k t qu h n.

Và cu i cùng, IR c đi n s d ng k thu t s p th t ch d a trên n i dung (content-based). Tuy nhiên, k thu t này không th áp d ng v i Web IR. Nó đã t ng là m t k thu t thông d ng cho đ n khi Google gi i thi u k thu t s p th t

m i d a trên liên k t (link-based) . K thu t s p th t d a trên liên k t s d ng siêu liên k t (hyperlink) gi a các tài li u web đ s p th t các trang web m t cách hi u qu và ch c ch n h n.

Một phần của tài liệu Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx (Trang 29 - 30)