1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dâng mô hình tìm kiếm thông tin theo Search Engine

34 255 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 34
Dung lượng 467,47 KB

Nội dung

http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN M CL C ng 1: Các ph ng pháp thu th p thơng tin OBO OK S CO M Ch 1.1 S phát tri n c a internet u c u tìm ki m thơng tin 1.2 Tìm ki m thơng tin 1.2.1 Gi i thi u: 1.2.2 Ph ng pháp tìm ki m v n b n c n a.Qt tồn b tài li u: b.S d ng t p ký hi u c.S d ng file ngh ch đ o d.Tìm ki m theo mơ hình vec t phân nhóm 1.2.3 Ph ng pháp s d ng thơng tin ng ngh a a Ph ng pháp s d ng phân tích cú pháp ngơn ng t nhiên b Ph ng pháp s d ng ch m c ng ngh a c Ph ng pháp s d ng m ng Neural 1.4 ánh giá đ quan tr ng c a t khố 1.5 K t lu n v ph Ch ng pháp tìm ki m thơng tin ng 2: T ng quan v Search Engine 2.1 Khái ni m v Search Engine 2.2 Ki n trúc c ch ho t đ ng c a Search Engine 2.2.1 Ki n trúc c a Search Engine KIL 2.2.2 C ch ho t đ ng c a Search Engine 2.3 Phân lo i Search Engine 2.3.1 Search Engine s d ng ph ng pháp thơng th 2.3.2 Meta Search Engine 2.4 Các v n đ liên quan t i Search Engine 2.4.1 V n đ thu th p thơng tin: 2.4.2 V n đ tìm ki m thơng tin 2.5 ánh giá Search Engine ng http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN 2.6 Gi i thi u m t s Search Engine n hình 2.6.1 Search Engine Altavista 2.6.2 Search Engine Harvest ng 3: Xây d ng mơ hình tìm ki m thơng tin theo Search Engine KIL OBO OKS CO M Ch 3.1 Ki n trúc ch ng trình 3.1.1 T o ch m c 3.1.2 Tìm ki m 3.2 Gi i thi u b th vi n Jakata Lucene 3.3 H K t lu n ng d n s d ng ch c n ng http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN L i nói đ u Phát tri n t m t d án qn đ i Hoa K , ch vòng 30 n m đ c bi t th p k g n Internet phát tri n m nh m , len l i vào h u h t KIL OBO OKS CO M l nh v c cu c s ng, kh i l nên đ s h n, ng ng thơng tin internet ngày tr i h u nh có th nh n b t c thơng tin mong mu n t Internet, nhiên s đ s làm cho ng trí thơng tin c n, nh n đ i khó đinh v đ cv c thơng tin mu n, u c u t t y u đ t ph i xây d ng h th ng tìm ki m tho mãn u c u ng Engine đ i nh m gi i quy t u c u Chúng ta th i dùng Các Search ng đ t nh ng u c u khơng rõ ràng, nh ng câu truy v n thi u c u trúc mang tính ch t c a ngơn ng t nhiên nhên l i mu n nh n l i nh ng thơng tin xác, hay nói cách khác mu n nh n thơng tin mu n ch khơng ph i nh ng thơng tin u c u cho máy tính v y đ xây d ng m t Search Engine hồn thi n m t u c u g p nhi u khó kh n liên quan đ n nhi u ngành khoa h c: phân tích ngơn ng t nhiên, tìm ki m thơng tin, Lu n v n đ a nh ng nghiên c u mang tính ch t t ng quan v nh ng c s khoa h c đ xây d ng m t Search Engine nh v y, đ ng th i gi i thi u m t s cơng ngh đ d ng nh ng n m g n đây, v i t t sau: Ch ng 1: Các ph cs ng nh v y lu n v n có b c c nh ng pháp thu th p thơng tin Trình bày nh ng c s tốn h c cho vi c Index d li u , thu t tốn tìm ki m t ng ng v i ph Ch ng pháp Index khác ng 2: T ng quan v Search Engine Trình bày c u trúc c ch ho t đ ng c a m t Search Engine n hình, phân tích nh ng v n đ liên quan đ n Search Engine gi i thi u m t s Search Engine đ Ch c s d ng r ng rãi hi n ng 3: Xây d ng mơ hình tìm ki m thơng tin theo Search Engine http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN a b c đ xây d ng m t h th ng tìm ki m hồn ch nh theo mơ hình Search Engine v i ví d c th : H th ng tìm ki m Sách n t theo u c u h c, h n ch c a lu n v n, KIL OBO OKS CO M Ph n k t lu n: Nêu nh ng k t qu đ t đ ng phát tri n c a mơ hình tìm ki m t Lu n v n đ ng lai c hồn thành v i s giúp đ nhi t tình c a th y b n bè Xin g i l i c m n trân tr ng nh t t i PGS TSKH Nguy n Cát H ng đ nh h ng đ tài tr c ti p h nhân Lê Qu c Thái nh ng ng ng d n, Th c S c nhân L u i c Trung, c i ch b o t n tình su t q trình làm lu n v n Chân thành c m n th y giáo khoa Tốn c tin trang b nh ng ki n th c c b n su t b n n m h c v a qua, c m n s đ ng viên c a b n bè, gia đình giúp đ tơi hồn thành lu n v n http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Ch ng 1: Các ph ng pháp thu th p thơng tin KIL OBO OKS CO M 1.1 S phát tri n c a internet u c u tìm ki m thơng tin M ng Internet đ c đ i t nh ng n m 1970 v i tên ban đ u ARPANET, m ng c a b qu c phòng M V i s ti n d ng tính kh thi c a m ng ARPANET phát tri n m nh m thu hút s tham gia c a nhi u t ch c th gi i Cho t i có hàng tri u máy ch khác tham gia m ng tồn c u –Internet Hub Server LAN Hub Server Workstation IBM Compatible LAN Workstation IBM Compatible Internet Hub Server LAN Hub Server Workstation IBM Compatible LAN Workstation hình 1: S k t n i m ng c a máy tính IBM Compatible http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN ti m n ng d ch v s n có c a S thu n ti n c a Internet th hi n nh : Telnet, FTP, Web S đ i c a Web đánh d u m t b c thay đ i quan tr ng s phát tri n c a Internet.Web hay g i World Wide Web ph KIL OBO OKS CO M m t h th ng tài li u liên k t máy khác nhau.Web h th ng đa ng ti n, tài li u có th bao g m âm thanh, hình nh ph truy n thơng khác ng ti n ó tài li u html (Hyper Text Make up Language) S ti n d ng c a Web đ c ch ng minh qua th c t v i hàng lo t cơng ty, t ch c tham gia phát tri n Internet phát tri n m nh m , sâu vào m i l nh v c cu c s ng S phát tri n làm cho kh i l ng ng thơng tin Internet ngày tr nên đ s h n, i h u nh có th nh n đ c b t c thơng tin h mong mu n Tuy nhiên s phát tri n c ng làm cho ng i s d ng khó kh n h n vi c tìm v trí thơng tin c n thi t c ng nh l a ch n đ c nh ng thơng tin thích h p nh t gi i quy t v n đ nhi u cơng ty cung c p d ch vu Internert phát tri n h th ng tìm ki m đánh giá thơng tin.Các “máy tìm ki m”Search Engine đ Trong ch c xây d ng nh m t cơng c đ gi i quy t v n đ ng ta nghiên c u v n đ liên quan đ n tìm ki m thơng tin, nh ng c s tốn h c c t y u đ thi t k lên Search Engine ph c v u c u tìm ki m thơng tin 1.2 Tìm ki m thơng tin 1.2.1 Gi i thi u: Thơng tin m t khái ni m tr u t ng khơng đ nh ngh a, thơng tin có th âm hình nh c ng có th s ki n.Chúng ta phân tích v n đ tìm ki m thơng tin c s d li u d ng text b i hai ngun nhân:  S hi u bi t v ph ng pháp r t h u d ng đ c coi nh thơng tin n n t ng cho phát tri n m i h n  cho ph S phát tri n ho c m r ng ph ng pháp khác ng pháp tr ng tâm http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Gi s c n tài li u v m t ch đ , bi t t khóa đ c tr ng cho v n đ đó, t m t chu i t khóa nh p vào u c u xác đ nh tài li u có ch a chu i t ây u c u đ t cho Search Engine mà s nghiên c u ch KIL OBO OKS CO M ng c a lu n v n, bây gi s nghiên c u nh ng c s khoa h c cho vi c tìm ki m 1.2.2 Ph Các ph ng pháp tìm ki m v n b n c n ng pháp tìm ki m g n li n v i cách bi u di n ch m c c a tài li u, v y s xem xét chúng song song nhau: a.Qt tồn b tài li u: Ph ng pháp tr c ti p nh t đ xác đ nh tài li u có ch a m t chu i kí t c n tìm ki m c th tìm ki m tồn b tài li u M t thu t tốn đ n gi n đ th c hi n u này:  Xu t phát t ký t đ u tiên tài li u, trích m t chu i b t đ u t kí t đó, so sánh chu i v i chu i ngu n c n so sánh  N u có s khác bi t d ch chu i c a tài li u m t kí t sang bên ph i c a tài li u  L p l i cho t i tìm đ c chu i th a mãn ho c t h t tài li u, k t lu n chu i khơng có tài li u Thu t tốn đ n gi n nh ng r t ch m N u m chi u dài chu i c n tìm ki m n chiêu dài c a v n b n s phép so sánh t i đa mà thu t tốn c n th c hi n m*(n-m) phép so sánh ã có r t nhi u c i ti n cho ph pháp này: th c hi n ti n s lý chu i c n tìm ki m nh m t ng s b ng c d ch chuy n sau m i l n so sánh, ho c s d ng Automate tr ng thái so sánh m t lúc nhi u xâu Các thu t tốn đ u khơng u c u chi phí khơng gian nhiên m i tài li u c p nh t, thay đ i chúng l i ph i đánh l i ch m c t đ u v y, ph ng pháp qt tồn b ch thích h p đ t o ch m c tài li u v n h c ho c thi t k cho ph n c ng chun d ng http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN b.S d ng t p ký hi u Ph ng pháp s d ng m t file kí hi u đ i v i m i tài li u đ ch m c Có nhi u ph ng pháp t o file kí hi u đ c đè xu t Ph ct o ng pháp KIL OBO OKS CO M đ n gi n nh t có th k đ n Bitstring M i m t tài li u c n t o ch m c cho ng v i m t chu i bít xác đ nh s xu t hi n c a t tài li u.Gi s tài li u có t t g m nhi u kí t , n u quan tâm đ n s kí t đ u tiên c a t ng v i m i kí t quan tâm bi u di n b ng m t chu i bít có đ dài s, m t cách đ n gi n cho t ng ng mã ASCII c a kí t v i m t chu i bit nh phân có chi u dài s, nh v y ng v i m t t tài li u ta có th bi u di n b ng s chu i bit nh phân, m i chu i có đ dài w đ nh tr c.Ví d quan tâm t i kí t đ u tiên t sau ta có Các ký t đ u tiên có mã ASCII d ng octal nh b ng sau: T Nor Her Hunger Eased Ký t th nh t Kí t th hai Kí t th ba 116 157 162 150 145 162 150 165 156 145 141 163 S d ng hàm chuy n f(c) = ( c mod ) chuy n ký t d i d ng chu i nh phân có chi u dài bit: T Nor Her Hunger Chuy n thành chu i bit nh phân 01 000 000 10 000 000 00 000 001 00 100 000 00 000 001 00 100 000 00 000 100 00 000 100 http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Eased 00 100 000 00 000 010 00 100 000 KIL OBO OKS CO M 00 001 000 Khơng có s phân bi t t gi ng tài li u, u có ngh a là: t gi ng tài li u có chung m t giá tr bit Thơng th t o file kí hi u t tài li u đ ng tr c c phân tích lo i b t vơ ngh a, chu n hóa t bi n d ng v t g c, ta có t p thu t ng (term) M i câu truy v n đ c phân tích nh m t tài li u, s so sánh x y chu i bít t o theo quy t c gi m th i gian x lý tìm ki m file ký hi u ng ph ng pháp Bitslice ý t ng c a ph i ta đ xu t ng pháp t o file ký hi u cho tồn b c s d li u text ( C s d li u text c s d li u ch a tài li u d ng text, m i b n ghi có th coi m t danh sách t thu c m t tài li u c s d li u) Gi s ta có N tài li u m t c s d li u, v i m i t có xu t hi n tài li u ta xây d ng m t chu i bit có chi u dài N (các slice), chu i bít th i xác đ nh s có m t c a t tài li u th i c a c s d li u Ph ng pháp Bitslice tr nên khơng thích h p đ i v i c s d li u l n, gi s m t c s d li u text có hàng tri u b n ghi, chi u dài chu i bit (slice) file ký hi u r t l n Ph ng pháp Blocked Signature File đ phát tri n đ gi i quy t v n đ Theo ph c ng pháp m i m t bit bitslice th hi n s xu t hi n c a t mà bi u di n m t nhóm tài li u đ c xác đ nh tr c V n đ d t là: đ i v i u c u tìm ki m tài li u ch a t t c t m t câu truy v n (Disconjunctive query) m t kh i có th th a mãn u c u tìm ki m nh ng khơng có tài li u kh i th a mãn u c u tìm ki m Chúng ta có th gi m tình tr ng b ng cách s p x p tài li u vào nhi u kh i khác nhau, m t tài li u có th thu c http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN kh i 1, khơi 2, Gi s m i t xu t hi n tài li u c n bi u di n b i m t chu i bit có chi u dài w, ph c ó K block ch a t đó, th s có w k side t p kí hi u bi u di n t Ph ch có th gi m ph n sai sót (false match) ch khơng KIL OBO OKS CO M pháp đ xu t ng pháp Block File Signature ng đ m b o ch c ch n sai xót s khơng x y Chúng ta xem xét m t mơ hình tốn h c áp d ng cho vi c đánh giá m c đ xác ph ng pháp t o file kí hi u Gi s m t v n b n có t thu t ng khác nhau, ng v i m i thu t ng ta dùng s chu i bít đ t o t p kí hi u, m i chu i bít có chi u dài w, Khi ta c n xác đ nh s*t chu i bít cho t p kí hi u G i p(w,s,t) giá tr đ nh kh n ng m t tài li u th a mãn u c u truy v n tìm t p ký hi u, nh ng khơng ph i tài li u th a mãn D a vào tính tốn khoa h c ta có  P(w,s,t) = 1 (1 1w) s*t  s Ví d : m t tài li u có 150 thu t ng khác nhau, m i thu t ng đ c bi u di n b i chu i bit, m i chu i có chi u dài 5000, s d ng cơng th c ta có th tính m c đ sai l ch k t qu tìm ki m là: 1100000 c.S d ng file ngh ch đ o Khác v i ph ng pháp s d ng t p ký hi u, ph ng pháp s d ng t p ngh ch đ o ( inverted file ) t o danh sách t khóa có c s d li u, câu truy v n đ c x lý b ng cách so sánh v i danh sách t khóa r i tìm tài li u ch a t khóa th a mãn câu truy v n M t file ngh ch đ o bao g m hai ph n: danh sách t khóa đ c index ch a tài li u danh sách tr t i tài li u ch a t khóa file ngh ch đ o tài li u c s d li u đ thu g n kích th c c gán m t đ nh danh nh t (docID), liên k t t i tài li u ch đ n gi n l u đ nh danh c a tài li u t ng ng Q trình t o t p ngh ch đ o bao g m b  c: Document File: Xác đ nh t tài li u s đ c index, t có ý ngh a, t khóa, lo i b t khơng c n thi t, ch a đ ng thơn tin: http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Thơng tin th hai n i dung cua trang Web, thơng tin đ c chuy n cho ph n Indexer.Search Engine khơng nh ng c p nh t d li u URL t nh ng URL tìm th y trang Web, cho phép c p nh t tr c ti p t ng c c p nh t nhanh h n đ y đ h n, KIL OBO OKS CO M tr i u cho phép c s d li u đ m t khác mang tính th i qu n ng m i cao, ch Web site mu n qu ng bá trang Web c a c n ph i tr ti n đ Search Engine c p nh t đ a ch V i quan m coi tồn b m ng Internet m t đ th l n, đ nh trang Web, chúng đ c n i v i thơng qua đ a ch liên k t dùng thu t tốn t đ th c n ta d dàng t tồn b trang Web Internet ng v i hai ph ng pháp t đ th thơng th ng ta có hai ph ng pháp tìm ki m Search Engine: Tìm theo chi u sâu (Depth in First ) tìm theo chi u r ng (Breadth in First).Thep ph ng pháp th nh t – tìm ki m theo chi u sâu, Web Clawler xác đ nh đ a ch liên k t c a site hi n th i, truy c p r i truy c p t i nh ng đ a ch liên k t c a site m i, ti p t c nh v y cho t i khơng truy c p đ c n a thi quay l i V i ph ng pháp Web Clawler có th tìm ki m chun sâu v n đ mà site cung c p.N u s d ng ph tim ki m theo chi u r ng Web Clawler l n l site hi n th i r i truy c p nh ng đ a ch liên k t ng pháp t truy c p đ a ch liên k t site m i Ph ng pháp làm cho Web Clawler thu th p thơng tin nhi u l nh v c khác Tu theo u c u khác mà quy t đ nh ph c hai ph ng pháp tìm ki m T c đ tìm ki m theo ng pháp đ u ph thu c vào t c đ đ ng truy n kh n ng đáp ng u c u c a t ng site Nhìn chung t c đ truy c p c a Web Crawler theo ph ng pháp tìm ki m theo chi u sâu n đ nh ph ng pháp tìm ki m theo chi u r ng b i liên t c tìm ki m Web site có h tr t c đ khác Các thơng tin Web Clawler thu th p qua m t s b c ti n x lý: đ nh d ng, lo i b thơng tin d th a phân lo i n i dung r i chuy n cho Indexer đ t o ch m c Các Search Engine khác th c hi n thao tác ti n x lý khác Ngồi đ nh d ng tài li u quen thu c (*.html, *.txt, ) m t s Search Engine http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN có th đ nh d ng đ đ c tài li u đ c bi t (*.doc, *.pdf ) M i Search Engine c thi t k cho m c đích khác nên quan m thơng tin d th a c a khác Các Search Engine ph c v tìm ki m tài li u khoa h c ch quan tâm KIL OBO OKS CO M đ n nh ng t khố chun ngành c a mình, nhiên Search Engine tìm ki m v n b n v n h c l i quan tâm đ n nhi u t , ng h n Phân lo i tài li u c ng khác Search Engine Xét theo quan m h th ng có hai ph pháp phân lo i chính: phân lo i t ng i.Ph ng đ ng phân lo i tr c giác c a ng pháp phân lo i t đ ng đ c th c hi n b i máy tính Các ch ng trình phân tích tài li u tìm t khố tài li u, t đ ng x p x p theo danh m c theo ph ng pháp l p s n, Ph ng pháp có u th nhanh chóng, gi m ph n vi c m t m i thi u h ng thú đ i v i ng i, nhiên quy t c c ng nh c làm ch m c c a tài li u thi u đ xác, ph pháp th hai phân lo i th cơng, ng ng i qu n tr Search Engine đ c n i dung tài li u xem xét x p chúng vào danh m c thích h p.Ph ng pháp xác nh ng t n m t nhi u th i gian kinh phí, serch engine ngày có xu h ng t p chung th i gian kinh phí nâng c p modul phân tích tài li u đ có th phân tích phân lo i tài li u có đ xác cao h n D li u đ c Index có th t ch c theo nhi u c u trúc khác ví d : s d ng t p tin đ o (inverted file), s d ng c u trúc 2.3 Phân lo i Search Engine Có r t nhi u Search Engine ho t đ ng Internet m i lo i s d ng ph ng pháp, cơng ngh khác nhau.D a vào cơng ngh tìm ki m có th thành lo i sau: hyperlink exploration, information retrieval, metasearch, SQL approach, contet-based multimedia search, lo i l i V i m c đích c a lu n v n chia Search Engine thành hai lo i d a vào ph ng pháp tìm ki m: tìm ki m thơng th ng siêu tìm ki m (metasearch) 2.3.1 Search Engine s d ng ph ng pháp thơng th Các Search Engine s d ng ph ng pháp tìm ki m thơng th Search Engine ph c v u c u tìm ki m theo ý t ng ng ng ngun th y c a nó: http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN thu th p tài li u, phân lo i Có hai cách t o ch m c cho Search Engine lo i này: s d ng câu th m c ch đ t o ch m c t đ ng Ph ng pháp th m c ch đ ph đ i đ c phân lo i tài li u thu th p đ c.Các site internet KIL OBO OKS CO M ng ng pháp phân lo i th cơng, c phân lo i theo ch đ v i c p chi ti t h n ch đ Cac ch đ m c th p nh t th ng m t chun ngành hay m t l nh v c r ng, c p ti p theo vào t ng b ph n thu c chun ngành, l nh v c m c cu i ch đ n tài li u c th V i ph ng pháp ng i s d ng tìm ki m thơng tin c n thi t b ng cách ch n m t ch đ , sâu vào ch đ cho t i tìm đ c thơng tin mong mu n Có th hình dung cách tìm ki m gi ng nh tìm file th m c.C ch làm k t qu tìm ki m c a Search Engine xác v i mong mu n c a ng ph i dùng, c s d li u l u ch m c c ng nh h n so v i ng pháp khác Tuy nhiên th m c ch đ l i q ph thu c vào mơ t ch quan c a ng òi phân lo i N u vi c mơ t khơng rõ ràng xác ng i dùng khó có th nhân đ Ph c k t qu theo mong mu n ng pháp t o ch m c th hai d a c ch phân lo i t đ ng trang Web tìm đ c, nh phân tích ph n b c a m c này, vi c phân lo i di n nhanh tróng, nhiên máy tính đ m nh n nên k t qu tr v th ng khơng xác, k t qu tài li u tr v cho m t câu truy v n l n gây khó kh n cho ng i dùng Khó có s so sánh đ t i u đ i v i hai ph vào s thích c a ng ng pháp trên, ph thu c i dùng tính ch t c a cơng vi c tìm ki m 2.3.2 Meta Search Engine Nh bi t v i m t câu truy v n Search Engine khác cho k t qu khác nhau, lý c ch Index d li u c ng nh thơng tin c s d li u tài li u đ c Index khác Search Engine khác nhau, đ kh c ph c tình tr ng Search Engine thu c lo i metesearch đ c t o T t ng c a metaserch Engine giúp cho ng i dùng khơng ph i nh đ a ch c ng nh cách th c s d ng c a nhi u Search Engine mà http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN v n đáp ng đ c u c u tìm ki m thu th p thơng tin Các Search Engine lo i giao ti p v i ng i s d ng theo m t giao di n th ng nh t, ng i dùng nh p vào u c u tìm ki m, metasearch engine phân tích câu truy v n chuy n KIL OBO OKS CO M u c u đ n Search Engine khác nh n l i k t qu s p x p phân lo i chúng r i tr l i cho ng đ i dùng Nh v y metaSearch Engine ph i hi u c khn d ng câu l nh tìm ki m c ng nh đ c m c a Search Engine mà chúng đ nh u c u tìm ki m, cơng vi c c a ti p theo phân lo i, đ i chi u k t qu tìm ki m t Search Engine khác đ đ a k t qu th ng nh t, cơng vi c khó kh n nh t c a metasearch engine Các search engine khơng l u đ a ch th ng nh t c a trang Web internet có th m t trang Web search engine tr l i k t qu URL khác Ví d đ a ch http://www.google.com/index.html có Search Engine có th l u gi đ a ch ho c http://www.google.com/ đ gi i quy t v n đ đ u tiên meta Search Engine so sánh đ a ch tên mi n c a đ a ch , n u đ a ch khác có tên mi n gi ng nhau, meta Search Engine so sánh tiêu đ c a trang Web đó, n u chúng có tiêu đ gi ng có th xem alias c a nhau, tùy theo xây d ng Search Engine mà alias có th b xóa ho c đ cđ t c nh Hi n ngồi cách t i v so sánh đ y đ n i dung ch a có Search Engine c ng nh meta Search Engine có th phân bi t đ c hai trang Web b n c a nhau, mà v n đ t i v so sánh n i dung m t r t nhi u th i gian v y t m th i ch p nh n ph ng án nêu đánh giá đ xác c a c a tài li u so v i u c u tìm ki m meta search engine s d ng khái ni m m tin c y (confidence score) Tài li u có m tin c y l n h n s thõa mãn u c u ng i dùng l n h n đ c x p lên trên.Các meta Search Engine s d ng thang m 1000 đ tính m tin c y , k t qu nh n v t search engine đ c gán m theo quy t c: k t qu đ u tiên gán giá tr 1000, sau gi m d n cho t i Vì 1000 s l n so v i s l ng tài li u mà ng t 1000 tr đ u đ i dùng mu n nh n đ c v y tài li u x p c gán m tin c y b ng Sau meta Search Engine đánh giá tài li u trùng nhau, gán m tin c y tài li u b ng t ng s http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN m tin c y c a Search Engine tìm đ đ c tìm th y c, u có ngh a tài li u nhi u Search Engine khác s có m tin c y l n h n so m t vài Search Engine Cu i meta Search Engine tr l i k t qu cho ng i dùng theo th t m tin c y v a tính đ KIL OBO OKS CO M v i tài li u ch tìm th y c 2.4 Các v n đ liên quan t i Search Engine Search Engine bao g m hai ph n chính: thu th p tìm ki m thơng tin, v y nghiên c u hai v n đ liên quan theo c u trúc c a 2.4.1 V n đ thu th p thơng tin: Internet phát tri n m nh m đ ng ngh a v i kh i d li u ngày kh ng l h n, theo th ng kê c a Baeza-Yates tính đ n n m 1999 th gi i có kho ng terabyte d li u d ng v n b n s l ng s g p nhi u l n n u ta tính t i d li u multimedia (hình nh, âm thanh,video) kh i d li u phát tri n hàng ngày, hàng gi v i t c đ ngày l n h n, M t khác d li u có l i thay đ i liên t c c p nh t ho c thay đ i theo ng i dùng, trang Web có th xu t hi n ho c thay đ i đ a ch thâm chí b xóa mà khơng c n báo tr c.C ng theo Baeza-Yates có t i 40% trang Web c p nh t hàng tháng Tính ch t đ ng c ng nh kh i l ng kh ng l c a d li u làm cho Search Engine ph i phát tri n m nh m khơng ng ng c i ti n k thu t đ b t k p s thay đ i Thu th p thơng tin c ng g p khó kh n b i ch t l ng c a d li u khơng đ c đ m b o b i nhà phát hành u có ngh a Search Engine có th tìm nh ng thơng tin có l i, thơng tin khơng đ c c p nh t, th m chí thơng tin sai l c.Thơng tin đ a lên Internet khơng nh t thi t d ng siêu v n b n, có r t nhi u d li u v i ki u c u trúc khác gây khó kh n cho vi c hi u đ c chúng M t v n đ khác đ t n a là: ngơn ng khơng nh t qn tài li u, phân l n tài li u Internet ti ng anh Search Engine c ng y u phát tri n n c Anh, M nhiên th gi i có r t nhi u ngơn ng khác nhau, khó có th xây d ng m t Search Engine ph c v cho t t c ngơn ng trên, M t s Search Engine có ch c n ng đa ngơn ng nhiên ch nh ng ng d ng đ n l đ c l p ghép l i v i nên khơng nh t qn Các qu c gia riêng http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN mu n đáp ng u c u tìm ki m thơng tin v i ngơn ng đ a ph d ng nh ng h th ng h tr đ c thù ngơn ng c a mình, ng c n xây Vi t Nam có m t s Search Engine tìm ki m thơng tin b ng ti ng vi t ví d : VinaSeek KIL OBO OKS CO M 2.4.2 V n đ tìm ki m thơng tin V n đ có th chia làm hai lo i: Nh n thơng tin truy v n tr v thơng tin u c u c a ng i dùng thơng tin khơng xác, ngơn ng t nhiên S khơng xác có th n m ch quan ng i s d ng: gõ sai t , nh sai t khóa C ng có th y u t khách quan thơng tin l u gi khác so v i u c u tìm ki m, ví d : ng i dùng tìm ki m thơng tin v “Thomas Alva Edisson”, Search Engine có th khơng đ a tài li u nói v “Thomas A.Edisson”.Các v n đ x lý t đ ng âm, x lý d ng bi n đ i c a t g c c ng làm Search Engine khó kh n vi c đ a tài li u th a mãn u c u.Nh phân tích ph n có r t nhi u ph ng pháp nh n thơng tin truy v n đ kh c ph c m t ph n v n đ Hai ph t ng i dùng th ng đ ng pháp nh n câu truy v n c s d ng là: Cho phép ng i dùng ch n t khóa thơng h p nh p, ho c đ a l u đ nh n thơng tin truy v n qua câu h i, m t cách khác cho phép ng i dùng nh p theo ngơn ng t nhiên Search Engine s phân tích tìm t khóa.V n đ tr l i k t qu tìm đ gi n, s l ng tài li u tìm đ c r t l n ng c c ng khơng đ n i dùng khơng có th i gian đ t i v phân tích tài li u đ tìm tài li u phù h p nh t, Search Engine c n có c ch cho m thích h p theo m t ch tiêu c th đ ng có th t quy t đ nh đ i dùng c tài li u phù h p nh t 2.5 ánh giá Search Engine 2.6 Gi i thi u m t s Search Engine n hình 2.6.1 Search Engine Altavista Altavista có đ a ch http://www.altavista.com Ki n trúc c a có th coi nh m t ki n trúc n hình c a Search Engine, Altavista có hai ph n rõ r t crawler indexer, ngồi có h th ng giao di n ng i dùng th c hi n http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN câu l nh tìm ki m.Tính t i th i m 1998 Alvista ch y 20 b vi x lý, m i b có t ng c ng 130 Gb Ram s d ng 500 Gb khơng gian đ a 2.6.2 Search Engine Harvest KIL OBO OKS CO M Harvest m t Search Engine m nh đ c s d ng b i CIA, NASA, US National Academy of Sciences 2.6.3 Search Engine Google Search Engine Google có đ a ch http://www.google.com ây Search Engine th ng m i, r t m nh đ c s d ng r ng rãi nh t th gi i Nó h tr nhi u hình th c tìm ki m khác nh tìm ki m theo ch đ , tìm ki m theo t khóa, tìm ki m s d ng tốn t Boolean, tìm ki m khơng xác, Google có kh i l ng d li u kh ng l nh ng th i gian tìm ki m v n t Ph n l n module c a Google đ ng đ i nhanh c vi t b ng C/C++, có th ch y h u hành Solaris Linux Trong Google Search Engine đ c t o b i nhi u Clawler phân tán khác nhau.Có m t máy ch URL server g i đ a ch URL c n truy c p t i crawler Các trang web sau t i v đ c chuy n đ n Store Server Store Server nén l u trang Web vào kho ch a – repository M i trang Web khác đ c gán m t đ nh danh nh t g i docID, chúng đ c đánh ch m c b i Indexer, s p x p b i Sorter Indexer gi i nén tài li u phân tích chúng đ t o hit Các hit ch a t khóa, v trí c a nó, c ch , nh ng thơng tin nh m Index d li u Indexer phân b hit khoang ch a (barrel) khác theo ch đ đ thu n ti n cho vi c tìm ki m Sorter l y hit khoang ch a đ l u chúng vào inverted index Goolge s d ng m t ch ng trình g i DumpLexicon t o b t n t đ Searcher s d ng Searcher s tìm ki m inverted file đ l y thơng tin u c u Thơng tin đ truy v n c PageRank s p x p l i tr v cho ng i http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Vào th i m 1998 Goolge thu th p đ Kích th c l u tr c a thơng tin nén 55.2 GB, t c 24 tri u trang web ng đ ng 108.7 GB ch a KIL OBO OKS CO M nén Th i gian trung bình cho m t câu truy v n t đ n 10 giây http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Ch ng 3: Xây d ng mơ hình tìm ki m thơng tin theo Search Engine Cùng v i s phát tri n c a Internet mơ hình giáo d c t xa có c xu t b n nhi u h n, chúng KIL OBO OKS CO M xu th m r ng hồn thi n, sách n t đ ta d dàng xây d ng đ c m t th vi n s ch n t cho riêng Lu n v n xây d ng m t ch ng trình tìm ki m sách tho mãn u c u tìm ki m, sách gi đ nh sách n t đ c vi t d i d ng HTML, HTM, text - d ng ph bi n c a sách n t l u thơng Internet d ng nh song t t ng ây m t ng xây d ng m t mơ hình tìm ki m theo Search Engine áp d ng ng d ng khác nhau: có th c i ti n v i ph ng th c t o ch m c, tìm ki m lo i d li u khác nhau: tìm ki m m ho c tìm ki m v i thơng tin khơng xác T m t th m c ch a sách t tr ch c, sau th c hi n Index d li u ng trình t o m t th m c Index ch a thơng tin t ng quan v th vi n sách Khi m t u c u tìm ki m đ c đ t ch ng trình t th m c Index đ a tài li u tho mãn 3.1 Ki n trúc ch ng trình Ngồi ph n giao di n t ng tác ng i dùng M t mơ hình tìm ki m theo Search Engine nh t thi t ph i có hai ph n: t o ch m c tìm ki m thơng tin 3.1.1 T o ch m c Trong ph n t o ch m c, tr c h t ph i xác đ nh thơng tin t o ch m c, thơng tin có th ch a c s d li u có th ch a m t thi t b l u tr , b nh ngồi ho c ng d ng tìm ki m sách n t xác đ nh d li u c n index file ch a th m c đ nh tr trang “t o ch m c”, ch nh n tham s đ c, ng i dùng có th ch n th m c ng trình g i đ n l p IndexHTML l p ng d n t i th m c, t qua file th m c http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN th m c tìm file có đ nh d ng “text”, “html”, “htm” t o ch m c cho theo ph ng pháp đ quy // if a directory KIL OBO OKS CO M if (file.isDirectory()) { String[] files = file.list(); // list its files Arrays.sort(files); // sort the files for (int i = 0; i < files.length; i++) // recursively index them indexDocs(new File(file, files[i])); } else if (file.getPath().endsWith(".html") || // index html files file.getPath().endsWith(".htm") || // index htm files file.getPath().endsWith(".txt")) { // index txt files Sau xác đ nh thơng tin c n t o ch m c, d a vào u c u tìm ki m có th Index thơng tin theo ph ph ng pháp t o ch m c b ng ph véc t t ng pháp khác nhau, đ i v i ng pháp véc t cơng đo n xác đ nh ng ng v i m i m u thơng tin, tính tốn đ quan tr ng c a t ng t khố, vi c xác đ nh t khố th c hi n đ n gi n b ng cách xây d ng m t đ i t ng Tokenizer có s n b th vi n Java, tính tốn tr ng s c a t b ng cơng th c xây d ng ch ng xác đ nh đ c m t ma tr n ch m c hồn ch nh Do ng d ng tìm ki m sách n t ng d ng th nghi m, s d ng ph ng pháp t o file kí hi u (signature file) b ng cách t o file mơ t thơng tin c n t o ch m c Nó ti n hành đ nh d ng b ng cách t o m t đ i t ng document v i tham s file c n t o ch m c Document doc = HTMLDocument.Document(file); Ph ng th c l u thơng tin c a tài li u d (Field ) có b n tr ng đ c s d ng : i d ng tr ng http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN  tiêu đ tài li u (title)  n i dung tóm t t (summary) KIL OBO OKS CO M  ngày tháng c p nh t tài li u (modified)  n i dung tài li u (content) Các thơng tin đ c xác đ nh nh l p phân tích n i dung tài li u l u l i thành m t file (Signature file) 3.1.2 Tìm ki m Sau t o ch m c ph V i m t câu truy v n nh n đ ng th c tìm ki m s thao tác th m c c ch ng trình ph i phân tích xác đ nh đ t khố c n thi t, lo i b thơng tin d th a, n u s d ng ph ch m c b ng véc t ta bi u di n câu truy v n d ng pháp t o i d ng m t véc t , so sánh v i véc t ma tr n ch m c tìm tài li u tho mãn, ch tìm ki m sách n t d d ng ph c ng trình ng pháp t o ch m c file kí hi u v y vi c tìm ki m ch đ n gi n đ i sánh t khố, tìm tài li u có ch a t khố đ a k t qu Vi c tìm ki m đ c th c hi n b i l p Searcher k t qu đ tính tốn result.jsp k t qu tr v đ theo l a ch n ng c x p x p hi n th v i s l c x lý, ng tu i dùng 3.2 Gi i thi u b th vi n Jakata Lucene Jakata Lucene đ c vi t b i m t nhóm l p trình Doug Cutting đ ng đ u.Phát tri n t cu i n m 1997 đ u n m 1998 cho đ n có b n Lucene v1.3-RC5(có th t i mi n phí t đ a ch http://jakata.apache.org/builds/jakatalucene/release/v1.3-rc5/) Jakata Lucene b cơng c đ phát tri n m t h th ng Search Engine hồn ch nh đáp ng đ y đ u c u v tìm ki m thơng tin d li u v n b n (text) siêu v n b n(html, htm) phiên b n đ y đ b sung ch c n ng tìm ki m tài li u có đ nh d ng đ c biêt nh file *.doc ,*.pdf Tồn b th vi n đ c vi t b ng mã Java v y có tính m cao d s d ng l i đ xây d ng Search Engine theo u c u http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN khác ã có r t nhi u ng d ng d a b th vi n Jakata Lucene ví d : Bob Dylan ( http://bobdylan.com/ ) Jive Forum (http://www.jivesoftware.com/) c t ch c theo c u trúc org.apache.lucene, bao KIL OBO OKS CO M Th vi n Jakata Lucene đ g m gói th vi n thành ph n nh sau: Analysis: ch a l p tinh ch nh m t xâu ki t thành t , c m t khố có th đánh ch m c đ c Analysis.de: có ch c n ng gi ng gói Analysis nh ng có h tr cho vi c x lý tài li u ti ng c Analysis.standard:xây d ng m t cách phân tích n i dung câu truy v n m t đ n gi n.L u t thành m ng đ i t so sánh ng String đ thu n ti n cho vi c Document: bao g m ch c n ng thao tác v i tài li u Index: ch a l p cho phép truy c p,hi u ch nh ch m c QueryParser: ch a l p v i ch c n ng phân tích câu truy v n ph c v tìm ki m thơng tin Search: Cài đ t l p ph c v tìm ki m thơng tin b ng ch m c Store: ph c v ch c n ng l u gi d li u (I/O) Util: Bao g m l p ch a ti n ích ph c v ch c n ng khác s d ng lucene ng d ng ta c n làm theo b c sau:  V i m i tài li u s d ng l p Field pakage Document đánh ch m c cho c p giá tr t ng ng (key,value), key s hi u c a tr ng value giá tr mơ t tài li u  T o m t đ i t m c - s d ng ph ng IndexWriter đ thêm tài li u vào b ng ch ng th c addDocument()  Dùng QueryParse.parce() đ tinh ch nh câu truy v n tài li u  T ođ it li u thích h p ng IndexSearch s d ng ph ng th c Search() đ tìm tài http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Lucene đ t c xây d ng nh m t mơ hình Search Engine, mơ hình ng đ i chu n uy n chuy n cho vi c phát tri n Search Engine đ c d ng.V i m c đích trên, Lucene ch a ph i m t ng d ng hồn ch nh Index d li u KIL OBO OKS CO M th cơng,d li u c n index ph i n m m t th m c đó,tài li u index file c th ch a đáp ng đ c u c u thu th p d li u m ng.M t khác đánh giá đ quan tr ng c a tài li u mang tính ch t hình th c m c dù nghiên c u nh ng ch a đ a gi i pháp x lý thơng tin m c ng nh x lý Unicode Các u c u x lý cao c p nh :x lý ngơn ng t nhiên, x lý v n đ u đ ng âm đ u ch a ti p c n Tóm l i v i quan m xem Lucene nh m t mơ hình c n có nh ng h ng nghiên c u phát tri n đ xây d ng m t h th ng hồn ch nh h n 3.3 H ng d n s d ng ch c n ng http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN K t lu n KIL OBO OKS CO M a.V lý thuy t Lu n v n t ng k t ph đ ng pháp t o ch m c tìm ki m thơng tin c áp d ng r ng rãi hi n nay, phân tích mơ hình Search Engine n hình b hồn ch nh c xây d ng m t h th ng tìm ki m theo mơ hình Search Engine Các ki n th c thu th p đ c m t th i gian ng n nên ch a th t hồn ch nh nhi u thi u xót, v n đ x lý ngơn ng t nhiên m i d ng l i ban đ u, tìm ki m m ch a đ c đ c p t i ph b c ng pháp t o ch m c m i ch a có nghiên c u sâu: tìm ki m theo Neuron, Latent Semantic Indexing ch a có phân tích kí, nh ng v n đ s đ ki n h c nghiên c u hồn ch nh có đ u ng phát tri n c a lu n v n b.V ng d ng a h thơng tìm ki m sách n t theo mơ hình Search Engine v i hai ch c n ng chính: t o ch m c tìm ki m thơng tin Do u ki n th c hành c ng nh thi u ki n th c v m ng nên ch a xây d ng đ c ph n Crawler mơ hình Search Engine, v n đ s đ quy t th i gin t i c gi i http://kilobooks.com KIL OBO OKS CO M THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Tài li u tham kh o [1] Nguy n Hồng Long, H th ng tìm ki m thơng tim theo ch đ d a c s lý thuy t t p m (Ln v n th c s ) [2] Bùi Minh c, H th ng tìm ki m v n b n v i thơng tin khơng xác( Lu n v n th c s ) [3] JUSTIN ZOBEL, Invert files versus Signature files for text indexing [4] Michael W.Berry, Murray Browne: Understanding Search Engine Mathematic Modeling and Text Retrieval [5] Michael W Berry, Zlatko Drma c,Elizabeth R Jessup: Information Retrieval [6] LTC Kenneth L Alford Jim X Chen, Information Retrieval using a Database Management System in a Parallel Environment [5] L u c Trung: Tài li u nghiên c u Search Engine ph c v c s đa ph ti n cho b nh da li u ng [...]... m tin c y c a các Search Engine tìm đ đ c tìm th y c, đi u này có ngh a là các tài li u nhi u Search Engine khác nhau s có đi m tin c y l n h n so m t vài Search Engine Cu i cùng meta Search Engine tr l i k t qu cho ng i dùng theo th t đi m tin c y v a tính đ KIL OBO OKS CO M v i các tài li u ch tìm th y c 2.4 Các v n đ liên quan t i Search Engine Search Engine bao g m hai ph n chính: thu th p và tìm. .. gian đ a 2.6.2 Search Engine Harvest KIL OBO OKS CO M Harvest là m t Search Engine m nh đ c s d ng b i CIA, NASA, US National Academy of Sciences 2.6.3 Search Engine Google Search Engine Google có đ a ch http://www.google.com ây là Search Engine th ng m i, r t m nh đ c s d ng r ng rãi nh t trên th gi i Nó h tr nhi u hình th c tìm ki m khác nhau nh tìm ki m theo ch đ , tìm ki m theo t khóa, tìm ki m s... vào ph ng pháp tìm ki m: tìm ki m thơng th ng và siêu tìm ki m (metasearch) 2.3.1 Search Engine s d ng ph ng pháp thơng th Các Search Engine s d ng ph ng pháp tìm ki m thơng th Search Engine ph c v u c u tìm ki m theo đúng ý t ng ng là các ng ngun th y c a nó: http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN thu th p tài li u, phân lo i Có hai cách t o ch m c cho các Search Engine lo i này: s d ng câu... và tìm ki m thơng tin c áp d ng r ng rãi hi n nay, phân tích mơ hình Search Engine đi n hình các b hồn ch nh c xây d ng m t h th ng tìm ki m theo mơ hình Search Engine Các ki n th c thu th p đ c trong m t th i gian ng n nên ch a th t hồn ch nh còn nhi u thi u xót, v n đ x lý ngơn ng t nhiên m i d ng l i ban đ u, tìm ki m m ch a đ c đ c p t i các ph b c ng pháp t o ch m c m i ch a có nghiên c u sâu: tìm. .. tu theo ng đ i qu n tr , nhân h s này v i tr ng s c xác đ nh theo cơng th c trên ta có k t qu tr ng s c a t khố 1.5 K t lu n v các ph ng pháp tìm ki m thơng tin c http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN ng 2: T ng quan v Search Engine KIL OBO OKS CO M Ch 2.1 Khái ni m v Search Engine Search Engine có th đ ng c đ nh ngh a là m t cơng c tin h c giúp con i trong vi c tìm ki m và tr v thơng tin. .. c u c u tìm ki m thu th p thơng tin Các Search Engine lo i này giao ti p v i ng i s d ng theo m t giao di n th ng nh t, ng i dùng nh p vào các u c u tìm ki m, metasearch engine phân tích các câu truy v n chuy n KIL OBO OKS CO M các u c u đ n các Search Engine khác nh n l i k t qu s p x p và phân lo i chúng r i tr l i cho ng đ i dùng Nh v y các metaSearch Engine ph i hi u c khn d ng câu l nh tìm ki m... c ng nh đ c đi m c a các Search Engine mà chúng đ nh u c u tìm ki m, cơng vi c c a nó ti p theo là phân lo i, đ i chi u các k t qu tìm ki m t các Search Engine khác nhau đ đ a ra k t qu th ng nh t, đây là cơng vi c khó kh n nh t c a các metasearch engine Các search engine khơng l u đ a ch th ng nh t c a các trang Web trên internet do đó có th cùng m t trang Web các search engine tr l i k t qu URL khác... cơng c có s n c a mình Search Engine trích ch n thơng tin t các trang này.Thơng tin th nh t mà Search Engine quan tâm là t p các đ a ch URL có trong trang Web, xem xét nh ng đ a ch m i Search Engine c p nh t l i c s d li u URL c a mình http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Thơng tin th hai là n i dung cua trang Web, thơng tin này đ c chuy n cho ph n Indexer .Search Engine khơng nh ng c p... ki m theo Neuron, Latent Semantic Indexing ch a có phân tích kí, nh ng v n đ này s đ ki n là h c nghiên c u hồn ch nh khi có đ đi u ng phát tri n c a lu n v n b.V ng d ng a ra h thơng tìm ki m sách đi n t theo mơ hình Search Engine v i hai ch c n ng chính: t o ch m c và tìm ki m thơng tin Do đi u ki n th c hành c ng nh thi u ki n th c v m ng nên ch a xây d ng đ c ph n Crawler trong mơ hình Search Engine, ... 2.5 ánh giá Search Engine 2.6 Gi i thi u m t s Search Engine đi n hình 2.6.1 Search Engine Altavista Altavista có đ a ch http://www.altavista.com Ki n trúc c a nó có th coi nh là m t ki n trúc đi n hình c a Search Engine, Altavista có hai ph n rõ r t crawler và indexer, ngồi ra còn có h th ng giao di n ng i dùng và th c hi n http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN các câu l nh tìm ki m.Tính ...http:/ /kilobooks. com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN 2.6 Gi i thi u m t s Search Engine n hình 2.6.1 Search... 3.1.2 Tìm ki m 3.2 Gi i thi u b th vi n Jakata Lucene 3.3 H K t lu n ng d n s d ng ch c n ng http:/ /kilobooks. com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN L i nói đ u Phát tri n t m t d án qn đ i Hoa K , ch vòng... đ Ch c s d ng r ng rãi hi n ng 3: Xây d ng mơ hình tìm ki m thơng tin theo Search Engine http:/ /kilobooks. com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN a b c đ xây d ng m t h th ng tìm ki m hồn ch nh theo mơ

Ngày đăng: 02/12/2015, 08:38

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w