Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 34 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
34
Dung lượng
467,47 KB
Nội dung
http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN M CL C ng 1: Các ph ng pháp thu th p thơng tin OBO OK S CO M Ch 1.1 S phát tri n c a internet u c u tìm ki m thơng tin 1.2 Tìm ki m thơng tin 1.2.1 Gi i thi u: 1.2.2 Ph ng pháp tìm ki m v n b n c n a.Qt tồn b tài li u: b.S d ng t p ký hi u c.S d ng file ngh ch đ o d.Tìm ki m theo mơ hình vec t phân nhóm 1.2.3 Ph ng pháp s d ng thơng tin ng ngh a a Ph ng pháp s d ng phân tích cú pháp ngơn ng t nhiên b Ph ng pháp s d ng ch m c ng ngh a c Ph ng pháp s d ng m ng Neural 1.4 ánh giá đ quan tr ng c a t khố 1.5 K t lu n v ph Ch ng pháp tìm ki m thơng tin ng 2: T ng quan v Search Engine 2.1 Khái ni m v Search Engine 2.2 Ki n trúc c ch ho t đ ng c a Search Engine 2.2.1 Ki n trúc c a Search Engine KIL 2.2.2 C ch ho t đ ng c a Search Engine 2.3 Phân lo i Search Engine 2.3.1 Search Engine s d ng ph ng pháp thơng th 2.3.2 Meta Search Engine 2.4 Các v n đ liên quan t i Search Engine 2.4.1 V n đ thu th p thơng tin: 2.4.2 V n đ tìm ki m thơng tin 2.5 ánh giá Search Engine ng http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN 2.6 Gi i thi u m t s Search Engine n hình 2.6.1 Search Engine Altavista 2.6.2 Search Engine Harvest ng 3: Xây d ng mơ hình tìm ki m thơng tin theo Search Engine KIL OBO OKS CO M Ch 3.1 Ki n trúc ch ng trình 3.1.1 T o ch m c 3.1.2 Tìm ki m 3.2 Gi i thi u b th vi n Jakata Lucene 3.3 H K t lu n ng d n s d ng ch c n ng http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN L i nói đ u Phát tri n t m t d án qn đ i Hoa K , ch vòng 30 n m đ c bi t th p k g n Internet phát tri n m nh m , len l i vào h u h t KIL OBO OKS CO M l nh v c cu c s ng, kh i l nên đ s h n, ng ng thơng tin internet ngày tr i h u nh có th nh n b t c thơng tin mong mu n t Internet, nhiên s đ s làm cho ng trí thơng tin c n, nh n đ i khó đinh v đ cv c thơng tin mu n, u c u t t y u đ t ph i xây d ng h th ng tìm ki m tho mãn u c u ng Engine đ i nh m gi i quy t u c u Chúng ta th i dùng Các Search ng đ t nh ng u c u khơng rõ ràng, nh ng câu truy v n thi u c u trúc mang tính ch t c a ngơn ng t nhiên nhên l i mu n nh n l i nh ng thơng tin xác, hay nói cách khác mu n nh n thơng tin mu n ch khơng ph i nh ng thơng tin u c u cho máy tính v y đ xây d ng m t Search Engine hồn thi n m t u c u g p nhi u khó kh n liên quan đ n nhi u ngành khoa h c: phân tích ngơn ng t nhiên, tìm ki m thơng tin, Lu n v n đ a nh ng nghiên c u mang tính ch t t ng quan v nh ng c s khoa h c đ xây d ng m t Search Engine nh v y, đ ng th i gi i thi u m t s cơng ngh đ d ng nh ng n m g n đây, v i t t sau: Ch ng 1: Các ph cs ng nh v y lu n v n có b c c nh ng pháp thu th p thơng tin Trình bày nh ng c s tốn h c cho vi c Index d li u , thu t tốn tìm ki m t ng ng v i ph Ch ng pháp Index khác ng 2: T ng quan v Search Engine Trình bày c u trúc c ch ho t đ ng c a m t Search Engine n hình, phân tích nh ng v n đ liên quan đ n Search Engine gi i thi u m t s Search Engine đ Ch c s d ng r ng rãi hi n ng 3: Xây d ng mơ hình tìm ki m thơng tin theo Search Engine http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN a b c đ xây d ng m t h th ng tìm ki m hồn ch nh theo mơ hình Search Engine v i ví d c th : H th ng tìm ki m Sách n t theo u c u h c, h n ch c a lu n v n, KIL OBO OKS CO M Ph n k t lu n: Nêu nh ng k t qu đ t đ ng phát tri n c a mơ hình tìm ki m t Lu n v n đ ng lai c hồn thành v i s giúp đ nhi t tình c a th y b n bè Xin g i l i c m n trân tr ng nh t t i PGS TSKH Nguy n Cát H ng đ nh h ng đ tài tr c ti p h nhân Lê Qu c Thái nh ng ng ng d n, Th c S c nhân L u i c Trung, c i ch b o t n tình su t q trình làm lu n v n Chân thành c m n th y giáo khoa Tốn c tin trang b nh ng ki n th c c b n su t b n n m h c v a qua, c m n s đ ng viên c a b n bè, gia đình giúp đ tơi hồn thành lu n v n http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Ch ng 1: Các ph ng pháp thu th p thơng tin KIL OBO OKS CO M 1.1 S phát tri n c a internet u c u tìm ki m thơng tin M ng Internet đ c đ i t nh ng n m 1970 v i tên ban đ u ARPANET, m ng c a b qu c phòng M V i s ti n d ng tính kh thi c a m ng ARPANET phát tri n m nh m thu hút s tham gia c a nhi u t ch c th gi i Cho t i có hàng tri u máy ch khác tham gia m ng tồn c u –Internet Hub Server LAN Hub Server Workstation IBM Compatible LAN Workstation IBM Compatible Internet Hub Server LAN Hub Server Workstation IBM Compatible LAN Workstation hình 1: S k t n i m ng c a máy tính IBM Compatible http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN ti m n ng d ch v s n có c a S thu n ti n c a Internet th hi n nh : Telnet, FTP, Web S đ i c a Web đánh d u m t b c thay đ i quan tr ng s phát tri n c a Internet.Web hay g i World Wide Web ph KIL OBO OKS CO M m t h th ng tài li u liên k t máy khác nhau.Web h th ng đa ng ti n, tài li u có th bao g m âm thanh, hình nh ph truy n thơng khác ng ti n ó tài li u html (Hyper Text Make up Language) S ti n d ng c a Web đ c ch ng minh qua th c t v i hàng lo t cơng ty, t ch c tham gia phát tri n Internet phát tri n m nh m , sâu vào m i l nh v c cu c s ng S phát tri n làm cho kh i l ng ng thơng tin Internet ngày tr nên đ s h n, i h u nh có th nh n đ c b t c thơng tin h mong mu n Tuy nhiên s phát tri n c ng làm cho ng i s d ng khó kh n h n vi c tìm v trí thơng tin c n thi t c ng nh l a ch n đ c nh ng thơng tin thích h p nh t gi i quy t v n đ nhi u cơng ty cung c p d ch vu Internert phát tri n h th ng tìm ki m đánh giá thơng tin.Các “máy tìm ki m”Search Engine đ Trong ch c xây d ng nh m t cơng c đ gi i quy t v n đ ng ta nghiên c u v n đ liên quan đ n tìm ki m thơng tin, nh ng c s tốn h c c t y u đ thi t k lên Search Engine ph c v u c u tìm ki m thơng tin 1.2 Tìm ki m thơng tin 1.2.1 Gi i thi u: Thơng tin m t khái ni m tr u t ng khơng đ nh ngh a, thơng tin có th âm hình nh c ng có th s ki n.Chúng ta phân tích v n đ tìm ki m thơng tin c s d li u d ng text b i hai ngun nhân: S hi u bi t v ph ng pháp r t h u d ng đ c coi nh thơng tin n n t ng cho phát tri n m i h n cho ph S phát tri n ho c m r ng ph ng pháp khác ng pháp tr ng tâm http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Gi s c n tài li u v m t ch đ , bi t t khóa đ c tr ng cho v n đ đó, t m t chu i t khóa nh p vào u c u xác đ nh tài li u có ch a chu i t ây u c u đ t cho Search Engine mà s nghiên c u ch KIL OBO OKS CO M ng c a lu n v n, bây gi s nghiên c u nh ng c s khoa h c cho vi c tìm ki m 1.2.2 Ph Các ph ng pháp tìm ki m v n b n c n ng pháp tìm ki m g n li n v i cách bi u di n ch m c c a tài li u, v y s xem xét chúng song song nhau: a.Qt tồn b tài li u: Ph ng pháp tr c ti p nh t đ xác đ nh tài li u có ch a m t chu i kí t c n tìm ki m c th tìm ki m tồn b tài li u M t thu t tốn đ n gi n đ th c hi n u này: Xu t phát t ký t đ u tiên tài li u, trích m t chu i b t đ u t kí t đó, so sánh chu i v i chu i ngu n c n so sánh N u có s khác bi t d ch chu i c a tài li u m t kí t sang bên ph i c a tài li u L p l i cho t i tìm đ c chu i th a mãn ho c t h t tài li u, k t lu n chu i khơng có tài li u Thu t tốn đ n gi n nh ng r t ch m N u m chi u dài chu i c n tìm ki m n chiêu dài c a v n b n s phép so sánh t i đa mà thu t tốn c n th c hi n m*(n-m) phép so sánh ã có r t nhi u c i ti n cho ph pháp này: th c hi n ti n s lý chu i c n tìm ki m nh m t ng s b ng c d ch chuy n sau m i l n so sánh, ho c s d ng Automate tr ng thái so sánh m t lúc nhi u xâu Các thu t tốn đ u khơng u c u chi phí khơng gian nhiên m i tài li u c p nh t, thay đ i chúng l i ph i đánh l i ch m c t đ u v y, ph ng pháp qt tồn b ch thích h p đ t o ch m c tài li u v n h c ho c thi t k cho ph n c ng chun d ng http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN b.S d ng t p ký hi u Ph ng pháp s d ng m t file kí hi u đ i v i m i tài li u đ ch m c Có nhi u ph ng pháp t o file kí hi u đ c đè xu t Ph ct o ng pháp KIL OBO OKS CO M đ n gi n nh t có th k đ n Bitstring M i m t tài li u c n t o ch m c cho ng v i m t chu i bít xác đ nh s xu t hi n c a t tài li u.Gi s tài li u có t t g m nhi u kí t , n u quan tâm đ n s kí t đ u tiên c a t ng v i m i kí t quan tâm bi u di n b ng m t chu i bít có đ dài s, m t cách đ n gi n cho t ng ng mã ASCII c a kí t v i m t chu i bit nh phân có chi u dài s, nh v y ng v i m t t tài li u ta có th bi u di n b ng s chu i bit nh phân, m i chu i có đ dài w đ nh tr c.Ví d quan tâm t i kí t đ u tiên t sau ta có Các ký t đ u tiên có mã ASCII d ng octal nh b ng sau: T Nor Her Hunger Eased Ký t th nh t Kí t th hai Kí t th ba 116 157 162 150 145 162 150 165 156 145 141 163 S d ng hàm chuy n f(c) = ( c mod ) chuy n ký t d i d ng chu i nh phân có chi u dài bit: T Nor Her Hunger Chuy n thành chu i bit nh phân 01 000 000 10 000 000 00 000 001 00 100 000 00 000 001 00 100 000 00 000 100 00 000 100 http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Eased 00 100 000 00 000 010 00 100 000 KIL OBO OKS CO M 00 001 000 Khơng có s phân bi t t gi ng tài li u, u có ngh a là: t gi ng tài li u có chung m t giá tr bit Thơng th t o file kí hi u t tài li u đ ng tr c c phân tích lo i b t vơ ngh a, chu n hóa t bi n d ng v t g c, ta có t p thu t ng (term) M i câu truy v n đ c phân tích nh m t tài li u, s so sánh x y chu i bít t o theo quy t c gi m th i gian x lý tìm ki m file ký hi u ng ph ng pháp Bitslice ý t ng c a ph i ta đ xu t ng pháp t o file ký hi u cho tồn b c s d li u text ( C s d li u text c s d li u ch a tài li u d ng text, m i b n ghi có th coi m t danh sách t thu c m t tài li u c s d li u) Gi s ta có N tài li u m t c s d li u, v i m i t có xu t hi n tài li u ta xây d ng m t chu i bit có chi u dài N (các slice), chu i bít th i xác đ nh s có m t c a t tài li u th i c a c s d li u Ph ng pháp Bitslice tr nên khơng thích h p đ i v i c s d li u l n, gi s m t c s d li u text có hàng tri u b n ghi, chi u dài chu i bit (slice) file ký hi u r t l n Ph ng pháp Blocked Signature File đ phát tri n đ gi i quy t v n đ Theo ph c ng pháp m i m t bit bitslice th hi n s xu t hi n c a t mà bi u di n m t nhóm tài li u đ c xác đ nh tr c V n đ d t là: đ i v i u c u tìm ki m tài li u ch a t t c t m t câu truy v n (Disconjunctive query) m t kh i có th th a mãn u c u tìm ki m nh ng khơng có tài li u kh i th a mãn u c u tìm ki m Chúng ta có th gi m tình tr ng b ng cách s p x p tài li u vào nhi u kh i khác nhau, m t tài li u có th thu c http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN kh i 1, khơi 2, Gi s m i t xu t hi n tài li u c n bi u di n b i m t chu i bit có chi u dài w, ph c ó K block ch a t đó, th s có w k side t p kí hi u bi u di n t Ph ch có th gi m ph n sai sót (false match) ch khơng KIL OBO OKS CO M pháp đ xu t ng pháp Block File Signature ng đ m b o ch c ch n sai xót s khơng x y Chúng ta xem xét m t mơ hình tốn h c áp d ng cho vi c đánh giá m c đ xác ph ng pháp t o file kí hi u Gi s m t v n b n có t thu t ng khác nhau, ng v i m i thu t ng ta dùng s chu i bít đ t o t p kí hi u, m i chu i bít có chi u dài w, Khi ta c n xác đ nh s*t chu i bít cho t p kí hi u G i p(w,s,t) giá tr đ nh kh n ng m t tài li u th a mãn u c u truy v n tìm t p ký hi u, nh ng khơng ph i tài li u th a mãn D a vào tính tốn khoa h c ta có P(w,s,t) = 1 (1 1w) s*t s Ví d : m t tài li u có 150 thu t ng khác nhau, m i thu t ng đ c bi u di n b i chu i bit, m i chu i có chi u dài 5000, s d ng cơng th c ta có th tính m c đ sai l ch k t qu tìm ki m là: 1100000 c.S d ng file ngh ch đ o Khác v i ph ng pháp s d ng t p ký hi u, ph ng pháp s d ng t p ngh ch đ o ( inverted file ) t o danh sách t khóa có c s d li u, câu truy v n đ c x lý b ng cách so sánh v i danh sách t khóa r i tìm tài li u ch a t khóa th a mãn câu truy v n M t file ngh ch đ o bao g m hai ph n: danh sách t khóa đ c index ch a tài li u danh sách tr t i tài li u ch a t khóa file ngh ch đ o tài li u c s d li u đ thu g n kích th c c gán m t đ nh danh nh t (docID), liên k t t i tài li u ch đ n gi n l u đ nh danh c a tài li u t ng ng Q trình t o t p ngh ch đ o bao g m b c: Document File: Xác đ nh t tài li u s đ c index, t có ý ngh a, t khóa, lo i b t khơng c n thi t, ch a đ ng thơn tin: http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Thơng tin th hai n i dung cua trang Web, thơng tin đ c chuy n cho ph n Indexer.Search Engine khơng nh ng c p nh t d li u URL t nh ng URL tìm th y trang Web, cho phép c p nh t tr c ti p t ng c c p nh t nhanh h n đ y đ h n, KIL OBO OKS CO M tr i u cho phép c s d li u đ m t khác mang tính th i qu n ng m i cao, ch Web site mu n qu ng bá trang Web c a c n ph i tr ti n đ Search Engine c p nh t đ a ch V i quan m coi tồn b m ng Internet m t đ th l n, đ nh trang Web, chúng đ c n i v i thơng qua đ a ch liên k t dùng thu t tốn t đ th c n ta d dàng t tồn b trang Web Internet ng v i hai ph ng pháp t đ th thơng th ng ta có hai ph ng pháp tìm ki m Search Engine: Tìm theo chi u sâu (Depth in First ) tìm theo chi u r ng (Breadth in First).Thep ph ng pháp th nh t – tìm ki m theo chi u sâu, Web Clawler xác đ nh đ a ch liên k t c a site hi n th i, truy c p r i truy c p t i nh ng đ a ch liên k t c a site m i, ti p t c nh v y cho t i khơng truy c p đ c n a thi quay l i V i ph ng pháp Web Clawler có th tìm ki m chun sâu v n đ mà site cung c p.N u s d ng ph tim ki m theo chi u r ng Web Clawler l n l site hi n th i r i truy c p nh ng đ a ch liên k t ng pháp t truy c p đ a ch liên k t site m i Ph ng pháp làm cho Web Clawler thu th p thơng tin nhi u l nh v c khác Tu theo u c u khác mà quy t đ nh ph c hai ph ng pháp tìm ki m T c đ tìm ki m theo ng pháp đ u ph thu c vào t c đ đ ng truy n kh n ng đáp ng u c u c a t ng site Nhìn chung t c đ truy c p c a Web Crawler theo ph ng pháp tìm ki m theo chi u sâu n đ nh ph ng pháp tìm ki m theo chi u r ng b i liên t c tìm ki m Web site có h tr t c đ khác Các thơng tin Web Clawler thu th p qua m t s b c ti n x lý: đ nh d ng, lo i b thơng tin d th a phân lo i n i dung r i chuy n cho Indexer đ t o ch m c Các Search Engine khác th c hi n thao tác ti n x lý khác Ngồi đ nh d ng tài li u quen thu c (*.html, *.txt, ) m t s Search Engine http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN có th đ nh d ng đ đ c tài li u đ c bi t (*.doc, *.pdf ) M i Search Engine c thi t k cho m c đích khác nên quan m thơng tin d th a c a khác Các Search Engine ph c v tìm ki m tài li u khoa h c ch quan tâm KIL OBO OKS CO M đ n nh ng t khố chun ngành c a mình, nhiên Search Engine tìm ki m v n b n v n h c l i quan tâm đ n nhi u t , ng h n Phân lo i tài li u c ng khác Search Engine Xét theo quan m h th ng có hai ph pháp phân lo i chính: phân lo i t ng i.Ph ng đ ng phân lo i tr c giác c a ng pháp phân lo i t đ ng đ c th c hi n b i máy tính Các ch ng trình phân tích tài li u tìm t khố tài li u, t đ ng x p x p theo danh m c theo ph ng pháp l p s n, Ph ng pháp có u th nhanh chóng, gi m ph n vi c m t m i thi u h ng thú đ i v i ng i, nhiên quy t c c ng nh c làm ch m c c a tài li u thi u đ xác, ph pháp th hai phân lo i th cơng, ng ng i qu n tr Search Engine đ c n i dung tài li u xem xét x p chúng vào danh m c thích h p.Ph ng pháp xác nh ng t n m t nhi u th i gian kinh phí, serch engine ngày có xu h ng t p chung th i gian kinh phí nâng c p modul phân tích tài li u đ có th phân tích phân lo i tài li u có đ xác cao h n D li u đ c Index có th t ch c theo nhi u c u trúc khác ví d : s d ng t p tin đ o (inverted file), s d ng c u trúc 2.3 Phân lo i Search Engine Có r t nhi u Search Engine ho t đ ng Internet m i lo i s d ng ph ng pháp, cơng ngh khác nhau.D a vào cơng ngh tìm ki m có th thành lo i sau: hyperlink exploration, information retrieval, metasearch, SQL approach, contet-based multimedia search, lo i l i V i m c đích c a lu n v n chia Search Engine thành hai lo i d a vào ph ng pháp tìm ki m: tìm ki m thơng th ng siêu tìm ki m (metasearch) 2.3.1 Search Engine s d ng ph ng pháp thơng th Các Search Engine s d ng ph ng pháp tìm ki m thơng th Search Engine ph c v u c u tìm ki m theo ý t ng ng ng ngun th y c a nó: http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN thu th p tài li u, phân lo i Có hai cách t o ch m c cho Search Engine lo i này: s d ng câu th m c ch đ t o ch m c t đ ng Ph ng pháp th m c ch đ ph đ i đ c phân lo i tài li u thu th p đ c.Các site internet KIL OBO OKS CO M ng ng pháp phân lo i th cơng, c phân lo i theo ch đ v i c p chi ti t h n ch đ Cac ch đ m c th p nh t th ng m t chun ngành hay m t l nh v c r ng, c p ti p theo vào t ng b ph n thu c chun ngành, l nh v c m c cu i ch đ n tài li u c th V i ph ng pháp ng i s d ng tìm ki m thơng tin c n thi t b ng cách ch n m t ch đ , sâu vào ch đ cho t i tìm đ c thơng tin mong mu n Có th hình dung cách tìm ki m gi ng nh tìm file th m c.C ch làm k t qu tìm ki m c a Search Engine xác v i mong mu n c a ng ph i dùng, c s d li u l u ch m c c ng nh h n so v i ng pháp khác Tuy nhiên th m c ch đ l i q ph thu c vào mơ t ch quan c a ng òi phân lo i N u vi c mơ t khơng rõ ràng xác ng i dùng khó có th nhân đ Ph c k t qu theo mong mu n ng pháp t o ch m c th hai d a c ch phân lo i t đ ng trang Web tìm đ c, nh phân tích ph n b c a m c này, vi c phân lo i di n nhanh tróng, nhiên máy tính đ m nh n nên k t qu tr v th ng khơng xác, k t qu tài li u tr v cho m t câu truy v n l n gây khó kh n cho ng i dùng Khó có s so sánh đ t i u đ i v i hai ph vào s thích c a ng ng pháp trên, ph thu c i dùng tính ch t c a cơng vi c tìm ki m 2.3.2 Meta Search Engine Nh bi t v i m t câu truy v n Search Engine khác cho k t qu khác nhau, lý c ch Index d li u c ng nh thơng tin c s d li u tài li u đ c Index khác Search Engine khác nhau, đ kh c ph c tình tr ng Search Engine thu c lo i metesearch đ c t o T t ng c a metaserch Engine giúp cho ng i dùng khơng ph i nh đ a ch c ng nh cách th c s d ng c a nhi u Search Engine mà http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN v n đáp ng đ c u c u tìm ki m thu th p thơng tin Các Search Engine lo i giao ti p v i ng i s d ng theo m t giao di n th ng nh t, ng i dùng nh p vào u c u tìm ki m, metasearch engine phân tích câu truy v n chuy n KIL OBO OKS CO M u c u đ n Search Engine khác nh n l i k t qu s p x p phân lo i chúng r i tr l i cho ng đ i dùng Nh v y metaSearch Engine ph i hi u c khn d ng câu l nh tìm ki m c ng nh đ c m c a Search Engine mà chúng đ nh u c u tìm ki m, cơng vi c c a ti p theo phân lo i, đ i chi u k t qu tìm ki m t Search Engine khác đ đ a k t qu th ng nh t, cơng vi c khó kh n nh t c a metasearch engine Các search engine khơng l u đ a ch th ng nh t c a trang Web internet có th m t trang Web search engine tr l i k t qu URL khác Ví d đ a ch http://www.google.com/index.html có Search Engine có th l u gi đ a ch ho c http://www.google.com/ đ gi i quy t v n đ đ u tiên meta Search Engine so sánh đ a ch tên mi n c a đ a ch , n u đ a ch khác có tên mi n gi ng nhau, meta Search Engine so sánh tiêu đ c a trang Web đó, n u chúng có tiêu đ gi ng có th xem alias c a nhau, tùy theo xây d ng Search Engine mà alias có th b xóa ho c đ cđ t c nh Hi n ngồi cách t i v so sánh đ y đ n i dung ch a có Search Engine c ng nh meta Search Engine có th phân bi t đ c hai trang Web b n c a nhau, mà v n đ t i v so sánh n i dung m t r t nhi u th i gian v y t m th i ch p nh n ph ng án nêu đánh giá đ xác c a c a tài li u so v i u c u tìm ki m meta search engine s d ng khái ni m m tin c y (confidence score) Tài li u có m tin c y l n h n s thõa mãn u c u ng i dùng l n h n đ c x p lên trên.Các meta Search Engine s d ng thang m 1000 đ tính m tin c y , k t qu nh n v t search engine đ c gán m theo quy t c: k t qu đ u tiên gán giá tr 1000, sau gi m d n cho t i Vì 1000 s l n so v i s l ng tài li u mà ng t 1000 tr đ u đ i dùng mu n nh n đ c v y tài li u x p c gán m tin c y b ng Sau meta Search Engine đánh giá tài li u trùng nhau, gán m tin c y tài li u b ng t ng s http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN m tin c y c a Search Engine tìm đ đ c tìm th y c, u có ngh a tài li u nhi u Search Engine khác s có m tin c y l n h n so m t vài Search Engine Cu i meta Search Engine tr l i k t qu cho ng i dùng theo th t m tin c y v a tính đ KIL OBO OKS CO M v i tài li u ch tìm th y c 2.4 Các v n đ liên quan t i Search Engine Search Engine bao g m hai ph n chính: thu th p tìm ki m thơng tin, v y nghiên c u hai v n đ liên quan theo c u trúc c a 2.4.1 V n đ thu th p thơng tin: Internet phát tri n m nh m đ ng ngh a v i kh i d li u ngày kh ng l h n, theo th ng kê c a Baeza-Yates tính đ n n m 1999 th gi i có kho ng terabyte d li u d ng v n b n s l ng s g p nhi u l n n u ta tính t i d li u multimedia (hình nh, âm thanh,video) kh i d li u phát tri n hàng ngày, hàng gi v i t c đ ngày l n h n, M t khác d li u có l i thay đ i liên t c c p nh t ho c thay đ i theo ng i dùng, trang Web có th xu t hi n ho c thay đ i đ a ch thâm chí b xóa mà khơng c n báo tr c.C ng theo Baeza-Yates có t i 40% trang Web c p nh t hàng tháng Tính ch t đ ng c ng nh kh i l ng kh ng l c a d li u làm cho Search Engine ph i phát tri n m nh m khơng ng ng c i ti n k thu t đ b t k p s thay đ i Thu th p thơng tin c ng g p khó kh n b i ch t l ng c a d li u khơng đ c đ m b o b i nhà phát hành u có ngh a Search Engine có th tìm nh ng thơng tin có l i, thơng tin khơng đ c c p nh t, th m chí thơng tin sai l c.Thơng tin đ a lên Internet khơng nh t thi t d ng siêu v n b n, có r t nhi u d li u v i ki u c u trúc khác gây khó kh n cho vi c hi u đ c chúng M t v n đ khác đ t n a là: ngơn ng khơng nh t qn tài li u, phân l n tài li u Internet ti ng anh Search Engine c ng y u phát tri n n c Anh, M nhiên th gi i có r t nhi u ngơn ng khác nhau, khó có th xây d ng m t Search Engine ph c v cho t t c ngơn ng trên, M t s Search Engine có ch c n ng đa ngơn ng nhiên ch nh ng ng d ng đ n l đ c l p ghép l i v i nên khơng nh t qn Các qu c gia riêng http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN mu n đáp ng u c u tìm ki m thơng tin v i ngơn ng đ a ph d ng nh ng h th ng h tr đ c thù ngơn ng c a mình, ng c n xây Vi t Nam có m t s Search Engine tìm ki m thơng tin b ng ti ng vi t ví d : VinaSeek KIL OBO OKS CO M 2.4.2 V n đ tìm ki m thơng tin V n đ có th chia làm hai lo i: Nh n thơng tin truy v n tr v thơng tin u c u c a ng i dùng thơng tin khơng xác, ngơn ng t nhiên S khơng xác có th n m ch quan ng i s d ng: gõ sai t , nh sai t khóa C ng có th y u t khách quan thơng tin l u gi khác so v i u c u tìm ki m, ví d : ng i dùng tìm ki m thơng tin v “Thomas Alva Edisson”, Search Engine có th khơng đ a tài li u nói v “Thomas A.Edisson”.Các v n đ x lý t đ ng âm, x lý d ng bi n đ i c a t g c c ng làm Search Engine khó kh n vi c đ a tài li u th a mãn u c u.Nh phân tích ph n có r t nhi u ph ng pháp nh n thơng tin truy v n đ kh c ph c m t ph n v n đ Hai ph t ng i dùng th ng đ ng pháp nh n câu truy v n c s d ng là: Cho phép ng i dùng ch n t khóa thơng h p nh p, ho c đ a l u đ nh n thơng tin truy v n qua câu h i, m t cách khác cho phép ng i dùng nh p theo ngơn ng t nhiên Search Engine s phân tích tìm t khóa.V n đ tr l i k t qu tìm đ gi n, s l ng tài li u tìm đ c r t l n ng c c ng khơng đ n i dùng khơng có th i gian đ t i v phân tích tài li u đ tìm tài li u phù h p nh t, Search Engine c n có c ch cho m thích h p theo m t ch tiêu c th đ ng có th t quy t đ nh đ i dùng c tài li u phù h p nh t 2.5 ánh giá Search Engine 2.6 Gi i thi u m t s Search Engine n hình 2.6.1 Search Engine Altavista Altavista có đ a ch http://www.altavista.com Ki n trúc c a có th coi nh m t ki n trúc n hình c a Search Engine, Altavista có hai ph n rõ r t crawler indexer, ngồi có h th ng giao di n ng i dùng th c hi n http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN câu l nh tìm ki m.Tính t i th i m 1998 Alvista ch y 20 b vi x lý, m i b có t ng c ng 130 Gb Ram s d ng 500 Gb khơng gian đ a 2.6.2 Search Engine Harvest KIL OBO OKS CO M Harvest m t Search Engine m nh đ c s d ng b i CIA, NASA, US National Academy of Sciences 2.6.3 Search Engine Google Search Engine Google có đ a ch http://www.google.com ây Search Engine th ng m i, r t m nh đ c s d ng r ng rãi nh t th gi i Nó h tr nhi u hình th c tìm ki m khác nh tìm ki m theo ch đ , tìm ki m theo t khóa, tìm ki m s d ng tốn t Boolean, tìm ki m khơng xác, Google có kh i l ng d li u kh ng l nh ng th i gian tìm ki m v n t Ph n l n module c a Google đ ng đ i nhanh c vi t b ng C/C++, có th ch y h u hành Solaris Linux Trong Google Search Engine đ c t o b i nhi u Clawler phân tán khác nhau.Có m t máy ch URL server g i đ a ch URL c n truy c p t i crawler Các trang web sau t i v đ c chuy n đ n Store Server Store Server nén l u trang Web vào kho ch a – repository M i trang Web khác đ c gán m t đ nh danh nh t g i docID, chúng đ c đánh ch m c b i Indexer, s p x p b i Sorter Indexer gi i nén tài li u phân tích chúng đ t o hit Các hit ch a t khóa, v trí c a nó, c ch , nh ng thơng tin nh m Index d li u Indexer phân b hit khoang ch a (barrel) khác theo ch đ đ thu n ti n cho vi c tìm ki m Sorter l y hit khoang ch a đ l u chúng vào inverted index Goolge s d ng m t ch ng trình g i DumpLexicon t o b t n t đ Searcher s d ng Searcher s tìm ki m inverted file đ l y thơng tin u c u Thơng tin đ truy v n c PageRank s p x p l i tr v cho ng i http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Vào th i m 1998 Goolge thu th p đ Kích th c l u tr c a thơng tin nén 55.2 GB, t c 24 tri u trang web ng đ ng 108.7 GB ch a KIL OBO OKS CO M nén Th i gian trung bình cho m t câu truy v n t đ n 10 giây http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Ch ng 3: Xây d ng mơ hình tìm ki m thơng tin theo Search Engine Cùng v i s phát tri n c a Internet mơ hình giáo d c t xa có c xu t b n nhi u h n, chúng KIL OBO OKS CO M xu th m r ng hồn thi n, sách n t đ ta d dàng xây d ng đ c m t th vi n s ch n t cho riêng Lu n v n xây d ng m t ch ng trình tìm ki m sách tho mãn u c u tìm ki m, sách gi đ nh sách n t đ c vi t d i d ng HTML, HTM, text - d ng ph bi n c a sách n t l u thơng Internet d ng nh song t t ng ây m t ng xây d ng m t mơ hình tìm ki m theo Search Engine áp d ng ng d ng khác nhau: có th c i ti n v i ph ng th c t o ch m c, tìm ki m lo i d li u khác nhau: tìm ki m m ho c tìm ki m v i thơng tin khơng xác T m t th m c ch a sách t tr ch c, sau th c hi n Index d li u ng trình t o m t th m c Index ch a thơng tin t ng quan v th vi n sách Khi m t u c u tìm ki m đ c đ t ch ng trình t th m c Index đ a tài li u tho mãn 3.1 Ki n trúc ch ng trình Ngồi ph n giao di n t ng tác ng i dùng M t mơ hình tìm ki m theo Search Engine nh t thi t ph i có hai ph n: t o ch m c tìm ki m thơng tin 3.1.1 T o ch m c Trong ph n t o ch m c, tr c h t ph i xác đ nh thơng tin t o ch m c, thơng tin có th ch a c s d li u có th ch a m t thi t b l u tr , b nh ngồi ho c ng d ng tìm ki m sách n t xác đ nh d li u c n index file ch a th m c đ nh tr trang “t o ch m c”, ch nh n tham s đ c, ng i dùng có th ch n th m c ng trình g i đ n l p IndexHTML l p ng d n t i th m c, t qua file th m c http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN th m c tìm file có đ nh d ng “text”, “html”, “htm” t o ch m c cho theo ph ng pháp đ quy // if a directory KIL OBO OKS CO M if (file.isDirectory()) { String[] files = file.list(); // list its files Arrays.sort(files); // sort the files for (int i = 0; i < files.length; i++) // recursively index them indexDocs(new File(file, files[i])); } else if (file.getPath().endsWith(".html") || // index html files file.getPath().endsWith(".htm") || // index htm files file.getPath().endsWith(".txt")) { // index txt files Sau xác đ nh thơng tin c n t o ch m c, d a vào u c u tìm ki m có th Index thơng tin theo ph ph ng pháp t o ch m c b ng ph véc t t ng pháp khác nhau, đ i v i ng pháp véc t cơng đo n xác đ nh ng ng v i m i m u thơng tin, tính tốn đ quan tr ng c a t ng t khố, vi c xác đ nh t khố th c hi n đ n gi n b ng cách xây d ng m t đ i t ng Tokenizer có s n b th vi n Java, tính tốn tr ng s c a t b ng cơng th c xây d ng ch ng xác đ nh đ c m t ma tr n ch m c hồn ch nh Do ng d ng tìm ki m sách n t ng d ng th nghi m, s d ng ph ng pháp t o file kí hi u (signature file) b ng cách t o file mơ t thơng tin c n t o ch m c Nó ti n hành đ nh d ng b ng cách t o m t đ i t ng document v i tham s file c n t o ch m c Document doc = HTMLDocument.Document(file); Ph ng th c l u thơng tin c a tài li u d (Field ) có b n tr ng đ c s d ng : i d ng tr ng http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN tiêu đ tài li u (title) n i dung tóm t t (summary) KIL OBO OKS CO M ngày tháng c p nh t tài li u (modified) n i dung tài li u (content) Các thơng tin đ c xác đ nh nh l p phân tích n i dung tài li u l u l i thành m t file (Signature file) 3.1.2 Tìm ki m Sau t o ch m c ph V i m t câu truy v n nh n đ ng th c tìm ki m s thao tác th m c c ch ng trình ph i phân tích xác đ nh đ t khố c n thi t, lo i b thơng tin d th a, n u s d ng ph ch m c b ng véc t ta bi u di n câu truy v n d ng pháp t o i d ng m t véc t , so sánh v i véc t ma tr n ch m c tìm tài li u tho mãn, ch tìm ki m sách n t d d ng ph c ng trình ng pháp t o ch m c file kí hi u v y vi c tìm ki m ch đ n gi n đ i sánh t khố, tìm tài li u có ch a t khố đ a k t qu Vi c tìm ki m đ c th c hi n b i l p Searcher k t qu đ tính tốn result.jsp k t qu tr v đ theo l a ch n ng c x p x p hi n th v i s l c x lý, ng tu i dùng 3.2 Gi i thi u b th vi n Jakata Lucene Jakata Lucene đ c vi t b i m t nhóm l p trình Doug Cutting đ ng đ u.Phát tri n t cu i n m 1997 đ u n m 1998 cho đ n có b n Lucene v1.3-RC5(có th t i mi n phí t đ a ch http://jakata.apache.org/builds/jakatalucene/release/v1.3-rc5/) Jakata Lucene b cơng c đ phát tri n m t h th ng Search Engine hồn ch nh đáp ng đ y đ u c u v tìm ki m thơng tin d li u v n b n (text) siêu v n b n(html, htm) phiên b n đ y đ b sung ch c n ng tìm ki m tài li u có đ nh d ng đ c biêt nh file *.doc ,*.pdf Tồn b th vi n đ c vi t b ng mã Java v y có tính m cao d s d ng l i đ xây d ng Search Engine theo u c u http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN khác ã có r t nhi u ng d ng d a b th vi n Jakata Lucene ví d : Bob Dylan ( http://bobdylan.com/ ) Jive Forum (http://www.jivesoftware.com/) c t ch c theo c u trúc org.apache.lucene, bao KIL OBO OKS CO M Th vi n Jakata Lucene đ g m gói th vi n thành ph n nh sau: Analysis: ch a l p tinh ch nh m t xâu ki t thành t , c m t khố có th đánh ch m c đ c Analysis.de: có ch c n ng gi ng gói Analysis nh ng có h tr cho vi c x lý tài li u ti ng c Analysis.standard:xây d ng m t cách phân tích n i dung câu truy v n m t đ n gi n.L u t thành m ng đ i t so sánh ng String đ thu n ti n cho vi c Document: bao g m ch c n ng thao tác v i tài li u Index: ch a l p cho phép truy c p,hi u ch nh ch m c QueryParser: ch a l p v i ch c n ng phân tích câu truy v n ph c v tìm ki m thơng tin Search: Cài đ t l p ph c v tìm ki m thơng tin b ng ch m c Store: ph c v ch c n ng l u gi d li u (I/O) Util: Bao g m l p ch a ti n ích ph c v ch c n ng khác s d ng lucene ng d ng ta c n làm theo b c sau: V i m i tài li u s d ng l p Field pakage Document đánh ch m c cho c p giá tr t ng ng (key,value), key s hi u c a tr ng value giá tr mơ t tài li u T o m t đ i t m c - s d ng ph ng IndexWriter đ thêm tài li u vào b ng ch ng th c addDocument() Dùng QueryParse.parce() đ tinh ch nh câu truy v n tài li u T ođ it li u thích h p ng IndexSearch s d ng ph ng th c Search() đ tìm tài http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Lucene đ t c xây d ng nh m t mơ hình Search Engine, mơ hình ng đ i chu n uy n chuy n cho vi c phát tri n Search Engine đ c d ng.V i m c đích trên, Lucene ch a ph i m t ng d ng hồn ch nh Index d li u KIL OBO OKS CO M th cơng,d li u c n index ph i n m m t th m c đó,tài li u index file c th ch a đáp ng đ c u c u thu th p d li u m ng.M t khác đánh giá đ quan tr ng c a tài li u mang tính ch t hình th c m c dù nghiên c u nh ng ch a đ a gi i pháp x lý thơng tin m c ng nh x lý Unicode Các u c u x lý cao c p nh :x lý ngơn ng t nhiên, x lý v n đ u đ ng âm đ u ch a ti p c n Tóm l i v i quan m xem Lucene nh m t mơ hình c n có nh ng h ng nghiên c u phát tri n đ xây d ng m t h th ng hồn ch nh h n 3.3 H ng d n s d ng ch c n ng http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN K t lu n KIL OBO OKS CO M a.V lý thuy t Lu n v n t ng k t ph đ ng pháp t o ch m c tìm ki m thơng tin c áp d ng r ng rãi hi n nay, phân tích mơ hình Search Engine n hình b hồn ch nh c xây d ng m t h th ng tìm ki m theo mơ hình Search Engine Các ki n th c thu th p đ c m t th i gian ng n nên ch a th t hồn ch nh nhi u thi u xót, v n đ x lý ngơn ng t nhiên m i d ng l i ban đ u, tìm ki m m ch a đ c đ c p t i ph b c ng pháp t o ch m c m i ch a có nghiên c u sâu: tìm ki m theo Neuron, Latent Semantic Indexing ch a có phân tích kí, nh ng v n đ s đ ki n h c nghiên c u hồn ch nh có đ u ng phát tri n c a lu n v n b.V ng d ng a h thơng tìm ki m sách n t theo mơ hình Search Engine v i hai ch c n ng chính: t o ch m c tìm ki m thơng tin Do u ki n th c hành c ng nh thi u ki n th c v m ng nên ch a xây d ng đ c ph n Crawler mơ hình Search Engine, v n đ s đ quy t th i gin t i c gi i http://kilobooks.com KIL OBO OKS CO M THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Tài li u tham kh o [1] Nguy n Hồng Long, H th ng tìm ki m thơng tim theo ch đ d a c s lý thuy t t p m (Ln v n th c s ) [2] Bùi Minh c, H th ng tìm ki m v n b n v i thơng tin khơng xác( Lu n v n th c s ) [3] JUSTIN ZOBEL, Invert files versus Signature files for text indexing [4] Michael W.Berry, Murray Browne: Understanding Search Engine Mathematic Modeling and Text Retrieval [5] Michael W Berry, Zlatko Drma c,Elizabeth R Jessup: Information Retrieval [6] LTC Kenneth L Alford Jim X Chen, Information Retrieval using a Database Management System in a Parallel Environment [5] L u c Trung: Tài li u nghiên c u Search Engine ph c v c s đa ph ti n cho b nh da li u ng [...]... m tin c y c a các Search Engine tìm đ đ c tìm th y c, đi u này có ngh a là các tài li u nhi u Search Engine khác nhau s có đi m tin c y l n h n so m t vài Search Engine Cu i cùng meta Search Engine tr l i k t qu cho ng i dùng theo th t đi m tin c y v a tính đ KIL OBO OKS CO M v i các tài li u ch tìm th y c 2.4 Các v n đ liên quan t i Search Engine Search Engine bao g m hai ph n chính: thu th p và tìm. .. gian đ a 2.6.2 Search Engine Harvest KIL OBO OKS CO M Harvest là m t Search Engine m nh đ c s d ng b i CIA, NASA, US National Academy of Sciences 2.6.3 Search Engine Google Search Engine Google có đ a ch http://www.google.com ây là Search Engine th ng m i, r t m nh đ c s d ng r ng rãi nh t trên th gi i Nó h tr nhi u hình th c tìm ki m khác nhau nh tìm ki m theo ch đ , tìm ki m theo t khóa, tìm ki m s... vào ph ng pháp tìm ki m: tìm ki m thơng th ng và siêu tìm ki m (metasearch) 2.3.1 Search Engine s d ng ph ng pháp thơng th Các Search Engine s d ng ph ng pháp tìm ki m thơng th Search Engine ph c v u c u tìm ki m theo đúng ý t ng ng là các ng ngun th y c a nó: http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN thu th p tài li u, phân lo i Có hai cách t o ch m c cho các Search Engine lo i này: s d ng câu... và tìm ki m thơng tin c áp d ng r ng rãi hi n nay, phân tích mơ hình Search Engine đi n hình các b hồn ch nh c xây d ng m t h th ng tìm ki m theo mơ hình Search Engine Các ki n th c thu th p đ c trong m t th i gian ng n nên ch a th t hồn ch nh còn nhi u thi u xót, v n đ x lý ngơn ng t nhiên m i d ng l i ban đ u, tìm ki m m ch a đ c đ c p t i các ph b c ng pháp t o ch m c m i ch a có nghiên c u sâu: tìm. .. tu theo ng đ i qu n tr , nhân h s này v i tr ng s c xác đ nh theo cơng th c trên ta có k t qu tr ng s c a t khố 1.5 K t lu n v các ph ng pháp tìm ki m thơng tin c http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN ng 2: T ng quan v Search Engine KIL OBO OKS CO M Ch 2.1 Khái ni m v Search Engine Search Engine có th đ ng c đ nh ngh a là m t cơng c tin h c giúp con i trong vi c tìm ki m và tr v thơng tin. .. c u c u tìm ki m thu th p thơng tin Các Search Engine lo i này giao ti p v i ng i s d ng theo m t giao di n th ng nh t, ng i dùng nh p vào các u c u tìm ki m, metasearch engine phân tích các câu truy v n chuy n KIL OBO OKS CO M các u c u đ n các Search Engine khác nh n l i k t qu s p x p và phân lo i chúng r i tr l i cho ng đ i dùng Nh v y các metaSearch Engine ph i hi u c khn d ng câu l nh tìm ki m... c ng nh đ c đi m c a các Search Engine mà chúng đ nh u c u tìm ki m, cơng vi c c a nó ti p theo là phân lo i, đ i chi u các k t qu tìm ki m t các Search Engine khác nhau đ đ a ra k t qu th ng nh t, đây là cơng vi c khó kh n nh t c a các metasearch engine Các search engine khơng l u đ a ch th ng nh t c a các trang Web trên internet do đó có th cùng m t trang Web các search engine tr l i k t qu URL khác... cơng c có s n c a mình Search Engine trích ch n thơng tin t các trang này.Thơng tin th nh t mà Search Engine quan tâm là t p các đ a ch URL có trong trang Web, xem xét nh ng đ a ch m i Search Engine c p nh t l i c s d li u URL c a mình http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Thơng tin th hai là n i dung cua trang Web, thơng tin này đ c chuy n cho ph n Indexer .Search Engine khơng nh ng c p... ki m theo Neuron, Latent Semantic Indexing ch a có phân tích kí, nh ng v n đ này s đ ki n là h c nghiên c u hồn ch nh khi có đ đi u ng phát tri n c a lu n v n b.V ng d ng a ra h thơng tìm ki m sách đi n t theo mơ hình Search Engine v i hai ch c n ng chính: t o ch m c và tìm ki m thơng tin Do đi u ki n th c hành c ng nh thi u ki n th c v m ng nên ch a xây d ng đ c ph n Crawler trong mơ hình Search Engine, ... 2.5 ánh giá Search Engine 2.6 Gi i thi u m t s Search Engine đi n hình 2.6.1 Search Engine Altavista Altavista có đ a ch http://www.altavista.com Ki n trúc c a nó có th coi nh là m t ki n trúc đi n hình c a Search Engine, Altavista có hai ph n rõ r t crawler và indexer, ngồi ra còn có h th ng giao di n ng i dùng và th c hi n http://kilobooks.com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN các câu l nh tìm ki m.Tính ...http:/ /kilobooks. com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN 2.6 Gi i thi u m t s Search Engine n hình 2.6.1 Search... 3.1.2 Tìm ki m 3.2 Gi i thi u b th vi n Jakata Lucene 3.3 H K t lu n ng d n s d ng ch c n ng http:/ /kilobooks. com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN L i nói đ u Phát tri n t m t d án qn đ i Hoa K , ch vòng... đ Ch c s d ng r ng rãi hi n ng 3: Xây d ng mơ hình tìm ki m thơng tin theo Search Engine http:/ /kilobooks. com THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN a b c đ xây d ng m t h th ng tìm ki m hồn ch nh theo mơ