Báo cáo - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng việt ppt

151 691 0
Báo cáo - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng việt ppt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Báo cáo - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng việt Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ L I C M NỜ Ả Ơ Đ u tiên, chúng em xin g i l i c m n đ n Th y, Cô khoa Công ngh Thôngầ ở ờ ả ơ ế ầ ệ tin tr ng Đ i h c Khoa h c T nhiên đã t n tình d y d , dìu d t chúng em su t b nườ ạ ọ ọ ự ậ ạ ỗ ắ ố ố năm đ i h c.ạ ọ Chúng em c m n Cô Nguy n Th Di m Tiên, ng i t n tình h ng d n, giúpả ơ ễ ị ễ ườ ậ ướ ẫ đ , đ ng viên chúng em hoàn thành lu n văn này.ỡ ộ ậ Chúng tôi c m n các anh Tr n Nguy n Hoàng Ph ng, Bùi Ng c Tu n Anh,ả ơ ầ ễ ươ ọ ấ Đoàn H u Quang Vinh và các b n Nguy n Huy Hoàng, Phan Anh Đ c đã giúp đ ,ữ ạ ễ ứ ỡ đóng góp ý ki n cho chúng tôi trong quá trình cài đ t, th nghi m ch ng trình.ế ặ ử ệ ươ Cu i cùng, chúng con c m n Ba, M và nh ng ng i thân đã khích l , đ ngố ả ơ ẹ ữ ườ ệ ộ viên chúng con trong th i gian h c t p, nghiên c u đ có đ c thành qu nh ngàyờ ọ ậ ứ ể ượ ả ư nay. Tháng 7 năm 2004 Sinh viên Lê Thuý Ng c – Đ M Nhungọ ỗ ỹ Lê Thuý Ng c - 0012745 ọ 1 Đ M Nhung - 0012624ỗ ỹ Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ NH N XÉT C A GIÁO VIÊN H NG D NẬ Ủ ƯỚ Ẫ …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… …………………………………………………………………………………… Ngày…… tháng……năm 2004 Ký tên Lê Thuý Ng c - 0012745 ọ 2 Đ M Nhung - 0012624ỗ ỹ Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ NH N XÉT C A GIÁO VIÊN PH N BI NẬ Ủ Ả Ệ …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… …………………………………………………………………………………… Ngày…… tháng……năm 2004 Ký tên Lê Thuý Ng c - 0012745 ọ 3 Đ M Nhung - 0012624ỗ ỹ Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ M C L CỤ Ụ Ph n 1 : TÌM HI U V N Đầ Ể Ấ Ề 2 Ch ng 1: T NG QUAN V H TH NG SEARCH ENGINEươ Ổ Ề Ệ Ố 2 1. Các b ph n c u thành h th ng search engine ộ ậ ấ ệ ố 2 1.1 B thu th p thông tin – Robotộ ậ 2 1.2 B l p ch m c – Indexộ ậ ỉ ụ 2 1.3 B tìm ki m thông tin – Search Engineộ ế 3 2. Nguyên lý ho t đ ngạ ộ 3 Ch ng 2: B THU TH P THÔNG TIN – ROBOTươ Ộ Ậ 5 1. ng d ng c a Robot Ứ ụ ủ 5 1.1 Phân tích, th ng kê – Statistical Analysisố 5 1.2 Duy trì siêu liên k - Maintenanceế 5 1.3 Ánh x đ a ch web - Mirroringạ ị ỉ 5 1.4 Phát hi n tài nguyên – Resource Discoveryệ 6 1.5 K t h p các công d ng trên- Combined usesế ợ ụ 6 2. Robot ch m c – Robot Indexingỉ ụ 6 3. Các chi n thu t thu th p d li u [II.1] ế ậ ậ ữ ệ 8 3.1 Chi n thu t tìm ki m theo chi u sâuế ậ ế ề 8 3.2 Chi n thu t tìm ki m theo chi u r ngế ậ ế ề ộ 9 3.3 Chi n thu t tìm ki m theo ng u nhiênế ậ ế ẫ 9 4. Nh ng v n đ c n l u ý c a web robot ữ ấ ề ầ ư ủ 10 4.1 Chi phí và hi m hoể ạ 10 4.1.1 Qúa t i m ng và server – Network resource and server loadả ạ 10 4.1.2 S c p nh t quá m c- Updating overheadự ậ ậ ứ 11 4.1.3 Nh ng tình hu ng không mong đ i – Bad implementationsữ ố ợ 12 4.2 Tiêu chu n lo i tr robotẩ ạ ừ 13 4.2.1 File robot.txt 13 4.2.2 Th META dành cho robot – Robot META tagẻ 14 4.2.3 Nh c đi m c a file robot.txtượ ể ủ 15 Ch ng 3: B L P CH M C – INDEXươ Ộ Ậ Ỉ Ụ 18 1. Khái quát v h th ng l p ch m c ề ệ ố ậ ỉ ụ 18 2. T ng quan v ph ng pháp l p ch m c ([I.1], [I.2], [II.1])ổ ề ươ ậ ỉ ụ 21 2.1 Xác đ nh m c t quan tr ng c n l p ch m c ([I.1])ị ụ ừ ọ ầ ậ ỉ ụ 21 2.2 M t s hàm tính tr ng s m c t . ([I.1])ộ ố ọ ố ụ ừ 23 2.2.1 Ngh ch đ o tr ng s t n s tài li u (The Inverse Document Frequencyị ả ọ ố ầ ố ệ Weight) 24 Lê Thuý Ng c - 0012745 ọ 4 Đ M Nhung - 0012624ỗ ỹ Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ 2.2.2 Đ nhi u tín hi u (Signal Noise): ộ ễ ệ 25 2.2.3 Giá tr đ phân bi t c a m c t : ị ộ ệ ủ ụ ừ 25 2.2.4 K t h p t n s xu t hi n m c t và ngh ch đ o t n s tài li uế ợ ầ ố ấ ệ ụ ừ ị ả ầ ố ệ 27 2.3 L p ch m c t đ ng cho tài li uậ ỉ ụ ự ộ ệ 28 3. L p ch m c cho tài li u ti ng Vi t ([III.1], [II.1], [II.2], [II.3], [II.4], [IV.11],ậ ỉ ụ ệ ế ệ [IV.12]) 30 3.1 Khó khăn cho vi c l p ch m c ti ng Vi tệ ậ ỉ ụ ế ệ 30 3.2 Đ c đi m v t trong ti ng Vi t và vi c tách tặ ể ề ừ ế ệ ệ ừ 31 3.2.1 . Đ c đi m v t trong ti ng Vi t:ặ ể ề ừ ế ệ 31 3.2.2 Tách từ 32 3.3 Gi i quy t các v n đ hi n th c a ti ng Vi t (v n đ chính t )ả ế ấ ề ể ị ủ ế ệ ấ ề ả 34 3.3.1 V n đ b ng mãấ ề ả 34 3.3.2 V n đ d u thanhấ ề ấ 35 3.3.3 V n đ d u t h p nguyên âmấ ề ấ ổ ợ 36 3.4 Gi i quy t các v n đ v t c a ti ng Vi tả ế ấ ề ề ừ ủ ế ệ 37 3.4.1 Lu t xác đ nh các t láyậ ị ừ 37 3.4.2 Lu t xác đ nh các liên tậ ị ừ 37 3.5 Xây d ng t đi n ti ng Vi tự ừ ể ế ệ 38 Ch ng 4: B TÌM KI M THÔNG TIN – SEARCH ENGINEươ Ộ Ế 40 1. Vì sao ta c n m t công c tìm ki m (SE) ?ầ ộ ụ ế 40 2. Các ph ng th c tìm ki mươ ứ ế 40 2.1 Tìm theo t khoá – Keyword searchingừ 40 2.2 Nh ng khó khăn khi tìm theo t khoá ữ ừ 41 2.3 Tìm theo ng nghĩa – Concept-based searchingữ 41 3. Các chi n l c tìm ki mế ượ ế 42 3.1 Tìm thông tin v i các th m c ch đớ ư ụ ủ ề 42 3.2 Tìm thông tin v i các công c tìm ki mớ ụ ế 43 3.3 T i u câu truy v n ố ư ấ 43 3.4 Truy v n b ng ví dấ ằ ụ 44 Ch ng 5: M T S SEARCH ENGINE THÔNG D NG TRÊN TH GI Iươ Ộ Ố Ụ Ế Ớ VÀ VI T NAM Ệ 45 1.1 Th m c c a Yahoo, Google ư ụ ủ 53 1.2 Alltheweb 54 1.3 AltaVista 54 1.4 Lycos 55 1.5 HotBot 55 2. M t s search engine thông d ng Vi t Namộ ố ụ ở ệ 55 2.1 Netnam [IV.12] 55 2.1.1 Ph ng pháp Netnam SE l p ch m c d li uươ ậ ỉ ụ ữ ệ 58 Lê Thuý Ng c - 0012745 ọ 5 Đ M Nhung - 0012624ỗ ỹ Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ 2.1.2 Cú pháp tìm ki m ế 60 2.1.3 S d ng t khoá đ l c các tìm ki mử ụ ừ ể ọ ế 62 2.2 Vinaseek ([IV.11]) 65 Ph n 2 : THI T K VÀ CÀI Đ Tầ Ế Ế Ặ 67 Ch ng 1: THI T K D LI Uươ Ế Ế Ữ Ệ 67 1. C s d li u trong SQL ơ ở ữ ệ 67 2. H th ng t p tinệ ố ậ 70 Ch ng 2: THU TH P THÔNG TINươ Ậ 72 1. C u trúc d li uấ ữ ệ 72 1.1 C u trúc UrlInfoấ 73 1.2 C u trúc StartUrlInfoấ 74 1.3 C u trúc FileRetrievalấ 75 1.4 C u trúc ProjectInfoấ 75 2. X lý c a web robotử ủ 77 3. Gi i quy t các v n đ c a web robotả ế ấ ề ủ 82 3.1 Tránh s l p l iự ặ ạ 82 3.2 Tránh làm qúa t i serverả 82 3.3 Tránh truy xu t đ n các d ng tài nguyên không thích h pấ ế ạ ợ 83 3.4 Tránh các l đen(black holes)ỗ 83 3.5 Tránh nh ng n i c m robot ữ ơ ấ 83 4. Các thu t toán phân tích c u trúc file HTMLậ ấ 83 4.1 Thu t toán l y liên k tậ ấ ế 83 4.1.1 Thu t toán ng d ng cũ đã cài đ tậ ứ ụ ặ 84 4.1.2 Ch n l a c a ng d ng m iọ ự ủ ứ ụ ớ 88 4.2 Thu t toán l y tiêu đ ậ ấ ề 88 4.3 Thu t toán l y n i dungậ ấ ộ 89 5. Duy trì thông tin cho CSDL 90 6. Resume project 90 6.1 Nguyên t c resume c a ng d ng cũắ ủ ứ ụ 1 91 6.2 C i ti n c a ng d ng m iả ế ủ ứ ụ ớ 93 Ch ng 3: L P CH M Cươ Ậ Ỉ Ụ 96 1. Tính tr ng s c a t :ọ ố ủ ừ 96 2. T p tin ngh ch đ o :ậ ị ả 97 3. T đi n ch m c ừ ể ỉ ụ 103 4. Quá trình stemming 109 Ch ng 4: TÌM KI M THÔNG TINươ Ế 112 Lê Thuý Ng c - 0012745 ọ 6 Đ M Nhung - 0012624ỗ ỹ Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ Ch ng 5: CÁC MODULE ,PACKAGE, L P CHÍNH C A CH NGươ Ớ Ủ ƯƠ TRÌNH 114 1. Các module, package c a ch ng trìnhủ ươ 114 2. Các l p đ i t ng chính trong t ng moduleớ ố ượ ừ 115 2.1 Module DBController 115 2.2 Module ProcessDoc 115 2.3 Module Query 117 2.4 Module SE 117 2.5 Module Webcopy 118 2.6 Module WebcopyGUI 119 Ph n 3 : K T QU , ĐÁNH GIÁ VÀ H NG PHÁT TRI Nầ Ế Ả ƯỚ Ể 120 1. K t qu th nghi mế ả ử ệ 120 2. Ho t đ ng c a ch ng trìnhạ ộ ủ ươ 122 2.1 Giao di n qu n trệ ả ị 122 2.1.1 Giao di n chính c a qu n tr ệ ủ ả ị 122 2.1.2 T o m i projectạ ớ 123 2.1.3 T o m i m t StartUrl : ạ ớ ộ 126 2.1.4 Xem t đi n ch m cừ ể ỉ ụ 129 2.1.5 Qu n lý m c tả ụ ừ 130 2.2 Giao di n tìm ki mệ ế 132 3. Đánh giá 134 3.1 u đi mƯ ể 134 3.2 Khuy t đi mế ể 135 4. H ng phát tri nướ ể 136 4.1 Đ i v i t ng module :ố ớ ừ 136 4.2 Đ i v i toàn lu n văn:ố ớ ậ 137 DANH SÁCH CÁC B NGẢ 138 DANH SÁCH CÁC HÌNH VẼ 140 TÀI LI U THAM KH OỆ Ả 142 I. Sách, ebook: 142 II. Lu n văn, lu n ánậ ậ 142 III. Bài báo 143 IV. Website 143 Lê Thuý Ng c - 0012745 ọ 7 Đ M Nhung - 0012624ỗ ỹ M Đ UỞ Ầ Trong th i đ i ngày nay, thông tin là nhu c u thi t y u đ i v i m i ng i trênờ ạ ầ ế ế ố ớ ọ ườ m i lĩnh v c. M i phút trôi qua hàng tri u tri u trang web đ c đ y lên nh m làmọ ự ỗ ệ ệ ượ ẩ ằ giàu ngu n tài nguyên vô t n này. Tuy nhiên t n t i m t ngh ch lý là dù đ c ví nhồ ậ ồ ạ ộ ị ượ ư th vi n toàn c u, internet v n không tho mãn nhu c u thông tin c a con ng i.ư ệ ầ ẫ ả ầ ủ ườ Xung quanh v n đ này có nhi u nguyên nhân nh ng quan tr ng nh t là s thông hi uấ ề ề ư ọ ấ ự ể gi a con ng i và công c tìm ki m trên m ng – search engine – ch a đ t đ n m cữ ườ ụ ế ạ ư ạ ế ứ có th giao ti p t t v i nhau. ể ế ố ớ H n n a, m i search engine s mang đ c thù c a ngôn ng mà nó hi n th nhơ ữ ỗ ẽ ặ ủ ữ ể ị ư search engine Ti ng Vi t ph i gi i quy t nh ng v n đ đ c tr ng c a Ti ng Vi t,ế ệ ả ả ế ữ ấ ề ặ ư ủ ế ệ c th là v n đ b ng mã, ng pháp trong Ti ng Vi t.ụ ể ấ ề ả ữ ế ệ N u ta hi u cách th c search engine t ch c thông tin, th c thi m t câu truyế ể ứ ổ ứ ự ộ v n và đ c tr ng c a ngôn ng mà search engine s ti p c n thì ta có th t i u hoáấ ặ ư ủ ữ ẽ ế ậ ể ố ư c h i nh n đ c các thông tin h u ích. Đây là m c tiêu chính c a lu n văn. ơ ộ ậ ượ ữ ụ ủ ậ Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ Ph n 1 : ầ TÌM HI U V N ĐỂ Ấ Ề Ch ng 1: ươ T NG QUAN V H TH NG SEARCH ENGINEỔ Ề Ệ Ố 1. Các b ph n c u thành h th ng search engine ộ ậ ấ ệ ố 1.1 B thu th p thông tin – Robotộ ậ Robot là m t ch ng trình t đ ng duy t qua các c u trúc siêu liên k t đ thuộ ươ ự ộ ệ ấ ế ể th p tài li u & m t cách đ quy nó nh n v t t c tài li u có liên k t v i tài li u này.ậ ệ ộ ệ ậ ề ấ ả ệ ế ớ ệ Robot đ c bi t đ n d i nhi u tên g i khác nhau : spider, web wanderer ho cượ ế ế ướ ề ọ ặ web worm,… Nh ng tên g i này đôi khi gây nh m l n, nh t ‘spider’, ‘wanderer’ữ ọ ầ ẫ ư ừ làm ng i ta nghĩ r ng robot t nó di chuy n và t ‘worm’ làm ng i ta liên t ngườ ằ ự ể ừ ườ ưở đ n virus. V b n ch t robot ch là m t ch ng trình duy t và thu th p thông tin tế ề ả ấ ỉ ộ ươ ệ ậ ừ các site theo đúng giao th c web. Nh ng trình duy t thông th ng không đ c xem làứ ữ ệ ườ ượ robot do thi u tính ch đ ng, chúng ch duy t web khi có s tác đ ng c a con ng i.ế ủ ộ ỉ ệ ự ộ ủ ườ 1.2 B l p ch m c – Indexộ ậ ỉ ụ H th ng l p ch m c hay còn g i là h th ng phân tích và x ệ ố ậ ỉ ụ ọ ệ ố ử lý d li uữ ệ , th cự hi n vi c phân tích, ệ ệ trích ch n nh ng thông tin c n thi tọ ữ ầ ế (th ng là các t đ n , tườ ừ ơ ừ ghép , c m t quan tr ng)ụ ừ ọ t nh ng d li u mà robot thu th p đ c và t ch c thànhừ ữ ữ ệ ậ ượ ổ ứ c s d li u riêng đ có th tìm ki m trên đó m t cách nhanh chóng, hi u qu . Hơ ở ữ ệ ể ể ế ộ ệ ả ệ th ng ch m c là danh sách các t khoá, ch rõ các t khoá nào xu t hi n trang nào,ố ỉ ụ ừ ỉ ừ ấ ệ ở đ a ch nào.ị ỉ Lê Thuý Ng c - 0012745 ọ 2 Đ M Nhung - 0012624ỗ ỹ [...].. .Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 1.3 Bộ tìm kiếm thông tin – Search Engine Search engine là cụm từ dùng chỉ toàn bộ hệ thống bao gồm bộ thu thập thông tin, bộ lập chỉ mục & bộ tìm kiếm thông tin Các bộ này hoạt động liên tục từ lúc khởi động hệ thống, chúng phụ thuộc lẫn nhau về mặt dữ liệu nhưng độc lập với nhau về mặt hoạt động Search engine. .. Các từ thu được sẽ được lập chỉ mục Tuy nhiên hai bước đầu cũng cần cho quá trình lập chỉ mục cho các tài liệu tiếng Việt, bước thứ ba không cần vì tiếng Việt thuộc dòng ngôn ngữ đơn thể Lê Thuý Ngọc - 0012745 20 Đỗ Mỹ Nhung - 0012624 Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 2 Tổng quan về phương pháp lập chỉ mục ([I.1], [I.2], [II.1]) Phương pháp lập chỉ... tích và tìm xem liên kết có trong trang đó không? (4a) Nếu có, thêm liên kết này vào đầu danh sách Quay lại (4) (4b) Nếu không, quay lại (2) (5) Kết thúc Lê Thuý Ngọc - 0012745 8 Đỗ Mỹ Nhung - 0012624 Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 3.2 Chiến thuật tìm kiếm theo chiều rộng Từ một danh sách chứa các liên kết cần duyệt, thực hiện các bước sau : (1) Cho. .. http://webcrawler.com/ User-agent: webcrawler Robot có tên là webcrawler có thể đi đến bất cứ trang nào Disallow: của site User-agent: lycra Robot có tên là lycra bị cấm trên tất cả các trang của site Disallow: / Lê Thuý Ngọc - 0012745 13 Đỗ Mỹ Nhung - 0012624 Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt User-agent: * Mọi robot đều không được truy xuất vào 2 thư mục tmp và Disallow:... vấn từ user, nó sẽ tiến hành phân tích, tìm trong cơ sở dữ liệu chỉ mục & trả về những tài liệu thoả yêu cầu Lê Thuý Ngọc - 0012745 4 Đỗ Mỹ Nhung - 0012624 Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Chương 2: BỘ THU THẬP THÔNG TIN – ROBOT 1 Ứng dụng của Robot Robot thường được sử dụng cho những mục đích sau : 1.1 Phân tích, thống kê – Statistical Analysis Robot... trong tài liệu D ta không quan tâm tới Lê Thuý Ngọc - 0012745 23 Đỗ Mỹ Nhung - 0012624 Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt T(D) được gọi là vector chỉ mục của D, nó được xem như biểu diễn cho nội dung của tài liệu D và được lưu lại trong cơ sở dữ liệu của hệ thống tìm kiếm thông tin để phục vụ cho nhu cầu tìm kiếm Mặc dù T(D) biểu diễn nội dung của tài liệu... user cần dữ liệu về xe máy muốn có được thông tin đúng thay vì nhập vào cụm từ ‘Ford and garage’ phải nhập vào từ ‘car’ Nhưng người đó không hề ý thức được điều này Lê Thuý Ngọc - 0012745 11 Đỗ Mỹ Nhung - 0012624 Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Một khía cạnh nguy hiểm nữa bắt nguồn từ sự định hướng sai lầm của end – user Một số người sử dụng công cụ... Ví dụ, cứ mỗi lần phân tích một trang robot nhận về cùng một URL nhưng xa hơn một cấp, ‘/cgibin/pit/’, và tiếp tục ‘/cgi-bin/pit/a/’, ‘/cgi-bin/pit/a/a’, … Sự lặp lại không có điểm dừng này được gọi là các lỗ đen (black holes) Lê Thuý Ngọc - 0012745 12 Đỗ Mỹ Nhung - 0012624 Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 4.2 Tiêu chuẩn loại trừ robot Trong quá trình... sao chép toàn bộ cấu trúc cây thư mục và thường xuyên cập Lê Thuý Ngọc - 0012745 5 Đỗ Mỹ Nhung - 0012624 Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt nhật những file bị thay đổi Điều này cho phép nhiều người cùng truy xuất một nguồn dữ liệu, giảm số liên kết bị thất bại, nhanh hơn và ít chi phí hơn so với truy cập trực tiếp vào site thực sự chứa các dữ liệu này... liệu về dạng văn bản cần lập chỉ TỪ Tách văn bản thành các từ ĐIỂN Danh sách các Loại bỏ stop-word từ stop-word Tính trọng số và loại bỏ những từ có trọng số thấp Loại bỏ hậu tố Danh sách các hậu tố CSDL chỉ Lập chỉ mục mục thông tin Hình 3.1 Lưu đồ xử lý cho hệ thống lập chỉ mục Lê Thuý Ngọc - 0012745 19 Đỗ Mỹ Nhung - 0012624 Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng . Báo cáo - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng việt Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi. Ng c - 0012745 ọ 2 Đ M Nhung - 0012624ỗ ỹ Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ 1.3 B tìm ki m thông tin – Search Engine ế Search engine. - 0012745 ọ 3 Đ M Nhung - 0012624ỗ ỹ Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ page) v cho server chính đ t o c s d li u ch m c ph c v cho

Ngày đăng: 12/07/2014, 18:21

Từ khóa liên quan

Mục lục

  • Phần 1 : TÌM HIỂU VẤN ĐỀ

    • Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE

      • 1. Các bộ phận cấu thành hệ thống search engine

        • 1.1 Bộ thu thập thông tin – Robot

        • 1.2 Bộ lập chỉ mục – Index

        • 1.3 Bộ tìm kiếm thông tin – Search Engine

        • 2. Nguyên lý hoạt động

        • Chương 2: BỘ THU THẬP THÔNG TIN – ROBOT

          • 1. Ứng dụng của Robot

            • 1.1 Phân tích, thống kê – Statistical Analysis

            • 1.2 Duy trì siêu liên kế - Maintenance

            • 1.3 Ánh xạ địa chỉ web - Mirroring

            • 1.4 Phát hiện tài nguyên – Resource Discovery

            • 1.5 Kết hợp các công dụng trên- Combined uses

            • 2. Robot chỉ mục – Robot Indexing

            • 3. Các chiến thuật thu thập dữ liệu [II.1]

              • 3.1 Chiến thuật tìm kiếm theo chiều sâu

              • 3.2 Chiến thuật tìm kiếm theo chiều rộng

              • 3.3 Chiến thuật tìm kiếm theo ngẫu nhiên

              • 4. Những vấn đề cần lưu ý của web robot

                • 4.1 Chi phí và hiểm hoạ

                  • 4.1.1 Qúa tải mạng và server – Network resource and server load

                  • 4.1.2 Sự cập nhật quá mức- Updating overhead

                  • 4.1.3 Những tình huống không mong đợi – Bad implementations

                  • 4.2 Tiêu chuẩn loại trừ robot

                    • 4.2.1 File robot.txt

                    • 4.2.2 Thẻ META dành cho robot – Robot META tag

                    • 4.2.3 Nhược điểm của file robot.txt

                    • Chương 3: BỘ LẬP CHỈ MỤC – INDEX

                      • 1. Khái quát về hệ thống lập chỉ mục

Trích đoạn

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan