Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
291,76 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Hoàng Trung XÂY DỰNG SEARCH ENGINE LUẬN VĂN THẠC SĨ Hà Nội – 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Hoàng Trung XÂY DỰNG SEARCH ENGINE Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60 48 10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS.Nguyễn Tuệ Hà Nội – 2009 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu thân Các số liệu, kết trình bày luận văn trung thực Những tư liệu sử dụng luận văn có nguồn gốc trích dẫn rõ ràng, đầy đủ Học viên Nguyễn Hoàng Trung LỜI CẢM ƠN Trước hết, xin nói lời cảm ơn đến gia đình hai bên nội ngoại động viên nhiều suốt thời gian học tập nghiên cứu Tôi xin gửi lời cảm ơn tới môn Công nghệ phần mềm, khoa Công nghệ thông tin trường Đại học Công nghệ - Đại Học Quốc Gia Hà nội tạo điều kiện cho thực đề tài Tôi xin cảm ơn TS Nguyễn Tuệ, người trực tiếp hướng dẫn hoàn thành đề tài Tôi xin gửi lời cảm ơn tới Công ty NAiSCorp, người đồng đội, đồng chí chiến đấu mục tiêu mang tri thức đến với người Việt Tôi xin gửi lời cảm ơn tới bạn bè tôi, người giúp đỡ nhiều Mặc dù có nhiều cố gắng đề tài lớn nên chắn luận văn có nhiều thiếu sót Tôi mong nhận ý kiến đóng góp quý báu độc giả quan tâm Mọi góp ý xin gửi trungnh@socbay.com Tác giả Nguyễn Hoàng Trung MỤC LỤC MỞ ĐẦU GIỚI THIỆU LUẬN VĂN MỤC ĐÍCH LÝ DO LỰA CHỌN ĐỀ TÀI BỐ CỤC LUẬN VĂN ERROR! BOOKMARK NOT DEFINED CHƯƠNG LÝ THUYẾT CHUNG VỀ SEARCH ENGINE ERROR! BOOKMARK NOT DEFINED 1.1 TỔNG QUAN VỀ MẠNG INTERNET VÀ SEARCH ENGINE ERROR! BOOKMARK NOT DEFINED 1.2 CÁC MÔ HÌNH KIẾN TRÚC CỦA SEARCH ENGINE ERROR! BOOKMARK NOT DEFINED 1.2.1 Mô hình kiến trúc chung Error! Bookmark not defined 1.2.2 Mô hình agent Error! Bookmark not defined 1.3 PHÂN LOẠI SEARCH ENGINE ERROR! BOOKMARK NOT DEFINED 1.4 INFORMATION RETRIEVAL VÀ SEARCH ENGINE ERROR! BOOKMARK NOT DEFINED 1.4.1 Định nghĩa khái niệm Error! Bookmark not defined 1.4.2 Kiến trúc hệ IR Error! Bookmark not defined 1.4.3 Các độ đo (metrics) Error! Bookmark not defined 1.4.4 Chỉ mục ngược (inverted index) tìm kiếm Error! Bookmark not defined 1.4.5 Các mô hình IR tìm kiếm đánh giá kết Error! Bookmark not defined 1.4.6 Từ dừng Error! Bookmark not defined 1.4.7 Stemming Error! Bookmark not defined 1.5 WEB CRAWLER ERROR! BOOKMARK NOT DEFINED 1.5.1 Giới thiệu Error! Bookmark not defined 1.5.2 Các chiến lược lựa chọn trang Web trình crawl Error! Bookmark not defined 1.5.3 Tăng tốc độ crawl crawl song song Error! Bookmark not defined 1.5.4 Làm tươi trang Web (pages refresh) Error! Bookmark not defined 1.6 LƯU TRỮ DỮ LIỆU ERROR! BOOKMARK NOT DEFINED 1.6.1 Giới thiệu Error! Bookmark not defined 1.6.2 Khó khăn thách thức Error! Bookmark not defined 1.6.3 Lưu trữ phân tán (distributed repository) Error! Bookmark not defined 1.7 XÂY DỰNG CHỈ MỤC TỪ ERROR! BOOKMARK NOT DEFINED 1.7.1 Giới thiệu Error! Bookmark not defined 1.7.2 Chỉ mục ngược Search engine Error! Bookmark not defined 1.7.3 Khó khăn, thách thức Error! Bookmark not defined 1.7.4 Index partitioning Error! Bookmark not defined 1.8 TÌM KIẾM ERROR! BOOKMARK NOT DEFINED 1.9 XẾP HẠNG KẾT QUẢ TÌM KIẾM ERROR! BOOKMARK NOT DEFINED 1.9.1 PageRank Error! Bookmark not defined 1.9.2 HITS Error! Bookmark not defined 1.9.3 Một số kỹ thuật dựa liên kết khác Error! Bookmark not defined CHƯƠNG KHẢO SÁT MỘT SỐ SEARCH ENGINE ERROR! BOOKMARK NOT DEFINED 2.1 SEARCH ENGINE MÃ MỞ LUCENE ERROR! BOOKMARK NOT DEFINED 2.1.1 Giới thiệu Lucene Error! Bookmark not defined 2.1.2 Các phiên ngôn ngữ khác Lucene Error! Bookmark not defined 2.1.3 Vòng đời kiến trúc phần mềm Lucene Error! Bookmark not defined 2.1.4 Sơ đồ phụ thuộc Lucene.Net Error! Bookmark not defined 2.1.5 Các lớp Lucene.Net Error! Bookmark not defined 2.2 TIẾNG VIỆT TRONG XÂY DỰNG CÔNG CỤ TÌM KIẾM ERROR! BOOKMARK NOT DEFINED 2.2.1 Đặc điểm ngữ âm âm vị Error! Bookmark not defined 2.2.2 Đặc trưng từ pháp hình thái Error! Bookmark not defined 2.2.3 Đặc trưng ngữ pháp Error! Bookmark not defined 2.2.4 Sự phức tạp mã hoá tiếng Việt Error! Bookmark not defined 2.2.5 Unicode chuẩn hoá cách mã hoá tiếng Việt Error! Bookmark not defined 2.3 KHẢO SÁT CÁC CÔNG CỤ TÌM KIẾM TIẾNG VIỆT HIỆN NAY ERROR! BOOKMARK NOT DEFINED 2.3.1 Search Engine Google Error! Bookmark not defined 2.3.2 Search Engine Xalo (www.Xalo.vn) Error! Bookmark not defined 2.3.3 Search Engine Baamboo (www.Baamboo.com.vn) Error! Bookmark not defined 2.3.4 Search Engine Socbay(www.Socbay.com) Error! Bookmark not defined 2.4 ĐÁNH GIÁ VỀ CÁC CÔNG CỤ TÌM KIẾM TIẾNG VIỆT ERROR! BOOKMARK NOT DEFINED CHƯƠNG XÂY DỰNG CÔNG CỤ MP3 SEARCH ERROR! BOOKMARK NOT DEFINED 3.1 CRAWLER CHO TÌM KIẾM MP3 ERROR! BOOKMARK NOT DEFINED 3.1.1 Các vấn đề đặt với crawler Error! Bookmark not defined 3.1.2 Các chiến lược lựa chọn trang Mp3 trình crawl Error! Bookmark not defined 3.1.3 Tăng tốc độ crawl crawl song song Error! Bookmark not defined 3.1.4 Làm tươi trang Mp3 (pages refresh) Error! Bookmark not defined 3.1.5 Kho lưu trữ cho tìm kiếm MP3 Error! Bookmark not defined 3.1.6 Đánh mục cho tìm kiếm MP3 Error! Bookmark not defined 3.1.7 Chỉ mục từ điển âm nhạc Error! Bookmark not defined 3.1.8 Chỉ mục ngược từ điển âm nhạc Error! Bookmark not defined 3.1.9 Khó khăn, thách thức việc đánh mục Error! Bookmark not defined 3.2 TÌM KIẾM MP3 ERROR! BOOKMARK NOT DEFINED 3.2.1 Phân tích truy vấn Error! Bookmark not defined 3.2.2 Tìm kiếm Error! Bookmark not defined 3.2.3 Xếp hạng cho MP3 Error! Bookmark not defined 3.2.4 Giao diện MP3 Error! Bookmark not defined 3.2.5 Đánh giá phần mềm tìm kiếm MP3 Error! Bookmark not defined PHẦN KẾT LUẬN ERROR! BOOKMARK NOT DEFINED NHỮNG ĐÓNG GÓP CỦA LUẬN VĂN ERROR! BOOKMARK NOT DEFINED HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI ERROR! BOOKMARK NOT DEFINED TÀI LIỆU THAM KHẢO Tiếng Việt Tiếng Anh PHỤ LỤC ERROR! BOOKMARK NOT DEFINED PHỤ LỤC A KIẾN TRÚC GOOGLE ERROR! BOOKMARK NOT DEFINED PHỤ LỤC B CÁC KHÁI NIỆM VỀ SEARCH ENGINE ERROR! BOOKMARK NOT DEFINED PHỤ LỤC C THUẬT TOÁN VUN ĐỐNG HEAPSORT CHO TÌM KIẾM ERROR! BOOKMARK NOT DEFINED PHỤ LỤC D BẢNG MÃ HOÁ CHỮ CÁI TIẾNG VIỆT ERROR! BOOKMARK NOT DEFINED CHỈ MỤC TỪ ERROR! BOOKMARK NOT DEFINED DANH MỤC HÌNH VẼ Hình Mô hình kiến trúc chung Search engine[14] Error! Bookmark not defined Hình Kiến trúc agent Search engine Error! Bookmark not defined Hình Mô hình đơn giản hệ IR Error! Bookmark not defined Hình Mô hình đánh mục hệ IR[14] Error! Bookmark not defined Hình Mô hình truy vấn hệ IR[14] Error! Bookmark not defined Hình Minh họa precision/recall Error! Bookmark not defined Hình Ví dụ cấu trúc mục ngược Error! Bookmark not defined Hình Giải thuật xây dựng mục ngược (1) Error! Bookmark not defined Hình Giải thuật xây dựng mục ngược đầy đủ (2) Error! Bookmark not defined Hình 10 Ví dụ đơn giản VSM Error! Bookmark not defined Hình 11 Chuẩn hóa độ dài tài liệu Error! Bookmark not defined Hình 12 Mô tìm kiếm theo chiều rộng Error! Bookmark not defined Hình 13 Mô tìm kiếm theo chiều sâu Error! Bookmark not defined Hình 14 Kiến trúc chung crawler song song Error! Bookmark not defined Hình 15 Tập gồm hai trang Web với tốc độ thay đổi khác Error! Bookmark not defined Hình 16 WebBase repository architecture Error! Bookmark not defined Hình 17 PageRank đơn giản PageRank có sửa đổi (d=0.8) Error! Bookmark not defined Hình 18 Ví dụ giải thuật HITS Error! Bookmark not defined Hình 19 Vòng đời Lucene Error! Bookmark not defined Hình 20 Sơ đồ phụ thuộc Lucene với môi trường Error! Bookmark not defined Hình 21 Biểu đồ phần trăm mã code cho module Lucene Error! Bookmark not defined Hình 22 Sơ đồ phụ thuộc module Lucene Error! Bookmark not defined Hình 23: Mô hình tách từ khóa từ văn thô Error! Bookmark not defined Hình 24 Kiến trúc Google Error! Bookmark not defined DANH MỤC BẢNG BIỂU Bảng Giải thuật xử lý truy vấn dạng AND Error! Bookmark not defined Bảng Tổng kết hiệu phương pháp tổ chức lưu trữ vật lý Web Error! Bookmark not defined Bảng Tách term từ tài liệu Error! Bookmark not defined Bảng Sắp xếp lại term Error! Bookmark not defined Bảng Thành lập từ điển file postings Error! Bookmark not defined Bảng Ví dụ tìm kiếm AND mô hình Boolean Error! Bookmark not defined Bảng Danh sách phụ thuộc Module Lucene Error! Bookmark not defined Bảng Kết test từ công cụ Error! Bookmark not defined Bảng Cấu trúc trường MP3 Error! Bookmark not defined Bảng 10 Tách term từ tài liệu Error! Bookmark not defined Bảng 11 Danh sách term theo id văn Error! Bookmark not defined Bảng 12 Danh sách từ theo văn tần số xuất Error! Bookmark not defined Bảng 13 Danh sách từ thông tin từ theo văn tần số xuất hiệnError! Bookmark not defined Bảng 14 Thuật toán Merge danh sách đơn giản Error! Bookmark not defined Bảng 15 Danh sách trường Rank Error! Bookmark not defined Bảng 16 Mã hoá chữ tiếng Việt mã khác Error! Bookmark not defined DANH MỤC CÁC TỪ VIẾT TẮT Viết tắt Cụm từ xuất phát BVSM Binary Vector Space Model CGI Common Gateway Iinterface DL Document Length DR Data Retrieval FTP File Transfer Protocol HITS Hypertext Induced Topic Search HTML Hyper Text Markup Language HTTP Hyper Text Transfer Protocol HTTPS HTTP Secure IDF Inverse Document Frequency IR Information Retrieval NNTP Network News Transport Protocol QAM Question Answer Machine REP Robot Exclution Protocol SC Similarity Coefficency SE Search Engine TCVN3 Tiêu chuẩn Việt Nam TF Term Frequency URL Uniform Resource Locator UTF Unicode Transformation Format VIQR VIetnamese Quoted-Readable VISCII VIetnamese Standard Code for Information Interchange VPS Vietnamese Profestional Society VSM Vector Space Model MỞ ĐẦU GIỚI THIỆU LUẬN VĂN MỤC ĐÍCH Search Engine khái niệm dùng để chương trình tìm kiếm tài liệu (thuộc dạng khác nhau: text, video, MP3…) thoả mãn số điều kiện mà ta gọi truy vấn (query) người dùng Tuy nhiên, khái niệm Search Engine từ lâu gắn với việc tìm kiếm tài liệu dạng text (Document Search) mạng Internet máy tính cá nhân (Desktop Search) Trong giai đoạn mà nhu cầu tìm kiếm thông tin mạng Internet tìm kiếm tài liệu tiếng Việt nói chung quan tâm, đề tài phát triển với mục đích mô tả thành phần chung hệ tìm kiếm xây dựng Engine tìm kiếm MP3 Internet Engine phải giải vấn đề tìm kiếm tiếng Việt LÝ DO LỰA CHỌN ĐỀ TÀI Cùng với phát triển Internet, lượng thông tin mạng ngày nhiều Thậm chí, người ta ước tính tăng trưởng theo cấp số nhân Theo nghiên cứu khoảng năm, trí tuệ nhân loại lại tăng lên gấp đôi Với lượng thông tin khổng lồ mạng nay, Search Engine thực “công cụ” tối cần thiết cho người dùng Internet khai thác, tìm kiếm thông tin Khái niệm Search Engine có từ sớm giới có nhiều nghiên cứu Search Engine vấn đề liên quan, đặc biệt lĩnh vực truy xuất thông tin, (Information Retrieval - IR) trình bày tài liệu Một nghiên cứu nghiên cứu trường đại học Standford, Mỹ Search Engine mà kết Google, số Search Engine hàng đầu Để xây dựng Search Engine cần phải biết nhiều vấn đề lý thuyết liên quan, có lý thuyết mạng máy tính, ngôn ngữ, lý thuyết IR, cấu trúc liệu giải thuật, sở liệu, tối ưu hóa, tính toán song song, xử lý phân tán… Đề tài Search Engine đề tài nghiên cứu mang tính lý thuyết thực tế cao Vì thế, có nhiều nghiên cứu nước Search Engine Tình hình nghiên cứu nước ngoài: Có nhiều công ty tổ chức nghiên cứu Search, bật công ty Google, Yahoo Micrsoft Các sản phẩm mã nguồn mở bật Lucene Chất lượng công cụ tìm kiếm TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Tài Cẩn (1998), Ngữ pháp tiếng Việt (Tiếng - Từ ghép - Đoản Ngữ), NXB Đại học Quốc gia Hà Nội 2.Nguyễn Thiện Giáp, Phân loại ngôn ngữ theo quan hệ loại hình, http://ngonngu.net/index.php?p=234 3.NgonNgu.Net, Cụm từ cố định, http://ngonngu.net/index.php?p=187 Tcxdvn.xaydung.gov.vn, Tiêu chuẩn xây dựng Việt nam http://tcxdvn.xaydung.gov.vn/TCXDVN/TCXDVN.NSF/da73105996deacc04725 70d5005b7a6a/5873b41ce9e8fb63472570c4004da72e?OpenDocument Wikipedia.Org, Loại hình ngôn ngữ, http://vi.wikipedia.org/wiki/Lo%E1%BA%A1i_h%C3%ACnh_ng%C3%B4n_ng %E1%BB%AF Wikipedia.Org, Lucene, http://vi.wikipedia.org/wiki/ Lucene Wikipedia.Org, Unicode, http://vi.wikipedia.org/wiki/Unicode Tiếng Anh Anthony Scime, Web mining: applications and techniques http://books.google.com.vn/books?id=TDhPMs3adw0C&pg=PA53&lpg=PA53&d q=%22Forward+link+count%22&source=bl&ots=r0_utue0fg&sig=PNBIsNl-KqlGM2wLfDaGAc4ytI&hl=vi&ei=jiUxS_apKZyswOwypS7BA&sa=X&oi=book_result&ct=result&resnum=1&ved=0CAgQ6AEwAA#v =onepage&q=%22Forward%20link%20count%22&f=false Junghoo Cho, Garcia-Molina, H and Page, L (1998), Efficient Crawling Through URL Ordering, http://ilpubs.stanford.edu:8090/347/ 10 Junghoo Cho, Hector Garcia-Molina (2002), Parallel Crawlers, http://rose.cs.ucla.edu/~cho/papers/cho-parallel.pdf 11 www.focuseek.com, Chapter Notes for http://www.focuseek.com/manuals/User/beginners.html Search Engine beginners, 12 Marc Najork, Janet L Wiener(2001), Breadth-first Search crawling yields high-quality pages, http://www10.org/cdrom/papers/208/ 13 Grossman, Frieder, Goharian(2002), http://docs.google.com/viewer?a=v&q=cache:ww20te0h39sJ:www.eng.auburn.ed u/~gilbert/Comp7120/Concept-50/IR-Building-InvertedIndex.pdf+building+an+invert+index&hl=vi&gl=vn&pid=bl&srcid=ADGEESi_uMDxtr hmQJCylHryuRCoTFL3fFP7Ngf2dvBVEhpr3bVS53Z6dNUg628zf 14 Prasad Pingali, Jagadeesh Jagarlamudi, Vasudeva Varma, WebKhoj: Indian language IR from Multiple Character Encodings, http://www2006.org/programme/files/xhtml/5503/fp5503-pingali/fp5503-pingalixhtml.html 14 Red-gate.com, NET Reflector, http://www.red-gate.com/products/reflector/index.htm 15 Sahilthaker (2008), Information Retrieval & Search - Basic IR Models, http://blogs.msdn.com/spt/archive/2008/03/05/information-retrieval-Search-basic-irmodels.aspx 16 Wikipedia.Org, BackLink, http://en.wikipedia.org/wiki/BackLink 17 Wikipedia.Org, Distributed web crawling, http://en.wikipedia.org/wiki/ Distributed web crawling 18 Wikipedia.Org, HITS algorithm, http://en.wikipedia.org/wiki/HITS algorithm 19 Wikipedia.Org, Hubs and Authorities, http://en.wikipedia.org/wiki/Hubs and Authorities 20 Wikipedia.Org, Information retrieval, http://en.wikipedia.org/wiki/Information retrieval 22 Wikipedia.Org, Lucene, http://en.wikipedia.org/wiki/ Lucene 23 Wikipedia.Org, PageRank, http://en.wikipedia.org/wiki/PageRank 24 Wikipedia.Org, Stemming, http://en.wikipedia.org/wiki/Stemming 25 Wikipedia.Org, Search engine indexing, http://en.wikipedia.org/wiki/ Search engine indexing 26 Wikipedia.Org, Tf–idf, http://en.wikipedia.org/wiki/Tf–idf 27 Wikipedia.Org, Web Crawler, http://en.wikipedia.org/wiki/Web Crawler http://en.wikipedia.org/wiki/Search engine indexing 28 Wikipedia.Org, Web Search query, http://en.wikipedia.org/wiki/web Search query [...]... đại học Standford, Mỹ về Search Engine mà kết quả của nó là Google, một trong số các Search Engine hàng đầu hiện nay Để xây dựng một Search Engine cần phải biết rất nhiều vấn đề lý thuyết liên quan, trong đó có các lý thuyết về mạng máy tính, ngôn ngữ, lý thuyết về IR, cấu trúc dữ liệu và giải thuật, cơ sở dữ liệu, tối ưu hóa, tính toán song song, xử lý phân tán… Đề tài Search Engine là một trong những... http://en.wikipedia.org/wiki/Stemming 25 Wikipedia.Org, Search engine indexing, http://en.wikipedia.org/wiki/ Search engine indexing 26 Wikipedia.Org, Tf–idf, http://en.wikipedia.org/wiki/Tf–idf 27 Wikipedia.Org, Web Crawler, http://en.wikipedia.org/wiki/Web Crawler http://en.wikipedia.org/wiki /Search engine indexing 28 Wikipedia.Org, Web Search query, http://en.wikipedia.org/wiki/web Search query ... LUẬN VĂN 1 MỤC ĐÍCH Search Engine là một khái niệm dùng để chỉ chương trình tìm kiếm các tài liệu (thuộc các dạng khác nhau: text, video, MP3…) thoả mãn một số điều kiện nào đó mà ta gọi là truy vấn (query) của người dùng Tuy nhiên, khái niệm Search Engine từ lâu đã được gắn với việc tìm kiếm tài liệu dạng text (Document Search) trên mạng Internet và trên máy tính cá nhân (Desktop Search) Trong giai... 5 năm, trí tuệ nhân loại lại tăng lên gấp đôi Với lượng thông tin khổng lồ trên mạng như hiện nay, Search Engine thực sự là một “công cụ” tối cần thiết cho người dùng Internet khai thác, tìm kiếm thông tin Khái niệm về Search Engine đã có từ khá sớm và trên thế giới đã có rất nhiều nghiên cứu về Search Engine và các vấn đề liên quan, đặc biệt là lĩnh vực truy xuất thông tin, (Information Retrieval -... mạng Internet cũng như tìm kiếm tài liệu tiếng Việt nói chung đang được quan tâm, đề tài này được phát triển với mục đích chính là mô tả các thành phần chung của một hệ tìm kiếm và xây dựng một Engine tìm kiếm MP3 trên Internet Engine này phải giải quyết được các vấn đề tìm kiếm trong tiếng Việt 2 LÝ DO LỰA CHỌN ĐỀ TÀI Cùng với sự phát triển của Internet, lượng thông tin trên mạng ngày càng nhiều Thậm... Parallel Crawlers, http://rose.cs.ucla.edu/~cho/papers/cho-parallel.pdf 11 www.focuseek.com, Chapter 4 Notes for http://www.focuseek.com/manuals/User/beginners.html Search Engine beginners, 12 Marc Najork, Janet L Wiener(2001), Breadth-first Search crawling yields high-quality pages, http://www10.org/cdrom/papers/208/ 13 Grossman, Frieder, Goharian(2002), http://docs.google.com/viewer?a=v&q=cache:ww20te0h39sJ:www.eng.auburn.ed... tài Search Engine là một trong những đề tài nghiên cứu mang tính lý thuyết cũng như thực tế cao Vì thế, đã có khá nhiều nghiên cứu trong và ngoài nước về Search Engine Tình hình nghiên cứu ở nước ngoài: Có khá nhiều công ty và tổ chức nghiên cứu về Search, nổi bật nhất là 3 công ty Google, Yahoo và Micrsoft Các sản phẩm mã nguồn mở thì nổi bật nhất là Lucene Chất lượng của các công cụ tìm kiếm này TÀI... http://www2006.org/programme/files/xhtml/5503/fp5503-pingali/fp5503-pingalixhtml.html 14 Red-gate.com, NET Reflector, http://www.red-gate.com/products/reflector/index.htm 15 Sahilthaker (2008), Information Retrieval & Search - Basic IR Models, http://blogs.msdn.com/spt/archive/2008/03/05/information-retrieval -Search- basic-irmodels.aspx 16 Wikipedia.Org, BackLink, http://en.wikipedia.org/wiki/BackLink 17 Wikipedia.Org, Distributed web crawling, http://en.wikipedia.org/wiki/... 2.Nguyễn Thiện Giáp, Phân loại các ngôn ngữ theo quan hệ loại hình, http://ngonngu.net/index.php?p=234 3.NgonNgu.Net, Cụm từ cố định, http://ngonngu.net/index.php?p=187 4 Tcxdvn.xaydung.gov.vn, Tiêu chuẩn xây dựng Việt nam http://tcxdvn.xaydung.gov.vn/TCXDVN/TCXDVN.NSF/da73105996deacc04725 70d5005b7a6a/5873b41ce9e8fb63472570c4004da72e?OpenDocument 5 Wikipedia.Org, Loại hình ngôn ngữ, http://vi.wikipedia.org/wiki/Lo%E1%BA%A1i_h%C3%ACnh_ng%C3%B4n_ng ... liệu Một nghiên cứu nghiên cứu trường đại học Standford, Mỹ Search Engine mà kết Google, số Search Engine hàng đầu Để xây dựng Search Engine cần phải biết nhiều vấn đề lý thuyết liên quan, có lý... BOOKMARK NOT DEFINED 2.3.1 Search Engine Google Error! Bookmark not defined 2.3.2 Search Engine Xalo (www.Xalo.vn) Error! Bookmark not defined 2.3.3 Search Engine Baamboo (www.Baamboo.com.vn)... khổng lồ mạng nay, Search Engine thực “công cụ” tối cần thiết cho người dùng Internet khai thác, tìm kiếm thông tin Khái niệm Search Engine có từ sớm giới có nhiều nghiên cứu Search Engine vấn đề