1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng search engine

102 45 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 102
Dung lượng 2,56 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Hoàng Trung XÂY DỰNG SEARCH ENGINE LUẬN VĂN THẠC SĨ Hà Nội – 2009 MỤC LỤC MỞ ĐẦU GIỚI THIỆU LUẬN VĂN 1 MỤC ĐÍCH LÝ DO LỰA CHỌN ĐỀ TÀI BỐ CỤC LUẬN VĂN CHƢƠNG LÝ THUYẾT CHUNG VỀ SEARCH ENGINE 1.1 TỔNG QUAN VỀ MẠNG INTERNET VÀ SEARCH ENGINE 1.2 CÁC MƠ HÌNH KIẾN TRÚC CỦA SEARCH ENGINE 1.2.1 Mô hình kiến trúc chung 1.2.2 Mô hình agent 1.3 PHÂN LOẠI SEARCH ENGINE 10 1.4 INFORMATION RETRIEVAL VÀ SEARCH ENGINE 10 1.4.1 Định nghĩa khái niệm 11 1.4.2 Kiến trúc hệ IR 11 1.4.3 Các độ đo (metrics) 13 1.4.4 Chỉ mục ngược (inverted index) tìm kiếm 14 1.4.5 Các mơ hình IR tìm kiếm đánh giá kết 16 1.4.6 Từ dừng 20 1.4.7 Stemming 20 1.5 WEB CRAWLER 21 1.5.1 Giới thiệu 21 1.5.2 Các chiến lược lựa chọn trang Web trình crawl 23 1.5.3 Tăng tốc độ crawl crawl song song .28 1.5.4 Làm tươi trang Web (pages refresh) 31 1.6 LƯU TRỮ DỮ LIỆU .32 1.6.1 Giới thiệu 32 1.6.2 Khó khăn thách thức 33 1.6.3 Lưu trữ phân tán (distributed repository) 33 1.7 XÂY DỰNG CHỈ MỤC TỪ 36 1.7.1 Giới thiệu 36 1.7.2 Chỉ mục ngược Search engine 37 1.7.3 Khó khăn, thách thức 40 1.7.4 Index partitioning .40 1.8 TÌM KIẾM 41 1.9 XẾP HẠNG KẾT QUẢ TÌM KIẾM .43 1.9.1 PageRank 44 1.9.2 HITS .46 1.9.3 Một số kỹ thuật dựa liên kết khác 49 CHƢƠNG KHẢO SÁT MỘT SỐ SEARCH ENGINE .50 2.1 SEARCH ENGINE MÃ MỞ LUCENE 50 2.1.1 Giới thiệu Lucene .50 2.1.2 Các phiên ngôn ngữ khác Lucene 51 2.1.3 Vòng đời kiến trúc phần mềm Lucene 52 2.1.4 Sơ đồ phụ thuộc Lucene.Net .52 2.1.5 Các lớp Lucene.Net 53 2.2 TIẾNG VIỆT TRONG XÂY DỰNG CƠNG CỤ TÌM KIẾM 55 2.2.1 Đặc điểm ngữ âm âm vị 55 2.2.2 Đặc trưng từ pháp hình thái .56 2.2.3 Đặc trưng ngữ pháp .57 2.2.4 Sự phức tạp mã hoá tiếng Việt 58 2.2.5 Unicode chuẩn hoá cách mã hoá tiếng Việt 58 2.3 KHẢO SÁT CÁC CƠNG CỤ TÌM KIẾM TIẾNG VIỆT HIỆN NAY 59 2.3.1 Search Engine Google 60 2.3.2 Search Engine Xalo (www.Xalo.vn) 60 2.3.3 Search Engine Baamboo (www.Baamboo.com.vn) 60 2.3.4 Search Engine Socbay(www.Socbay.com) 60 2.4 ĐÁNH GIÁ VỀ CÁC CƠNG CỤ TÌM KIẾM TIẾNG VIỆT 60 CHƢƠNG XÂY DỰNG CÔNG CỤ MP3 SEARCH .62 3.1 CRAWLER CHO TÌM KIẾM MP3 62 3.1.1 Các vấn đề đặt với crawler 62 3.1.2 Các chiến lược lựa chọn trang Mp3 trình crawl 63 3.1.3 Tăng tốc độ crawl crawl song song .64 3.1.4 Làm tươi trang Mp3 (pages refresh) 64 3.1.5 Kho lưu trữ cho tìm kiếm MP3 64 3.1.6 Đánh mục cho tìm kiếm MP3 .65 3.1.7 Chỉ mục từ điển âm nhạc 69 3.1.8 Chỉ mục ngược từ điển âm nhạc .70 3.1.9 Khó khăn, thách thức việc đánh mục .72 3.2 TÌM KIẾM MP3 72 3.2.1 Phân tích truy vấn 72 3.2.2 Tìm kiếm 72 3.2.3 Xếp hạng cho MP3 73 3.2.4 Giao diện MP3 74 3.2.5 Đánh giá phần mềm tìm kiếm MP3 75 PHẦN KẾT LUẬN 77 NHỮNG ĐÓNG GÓP CỦA LUẬN VĂN 77 HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 77 TÀI LIỆU THAM KHẢO .79 Tiếng Việt .79 Tiếng Anh .79 PHỤ LỤC 81 PHỤ LỤC A KIẾN TRÚC GOOGLE 81 PHỤ LỤC B CÁC KHÁI NIỆM VỀ SEARCH ENGINE .83 PHỤ LỤC C THUẬT TỐN VUN ĐỐNG HEAPSORT CHO TÌM KIẾM 88 PHỤ LỤC D BẢNG MÃ HOÁ CHỮ CÁI TIẾNG VIỆT .91 CHỈ MỤC TỪ 94 DANH MỤC HÌNH VẼ Hình Mơ hình kiến trúc chung Search engine[14] Hình Kiến trúc agent Search engine 10 Hình Mơ hình đơn giản hệ IR 12 Hình Mơ hình đánh mục hệ IR[14] 12 Hình Mơ hình truy vấn hệ IR[14] 13 Hình Minh họa precision/recall 14 Hình Ví dụ cấu trúc mục ngược 15 Hình Giải thuật xây dựng mục ngược (1) 15 Hình Giải thuật xây dựng mục ngược đầy đủ (2) 16 Hình 10 Ví dụ đơn giản VSM 18 Hình 11 Chuẩn hóa độ dài tài liệu 20 Hình 12 Mơ tìm kiếm theo chiều rộng 27 Hình 13 Mơ tìm kiếm theo chiều sâu 28 Hình 14 Kiến trúc chung crawler song song 30 Hình 15 Tập gồm hai trang Web với tốc độ thay đổi khác 32 Hình 16 WebBase repository architecture 35 Hình 17 PageRank đơn giản PageRank có sửa đổi (d=0.8) 45 Hình 18 Ví dụ giải thuật HITS 49 Hình 19 Vịng đời Lucene 52 Hình 20 Sơ đồ phụ thuộc Lucene với môi trường 52 Hình 21 Biểu đồ phần trăm mã code cho module Lucene 53 Hình 22 Sơ đồ phụ thuộc module Lucene 55 Hình 23: Mơ hình tách từ khóa từ văn thơ 69 Hình 24 Kiến trúc Google 81 DANH MỤC BẢNG BIỂU Bảng Giải thuật xử lý truy vấn dạng AND 17 Bảng Tổng kết hiệu phương pháp tổ chức lưu trữ vật lý Web 34 Bảng Tách term từ tài liệu 38 Bảng Sắp xếp lại term 39 Bảng Thành lập từ điển file postings 40 Bảng Ví dụ tìm kiếm AND mơ hình Boolean 42 Bảng Danh sách phụ thuộc Module Lucene 54 Bảng Kết test từ công cụ 61 Bảng Cấu trúc trường MP3 66 Bảng 10 Tách term từ tài liệu 70 Bảng 11 Danh sách term theo id văn 70 Bảng 12 Danh sách từ theo văn tần số xuất 71 Bảng 13 Danh sách từ thông tin từ theo văn tần số xuất 72 Bảng 14 Thuật toán Merge danh sách đơn giản 73 Bảng 15 Danh sách trường Rank 74 Bảng 16 Mã hoá chữ tiếng Việt mã khác 91 DANH MỤC CÁC TỪ VIẾT TẮT Viết tắt Cụm từ xuất phát BVSM Binary Vector Space Model CGI Common Gateway Iinterface DL Document Length DR Data Retrieval FTP File Transfer Protocol HITS Hypertext Induced Topic Search HTML Hyper Text Markup Language HTTP Hyper Text Transfer Protocol HTTPS HTTP Secure IDF Inverse Document Frequency IR Information Retrieval NNTP Network News Transport Protocol QAM Question Answer Machine REP Robot Exclution Protocol SC Similarity Coefficency SE Search Engine TCVN3 Tiêu chuẩn Việt Nam TF Term Frequency URL Uniform Resource Locator UTF Unicode Transformation Format VIQR VIetnamese Quoted-Readable VISCII VIetnamese Standard Code for Information Interchange VPS Vietnamese Profestional Society VSM Vector Space Model MỞ ĐẦU GIỚI THIỆU LUẬN VĂN MỤC ĐÍCH Search Engine khái niệm dùng để chương trình tìm kiếm tài liệu (thuộc dạng khác nhau: text, video, MP3…) thoả mãn số điều kiện mà ta gọi truy vấn (query) người dùng Tuy nhiên, khái niệm Search Engine từ lâu gắn với việc tìm kiếm tài liệu dạng text (Document Search) mạng Internet máy tính cá nhân (Desktop Search) Trong giai đoạn mà nhu cầu tìm kiếm thơng tin mạng Internet tìm kiếm tài liệu tiếng Việt nói chung quan tâm, đề tài phát triển với mục đích mô tả thành phần chung hệ tìm kiếm xây dựng Engine tìm kiếm MP3 Internet Engine phải giải vấn đề tìm kiếm tiếng Việt LÝ DO LỰA CHỌN ĐỀ TÀI Cùng với phát triển Internet, lượng thơng tin mạng ngày nhiều Thậm chí, người ta ước tính tăng trưởng theo cấp số nhân Theo nghiên cứu khoảng năm, trí tuệ nhân loại lại tăng lên gấp đôi Với lượng thông tin khổng lồ mạng nay, Search Engine thực “công cụ” tối cần thiết cho người dùng Internet khai thác, tìm kiếm thơng tin Khái niệm Search Engine có từ sớm giới có nhiều nghiên cứu Search Engine vấn đề liên quan, đặc biệt lĩnh vực truy xuất thông tin, (Information Retrieval - IR) trình bày tài liệu Một nghiên cứu nghiên cứu trường đại học Standford, Mỹ Search Engine mà kết Google, số Search Engine hàng đầu Để xây dựng Search Engine cần phải biết nhiều vấn đề lý thuyết liên quan, có lý thuyết mạng máy tính, ngơn ngữ, lý thuyết IR, cấu trúc liệu giải thuật, sở liệu, tối ưu hóa, tính tốn song song, xử lý phân tán… Đề tài Search Engine đề tài nghiên cứu mang tính lý thuyết thực tế cao Vì thế, có nhiều nghiên cứu ngồi nước Search Engine Tình hình nghiên cứu nước ngồi: Có nhiều cơng ty tổ chức nghiên cứu Search, bật công ty Google, Yahoo Micrsoft Các sản phẩm mã nguồn mở bật Lucene Chất lượng cơng cụ tìm kiếm khác Các công cụ cố gắng xuất phát từ việc tìm kiếm tiếng Anh sau mở đa ngơn ngữ, có tiếng Việt Với tìm kiếm tiếng Việt tốt Google Google có hệ thống máy chủ tốt, lượng liệu khổng lồ, tốc độ cập nhật nhanh, thuật tốn tìm kiếm tốt, nhiều người Việt tin dùng Sản phẩm có chất lượng tốt thứ hai Bing Microsoft cải thiện chất lượng bắt đầu có áp dụng với tiếng Việt Cơng ty Yahoo với sản phẩm Yahoo Search chất lượng nói chung với sản phẩm nói sản phẩm so với sản phẩm cơng ty Việt Tình hình nghiên cứu nước: Hiện Việt Nam, có nhiều nhiều công ty làm Search Baamboo, Zing, Xalo Tuy nhiên, làm Search Web thực có cơng ty Tinh Vân NaiSCorp Cơng ty Tinh Vân có truyền thống làm Search với sản phẩm mã nguồn mở truyền thống VinaSeek từ nhiều năm trước khơng cịn sử dụng Sau đó, cơng ty Tinh Vân mua sản phẩm tìm kiếm Xalộ cơng ty FastSearch, có áp dụng module tiếng Việt vào để biến công cụ thành Search Engine tiếng Việt NaiSCorp cơng ty phát triển từ nhóm sinh viên nghiên cứu khoa học trường ĐH Bách khoa Hà nội ĐH Công nghệ - ĐH Quốc Gia Hà Nội Nhóm sinh viên có nhiều giải thưởng nghiên cứu tìm kiếm tiếng Việt Tháng năm 2006, cơng NaiSCorp thành lập nhanh chóng cho đời cơng cụ tìm kiếm Socbay.com Đây cơng cụ tìm kiếm tiếng Việt tốt, tỏ có hiểu tiếng Việt thói quen sử dụng người Việt Tuy nhiên, sản phẩm tìm kiếm Việt nam chưa thể chiếm lĩnh thị trường cạnh tranh với Google Với yêu cầu thực tế đặt cần thiết cấp bách, chúng tơi tin nghiên cứu tìm kiếm để sản phẩm Việt chiếm lĩnh thơng tin Internet để đem lại thơng tin tri thức cho người Việt cần thiết Chúng cho rằng, lĩnh vực cơng nghệ lõi để làm tảng xây dựng cơng nghệ khác phía Đó lý chúng tơi chọn đề tài để nghiên cứu BỐ CỤC LUẬN VĂN Luận văn gồm chương, với nội dung cụ thể chương sau: Chương 1: Chúng tơi trình bày kỹ thành phần Search Engine Một Search Engine coi dạng Information Retrieval (IR) tức hệ truy xuất thông tin, bao gồm công việc “thu thập thông tin” – tương ứng với Search Engine Crawler, “lưu trữ thông tin” – tương ứng với phần Page Repository, “khai thác thơng tin” – tương ứng với phần phân tích câu truy vấn, tìm kiếm xếp hạng để đưa kết Lý thuyết phần IR có liên quan mật thiết tới việc xây dựng Search Engine Chi tiết phần thơng tin có mục 2.4 Search Engine bao gồm thành phần là: Crawler chương trình có nhiệm vụ khai phá tải liệu trang Web từ mạng Internet hệ thống Do đó, tải cho nhanh, nhiều, đủ, kịp thời địi hỏi phải có chiến thuật hợp lý Muốn nhanh, người ta tăng số Crawler, phải giải toán phân tán Muốn nhiều, người ta khơng giải tốn phân tán mà định xem cố gắng rộng cho nhiều trang Web hay sâu vào tận trang Web Có nhiều chiến thuật khác đáp ứng yêu cầu Muốn đủ kịp thời người ta phải định tốc độ cập nhật crawler trang Web Có nhiều nội dung chi tiết lý thuyết Crawler nằm mục 2.5 Page Repository hệ lưu trữ cho sưu tập khổng lồ trang Web Về mặt chất, hệ lưu trữ đối tượng liệu, nhiên, số lượng trang Web vơ khổng lồ tốn lại không đơn giản Người ta cố gắng phân tán hóa hệ thống, với phạm vi tồn cầu lượng thông tin cập nhật khổng lồ thời điểm tốn khơng dễ dàng Mục 2.6 nói rõ việc Index: Chính mục từ Có thể coi cách tổ chức lại thơng tin cho tạo nên bảng tra cứu mà từ Url biết từ nằm Từ bảng mục này, người ta tạo mục ngược (Invert List) Tức với từ, ta biết tất URL chứa từ Nội dung mục 2.7 Searching: Đây cơng việc quan trọng hệ thống Muốn Search được, người ta phải phân tích truy vấn, sau dựa vào Invert List để tìm kết phù hợp Mục 2.8 nêu vấn đề Searching Ranking: Nếu sau tìm kiếm, ta nhiều kết nhìn chung phù hợp với truy vấn Vậy chọn kết cho đúng? Đưa kết cho người sử dụng? Đó bí mật cơng nghệ công ty Mục 2.9 giới thiệu qua Page Rank giải thuật HITS cách tính rank thơng dụng cơng bố Những nội dung Chương quan trọng với chúng tơi Chúng tơi tìm hiểu cơng nghệ Search nói chung mức sâu để sử dụng kiến thức để khảo sát số Search Engine xây dựng cơng cụ tìm kiếm Mp3 cho Chương 2: Khảo sát số Search Engine Chúng tơi khảo sát cơng cụ tìm kiếm tiếng Anh túy, mã nguồn mở Lucene để biết kiến trúc phần mềm So sánh thành phần nó, nỗ lực viết code cho phần so với cấu trúc chung Search Engine cho thấy rõ phần hệ thống Ở phần 3.2 chúng tơi trình bày vấn đề liên quan đến tiếng Việt khác tìm kiếm tiếng Việt với tìm kiếm tiếng Anh Nội dung làm tiền đề để khảo sát cơng cụ tìm kiếm tiếng Việt mục 3.3 Các công cụ lựa chọn Google, Xalo Socbay Chúng so sánh để thấy cơng cụ nêu chưa hồn hảo Đấy động lực để tiếp tục nghiên cứu ứng dụng tìm kiếm để minh họa cho lý thuyết tìm kiếm nêu Chương Chương 3: Chúng xây dựng ứng dụng nhỏ Mp3 Search Áp dụng kiến thức thu từ việc nghiên cứu từ chương 1, bắt tay vào xây dựng cơng cụ tìm kiếm thực Chúng mô tả bước trình xây dựng Mp3 so sánh cơng việc so với việc cần làm việc xây dựng cơng cụ tìm kiếm Web Vì chương 1, chúng tơi phân tích kỹ thành phần độ phức tạp việc xây dựng thành phần cơng cụ Search nói chung rồi, nên áp dụng vào tốn này, chúng tơi khơng gặp nhiều khó khăn Qua việc xây dựng cơng cụ nhỏ này, hiểu rõ phức tạp khó khăn cơng việc xây dựng Search Engine cho Web 82 tạo nên sở liệu liên kết (có tác dụng việc tính toán độ tiếng trang Web) Sorter thực việc xếp lại barrels theo wordID thay theo docID để tạo mục ngược Chương trình có tên DumpLexicon thu nhận danh sách từ tiến hành cập nhật Lexicon (từ điển) Để trả lời truy vấn người dùng, Google sử dụng Lexicon, mục ngược PageRanks 83 PHỤ LỤC B CÁC KHÁI NIỆM VỀ SEARCH ENGINE Nguồn: http://www.cadenza.org/Search_engine_terms/srchad.htm Adjacency A property of the relationship between words in a Search Engine (or directory) query Search engines often allow users to specify that words should be next to one another or somewhere near one another in the Web pages Searched ArchitextSpider The name of the Excite Search engine's spider Cloaking The hiding of page content Normally carried out to stop page thieves stealing optimized pages Clustering The listing of only one page from each Web site in a Search Engine or directory's list of Search results This avoids occupation of all the top results by a small number of Web sites and makes the list of results clearer and more useful to the user Crawler See Spider Dead Link An Internet link which doesn't lead to a page or site, probably because the server is down or the page has moved or no longer exists Most Search engines have techniques for removing such pages from their listings automatically, but as the Internet continues to increase in size, it becomes more and more difficult for a Search Engine to check all the pages in the index regularly Reporting of dead links helps to keep the indexes clean and accurate, and this can usually be done by submitting the dead link to the Search engine Directory A server or a collection of servers dedicated to indexing Internet Web pages and returning lists of pages which match particular queries Directories (also known as Indexes) are normally compiled manually, by user submission (such as at whatsnew.com), and often involve an editorial selection and/or categorization process (such as at LookSmart and Yahoo) 84 Domain A sub-set of Internet addresses Domains are hierarchical, and lower-level domains often refer to particular Web sites within a top-level domain The most significant part of the address comes at the end - typical top-level domains are com, edu, gov, org (which sub-divide addresses into areas of use) There are also various geographic top-level domains (e.g .ar, ca, fr, ro etc.) referring to particular countries Heading Many Search engines give extra weight and importance to the text found inside HTML heading sections It is generally considered good advice to use headings when designing Web pages and to place keywords inside headings Hidden Text Text on a Web page which is visible to Search Engine spiders but not visible to human visitors This is sometimes because the text has been set the same colour as the background, because multiple TITLE tags have been used or because the text is an HTML comment Hidden text is often used for spamdexing Many Search engines can now detect the use of hidden text, and often remove offending pages from their database or lower such pages' positioning Hit In the context of visitors to Web pages, a hit (or site hit) is a single access request made to the server for either a text file or a graphic If, for example, a Web page contains ten buttons constructed from separate images, a single visit from someone using a Web browser with graphics switched on (a "page view") will involve eleven hits on the server (Often the accesses will not get as far as your server because the page will have been cached by a local Internet service provider) In the context of a Search Engine query, a hit is a measure of the number of Web pages matching a query returned by a Search Engine or directory HTML HyperText Markup Language - the (main) language used to write Web pages HTTP HyperText Transfer Protocol - the (main) protocol used to communicate between Web servers and Web browsers (clients) Inbound Link A hypertext link to a particular page from elsewhere, bringing traffic to that page Inbound links are counted to produce a measure of the page popularity 85 Index See Directory Also refers to the database of Web pages maintained by a Search Engine or directory Keyword A word which forms (part of) a Search Engine query Keyword Density A property of the text in a Web page which indicates how close together the keywords appear Some Search engines use this property for Positioning Analysers are available which allow comparisons between pages Pages can then be produced with the similar keyword densities to those found in high ranking pages Keyword Domain Name The use of keywords as part of the URL to a Website Positioning is improved on some Search engines when keywords are reinforced in the URL Keyword Phrase A phrase which forms (part of) a Search Engine query Keyword Purchasing The buying of Search keywords from Search engines, usually to control banner ad placement All the major Search engines (except EuroSeek and GoTo) insist that keyword purchasing is only used for banner ad placement, and doesn't influence Search results The display of banner ads for bought keywords can be studied using a service called Bannerstake from Thomson and Thomson at http://www.namestake.com which returns the banner ads displayed when particular queries are used Keyword Stuffing The repeating of keywords and keyword phrases in META tags or elsewhere Meta Search A Search of Searches A query is submitted to more than one Search Engine or directory, and results are reported from all the engines, possibly after removal of duplicates and sorting Also the meta Search engine of the same name, found at http://www.metaSearch.com Meta Search Engine A server which passes queries on to many Search engines and/or directories and then summarises all the results Ask Jeeves, Dogpile, Infind, Metacrawler, Metafind and MetaSearch are examples of meta Search engines Meta tag 86 A construct placed in the HTML header of a Web page, providing information which is not visible to browsers The most common meta tags (and those most relevant to Search engines) are KEYWORDS and DESCRIPTION Page Popularity A measure of the number and quality of links to a particular page (inbound links) Portal See Gateway page Can also mean Portal Site Portal Page See Gateway page Portal Site A generic term for any site which provides an entry point to the Internet for a significant number of users Positioning The process of ordering Web sites or Web pages by a Search Engine or a directory so that the most relevant sites appear first in the Search results for a particular query Software such as PositionAgent, Rank This and Webposition can be used to determine how a URL is positioned for a particular Search Engine when using a particular Search phrase The GoHip Search site allows you to see positioning information from many of the big Search engines, displayed all on one page Positioning Technique A method of modifying a Web page so that Search engines (or a particular Search engine) treat the page as more relevant to a particular query (or a set of queries) Query A word, a phrase or a group of words, possibly combined with other syntax used to pass instructions to a Search Engine or a directory in order to locate Web pages Ranking See Positioning 87 Robot Any browser program which follows hypertext links and accesses Web pages but is not directly under human control Examples are the Search Engine spiders, the "harvesting" programs which extract e-mail addresses and other data from Web pages and various intelligent Web Searching programs A database of Web robots is maintained by Webcrawler robots.txt A text file stored in the top level directory of a Web site to deny access by robots to certain pages or sub-directories of the site Only robots which comply with the Robots Exclusion Standard will read and obey the commands in this file Robots will read this file on each visit, so that pages or areas of sites can be made public or private at any time by changing the content of robots.txt before re-submitting to the Search engines The simple example below attempts to prevent all robots from visiting the /secret directory: 88 PHỤ LỤC C THUẬT TOÁN VUN ĐỐNG HEAPSORT CHO TÌM KIẾM Nguồn: http://vi.wikipedia.org/wiki/S%E1%BA%AFp_x%E1%BA%BFp_vun_%C4%91%E1 %BB%91ng Đống (Heap) Mỗi mảng a[1 n] xem nhị phân gần đầy (có trọng số giá trị mảng), với gốc phần tử thứ nhất, bên trái đỉnh a[i] a[2*i] bên phải a[2*i+1] (nếu mảng cịn mảng a[2*i+1] a[2*i+2] ) (nếu 2*i=a[2*i+1] với i =1 int(n/2) Ta cúng gọi mảng đống Như đống a[1] (ứng với gốc cây) phần tử lớn Mảng có phần tử ln ln đống Một đống cực tiểu định nghĩa theo bất đẳng thức ngược lại: a[i] DownHeap(a, start, count) start := start - } function DownHeap(a, start, count) { var int i := start, j while i *

Ngày đăng: 16/03/2021, 12:35

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w