Tìm kiếm văn bản và máy tìm kiếm
[...]... thiệu – – • Chức năng – – – • một thành phần quan trọng hầu hết các máy tìm kiếm thu thập các trang web từ các site khác nhau trên Internet lưu giữ vào kho lưu trữ (phục vụ bộ tạo chỉ mục) làm tương nội dung các trang web được lưu trữ Hoạt động – – – khai thác cấu trúc liên kết web lần theo các trang web thu thập và làm tươi 32 CRAWLING Thuật toán Crawler tuần tự tổng quát 33 CRAWLING TRONG Virginia... • 1997 (khi xuất hiện Google) – – • Máy tìm kiếm đầu tiên WWWW (WWW Worm) McBryan Index chừng 110.000 trang web 3/1994-4/1994: nhận 1500 câu hỏi hàng ngày WebCrawler: 2 triệu ->Watch 100 triệu trang web Alta Vista nhận 20 triệu câu hỏi / ngày 2000-nay – – – Tăng nhanh về số lượng hàng tỷ trang web hàng trăm triệu câu hỏi / ngày 18 MÁY TÌM KIẾM ALTA VISTA • Hệ thống – – • Một module tìm kiếm Log câu... PHẦN CƠ BẢN CỦA MÁY TÌM KIẾM • Một số thành phần cơ bản – Module phần mềm cơ bản • • • • • – module crawling (crawler) – dò theo liên kết trên Web • • thu thập nội dung trang Web lưu vào các kho chứa module indexing (indexer - đánh chỉ mục) – duyệt nội dung trang web đã tải – lưu trữ trong các cấu trúc – tính hạng các trang: cố đinh, theo câu hỏi – truy xuất cơ sở dữ liệu – sắp xếp các tài liệu này theo... năng đặt câu hỏi theo "vết" Kết quả: Hiện 10 URL / 1 trang, theo thứ tự "hạng" Mỗi URL có tiêu đề và một số thông tin khác 19 MÁY TÌM KIẾM ALTA VISTA • Log câu hỏi – – • Mục tiêu: Hướng người dùng (Khai phá yêu cầu sử dụng) Log câu hỏi gồm file text và một số thành phần khác File text – – – Câu hỏi mới Màn hình kết quả từ yêu cầu đã gửi Câu hỏi • • • • • • • • tem thời gian được gửi (đơn vị mili giây... trước tập lớn các tài liệu Web Tìm kiếm dựa theo từ khóa Kết quả: danh sách tài liệu theo tập xếp hạng số lượng từ khóa ít, danh sách kết quả dài, ngữ nghĩa kém Phân loại – Máy tìm kiếm chung • • – độ chính xác thấp AltaVista, Hotbot, Infoseek Dịch vụ tìm kiếm • • • Miền thu hẹp Chính xác cao Inktomi, Excite, www.netpart.com, Cora 16 MÁY TÌM KIẾM CORA 17 SƠ BỘ QUÁ TRÌNH PHÁT TRIỂN MÁY TÌM KIẾM • 1994... Internet Một số máy tìm kiếm điển hình Một số đặc trưng và xu thế phát triển Các thành phần cơ bản Crawling Đánh chỉ số và lưu trữ Tính hạng và tìm kiếm 11 CÔNG CỤ TÌM KIẾM TRÊN INTERNET • Hai kiểu công cụ tìm kiếm điển hình – – • Thư mục phân lớp – – – – – • Máy tìm kiếm (search engine) Thư mục phân lớp (classified directory) số lượng ít tài liệu Web tổ chức dạng thư mục tìm kiếm theo thư mục kết quả danh... 10100: máy tìm kiếm lớn từ năm 1997 Sergey Brin và Lawren Page: hai nghiên cứu sinh Stanfort Một số thông số – – Định hướng người dùng: có log câu hỏi Yêu cầu • • • • crawling nhanh: thu thập tài liệu web và cập nhật vào kho Hệ thống lưu trữ hiệu quả: chỉ số và chính tài liệu Hệ thống index: hàng trăm gigabyte dữ liệu hiệu quả Hỏi/đáp nhanh: trăm nghìn câu hỏi / giây 21 SƠ BỘ MÁY TÌM KIẾM GOOGLE 22... •http://searchengineland.com/the-state-of-search-engine-marketing-2010-38826 Mar 25, •Search engine optimization (SEO): nâng cao khả năng hiện thị trên máy tìm kiếm theo kết quả tìm kiếm, mở rộng giải pháp tiếp thị •Search engine marketing (SEM): được đưa vào danh sách ưu tiên do có trả phí 26 NGHIÊN CỨU THU HỒI THÔNG TIN • Theo Google Scholar, số bài chứa “Search Engine”: mọi nơi: 424.000 bài; tiêu... Đồng thời mức luồng – luồng chạy đồng thời trong chương trình – đồng nhất – được điều khiển bởi môđun NewUrlBuffers • Đồng thời crawler – file cấu hình: phân hoạch miền Internet để tải – tải các trang web theo phân hoạch 36 123doc.vn