1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên ứu searh engine và một số thuật toán đối sánh mẫu ho hệ thống tìm kiếm thông tin trên mạng

93 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Các Search engine không chỉ đơn thuần làmột trang web với các mã HTMT đơn giản mà nó là cả một hệ thống gồm nhiều bộ phận, mỗi bộ phận thực hiện một chức năng như dò tìm các trang trên I

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN VINH QUY NGHIÊN CỨU SEARCH ENGINE VÀ MỘT SỐ THUẬT TOÁN ĐỐI SÁNH MẪU CHO HỆ THỐNG TÌM KIẾM THƠNG TIN TRÊN MẠNG Chun ngành : Công nghệ thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS NGUYỄN ĐỨC NGHĨA Hà Nội – Năm 2013 Tai ngay!!! Ban co the xoa dong chu nay!!! 17061131648121000000 BỘ GIÁO DỤC VÀ ĐÀO TẠO NGUYỄN VINH QUY TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN NGUYỄN VINH QUY NGHIÊN CỨU SEARCH ENGINE VÀ MỘT SỐ THUẬT TỐN ĐỐI SÁNH MẪU CHO HỆ THỐNG TÌM KIẾM THÔNG TIN TRÊN MẠNG LUẬN VĂN THẠC SĨ KỸ THUẬT CHUN NGÀNH: CƠNG NGHỆ THƠNG TIN KHỐ CH2011A Hà Nội – Năm 2013 LỜI CAM ĐOAN Tôi xin cam đoan số liệu kết nghiên cứu luận văn trung thực không trùng lặp với đề tài khác Viện Tôi xin cam đoan giúp đỡ cho việc thực luận văn cảm ơn thông tin trích dẫn luận văn rõ nguồn gốc Hà nội, ngày 19 tháng 03 năm 2013 Tác giả Nguyễn Vinh Quy LỜI CẢM ƠN Mở đầu, em xin tỏ lòng biết ơn tới PGS.TS Nguyễn Đức Nghĩa, người trực tiếp hướng dẫn khoa học tận tâm giúp đỡ em q trình hồn thành luận văn Em xin cảm ơn thầy cô giáo Viện Công nghệ thông tin Truyền thông Đại học Bách khoa – Hà Nội, thầy cô Viện giảng dạy tạo điều kiện cho em trình học tập Xin cảm ơn bạn bè, đồng nghiệp gia đình tạo điều kiện tốt để tơi hồn thiện luận văn tốt nghiệp Hà nội, ngày 19 tháng 03 năm 2013 Tác giả Nguyễn Vinh Quy DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Cấu trúc kho liệu Repository 20 Hình 1.2: Kiến trúc máy tìm kiếm Google 31 Hình 1.3: Cấu trúc liệu kho Repository 33 Hình 1.4: Danh mục từ Lexicon 34 Hình 1.5: Hit bytes 34 Hình 1.6: Chỉ mục xuôi Forward barrels 43 GB 35 Hình 1.7: Cơ chế hoạt động mục Tìm kiếm 81 MỤC LỤC Trang LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ PHẦN MỞ ĐẦU PHẦN NỘI DUNG 10 Chương TỔNG QUAN VỀ SEARCH ENGINE 10 1.1 Giới thiệu chung 10 1.2 Phân loại 11 1.2.1 Máy tìm kiếm thơng thường 11 1.2.2 Máy siêu tìm kiếm – Meta Search Engine 11 1.3 Mơ hình seach engine 12 1.3.1 Bộ tìm duyệt Crawler 12 1.3.2 Kho liệu Repository 17 1.3.3 Bộ lập mục Indexer 20 1.3.4 Phân hạng trang (Page Rank) 23 1.4 Search Engine điển hình 30 1.4.1 Sự đời 30 1.4.2 Cấu trúc máy tìm kiếm Google 31 1.4.3 Cấu trúc liệu 32 1.4.4 Document Index 33 1.4.5 Danh mục từ Lexicon 34 1.4.6 Các danh sách hit 34 1.4.7 Đánh mục cho web (indexing the web) 35 1.4.8 Tìm kiếm 36 1.4.9 Hệ thống xếp hạng 37 Chương CÁC THUẬT TOÁN ĐỐI SÁNH MẪU CHO HỆ THỐNG TÌM KIẾM THƠNG TIN TRÊN MẠNG 39 2.1 Giới thiệu số thuật toán đối sánh mẫu điển hình 39 2.1.1 Thuật toán Brute Force 39 2.1.2 Thuật toán Knuth Morris Pratt 41 2.1.3 Thuật toán Boyer-Moore 45 2.2 So sánh thuật toán 49 Chương TỐI ƯU HĨA MÁY TÌM KIẾM 51 3.1 Cơ tối ưu hóa máy tìm kiếm (SEO) 51 3.2 Cơ chế làm việc máy tìm kiếm 52 3.3 Từ khóa tối ưu hóa máy tìm kiếm 54 3.3.1 Chọn từ khóa để tối ưu hóa 54 3.3.2 Mật độ từ khóa 56 3.3.3 Sắp xếp từ khóa nhiều vị trí khác 56 3.3.4 Đặt keyword đường URL tên file 57 3.3.5 Đặt keyword trang title 58 3.3.6 Đặt keyword phần heading 58 3.4 Các công cụ SEO giúp cải thiện lưu lượng WEB 59 3.4.1 Raven’s SEO Tools 59 3.4.2 Google Analytics 59 3.4.3 Google Minify 59 3.4.4 SEMRush 60 3.4.5 SEOBook’s SEO Toolbar 60 3.5 Các thủ thuật tối ưu hóa máy tìm kiếm 60 3.5.1 Cung cấp nội dung hữu ích 61 3.5.2 Phân tích lưu lượng 61 3.5.3 Sử dụng văn bản, không dùng ảnh, AJAX, loại đa phương tiện khác 61 3.5.4 Viết HTML có chất lượng 61 3.5.5 Sử dụng sitemap 62 3.5.6 Đừng nên trả tiền để mua link giả 62 3.5.7 Làm việc đường link 62 3.5.8 Sử dụng canonical URL 63 3.5.9 Bao gồm metadata 63 3.5.10 Thực kế hoạch “giảm cân” 63 Chương ỨNG DỤNG VÀO THIẾT KẾ WEBSITE CHO HỆ THỐNG THÔNG TIN THƯ VIỆN CHO TRƯỜNG ĐHSPKT HƯNG YÊN 64 4.1 Khảo sát hệ thống 64 4.1.1 Giới thiệu 64 4.1.2 Khảo sát Thư viện 64 4.1.3 Mơ tả tốn, u cầu phạm vi giải 64 4.1.4 Mô tả hệ thống 65 4.2 Phân tích thiết kế hệ thống 66 4.2.1 Biểu đồ phân rã chức 66 4.2.2 Biểu đồ ngữ cảnh 68 4.2.3 Các hồ sơ sử dụng 69 4.2.4 Các biểu đồ luồng(dòng) liệu 69 4.2.5 Mơ hình E-R 72 4.2.6 Chuyển đổi mơ hình E – R sang mơ hình quan hệ 73 4.2.7 Mơ hình quan hệ 74 4.2.8 Thiết kế CSDL 74 4.3 Mơ tả trang website 77 4.3.1 Trang chủ 77 4.3.2 Trang giới thiệu 77 4.3.3 Trang Liên hệ 77 4.3.4 Trang Tra cứu 77 4.3.5 Trang hoạt động 78 4.3.6 Trang tài nguyên số 78 4.4 Các thuật toán đối sánh mẫu áp dụng cho Tra cứu sách 78 4.4.1 Thuật toán Brute Force Knuth Morris Pratt 78 4.4.2 Thuật toán Boyer-Moore 79 4.4.3 Lựa chọn thuật toán áp dụng Tra cứu sách cho website 79 4.5 Máy tìm kiếm website 80 4.5.1 Giới thiệu 80 4.5.2 Xây dựng cấu trúc liệu 80 4.5.3 Đặc tả chức mục Tìm kiếm 81 4.6 Cài đặt hướng dẫn sử dụng 82 4.6.1 Cài đặt 82 4.6.2 Hướng dẫn sử dụng 82 KẾT LUẬN VÀ KIẾN NGHỊ 88 TÀI LIỆU THAM KHẢO 90 PHẦN MỞ ĐẦU I Lý chọn đề tài Ngày nay, với phát triển nhanh chóng Internet, tài nguyên World-Wide-Web phong phú hữu ích sống công việc nhiều người khắp giới Tuy nhiên, để khai thác hiệu tài nguyên khổng lồ Search engine cơng cụ khơng thể thiếu Để tìm kiếm thơng tin mạng cần đơn giản truy cập vào trang tìm kiếm Google gõ vào từ khóa cần tìm nhấn nút Sau khoảng thời gian ngắn danh sách trang web phù hợp với từ khóa trả theo thứ tự trang có nội dung gần với yêu cầu người sử dụng hiển thị đầu danh sách Cơng việc cịn lại người sử dụng mở trang xem thơng tin Những trang có chức tìm kiếm gọi máy tìm kiếm Search Engine Các Search engine khơng đơn trang web với mã HTMT đơn giản mà hệ thống gồm nhiều phận, phận thực chức dị tìm trang Internet, tải chúng về, phân hạng, lập mục, trả kết cho người sử dụng Do hữu ích cơng cụ tìm kiếm thơng tin Internet nên tơi lựa chọn đề tài “Nghiên cứu Search engine thuật tốn đối sánh mẫu cho hệ thống tìm kiếm thơng tin mạng ”, với mục đích nghiên cứu cấu trúc, chế hoạt động Search engine, số thuật tốn đối sánh mẫu, tối ưu hóa máy tìm kiếm (SEO - Search Engine Optimization) Tiếp xây dựng Website thực tế ứng dụng thuật toán đối sánh mẫu, ứng dụng mục máy tìm kiếm hoạt động theo chế chung Search engine II Mục đích đề tài Nghiên cứu Search engine số thuật toán tìm kiếm mạng, cơng cụ tối ưu hóa máy tìm kiếm từ xây dựng website cho hệ thống thông tin thư viện cho thư viện trường Đại học sư phạm kỹ thuật Hưng yên

Ngày đăng: 26/01/2024, 16:10

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN