Xây dựng máy tìm kiếm ảnh dựa trên công nghệ search engines

46 5 0
Xây dựng máy tìm kiếm ảnh dựa trên công nghệ search engines

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES TR-ờng đại học vinh Khoa công nghệ thông tin === === đồ án tốt nghiệp xây dựng máy tìm kiếm ảnh dựa công nghệ searc h engines Giáo viên h-ớng dẫn: ThS l-ơng xuân phú Sinh viªn thùc hiƯn: Lª Tr-êng giang Líp: 46K2 - CNTT Vinh, 5/2010 =  = SVTH: Lª Tr-êng Giang GVHD: Th.S L-ơng Xuân Phú XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES LI M U Trong môi trường công nghệ thông tin ngày phát triển Chúng tiếp xúc với công nghệ tri thức với kỹ thuật tiến tiên Vì ghế nhà trường tơi sinh viên với nhiệt tình ham tìm hiểu hướng dẫn tận tình q thầy Đang dần hồn thiện kiến thức cơng nghệ thơng tin ứng dụng Đề tài thực tập tốt nghiệp cách tiếp cận mức độ nghiên cứu cho sinh viên công nghệ thông tin Trau dồi kiến thức bổ ích cho thân Tơi thực tìm hiểu vấn đề sử dụng nhiều cơng nghệ tìm kiếm Q trình phân tích khơng gặp nhiều vấn đề khó khăn u cầu rõ ràng Nhưng q tìm hiểu code khơng phải đơn giản, code chuẩn có việc tìm hiểu chương trình mà khơng có modul mơ tả hướng dẫn gặp nhiều khó khăn Việc sử dụng ngôn ngữ C# visual 2008 đơn giản để hiểu Reguler Expression áp dụng cho chương trình vất vả Chương trình ứng dụng phần nhỏ hệ thống lớn Nhưng tiềm cho việc xây dựng hệ thống lớn Quá trình tìm hiểu vấn đề nêu hướng dẫn thầy Lương Xn Phú Ngồi việc tìm hiểu tài liệu chun ngành tơi có tìm hiểu thêm thông tin mạng trao đổi thông tin với bạn bè Sau q trình tìm hiểu tơi có kiến thức bổ ích lập trình Net visual 2008, sử dụng tốt hệ sở liệu SQL2005, biết cách sử dụng biểu thức quy (Rexguler Expression) Thu kết Tôi xin chân thành cảm ơn Khoa công nghệ thông tin tạo điều kiện cho tơi tìm hiểu lĩnh vực Và chân thành cảm ơn thầy Lương Xuân Phú nhiệt tình giúp đỡ thời gian qua Vinh tháng năm 2010 Sinh viên Lê Trường Giang SVTH: Lª Tr-êng Giang GVHD: Th.S L-ơng Xuân Phú XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES MC LC Trang LỜI MỞ ĐẦU Phần TỔNG QUAN VỀ ĐỀ TÀI 1.1 Lý chọn đề tài 1.2 Phương pháp thực đề tài 1.3 Công cụ cài đặt Phần TỔNG QUAN VỀ SEARCH ENGINES 2.1 Thành phần cỗ máy tìm kiếm tự động 2.1.1 Bộ thu thập thông tin (Robot) 2.1.2 Bộ lập mục (Index) 2.1.3 Bộ tìm kiếm thơng tin (Search Engine) 2.2 Nguyên lý hoạt động Search Engine 10 2.3 Ứng dụng Robot 11 2.3.1 Phân tích, thống kê (Statistical Analysis) 11 2.3.2 Duy trì siêu liên kế (Maintenance) 11 2.3.3 Ánh xạ địa web (Mirroring) 12 2.3.4 Phát tài nguyên (Resource Discovery) 12 2.3.5 Kết hợp công dụng (Combined uses) 12 2.4 Robot mục (Robot Indexing) 12 2.5 Các chiến lược thu thập liệu 13 2.5.1 Chiến lược tìm kiếm theo chiều sâu 14 2.5.2 Chiến lược tìm kiếm theo ngẫu nhiên 15 2.6 Những vấn đề cần lưu ý web robot 15 2.6.1 Chi phí hiểm hoạ 15 2.6.2 Quá tải mạng server (Network resource and server load) 15 2.6.3 Sự cập nhật mức (Updating overhead) 16 2.6.4 Những tình không mong đợi (Bad implementations) 17 2.6.5 Tiêu chuẩn loại trừ robot 17 SVTH: Lª Tr-êng Giang GVHD: Th.S L-ơng Xuân Phú XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES Phn MY TRUY TÌM DỮ LIỆU 21 3.1 Các thuật ngữ liên quan 22 3.2 Hoạt động phân hạng trang Web 22 3.2.1 Những tiêu chí quan trọng dùng phân hạng 23 3.2.2 Kỹ thuật nâng cao thứ hạng cho trang Web 24 3.3 Phân loại máy truy tìm 26 Phần MÁY TÌM KIẾM CRAWPHOTO 29 4.1 Đặc tả máy tìm kiếm 29 4.2 Cấu trúc craw photo 30 4.2.1 Thuật toán khởi tạo link 31 4.2.2 Thuật tốn Tìm link 33 4.2.3 Thuật toán download 35 4.3 Các bảng liệu 37 4.3.1 Bảng link khởi tạo cho việc tìm link ảnh (Craw_UrlStart) 37 4.3.2 Bảng quản lý chuyên mục ảnh (Category) 37 4.3.3 Bảng link ảnh sau tìm (UrlPhoto) 38 4.3.4 Bảng quản lý album ảnh (Album) 39 4.3.5 Bảng quản lý ảnh (Photo) 39 4.4 Lược đồ quan hệ 40 Phần MỘT SỐ GIAO DIỆN 41 5.1 Giao diện thơng tin chương trình 41 5.2 Giao diện khởi tạo link hổ trợ người dùng 42 5.3 Giao diện Crawler link ảnh 42 5.4 Giao diện download ảnh 43 KẾT LUẬN VÀ KIẾN NGHỊ 44 TÀI LIỆU THAM KHẢO 46 SVTH: Lª Tr-êng Giang GVHD: Th.S L-ơng Xuân Phú XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES Phn TỔNG QUAN VỀ ĐỀ TÀI 1.1 Lý chọn đề tài Dưới bùng nổ thông tin ngày nhiều Nhu cầu thông tin ngày cao Internet với nhiều dịch vụ công cụ hỗ trợ người dùng Trong cơng cụ tìm kiếm công cụ hỗ trợ người dùng nhiều đáp ứng hầu hết yêu câu thông tin nhiều lĩnh vực khác Với mục đích tìm hiểu cơng nghệ tìm kiếm phương pháp tìm kiếm ảnh cho trang web lớn chủ động nguồn mà không phụ thuộc internet Do chọn đề tài “XÂY DỰNG MÁY TÌM KIẾM ẢNH DỰA TRÊN CƠNG NGHỆ SEARCH ENGINES ” gọi đơn giản máy tìm kiếm ảnh Để tìm hiểu phần cách thức hoạt động máy tìm kiếm lớn hoạt động Google, Bing, Ask hay yahoo Ngồi máy tìm kiếm ảnh sử để tạo nguồn vào server khác Trong trình xây dựng phần giải trí mà đặc biệt phục phụ nhu cầu hình ảnh lĩnh vực cho người dùng, tăng tích hấp dẫn thu hút cho khách hàng thành viên cộng đồng internet Thì nguồn ảnh phải thực phong phú Vì việc tìm nguồn ảnh cần thiết Trong việc tìm kiếm ảnh tay có nghĩa người quản trị chuyên mục sử dụng cơng cụ tìm kiếm internet google, bing, ask hay yahoo nhiều thời gian Do việc xây dựng chương trình tìm kiếm ảnh tự động cần thiết Sau người quản trị việc biên tập lại ảnh post lên website riêng 1.2 Phương pháp thực đề tài Do tốn có tính đặc thù riêng nên việc tiếp cận phân tích theo tiến trình xây dựng tốn Tìm hiểu cơng nghệ Search engines SVTH: Lª Tr-êng Giang GVHD: Th.S L-ơng Xuân Phú XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES Tỡm hiu v cỏch thức hoạt động máy tìm kiếm Tìm hiểu cấu trúc máy tìm kiếm Tìm hiểu cách thức xây dựng máy tìm kiếm Tìm hiểu cơng cụ hỗ trợ để xây dựng máy tìm kiếm Tìm hiểu đặc trưng riêng máy tìm kiếm ảnh cấu trúc việc xây dựng Xây dựng máy tìm kiếm dựa kiến thức công cụ phần mềm hỗ trợ biết công cụ bổ sung phải có thời gian đầu tư Bài tốn cài đặt ngơn ngữ lập trìnhc.Net với tảng C# sử dụng hệ quản trị cở sở liệu SQL2005 Phần quan trọng chương trình biểu thức quy Rexguler Experssion Giúp cho việc phân tách chuổi liên kết từ đưa link ảnh Từ máy tìm kiếm download ảnh máy chạy robot 1.3 Công cụ cài đặt - Bộ Visual Studio 2008 Công cụ lập trình tạo máy tìm kiếm ảnh Crawler Photo, Với việc tạo đề án riêng biệt hỗ trợ phương thức thực hiên thao tác vào cở sở liệu thư viện phong phú Giúp lập trình viên giảm nhiều thời gian q trình code tăng tính cường thao tác can thiệp vào hệ thống đơn giản - Hệ quản trị sở liệu SQL2005 Hệ quản trị sở liệu 2005 hệ quản trị nhanh chóng thay hệ quản trị khác tính tiện dụng thao tác liệu, lỗi truy xuất nhanh Có tính bảo mật cao việc tạo thủ tục thao tác với sở liệu làm tăng tính suốt liệu người dùng giúp tinh lược nhiều thao tác trình tương tác với cở sở liệu có tính bảo mật cao dễ dàng viết thủ tục truy xuất liệu SVTH: Lê Tr-ờng Giang GVHD: Th.S L-ơng Xuân Phú XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES - Biểu thức quy (Rexgulre Experssion.) Việc xây dựng máy tìm kiếm khơng thể thiếu biểu thức quy Biểu thức quy giúp việc lọc link kết nối trang máy tìm kiếm duyệt qua Từ link kết nối máy tìm kiếm tiếp tục tìm kiếm link có liên quan tìm link ảnh Làm cở sở để thực trình download ảnh server máy chy dch v SVTH: Lê Tr-ờng Giang GVHD: Th.S L-ơng Xuân Phú XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES Phn TNG QUAN V SEARCH ENGINES Crawler-Based Search Engines - Hệ thống tìm kiếm tự động Những cỗ máy tìm kiếm tự động, Google, Bing hay Yahoo tạo danh sách họ tự động Chúng sử dụng chương trình máy tính, gọi “robots“, “spiders”, hay crawlers để lần tìm thơng tin mạng có tìm kiếm thơng tin, Search Engine hiển thị thông tin lưu trữ tương ứng Nếu trang web thay đổi, cỗ máy tìm kiếm tự động tìm thấy thay đổi này, điều ảnh hưởng đến bạn liệt kê Những tiêu đề trang, nội dung văn phần tử khác giữ vai trò định Human-Powered Directories - Các thư mục người quản lý cập nhật Các thư mục Internet - ví dụ Dự án thư mục mở - Open Directory Project (Dmoz.org) hịan tồn phụ thuộc vào quản lý người Bạn đăng ký website bạn vào thư mục với vài dịng mơ tả ngắn gọn biên tập viên thư mục viết giúp phần mô tả cho bạn - chúng phù hợp với nội dung chủ đề danh mục Việc thay đổi trang web bạn khơng có hiệu lực danh mục bạn Những thứ hữu ích để cải thiện vị trí xếp hạng với cỗ máy tìm kiếm khơng có để làm với việc cải thiện vị trí thư mục Ngoại lệ site tốt, với nội dung tốt, có lẽ thích hợp để xem xét so với website nghèo nàn SVTH: Lª Tr-êng Giang GVHD: Th.S L-ơng Xuân Phú XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES 2.1 Thnh phn ca cỗ máy tìm kiếm tự động 2.1.1 Bộ thu thập thơng tin (Robot) Robot chương trình tự động duyệt qua cấu trúc siêu liên kết để thu thập tài liệu & cách đệ quy nhận tất tài liệu có liên kết với tài liệu Robot biết đến nhiều tên gọi khác nhau: spider, web wanderer web worm,… Những tên gọi gây nhầm lẫn, từ „spider‟, „wanderer‟ làm người ta nghĩ robot tự di chuyển từ „worm‟ làm người ta liên tưởng đến virus Về chất robot chương trình duyệt thu thậpthơng tin từ site theo giao thức web Những trình duyệt thơng thường khơng xem robot thiếu tính chủ động, chúng duyệt web có tác động người 2.1.2 Bộ lập mục (Index) Hệ thống lập mục hay cịn gọi hệ thống phân tích xử lý liệu, thực việc phân tích, trích chọn thơng tin cần thiết (thường từ đơn, từ ghép, cụm từ quan trọng) từ liệu mà robot thu thập tổ chức thành sở liệu riêng để tìm kiếm cách nhanh chóng, hiệu Hệ thống mục danh sách từ khoá, rõ từ khoá xuất trang nào, địa 2.1.3 Bộ tìm kiếm thơng tin (Search Engine) Search engine cụm từ dùng toàn hệ thống bao gồm thu thập thông tin, lập mục & tìm kiếm thơng tin Các hoạt động liên tục từ lúc khởi động hệ thống, chúng phụ thuộc lẫn mặt liệu độc lập với mặt hoạt động Search engine tương tác với user thông qua giao diện web, có nhiệm vụ tiếp nhận & trả tài liệu thoả u cầu user Nói nơm na, tìm kiếm từ tìm kiếm trang mà từ câu truy vấn (query) xuất nhiều nhất, ngoại trừ stopword (các từ thông dụng SVTH: Lê Tr-ờng Giang GVHD: Th.S L-ơng Xuân Phú XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES mạo từ a, an, the,…) Một từ xuất nhiều trang trang chọn để trả cho người dùng Và trang chứa tất từ câu truy vấn tốt trang không chứa từ Ngày nay, hầu hết search engine hỗ trợ chức tìm nâng cao, tìm từ đơn, từ ghép, cụm từ, danh từ riêng, hay giới hạn phạm vi tìm kiếm đề mục, tiêu đề, đoạn văn giới thiệu trang web,… Ngồi chiến lược tìm xác theo từ khố, search engine cố gắng “hiểu” ý nghĩa thực câu hỏi thông qua câu chữ người dùng cung cấp Điều thể qua chức sửa lỗi tả, tìm hình thức biến đổi khác từ Ví dụ: search engine tìm từ speaker, speaking, spoke người dùng nhập vào từ speak 2.2 Nguyên lý hoạt động Search Engine Search engine điều khiển robot thu thập thông tin mạng thông qua siêu liên kết (hyperlink) Khi robot phát site mới, gởi tài liệu (web page) cho server để tạo sở liệu mục phục vụ cho nhu cầu tìm kiếm thơng tin Bởi thơng tin mạng ln thay đổi nên robots phải liên tục cập nhật site cũ Mật độ cập nhật phụ thuộc vào hệ thống search engine Khi search engine nhận câu truy vấn từ user, tiến hành phân tích, tìm sở liệu mục trả tài liệu thoả yờu cu SVTH: Lê Tr-ờng Giang GVHD: Th.S L-ơng Xuân Phú 10 XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES u vo: a ch Website tỡm kiếm liệu hình ảnh Đầu ra: List Link ảnh danh sách List Link path website đưa vào Thực Bước 1: Đọc trang html Lấy mẫu link dựa vào biểu thức quy Duyệt danh sách link Nếu chưa kết thúc đến bước Ngược lại đến bước Bước 2: Lấy mẫu link dựa vào biểu thức quy phân loại link ảnh dựa phần đuôi mở rộng file ảnh jpg Nếu link ảnh đưa vào bảng liệu (Craw UrlPhoto) Lấy mẫu link thư mục ảnh Nếu link thư mục ảnh đưa vào liệu (Craw UrlStart) Bước 3: Kết thúc q trình khởi tạo SVTH: Lª Tr-êng Giang GVHD: Th.S L-ơng Xuân Phú 32 XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES 4.2.2 Thut toỏn Tỡm link Begin List link Address Web Bước F Not Endlist T Reader Html Bước Rexgulre Experssion List Link T Bước T Not Endlist F F F Link image Link path T T Link Image Link path Bước End SVTH: Lê Tr-ờng Giang GVHD: Th.S L-ơng Xuân Phú 33 XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES u vo: List link a ch website chưa duyệt Đầu ra: Link ảnh Link path website đưa vào Thực Bước 1: Kiểm tra danh sách link duyệt Nếu chưa kết thúc thực bước Nếu kết thúc chuyển bước Bước 2: Đọc trang html Lấy mẫu link dựa vào biểu thức quy Duyệt danh sách link Nếu chưa kết thúc đến bước Ngược lại đến bước Bước 3: Lấy mẫu link dựa vào biểu thức quy phân loại link ảnh dựa phần đuôi mở rộng file ảnh jpg Nếu link ảnh đưa vào bảng liệu tbl_Craw_UrlPhoto Lấy mẫu link thư mục ảnh Nếu link thư mục ảnh đưa vào liệu tbl_Craw_UrlStart Bước 4: Kết thúc tất link duyt SVTH: Lê Tr-ờng Giang GVHD: Th.S L-ơng Xuân Phú 34 XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHƯ SEARCH ENGINES 4.2.3 Thuật tốn download Begin List link imager Bước F Not End List T Download T Imager Bước Image F Link fail Bước End SVTH: Lê Tr-ờng Giang GVHD: Th.S L-ơng Xuân Phú 35 XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES Đầu vào: List link thư mục chưa duyệt Đầu ra: Link ảnh Link path website đưa vào Thực Bước 1: Danh sách link ảnh chưa duyệt sở liệu Nếu chưa kết thúc chuyển sang bước Nêu kết thúc chuyển sang bước Bước 2: Download file ảnh theo link đưa vào server Xác nhận download thành công hay thất bại Chuyển qua bước Bước 3: Kết thúc chương trình SVTH: Lê Tr-ờng Giang GVHD: Th.S L-ơng Xuân Phú 36 XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES 4.3 Các bảng liệu 4.3.1 Bảng link khởi tạo cho việc tìm link ảnh (Craw_UrlStart) STT Tên trường Kiểu liệu Ghi UrlStart_ID bigint Id link khởi tạo UrlStart nvarchar(300) Link khởi tạo Status char(1) Xác nhận trạng thái xử lý DateProcess datetime Thời gian xử lý Server_ID tinyint Id server xử lý ProcessCount int Số lần xửa lý PageName nvarchar(30) Trang web chủ link 4.3.2 Bảng quản lý chuyên mục ảnh (Category) STT Tên trường Kiểu liệu Ghi Category_ID tinyint ID chuyên mục ảnh CategoryName nvarchar(50) Tên chuyên mục Description nvarchar(150) Mơ tả chun mục SVTH: Lª Tr-êng Giang GVHD: Th.S L-ơng Xuân Phú 37 XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES 4.3.3 Bảng link ảnh sau tìm (UrlPhoto) Tên trường Kiểu liệu Ghi UrlPhoto_ID bigint ID link ảnh UrlParent nvarchar(300) ID link start UrlPhoto nvarchar(300) Link ảnh UrlThumbnails nvarchar(300) Link ảnh thu nhỏ Category nvarchar(MAX) Tên chuyên mục ảnh Extension nvarchar(5) Đuôi mở rộng ảnh DateProcess datetime Thời gian xử lý link Status char(1) Trạng thái xử lý ProcessCount int Số lần xử lý 10 PageName nvarchar(30) Website lấy link 11 DomainAddress nvarchar(50) Địa máy lưu trữ ảnh 12 Server_ID tinyint Id máy chủ xử lý 13 MD5Url nvarchar(32) Đường dẫn mã hóa 14 Width int Chiều rộng ảnh 15 Height int Chiều cao ảnh STT 16 HorizontalResolution float Độ phân giải ngang 17 VerticalResolution float Độ phân giải dọc 18 BitDepth smallint Số bít lưu trữ mộtđiểm ảnh 19 FrameCount smallint Số khung ảnh 20 Subject nvarchar(MAX) Tiêu đề ảnh 21 KeyWord nvarchar(MAX) Từ khóa ảnh 22 Comments nvarchar(MAX) Nhận xét ảnh 23 Author nvarchar(50) Tỏc gi nh SVTH: Lê Tr-ờng Giang GVHD: Th.S L-ơng Xuân Phú 38 XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES 4.3.4 Bng qun lý album ảnh (Album) STT Tên trường Kiểu liệu Ghi Album_ID bigint Id album ảnh Category_ID tinyint Id quản lý chuyện mục AlbumName nvarchar(50) Tên Album ảnh UrlThumbnails nvarchar(300) Link ảnh đại diện cho Album DomainAddress nvarchar(50) Địa server lưu trữ ViewCount int Số lần xem Status char(1) Trạng thái ẩn Album Rank nvarchar(50) Đánh gia Album DateCreate datetime Thời gian tạo album 4.3.5 Bảng quản lý ảnh (Photo) Tên trường Kiểu liệu Ghi Photo_ID bigint ID link ảnh Album_ID bigint ID Album UrlLocal nvarchar(300) Link ảnh UrlThumbnails nvarchar(300) Link ảnh thu nhỏ DomainAddress nvarchar(50) Địa server lưu ảnh Extension nvarchar(5) Đuôi mở rộng ảnh DateCreate datetime Thời gian tạo link Status char(1) Trạng thái xử lý Server_ID tinyint Link thực đến server lưu 10 UrlPhoto nvarchar(300) Đường dẫn máy lưu trữ ảnh 11 PageName nvarchar(30) Id máy chủ xử lý 12 ViewsCount int Số lần ảnh c xem STT SVTH: Lê Tr-ờng Giang GVHD: Th.S L-ơng Xuân Phú 39 XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES 13 Comments nvarchar(MAX) Nhn xột ảnh 14 Width int Chiều rộng ảnh 15 Height int Chiều cao ảnh 16 HorizontalResolution float Độ phân giải dọc 17 VerticalResolution float Số bít lưu trữ mộtđiểm ảnh 18 BitDepth smallint Độ phân giải ngang 19 FrameCount smallint Số khung ảnh 20 Subject nvarchar(MAX) Từ khóa ảnh 21 KeyWord nvarchar(MAX) Từ khóa ảnh 22 Author nvarchar(50) Tác giả ảnh 4.4 Lược đồ quan hệ Craw_UrlStart Category Album UrlPhoto SVTH: Lê Tr-ờng Giang Photo GVHD: Th.S L-ơng Xuân Phú 40 XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES Phn MT S GIAO DIN 5.1 Giao diện thơng tin chương trình SVTH: Lª Tr-ờng Giang GVHD: Th.S L-ơng Xuân Phú 41 XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES 5.2 Giao diện khởi tạo link hổ trợ người dùng 5.3 Giao diện Crawler link ảnh SVTH: Lª Tr-êng Giang GVHD: Th.S L-ơng Xuân Phú 42 XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES 5.4 Giao diện download ảnh SVTH: Lª Tr-êng Giang GVHD: Th.S L-ơng Xuân Phú 43 XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES KT LUN V KIN NGHỊ Kết luận Để xây dựng hệ thống tìm kiếm chuyên nghiệp phải đầu tư nhiều thời gian kinh phí cơng nghệ người Với nhu cầu ham học hỏi việc tìm hiểu cơng nghệ tìm kiếm xây dựng phần máy tìm kiểm loại nhỏ chuyên kiểu dữa liệu hình ảnh Phần tơi hiểu cách thức hoạt động máy chủ tìm kiếm lớn Việc nắm bắt công nghệ phần thiếu lĩnh vực công nghệ thông tin Với đề tài cố gắng xây dựng robot tìm kiếm Nhưng khơng thể tránh khỏi sai xót thiếu task vụ thực chưa hoạt động ý tưởng Kết - Tìm hiểu biểu thức quy Rexguler Expression - Thiết kế hoàn chỉnh modul: + Khởi tạo link ban đầu + Tìm kiếm link + Download ảnh Hạn chế - Trong q trình phần tích cơng nghệ Search engines để xây dựng máy tìm kiếm có số vấn đề khó khăn thẻ kết nối đa dạng cấu trúc tương đối phức tạp số trang thiết lập chế mã hóa cho liên kết Ngồi khối lượng cơng việc nhiều nên cịn số modul chương trình đưa cấu trúc chưa xây dựng - Một số modul chưa xây dựng xong + Đánh mục Index cho liệu + Xây dựng hệ thống đáp ứng tìm kiếm SVTH: Lê Tr-ờng Giang GVHD: Th.S L-ơng Xuân Phú 44 XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES Kiến nghị Do kiến thức kinh nghiệm cịn nhiều hạn chế nên việc phân tích tốn cịn nhiều thiếu sót Ngồi điều kiện thời gian số vấn đề liên quan nên việc code chưa hồn chỉnh hệ thống Tơi cố gắng tiếp tục khắc phục nhược điểm chức cịn thiếu máy tìm kiếm tng lai SVTH: Lê Tr-ờng Giang GVHD: Th.S L-ơng Xuân Phú 45 XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES TI LIU THAM KHO [1] Các giải pháp lập trình C# , Nguyễn Ngọc Bình, Thái Thanh Phong, Giao Thông Vận Tải,2006 [2] Professional CSharp 2008, Christian Nagel, Bill Evjen, Jay Glynn, Morgan Skinner, Karli Watson, Wiley,2007 [3] Windows Forms Programming with C#, Erik Brown, Manning,2002 Website: [4] http://pscode.com [5] http://www.3c.com.vn [6] http://www.thuvien-ebook.com [7] http://msdn.microsoft.com SVTH: Lê Tr-ờng Giang GVHD: Th.S L-ơng Xuân Phú 46 ... tìm kiếm Tìm hiểu cấu trúc máy tìm kiếm Tìm hiểu cách thức xây dựng máy tìm kiếm Tìm hiểu cơng cụ hỗ trợ để xây dựng máy tìm kiếm Tìm hiểu đặc trưng riêng máy tìm kiếm ảnh cấu trúc việc xây dựng. .. trình xây dựng tốn Tìm hiểu cơng nghệ Search engines SVTH: Lê Tr-ờng Giang GVHD: Th.S L-ơng Xuân Phú XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES Tìm hiểu cách thức hoạt động máy tìm. .. L-ơng Xuân Phú XÂY DựNG MáY TìM KIếM ảNH DựA TRÊN CÔNG NGHệ SEARCH ENGINES Phần TỔNG QUAN VỀ SEARCH ENGINES Crawler-Based Search Engines - Hệ thống tìm kiếm tự động Những cỗ máy tìm kiếm tự động,

Ngày đăng: 14/10/2021, 23:55

Hình ảnh liên quan

Bảng 1: Vớdụ về chuẩn loại trừ robot dựng filerobot.txt - Xây dựng máy tìm kiếm ảnh dựa trên công nghệ search engines

Bảng 1.

Vớdụ về chuẩn loại trừ robot dựng filerobot.txt Xem tại trang 18 của tài liệu.
Bảng 2: Thụng tin về META tag trong chuẩn loại trừ robot - Xây dựng máy tìm kiếm ảnh dựa trên công nghệ search engines

Bảng 2.

Thụng tin về META tag trong chuẩn loại trừ robot Xem tại trang 18 của tài liệu.
Sau đõy là bảng cỏc giỏ trị Meta Tags thường được cỏc Webmaster sử dụng: Bảng 3: Giỏ trị cỏc cờ của thuộc tớnh Content trong META tag  - Xây dựng máy tìm kiếm ảnh dựa trên công nghệ search engines

au.

đõy là bảng cỏc giỏ trị Meta Tags thường được cỏc Webmaster sử dụng: Bảng 3: Giỏ trị cỏc cờ của thuộc tớnh Content trong META tag Xem tại trang 19 của tài liệu.
4.3.3. Bảng link ảnh sau khi tỡm (UrlPhoto) - Xây dựng máy tìm kiếm ảnh dựa trên công nghệ search engines

4.3.3..

Bảng link ảnh sau khi tỡm (UrlPhoto) Xem tại trang 38 của tài liệu.
4.3.5. Bảng quản lý ảnh (Photo) - Xây dựng máy tìm kiếm ảnh dựa trên công nghệ search engines

4.3.5..

Bảng quản lý ảnh (Photo) Xem tại trang 39 của tài liệu.
4.3.4. Bảng quản lý album ảnh (Album) - Xây dựng máy tìm kiếm ảnh dựa trên công nghệ search engines

4.3.4..

Bảng quản lý album ảnh (Album) Xem tại trang 39 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan