Ứng dụng querylog trong tìm kiếm thông minh

84 0 0
Ứng dụng querylog trong tìm kiếm thông minh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Thông tin sinh viên Họ tên sinh viên: Nguyễn Sinh Thành Điện thoại liên lạc: 01689933336 Email: thanhnstb@gmail.com Lớp: Tin Pháp Hệ đào tạo: Kỹ sư quy Đồ án tốt nghiệp thực tại: Bộ môn hệ thống thông tin Thời gian làm ĐATN: Từ ngày 21/02/2010 đến 04/06/2010 Mục đích nội dung ĐATN  Nghiên cứu, đề xuất giải pháp xây dựng hệ thống tìm kiếm thơng minh Các nhiệm vụ cụ thể ĐATN    Tìm hiểu kiến trúc tổng thể hệ thống tìm kiếm, kỹ thuật xử lý tiếng Việt Nghiên cứu, đề xuất giải pháp khai phá QueryLog để gợi ý truy vấn cho người dùng Phân tích, thiết kế, cài đặt hệ thống tìm kiếm tiếng Việt hồn chỉnh, tích hợp tính thông minh gợi ý truy vấn cho người dùng Lời cam đoan sinh viên: Tôi Nguyễn Sinh Thành cam kết ĐATN cơng trình nghiên cứu thân hướng dẫn TS Lê Thanh Hương Các kết nêu ĐATN trung thực, khơng phải chép tồn văn cơng trình khác Hà Nội, ngày 27 tháng 05 năm 2010 Tác giả ĐATN Nguyễn Sinh Thành Xác nhận giáo viên hướng dẫn mức độ hoàn thành ĐATN cho phép bảo vệ: Hà Nội, ngày 28 tháng 05 năm 2010 Giáo viên hướng dẫn TS Lê Thanh Hương Sinh viên th c hi n: Nguy n Sinh Thành Khóa 50 L p Tin Pháp TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Hệ thống tìm kiếm thơng minh hệ thống tìm kiếm trợ giúp tối đa cho người dùng việc tìm kiếm, hiểu ý đồ tìm kiếm người dùng đưa kết gần nhất, sát với ý đồ tìm kiếm Mục tiêu đề tài nghiên cứu, đề xuất giải pháp xây dựng hệ thống tìm kiếm đáp ứng được:    Đầy đủ chức hệ thống tìm kiếm Xử lý tốt tài liệu tiếng Việt Có khả gợi ý truy vấn cho người dùng Nội dung báo cáo gồm phần: - Phần 1: Trình bày chi tiết hệ thống tìm kiếm, hệ thống tìm kiếm thơng minh hướng mục tiêu đồ án Phần 2: Giới thiệu QueryLog toán gợi ý truy vấn dựa khai phá QueryLog Trình bày cụ thể cách tiếp cận giải thuật khai phá QueryLog Phần 3: Phân tích, thiết kế hệ thống module hệ thống Thiết kế cấu trúc liệu Phần 4: Giới thiệu chương trình cài đặt, kết thử nghiệm nhận xét đánh giá Sinh viên th c hi n: Nguy n Sinh Thành Khóa 50 L p Tin Pháp ABSTRACT OF THESIS Intelligent search engine is the one that can offer the users maximum supporting in searching, understanding the user intention in searching and achieving the results which are closest to that intention The goal of this thesis is researching and putting forward the solutions to develop a search engine that meets the following criteria:  Having all features of a basic search engine  Supporting Vietnamese language  Having ability of suggesting better queries to the users This report is divided into parts: - Part 1: Presenting concepts of a search engine, intelligent search engine and the goal of thesis - Part 2: Introducing QueryLog and the sample suggesting query based on the QueryLog mining The specific presentation of the approach and Query mining algorithm - Part 3: Analysing and Designing the system and each module Designing database structure Sinh viên th c hi n: Nguy n Sinh Thành Khóa 50 L p Tin Pháp - Part 4: Introducing the installed program, experimental results and evaluations LỜI CẢM ƠN Đầu tiên, em xin cảm ơn thày cô Viện Công nghệ thông tin Truyền thông – Đại học Bách khoa Hà nội giảng dạy, truyền đạt kiến thức cho em suốt năm học Em xin cảm ơn TS Lê Thanh Hương tận tình hướng dẫn, giúp đỡ, bảo em q trình thực đồ án Tơi xin cảm ơn bạn bè chia sẻ, giúp đỡ học tập thời gian làm đồ án Cuối cùng, cảm ơn bố mẹ người thân ủng hộ, động viên q trình học tập, nghiên cứu để có kết ngày hôm Trong báo cáo đề tài chắn khơng tránh khỏi đơi chỗ thiếu sót, em mong nhận lời góp ý, bảo từ thày để hồn thiện đề tài tốt Hà nội, ngày 27 tháng năm 2010 Người thực Nguyễn Sinh Thành Sinh viên th c hi n: Nguy n Sinh Thành Khóa 50 L p Tin Pháp NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Sinh viên th c hi n: Nguy n Sinh Thành Khóa 50 L p Tin Pháp …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Sinh viên th c hi n: Nguy n Sinh Thành Khóa 50 L p Tin Pháp …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… Mục lục DANH MỤC HÌNH VẼ 10 DANH MỤC BẢNG .11 BẢNG THUẬT NGỮ VIẾT TẮT 12 LỜI MỞ ĐẦU 13 Phần I : .15 TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM 15 I Hệ thống tìm kiếm 15 Khái niệm hệ thống tìm kiếm 15 Phân loại hệ thống tìm kiếm 15 Kiến trúc hệ thống tìm kiếm 16 Module thu thập tài liệu 17 Module đánh mục tài liệu 19 Module tìm kiếm 20 II Hệ thống tìm kiếm thơng minh 20 Khái niệm 20 Các hướng nghiên cứu giới 21 Bài toán gợi ý truy vấn 23 Sinh viên th c hi n: Nguy n Sinh Thành Khóa 50 L p Tin Pháp III Nội dung mục tiêu đồ án 26 Mục đích yêu cầu 26 Phạm vi phát triển đồ án 26 Phần II: .27 QUERYLOG VÀ ỨNG DỤNG KHAI PHÁ QUERYLOG GỢI Ý TRUY VẤN CHO NGƯỜI DÙNG 27 I Query Log .27 II Ứng dụng QueryLog để gợi ý truy vấn .28 Cách tiếp cận đồ án 28 Bài toán phân cụm 28 Các kết nghiên cứu phân cụm QueryLog 29 Các khái niệm chung .33 Giải thuật chung 33 III Giải thuật 34 Giải thuật phát ý đồ tìm kiếm (Search Mission) 34 Hàm tính độ tương đồng 36 Giải thuật phân cụm 37 Giải thuật tìm kiếm truy vấn gợi ý 39 Phần III: 40 PHÂN TÍCH, THIẾT KẾ CHƯƠNG TRÌNH 40 I Mô tả chung hệ thống 40 II Phân tích hệ thống .41 Biểu đồ phân rã chức 41 Mơ hình hoạt động chức hệ thống 42 Phân tích hệ thống mặt liệu 43 III Thiết kế hệ thống .46 Module thu thập tài liệu 46 Module tách từ .47 Module đánh mục 52 Module phân cụm 53 Module xếp hạng truy vấn .54 Sinh viên th c hi n: Nguy n Sinh Thành Khóa 50 L p Tin Pháp Module tìm kiếm 54 Chức gợi ý nhanh 56 Chức gợi ý dựa câu truy vấn 56 Chức lưu liệu .57 IV Thiết kế lớp hệ thống 57 Các lớp phân hệ tìm kiếm 57 Các lớp phân hệ quản trị 58 Lớp kết nối, thao tác sở liệu 60 Phần IV: 61 CÀI ĐẶT CHƯƠNG TRÌNH VÀ NHẬN XÉT, ĐÁNH GIÁ KẾT QUẢ .61 I II Cài đặt chương trình thử nghiệm .61 Các kỹ thuật công nghệ bật 64 Phân hệ tìm kiếm dành cho người dùng 64 Phân hệ quản trị dành cho admin hệ thống 66 Thử nghiệm 74 Nhận xét đánh giá kết 75 KẾT LUẬN .76 Tài liệu tham khảo 78 PHỤ LỤC 79 Sinh viên th c hi n: Nguy n Sinh Thành Khóa 50 L p Tin Pháp DANH MỤC HÌNH VẼ Hình 1: Các thành phần hệ thống tìm kiếm .17 Hình 2: Kiến trúc tổng quát hệ thống thu thập 18 Hình 3: Phân loại thuật toán phân cụm .29 Hình 4: Tái phân cụm 38 Hình 5: Mơ hình hệ thống 40 Hình 6: Mơ hình phân rã chức 41 Hình 7: Mô tả hoạt động chức .42 Hình 8: Kiến trúc thu thập .46 Hình 9: Mơ hình phân cụm 53 Hình 10: Mơ hình module tìm kiếm 55 Hình 11: Mơ hình gợi ý dựa câu truy vấn 56 Hình 12: Các lớp phân hệ tìm kiếm 57 Hình 13: Các lớp phụ trợ phân hệ tìm kiếm 58 Hình 14: Các lớp đại diện cho đối tượng 58 Hình 15: Một số lớp xử lý phần quản trị 59 Hình 16: Lớp truy xuất CSDL 60 Hình 17: Mơ hình lớp 62 Hình 18: Giao diện trang chủ tìm kiếm 65 Hình 19: Giao diện kết tìm kiếm 66 Hình 20: Chức thu thập tài liệu 67 Hình 21: Quản lý cấu hình Crawler 68 Hình 22: Cấu hình nơi lưu trữ cho tài liệu tải 68 Hình 23: Cấu hình kết nối cho crawler .69 Hình 24: Cấu hình nâng cao cho crawler 69 Hình 25: Chức tách từ 70 Hình 26: Chức đánh mục .71 Hình 27: Chức phân cụm 72 Hình 28: Chức lưu liệu 73 Hình 29: Chức xếp hạng truy vấn 74 Sinh viên th c hi n: Nguy n Sinh Thành Khóa 50 L p Tin Pháp 10

Ngày đăng: 06/07/2023, 11:18