NGHIÊN CỨU HỆ TỐNG SEARCH ENGINE VÀ XÂY DỰNG ỨNG DỤNG TÌM KIẾM NỘI DUNG TÀI LIỆU
Luận Văn Tốt Nghiệp Kỹ Sư Đại học Bách Khoa Khoa Công Nghệ Thông Tin 1 Mở đầu Mô hình hệ thống Search Engine Phân tích và thiết kế Demo Kết luận & Hướng phát triển 2 3 Số lượng thông tin tăng Nhu cầu tìm kiếm tăng 4 Web Mở đầu Hỗ trợ tốt 5 Sử dụng tài nguyên CPU Hỗ trợ nhiều định dạng Thời gian tìm kiếm Bảo mật dữ liệu Mã nguồn bí mật Hỗ trợ ngôn ngữ Khả năng phát triển Cài thêm các ứng dụng hỗ trợ file Các vấn đề gặp phải Mở đầu Mô hình hệ thống Search Engine Phân tích và thiết kế Demo Kết luận & Hướng phát triển 6 7 Bộ Thu thập thông tin Bộ lập chỉ mục Bộ tìm kiếm Mở đầu Mô hình hệ thống Search Engine Phân tích và thiết kế Demo Kết luận & Hướng phát triển 8 9 Mô hình hệ thống API Lucence Phát triển 10 Thuật toán : [...]... Search TabPage Index TabPage Static TabPage TabPage 29 Mở đầu Mô hình hệ thống Search Engine Phân tích và thiết kế Demo Kết luận & Hướng phát triển 30 Tên Loại tài liệu Số file ,dung lượng Truy vấn Thời gian Docx,pdf,html,xml 550 (~2GB) “Lucene” 0,15 giây Foxit Reader pdf 150(~200MB) “Lucene” 5,05 phút Notepad ++ Html,xml 30(~40MB) “Lucene” 1,34 phút Ứng Dụng 31 Mở đầu Mô hình hệ. .. Dựa vào file nghịch đảo , lấy danh sách các tài liệu tương ứng với từng mục từ Kết hợp các phép toán tử đưa ra kết quả Sắp xếp kết quả theo thư tự giảm dần của độ ưu tiên Kết quả 19 Thu thập thông tin : Nhanh (Cần Giảm) - Sử dụng thông tin file Lập chỉ mục : Chậm ( Cần Nhanh) -Đọc và lấy văn bản của file -Xử lý văn bản -Lập Index -Mở tệp tin ở đĩa và ghi vào đĩa 20 -Nhiều luồng thu thập thông tin -Một... vector và được tính theo công thức : 14 Lập chỉ mục Phương pháp : 15 Phương pháp lưu trữ từ : 16 17 .CFS File : Lưu trữ chỉ mục của hệ thống gen :Tổng hợp lưu trữ các segment nhỏ Segment_N : segment được thêm vào lock :ngăn nhiều xử lí index trong 1 thời gian (Mỗi chỉ mục bao gồm nhiều segment nhỏ , sau đó nhập lại segment lớn ) 18 Thuật toán Câu truy vấn Phân tich truy vấn Index Từ Điển Dựa vào... thu thập thông tin 1.Chuyển trạng thái “Sleep” trong 1 khoảng thời gian nếu tìm được một file hợp lệ 2.Chuyển trạng thái “Sleep” trong 1 khoảng thời gian sau khi đã lướt qua n file không hợp lệ 22 Sử dụng nhiều luồng hiển thị T = Tmax > T =T1+T2…… T : Thời gian hiển thị tất cả kết quả T1: Thời gian hiển thị kết quả số 1 23 24 Search Add,delete Spyder User View File Manual Index 25 Data Index Core UI... Docx,pdf,html,xml 550 (~2GB) “Lucene” 0,15 giây Foxit Reader pdf 150(~200MB) “Lucene” 5,05 phút Notepad ++ Html,xml 30(~40MB) “Lucene” 1,34 phút Ứng Dụng 31 Mở đầu Mô hình hệ thống Search Engine Phân tích và thiết kế Demo Kết luận & Hướng phát triển 32 Em xin chân thành cảm ơn 33