ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA CÔNG NGHỆ THÔNG TIN Tel (84-511) 736 949, Fax (84-511) 842 771 Website: itf.ud.edu.vn, E-mail: cntt@edu.ud.vn LUẬN VĂN TỐT NGHIỆP KỸ SƯ NGÀNH CÔNG NGHỆ THÔNG TIN MÃ NGÀNH : 05115 ĐỀ TÀI : NGHIÊN CỨU HỆ THỐNG SEARCH ENGINE VÀ XÂY DỰNG ỨNG DỤNG TÌM KIẾM NỘI DUNG TÀI LIỆU Mã số : 06T4-041 Ngày bảo vệ : 15-16/06/2011 SINH VIÊN : PHẠM XUÂN QUANG LỚP : 06T4 CBHD : ThS.VÕ ĐỨC HOÀNG ĐÀ NẴNG, 06/2011 LỜI CẢM ƠN Đầu tiên, em xin gởi lời cảm ơn đến Thầy, Cô khoa Công nghệ Thông tin trường Đại học Bách Khoa Đà Nẵng đã tận tình dạy dỗ, dìu dắt em suốt năm năm đại học Xin cảm ơn Thầy Võ Đức Hoàng người đã tận tình hướng dẫn, chỉ bảo em trong suốt thời gian thực hiện đề tài Trong thời gian làm việc với Thầy, em không những học hỏi được nhiều kiến thức bổ ích mà còn học được tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc của Thầy Xin gửi lời cảm ơn chân thành đến gia đình, ba mẹ và bè bạn vì đã luôn là nguồn động viên to lớn, giúp đỡ em vượt qua những khó khăn trong suốt quá trình làm việc Mặc dù đã cố gắng hoàn thiện luận văn với tất cả sự nỗ lực của bản thân, nhưng chắc chắn không thể tránh khỏi những thiếu sót Kính mong quý Thầy Cô tận tình chỉ bảo Một lần nữa, em xin chân thành cảm ơn và luôn mong nhận được sự đóng góp quý báu của tất cả mọi người Tp.Đà Nẵng, tháng 5/2011 Phạm Xuân Quang LỜI CAM ĐOAN Tôi xin cam đoan : 1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của thầy Võ Đức Hoàng 2 Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố 3 Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm Sinh viên, Phạm Xuân Quang NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN Đà Nẵng ,ngày … tháng … năm 2011 Cán bộ hướng dẫn ThS Võ Đức Hoàng NHẬN XÉT CỦA CÁN BỘ PHẢN BIỆN Đà Nẵng, ngày … tháng … năm 2011 Cán bộ phản biện MỤC LỤC MỞ ĐẦU 1 I BỐI CẢNH THỰC HIỆN ĐỀ TÀI 1 II MỤC ĐÍCH ĐỀ TÀI 1 III NHIỆM VỤ THỰC HIỆN 2 IV PHƯƠNG PHÁP TRIỂN KHAI 2 GIỚI THIỆU HỆ THỐNG SEARCH ENGINE 4 I II III IV V TỔNG QUAN VỀ TÌM KIẾM THÔNG TIN 4 I.1 Giới thiệu về tìm kiếm thông tin 4 I.1.1 Mô hình toán tử Boolean 5 I.1.2 Mô hình toán tử Boolean mở rộng 5 I.1.3 Mô hình xác xuất 5 I.1.4 Mô hình không gian vector 5 HỆ THỐNG SEARCH ENGINE 7 II.1 Các Thành Phần Của Hệ Thống Search Engine 7 II.1.1 Bộ thu thập thông tin – Robot 7 II.1.2 Bộ lập chỉ mục – Index 7 II.1.3 Bộ tìm kiếm thông tin – Search Engine 7 II.2 Nguyên lý hoạt động 8 BỘ THU THẬP THÔNG TIN –ROBOT .8 III.1 Robot Thống kê, phân tích và tìm kiếm 8 III.1.1 Phân tích, thống kê – Statistical Analysis 8 III.1.2 Duy trì siêu liên kế - Maintenance 8 III.1.3 Ánh xạ địa chỉ – Mirroring 8 III.1.4 Phát hiện tài nguyên – Resource Discovery 9 III.2 Robot chỉ mục – Robot Indexing 9 BỘ LẬP CHỈ MỤC INDEX 9 IV.1 Khái quát về hệ thống lập chỉ mục 9 IV.2 Tổng quan về phương pháp lập chỉ mục 11 IV.2.1 Xác định mục từ quan trọng cần lập chỉ mục 11 IV.2.2 Lập chỉ mục tự động cho tài liệu 12 IV.2.3 Tập tin nghich đảo tài liệu .13 IV.2.4 Phương pháp hỗ trợ tách từ tự động ngôn ngữ .14 IV.3 Lập chỉ mục cho tài liệu tiếng Việt 15 IV.3.1 Khó khăn cho việc lập chỉ mục tiếng Việt 15 IV.3.2 Đặc điểm về từ trong tiếng Việt và việc tách từ .16 IV.3.3 Giải quyết các vấn đề hiển thị của tiếng Việt (vấn đề chính tả) 17 IV.3.4 Giải quyết các vấn đề về từ của tiếng Việt .19 BỘ TÌM KIẾM THÔNG TIN – SEARCH ENGINE 20 V.1 Các phương thức tìm kiếm 20 V.1.1 Tìm theo từ khoá – Keyword searching 20 V.1.2 Những khó khăn khi tìm theo từ khoá 20 V.1.3 Tìm theo ngữ nghĩa – Concept-based searching 20 V.2 Các chiến lược tìm kiếm 21 V.2.1 Tìm thông tin với các thư mục chủ đề 21 i V.2.2 V.2.3 V.2.4 Tìm thông tin với các công cụ tìm kiếm 21 Tối ưu câu truy vấn 21 Truy vấn bằng ví dụ 22 CÔNG NGHỆ 23 I KỶ THUẬT 23 I.1 Kỷ thuật tìm kiếm toàn văn (Full Text Search) 23 I.2 Chiến thuật tìm kiếm và thu thập thông tin file tài liệu 24 I.2.1 Thuật toán vét cạn : .24 I.2.2 Bài toán cụ thể : .24 I.3 Kỷ thuật lập trình đa luồng 25 I.3.1 Luồng (Thread) 25 I.3.2 Các trạng thái hoạt động của luồng (Thread) .26 I.3.3 Lập trình đa luồng trong C# 26 I.3.4 Độ ưu tiên của luồng (Thread) : 27 I.3.5 Sự đồng bộ các luồng (Thread) 27 II THƯ VIỆN 28 II.1 Giới thiệu về Lucene 28 II.1.1 Tổng quan 28 II.1.2 Tại sao chọn Lucene xây dựng 2 bộ Index và Search 29 II.1.3 Các thành phần của Lucene API 30 II.2 Lập Chỉ Mục – Index của Lucene .31 II.2.1 Phương pháp lập chỉ mục 31 II.3 Tìm kiếm thông tin của Lucene (Search Engine) 36 II.3.1 Phương pháp tìm kiếm 36 II.4 Dữ Liệu Lucene 37 II.4.1 Dữ liệu Index 37 II.4.2 Trọng số và xếp hạng mục từ 40 II.4.3 Cấu trúc tập tin nghịch đảo Index (FTS index types) 41 II.4.4 Tối ưu hóa bộ nhớ Index 43 PHÂN TÍCH HỆ THỐNG 45 I PHÂN TÍCH YÊU CẦU 45 I.1 Khảo sát hiện trạng 45 I.2 Phân tích xác định yêu cầu 45 II Mô hình hoạt động : 47 II.1 Mô Hình hoạt động chi tiết 47 II.1.1 Mô hình chung .47 II.1.2 Mô hình chi tiết hệ thống .48 II.2 Module Thu Thập Thông tin .48 II.2.1 Hoạt động .48 II.2.2 Thuật toán : 49 II.3 Module Lập chỉ mục Index 49 II.3.1 Hoạt động .49 II.3.2 Thuật toán : 50 II.4 Module Tìm Kiếm 51 II.4.1 Hoạt động .51 II.4.2 Thuật toán : 51 II.5 Tối ưu hoạt động của các Module .52 II.5.1 Phương pháp tối ưu cho 2 Module tìm kiếm thông tin và lập Index .52 ii Mục lục iii II.5.2 Phương pháp tối ưu cho Module tìm kiếm và hiện kết quả 53 III Dữ liệu hệ thống 54 III.1 Định dạng file dữ liệu Data 54 III.1.1 Phần header và phần đệm: 56 III.1.2 Phần dữ liệu 57 IV Mô hình Use Case 57 IV.1 Xác định Actor và Use-case : 57 IV.2 Mô hình Use-case .57 V Đặc tả Use-case 58 V.1 Tìm kiếm (Search) .58 V.1.1 Mô hình sequence 59 V.1.2 Giao diện minh họa 59 V.2 Lập chỉ mục (Manual Index) .59 V.2.1 Mô hình Sequence 60 V.2.2 Giao diện minh họa 60 V.3 Xem File (View File) 60 V.3.1 Mô hình Sequence 61 V.3.2 Giao diện minh họa 62 V.4 Thêm ,Xóa Spyder .62 V.4.1 Mô hình Sequence 63 V.4.2 Giao diện minh họa 63 VI Biểu đồ gói 64 VII Biểu đồ Class .65 VII.1 Biểu đồ gói Data Index 65 VII.2 Biểu đồ class của gói Core 66 VII.3 Biểu đồ class của gói UI 66 DEMO & ĐÁNH GIÁ KẾT QUẢ 67 I DEMO .67 I.1 Giao diện tìm kiếm thông tin và tự động lập chỉ mục 67 I.2 Giao diện phần lập chỉ mục thủ công 71 I.3 Giao diện phần tìm kiếm 73 II So sánh hiệu quả ứng dụng 80 KẾT LUẬN 81 III Đánh giá .81 III.1 Ưu điểm 81 III.2 Khuyết điểm .82 IV Hướng phát triển 82 IV.1 Đối với từng module 82 IV.2 Đối với toàn luận văn: .82 DANH MỤC HÌNH ẢNH Hình 1 : Quá trình tìm kiếm thông tin .4 Hình 2 : Biểu diển các vector tài liệu trong không gian 2 chiều 6 Hình 3 : Lưu đồ xử lí hệ thống lập chỉ mục 10 Mục lục iv Hình 4 : Mô hình hoạt động phương pháp Longest Matching 15 Hình 5 : Cấu trúc bên trong Lucene 28 Hình 6 : Quá trình hoạt động của Lucene .29 Hình 7 : Mô hình lập Index của Lucene 32 Hình 8 : Quá trình Analyser 33 Hình 9 : Mô hình Rosette Linguistics Platform 35 Hình 10 : Mô Hình Tìm kiếm của Search Lucene 36 Hình 11 : Mô hình xếp hạng ranking Lucene 40 Hình 12: Nhập Index mỗi tài liệu lại với nhau 44 Hình 13 : Chi tiết việc nhập Index 44 Hình 14 : Tạo ngăn xếp cho tài liệu 44 Hình 15 : Mô hình chung ứng dụng .47 Hình 16 :Mô hình chi tiết hệ thống 48 Hình 17 : Quá trình hoạt động của robot spyder 49 Hình 18 : Quá trình lập chỉ mục 50 Hình 19 : Hoạt động module tìm kiếm 51 Hình 20 : Giải pháp tối ưu hóa các Module 53 Hình 21 : Sử dụng nhiều luồng trình bày kết quả 54 Hình 22 : Cấu trúc file nhị phân 55 Hình 23 : Mô hình Use Case hệ thống 58 Hình 24 : Mô hình sequence tìm kiếm 59 Hình 25 : Giao diện minh họa tìm kiếm 59 Hình 26 : Mô hình sequence Manual Index 60 Hình 27 : Giao diện minh họa Manual Index .60 Hình 28 : Mô hình sequence View file 61 Hình 29 : Giao diện minh họa View File .62 Hình 30 : Mô hình sequence thêm xóa Spider .63 Hình 31 : Giao diện minh họa việc thêm xóa Spyder 64 Hình 32 : Biểu đồ gói .65 Hình 33 : Biểu đồ class của gói Data Index 65 Hình 34 : Biểu đồ class của gói Core 66 Hình 35 : Biểu đồ class của gói UI 66 Hình 36 : Giao diện thêm ,xóa ,spider tìm kiếm file cho việc lập chỉ mục 67 Hình 37 : Thêm robot mới tìm kiếm file trong thư mục D:/ebook 68 Hình 38 :Thông tin quản lí file hoạt động trong thư mục D:/ebook .68 Hình 39 :Xóa robot spyder hoạt động tại thư mục 69 Hình 40 : Dừng hoạt động của spyder hoạt động 69 Hình 41 :Khởi động spyder hoạt động việc hoạt động 70 Hình 42 :Các hoạt động robot tìm kiếm đã dừng hoạt động 70 Hình 43 :Giao diện lập chỉ mục thủ công 71 Hình 44 :Chọn file cần lập chỉ mục .71 Hình 45 :Thông tin File cần lập chỉ mục thủ công 72 Hình 46 :Đã lập Index file chỉ định .72 Hình 47 : Giao diện tìm kiếm 73 Hình 48 : Kết quả tìm kiếm với từ khóa “Lucene” .73 Hình 49 : Đường dẫn file tài liệu cần xem 74 Hình 50 : Kết quả sau khi kích vào link xem file 74 Hình 51 :Ứng dụng tìm kiếm chạy mặc định dưới thanh tastbar 75 Hình 52 : Cấu trúc Project Visual Studio 75 Hình 53 : Thư mục file hệ thống 76 Mục lục v Hình 54 : Thư mục cache .76 Hình 55 : Thư mục extractor 77 Hình 56 : Thư mục chứa Index 77 Hình 57 : Thư mục chứa các processor 78 Hình 58 : File dữ liệu ứng dụng .78 DANH MỤC BẢNG BIỂU Table 1 : Các tập tin nghịch đảo lưu trữ Error! Bookmark not defined Table 2 : Tập tin trực tiếp lưu trữ 14 Table 3 :Thêm 1 tài liệu mới vào tập tin nghich đảo 14 Table 4 : Các câu truy vấn .22 Table 5 : Bảng các mục từ nghich đảo 41 Table 6 : Chức năng hệ thống 46 Nghiên cứu hệ thống Search Engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu Hình 47 :Thông tin File cần lập chỉ mục thủ công Hình 48 :Đã lập Index file chỉ định I.3 Giao diện phần tìm kiếm 73 Nghiên cứu hệ thống Search Engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu Hình 49 : Giao diện tìm kiếm Hình 50 : Kết quả tìm kiếm với từ khóa “Lucene” 74 Nghiên cứu hệ thống Search Engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu Hình 51 : Đường dẫn file tài liệu cần xem Hình 52 : Kết quả sau khi kích vào link xem file 75 Nghiên cứu hệ thống Search Engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu Hình 53 :Ứng dụng tìm kiếm chạy mặc định dưới thanh tastbar Hình 54 : Cấu trúc Project Visual Studio 76 Nghiên cứu hệ thống Search Engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu Hình 55 : Thư mục file hệ thống Thư mục cache : Chứa các file có thời gian lập index lâu Hình 56 : Thư mục cache 77 Nghiên cứu hệ thống Search Engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu Thư mục extractor : Chứa các file dll chứa các thư viện hỗ trợ tách từ loại file, người dùng có thể thêm thư mục này bằng cách viết thêm hỗ trợ bóc tách nhiều đinh dạng file và xuất ra dll và đặt vào thư mục này thì chương trình sẽ tự động nhận dạng và hỗ trợ tìm kiếm định dạng của file đó (Người lập trình cần viết đúng chuẩn cho extractor) Hình 57 : Thư mục extractor Thư mục index : chứ các file index của Lucene Hình 58 : Thư mục chứa Index 78 Nghiên cứu hệ thống Search Engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu Thư mục processor : : Chứa các file dll chứa các thư viện hỗ trợ xử lí ngôn ngữ người lập trình có thể thêm thư mục này bằng cách viết thêm hỗ trợ xử lí ngôn ngữ và xuất ra dll và đặt vào thư mục này thì chương trình sẽ tự động nhận Hình 59 : Thư mục chứa các processor File data lưu thông tin file đã lập Index Hình 60 : File dữ liệu ứng dụng 79 Nghiên cứu hệ thống Search Engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu Kiểm tra mức độ sử dụng tài nguyên CPU thì ứng dụng chạy chỉ sử dụng từ 1-2 % công suất của hệ thống sẽ không làm ảnh hưởng đến hoạt động của máy tính Hình 61 : Đo tài nguyên sử dụng của CPU 80 Nghiên cứu hệ thống Search Engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu II So sánh hiệu quả ứng dụng Với ứng dụng em đã xây dựng và thử nghiệm tìm kiếm nội dung tài liệu được lưu trữ trong ổ đĩa D với khoảng 550 tài liệu các loại.File tài liệu lưu nhiều kiểu font việt nam như VNI Ứng dụng được so sánh với các phần mềm hỗ trợ tìm kiếm nội dung file không hỗ trợ việc lập Index từ trước nổi tiếng như Foxit Reader (tìm file pdf),Notepad ++ Thử nghiệm tìm kiếm với cùng 1 từ khóa và cùng một hệ thống máy tính cá nhân Intel Core 2 Duo T5800 2.0GHz,4G Ram và kết quả thống kê như sau : Tên Ứng Dụng Foxit Reader Notepad ++ Loại tài liệu Số file,dung lượng Truy vấn Thời gian Docx,pdf,html,x ml 550 (~2GB) “Lucene” 0,15 giây 150(~200MB “Lucene” 5,05 phút 30(~40MB) “Lucene” 1,34 phút pdf ) Html,xml Table 7 : Bảng so sánh hiệu năng ứng dụng Qua kết quả thống kê trên thực tế tài liệu (vì việc lập chỉ mục tự động chạy trên thanh taskbar nên không mất thời gian đợi và cho thấy thử nghiệm cho kết quả tương đối chính xác và hiệu quả: − Khoảng 3% tài liệu bị sai sót trong quá trình tách văn bản và chuyển font − Kích thước chỉ mục trung bình giảm 20-30 lần cho văn bản ký tự, trên 30 lần cho văn bản có chèn hình ảnh Như vậy, hệ thống tìm kiếm tài liệu đáp ứng những yêu cầu cơ bản của người dùng Hệ thống đã hỗ trợ cho hầu hết các loại văn bản phổ biến hiện có và bước đầu hỗ trợ cho xử lý trên ngôn ngữ tiếng Việt.Tìm kiếm nhanh các nội dung tài liệu người dùng cần 81 Nghiên cứu hệ thống Search Engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu KẾT LUẬN III Đánh giá III.1 Ưu điểm Về cơ bản luận văn đã thực hiện tốt các nội dung đề ra và đạt được một số kết quả nhất định : Luận văn đã trình bày cơ sở lý thuyết về nguyên lý vận hành của một hệ thống search engine Tìm hiểu các phương thức và chiến lược trong việc thiết kế từng module cụ thể cho hệ thống Tìm hiểu các vấn đề đặc trưng của một hệ thống thu thập thông tin Tìm hiểu các vấn đề đặc trưng của một hệ thống search engine tiếng Việt Đề xuất một vài giải pháp đơn giản để xử lý những vấn đề khó khăn của tiếng Việt Xây dựng ứng dụng thử nghiệm cho một hệ thống search engine tiếng Việt với những kết quả đạt được như sau: Xây dựng công cụ đảm nhận việc thu thập các file tài liệu một cách tự động với nhiều tiến trình đồng hành và nhiều tuỳ chọn trong tuỳ chọn trong qúa trình xử lý Xây dựng công cụ lập chỉ tự động cho các từ tiếng Anh, tiếng Việt có dấu và không dấu Hỗ trợ việc cập nhật, thêm, xoá, các robot tìm kiếm file Xử lý tài liệu dạng text với những hỗ trợ ban đầu cho tiếng Việt Xử lý được chuyển đổi font cơ bản cho Tiếng việt (VNI –Unicode) Thời gian xử lý yêu cầu tìm kiếm khá nhanh và kết quả tương đối phù hợp Giao diện đẹp, thân thiện, dễ sử dụng, chạy trên nền thanh tasbar như một chương trình máy tính bình thường Ứng dụng hoạt động không sử dụng nhiều tài nguyên của máy tính 82 Nghiên cứu hệ thống Search Engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu III.2 Khuyết điểm Tuy nhiên do ứng dụng chỉ mang những tính năng cơ bản chưa phát triển thêm nên còn một số hạn chế cần phải cải tiến : Chưa có thời gian thử nghiệm ứng dụng trong môi trường mạng Chưa có nhiều tùy chọn tìm kiếm cho file IV Hướng phát triển IV.1 Đối với từng module Bộ thu thập thông tin Hỗ trợ nhiều định dạng file hơn nữa cũng như móc nối với hệ quản trị CSDL khác nhau Lập lịch quét file trên máy tính định kì và thông minh hơn Xác định được các font trong văn bản và chuyển đổi nhiểu font hơn Phân tích cả những font , ngôn ngữ ở dạng text để lấy thông tin cần thiết cho bộ lập chỉ mục Bộ lập chỉ mục Hoàn chỉnh phần xử lý font chữ Tiếng Việt Xử lý thêm nhiều hậu tố khác Sử dụng các cách tổ chức, lưu trữ và xử lý dữ liệu như khác: bảng băm… Lập lịch cho việc lập chỉ mục các file được các robot tìm kiếm file nhanh hơn nữa nhưng khong ảnh hưởng nhiều tài nguyên CPU Bộ tìm kiếm thông tin Hỗ trợ thêm nhiều toán tử và các tuỳ chọn tìm kiếm Cải tiến kết quả tìm kiếm dựa vào kỹ thuật gom nhóm trên nhật ký người sử dụng (user log) hoặc dùng các thư mục tìm kiếm IV.2 Đối với toàn luận văn: Cho phép ứng dụng chạy trên môi trường cá nhân và thêm môi trường Web Tăng tính hiệu quả, tăng tốc độ tìm kiếm, tăng tính ổn định và tính bảo mật của chương trình 83 Nghiên cứu hệ thống Search Engine và xây dựng ứng dụng tìm kiếm nội dung tài liệu Tóm tắt được nội dung các file trả về cũng như chụp ảnh Hỗ trợ nhiều hơn việc tìm kiếm nâng cao: theo tiêu đề, theo ngày cập nhật, theo kiểu file… 84 PHỤ LỤC PHỤ LỤC 1 : CÁC THUẬT NGỮ SỬ DỤNG Meta-data : Metadata hay siêu dữ liệu là dạng dữ liệu miêu tả về dữ liệu Trong cơ sở dữ liệu, metadata là các dạng biểu diễn khác nhau của các đối tượng trong cơ sở dữ liệu Trong cơ sở dữ liệu quan hệ thì metadata là các định nghĩa của bảng, cột, cơ sở dữ liệu, view và nhiều đối tượng khác Trong kho dữ liệu, metadata là dạng định nghĩa dữ liệu như: bảng, cột, một báo cáo, các luật doanh nghiệp hay những quy tắc biến đổi Metadata bao quát tất cả các phương diện của kho dữ liệu URL : Viết tắt của Uniform Resource Locator, được dùng để tham chiếu tới tài nguyên trên Internet URL mang lại khả năng siêu liên kết cho các trang mạng Các tài nguyên khác nhau được tham chiếu tới bằng địa chỉ, chính là URL Meta Tags : Là các thẻ Meta được sử dụng ở phần Header của Html nhằm tăng khả năng tìm kiếm các từ khoá của các công cụ tìm kiếm Có ba loại thẻ Meta chính là thẻ Meta Title, Meta Description và thẻ Meta Keywords Compound Files Format : Một loại đinh dạng file dùng để lưu trữ thông tin hay nội dung tất cả các loại file được lập Index i TÀI LIỆU THAM KHẢO [1] Doug Cutting Applying Lucene to the Web [2] Michael McCandless Lucene in Action Nguyên bản : Lucene in Action.Trung tâm xuất bản Maning [3] Simon Willnauer Lucene 4 - Revisiting problems for speed Lucene CoreCommitter & PMC Member [4] Doug Cutting Apache Lucene - Index File Formats Copyright © 2006 The Apache Software Foundation [5] Võ Duy Thanh, Võ Trung Hùng, Huỳnh Đức Việt Nghiên cứu ứng dụng mã nguồn mở Lucene để xây dựng phần mềm tìm kiếm thông tin trên văn bản Tạp chí Khoa học Công nghệ, Số 39, 2010 [6] Huỳnh Thụy Bảo Trân,Nghiên cứu một số mô hình và xây dựng thử nghiệm một search engine Tiếng Việt, Luận án thạc sĩ khoa học [7] David Chi-Chuan Su Performance Analysis and Optimization on Lucene [8] Prasad Pingali, Vasudeva Varma Multilingual Indexing Support for CLIR using LanguageModeling International Institute of Information Technology [9] Michael Busch, Luis Alves, Luis Alves Leveraging Lucene’s Advanced Features Nhà Xuất bản Apache [10] Daniel Naber Searching the Web and Everything Else The International conferene on java technologie [11] Gerard Salton, Michael J.McGill, Introduction to Modern Information Retrieval [12] Cambridge University Index construction.,Xuất bản April 1, 2009 [13] Osku Salerma,Design of a Full Text Search index for a database manage-ment system Department of Computer Science UNIVERSITY OF HELSINKI [14] Joseph Albahari,Threading in C#,Tái bản 27-04-2011 [15] Nguyễn Trọng Anh,Kỷ thuật tìm kiếm , [16] Shiva Thatipelli,Intelligent Crawling and Indexing using Lucene, Báo cáo Công nghệ mới 2004 [17] Jian-Yun Nie,Introduction to Information Retrieval,nhà xuất bản University of Montreal Canada 2002 [18] Grossman Frieder,Inverted Index, nhà xuất bản Goharian, 2002 [19] Đinh Trung Hiếu, Vũ Bội Hằng, Nguyễn Cẩm Tú, Giải pháp tìm kiếm theo lĩnh vực trong máy tìm kiếm , Báo cáo nghiên cứu khoa học Khoa Công Nghệ, ĐHQGHN năm 2004 [20] T Joachims, Text categorization with Support Vector Machines: Learning with many relevant features In Machine Learning: ECML-98, Tenth European Conference on Machine Learning, pp 137-142 [21] Joseph Albahari, Threading in C#,ebook last updated 27-04-2011 [22] Đoàn Hữu Quang Vinh Xây dựng công cụ hỗ trợ quá trình tiền xử lý cho hệ thống search engine,Luận án thạc sĩ khoa học [23] Trang web : http://www.cadenza.org/search_engine_terms/ [24] Trang web : http://incubator.apache.org/lucene.net/ [25] Trang web : http://www.netnam.vn [26] Trang web : http://www.vinaseek.com 1 2 ... đề đó, em cố gắng nghiên cứu xây dựng hệ thống tìm kiếm máy tính cá nhân phục vụ cho người dùng .Và lí em chọn đề tài : “Nghiên cứu hệ thống Search Engine xây dựng ứng dụng tìm kiếm nội dung tài. .. lại ứng dụng , đánh giá kết đạt Lập bảng so sánh với ứng dụng tìm kiếm khác CHƯƠNG Nghiên cứu hệ thống Search Engine xây dựng ứng dụng tìm kiếm nội dung tài liệu GIỚI THIỆU HỆ THỐNG SEARCH ENGINE. .. Tài liệu Tài liệu Tài liệu Từ 1 Từ 1 Từ 1 Từ 1 Table : Các tập tin nghịch đảo lưu trữ Từ Từ Từ Từ Tài liệu 1 1 Tài liệu 1 13 Nghiên cứu hệ thống Search Engine xây dựng ứng dụng tìm kiếm nội dung