Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
328,33 KB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀ THÔNG HÀ THANH THỦY TÌM KIẾM VĂN BẢN THEO NỘI DUNG VÀ ỨNG DỤNG Luận văn thạc sĩ khoa học máy tính Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Thái nguyên – 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i LỜI CẢM ƠN Để hoàn thành chương trình cao học, nhận hướng dẫn, giúp đỡ góp ý nhiệt tình quý thầy cô trường Đại học Công nghệ thông tin - Truyền thông, Đại học Thái Nguyên Trước hết, xin chân thành cảm ơn quí thầy cô trường Đại học Công nghệ thông tin - Truyền thông, đặc biệt thầy cô tận tình dạy bảo cho suốt thời gian học tập trường Tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Đặng Văn Đức người thầy dành nhiều thời gian, tâm huyết tận tình giúp đỡ, hướng dẫn suốt trình nghiên cứu để hoàn thành luận văn Đồng thời, xin chân thành cảm ơn Sở Giáo dục đào tạo tỉnh Thái Nguyên, Ban Giám hiệu trường THPT Lương Ngọc Quyến tạo điều kiện giúp đỡ mặt để học tập hoàn thành tốt khóa học Cuối xin chân thành cảm ơn gia đình bạn bè, người động viên, khuyến khích suốt trình học tập nghiên cứu Mặc dù có nhiều cố gắng hoàn thiện luận văn tất nhiệt tình lực mình, nhiên tránh khỏi thiếu sót, mong nhận đóng góp quí báu quí thầy cô bạn Thái Nguyên, ngày 20 tháng năm 2012 Học viên Hà Thanh Thủy Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Thái Nguyên, ngày 20 tháng năm 2012 Học viên Hà Thanh Thủy Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii DANH MỤC CÁC KÍ HIỆU, CHỮ CÁI VIẾT TẮT Từ gốc CSDL DBMS (DataBase Management System) IR (Information Retrieval) IDF(Inverse Document Frequency) LSI(Latent Semantic Indexing) MMDBMS (Multimedia Database Management System) SVD(Singular Value Decomposition) TF (Term Frequency) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Giải nghĩa Cơ sở liệu Hệ quản trị Cơ sở liệu Truy tìm thông tin Tần số xuất tài liệu phù hợp Chỉ số hóa ngữ nghĩa ẩn Hệ quản trị sở liệu đa phương tiện Kỹ thuật tách giá trị đơn Tần số xuất thuật ngữ http://www.lrc-tnu.edu.vn iv DANH MỤC HÌNH VẼ Hình 1.1 Mô hình liệu đa phương tiện Hình 1.2 Hệ thống IR tiêu biểu Hình 1.3 Tiến trình truy vấn tài liệu Hình 1.4 Đồ thị so sánh hiệu Hình 2.1 Mô tả kết hợp Boolean Hình 2.2 Sử dụng khái niệm cho truy vấn Hình 2.3 Sơ đồ SVD ma trận hình chữ nhật thuật ngữ-tài liệu Hình 2.4 Sơ đồ SVD giảm lược ma trận thuật ngữ-tài liệu Hình 2.5 Đồ thị Recall – Precision thuật toán LSI Hình 2.6 Mô hình khái niệm Hình 3.1 Sơ đồ chức thành phần dtSearch Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v MỤC LỤC MỞ ĐẦU CHƢƠNG I: TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM THÔNG TIN THEO NỘI DUNG 1.1 Khái quát sở liệu đa phương tiện 1.1.1 Giới thiệu 1.1.2 Mục tiêu .6 1.1.3 Mô hình liệu đa phương tiện 1.2 Hệ thống truy tìm thông tin 1.2.1 Khái quát 1.2.2 Vấn đề truy tìm tài liệu văn 10 1.2.3 Phân biệt hệ thống IR DBMS 12 1.3 Trích chọn đặc trưng, mục đo tính tương tự 14 1.3.1 Trích chọn đặc trưng 14 1.3.2 Chỉ số hoá cấu trúc .16 1.3.3 Đo tính tương tự 17 1.4 Xếp hạng tài liệu 17 CHƢƠNG II: MỘT SỐ KỸ THUẬT TÌM KIẾM THÔNG TIN VĂN 23 BẢN THEO NỘI DUNG 23 2.1 Mô hình tìm kiếm thông tin Bool 23 2.1.1 Truy vấn Boolean .23 2.1.2 Cấu trúc tệp mục .25 2.1.3 Chỉ mục tự động 28 2.1.4 Tổng kết mục tự động tài liệu 31 2.2 Tìm kiếm văn sở mô hình không gian vector 32 2.3 Tìm kiếm văn sở kỹ thuật LSI 34 2.3.1 Ý tưởng LSI 34 2.3.2 Một số khái niệm .36 2.3.3 Kỹ thuật SVD (singular value decomposition) 38 2.4 Mô hình tìm kiếm theo xác suất 41 2.4.1 Lịch sử mô hình xác suất IR 41 2.4.2 Không gian biến cố .42 2.4.3 Một mô hình khái niệm .43 2.4.4 Về khái niệm “liên quan” “xác suất liên quan” 45 2.4.5 Nguyên tắc xếp hạng xác suất 45 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi 2.4.6 Mô hình nhị phân độc lập (BIM) 46 CHƢƠNG III: NGHIÊN CỨU THỬ NGHIỆM THƢ VIỆN TÌM 48 KIẾM VĂN BẢN DTSEARCH 48 3.1 Bài toán 48 3.2 Thư viện tìm kiếm văn DTSearch 49 3.2.1 Giới thiệu chung 49 3.2.2 Yêu cầu phần cứng .50 3.2.3 Cấu trúc chức thành phần dtSearch 50 3.2.4 Sử dụng dtSearch môi trường lập trình Java 52 KẾT LUẬN .58 TÀI LIỆU THAM KHẢO .59 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Công nghệ thông tin giới phát triển nhanh giai đoạn Những tiến khoa học công nghệ thông tin áp dụng phục vụ công tác nghiên cứu khoa học, công tác quản lý, sản xuất phục vụ đời sống người hàng ngày Càng ngày, người ta nhận thấy tính hiệu quả, tiện ích khoa học trí tuệ bước thay lao động thủ công, giảm bớt thời gian lao động, tiết kiệm chi phí tạo nên nhiều tiện ích khác Có thể khẳng định rằng: công nghệ thông tin mở kỉ nguyên mới, kỉ nguyên tự động hoá tạo bước nhảy vọt khoa học giới văn minh nhân loại Trong xu phát triển chung xã hội định hướng Đảng Nhà nước ta việc áp dụng công nghệ thông tin tất lĩnh vực đời sống, với phát triển mạnh mẽ công nghệ thông tin, tất lĩnh vực đời sống xã hội tạo khối lượng liệu khổng lồ Trong nhiều tình huống, phải tìm thông tin cần thiết từ kho liệu khổng lồ có Tuy nhiên, khối lượng liệu lớn, thời gian hạn hẹp nhiều việc tìm kiếm liệu gặp nhiều khó khăn Do đó, cần có hệ thống tìm kiếm thông tin để hỗ trợ người dùng tìm kiếm nhanh hiệu thông tin mà họ quan tâm Việc tìm tòi nghiên cứu ứng dụng thuật toán giúp cho việc tìm kiếm liệu nhanh chóng, tiết kiệm thời gian, có hệ thống khoa học việc làm cần thiết giai đoạn Văn số dạng liệu đa phương tiện, quan tâm từ hàng nghìn năm trước việc tổ chức xếp lưu trữ Tài liệu văn chiếm đa số quan tổ chức, đặc biệt thư viện Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn sử dụng để mô tả dạng khác liệu đa phương tiện video, audio, hình ảnh Số lượng tài liệu văn ngày lớn có vai trò vô quan trọng, việc lưu trữ, xử lý truy tìm thủ công trước khó thực Vì mục tiêu luận văn nhằm tìm hiểu số kỹ thuật tìm kiếm văn theo nội dung sở liệu đa phương tiện nhằm đáp ứng nhu cầu cấp thiết thời đại bùng nổ thông tin điện tử Trên thực tế, có nhiều công trình nghiên cứu vấn đề công bố nước Mục tiêu luận văn với đề tài”Tìm kiếm văn theo nội dung ứng dụng” mà hướng tới nghiên cứu số kỹ thuật/phương pháp mới, thử đánh giá so sánh ứng dụng vào môi trường cụ thể Đối tƣợng phạm vi nghiên cứu Hệ thống đa phương tiện vấn đề phức tạp rộng lớn, phạm vi nghiên cứu luận văn giới hạn việc sử dụng số kỹ thuật tìm kiếm văn theo nội dung, sau phát triển chương trình demo ứng dụng tìm kiếm văn theo nội dung Hƣớng nghiên cứu đề tài - Nắm vững qui trình thiết kế CSDL đa phương tiện, CSDL văn thành phần quan trọng - Nghiên cứu số kỹ thuật tìm kiếm văn theo nội dung như: mô hình tìm kiếm Bool, mô hình tìm kiếm không gian vector, mô hình tìm kiếm theo xác suất, kỹ thuật mục ngữ nghĩa tiềm ẩn (Latent Sematic Indexing-LSI) - Nghiên cứu độ đo phù hợp để đánh giá hiệu hệ thống Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn - Xây dựng thử nghiệm chương trình demo tìm kiếm văn theo nội dung sở thư viện dtSearch Phƣơng pháp nghiên cứu - Tổng hợp tài liệu từ nhiều nguồn khác - Phân tích, liệt kê, so sánh, đối chiếu, trực quan, thực nghiệm,… Cấu trúc luận văn Ngoài phần mở đầu giới thiệu ý nghĩa chủ đề nghiên cứu phần kết luận nêu lên kết đạt được, luận văn gồm chương sau đây: Chƣơng I: Giới thiệu tổng quan hệ thống tìm kiếm thông tin theo nội dung Chƣơng II: Một số kỹ thuật tìm kiếm thông tin văn theo nội dung Chƣơng III: Nghiên cứu thử nghiệm thư viện tìm kiếm văn dtSearch Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... rộng lớn, phạm vi nghiên cứu luận văn giới hạn việc sử dụng số kỹ thuật tìm kiếm văn theo nội dung, sau phát triển chương trình demo ứng dụng tìm kiếm văn theo nội dung Hƣớng nghiên cứu đề tài -... phương tiện, CSDL văn thành phần quan trọng - Nghiên cứu số kỹ thuật tìm kiếm văn theo nội dung như: mô hình tìm kiếm Bool, mô hình tìm kiếm không gian vector, mô hình tìm kiếm theo xác suất, kỹ... đề công bố nước Mục tiêu luận văn với đề tài Tìm kiếm văn theo nội dung ứng dụng mà hướng tới nghiên cứu số kỹ thuật/phương pháp mới, thử đánh giá so sánh ứng dụng vào môi trường cụ thể Đối tƣợng