1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu các phương pháp nén chỉ số trong các hệ thống tìm kiếm 04

77 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 77
Dung lượng 1 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THỊ HOÀI THU NGHIÊN CỨU CÁC PHƯƠNG PHÁP NÉN CHỈ SỐ TRONG CÁC HỆ THỐNG TÌM KIẾM Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC CHỦ TỊCH HỘI ĐỒNG GS.TS VŨ ĐỨC THI PGS.TS HÀ QUANG THỤY Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ LÊ THỊ HỒI THU NGHIÊN CỨU CÁC PHƯƠNG PHÁP NÉN CHỈ SỐ TRONG CÁC HỆ THỐNG TÌM KIẾM LUẬN VĂN THẠC SĨ NGÀNH CƠNG NGHỆ THƠNG TIN Hà Nội - 2015 LỜI CẢM ƠN Trước hết, vô biết ơn PGS.TS Hà Quang Thụy, người thầy trực tiếp dành nhiều thời gian tận tình hướng dẫn, cung cấp thông tin tài liệu quý báu, giúp đỡ tơi hồn thành luận văn Tơi xin cảm ơn thầy cô Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội cung cấp cho kiến thức quý báu thời gian học tập Nhà trường Sau cùng, tơi xin bày tỏ lịng biết ơn đến người thân, bạn bè, đồng nghiệp, quan tạo điều kiện động viên cho tơi hồn thành luận văn tốt nghiệp Hà Nội, ngày … tháng … năm 2015 HỌC VIÊN Lê Thị Hoài Thu LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân, không chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu, hướng dẫn tận tình thầy giáo PGS.TS Hà Quang Thụy Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 01 tháng 09 năm 2015 Học viên Lê Thị Hoài Thu MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VIẾT TẮT DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ DANH MỤC BẢNG PHẦN MỞ ĐẦU CHƯƠNG KIẾN TRÚC CHUNG CỦA MÁY TÌM KIẾM 10 THÀNH PHẦN CHỈ SỐ TRONG MÁY TÌM KIẾM 10 1.1 Khái niệm cơng cụ tìm kiếm thông tin 10 1.1.1 Tổng quan hệ thống tìm kiếm 10 1.1.2 Quy trình tìm kiếm thơng tin 11 1.1.3 Một số vấn đề tìm kiếm thơng tin 12 1.1.4 Cấu trúc điển hình máy tìm kiếm 13 1.2 Tập số máy tìm kiếm 14 1.2.1 Các bước để xây dựng hệ thống tìm kiếm thơng tin 15 1.2.2 Cấu trúc bảng số ngược 16 1.2.3 Chia bảng số 19 1.3 Tổng quan phương pháp lập số 19 1.3.1 Xác định mục từ quan trọng cần lập số 20 1.3.2 Một số hàm tính trọng số mục từ 21 1.3.3 Lập mục tài liệu 22 KẾT LUẬN CHƯƠNG I 25 CHƯƠNG II MỘT SỐ PHƯƠNG PHÁP NÉN CHỈ SỐ, NÉN CHỈ SỐ NGƯỢC TRONG MÁY TÌM KIẾM 27 2.1 Chỉ số ngược 27 2.2 Phương pháp nén số 29 2.2.1 Lưu trữ theo khối 30 2.2.2 Nén từ điển từ vựng chuỗi 32 2.2.3 Nén tập tin posting 33 2.3 Các phương pháp nén số cập nhật 36 2.3.1 Mã Glomb 37 2.3.2 Simple9 Coding 37 2.3.3 Binary Code 39 2.3.4 PforDelta 41 2.3.5 Interpolative Coding 42 2.4 Cải tiến thuật toán PFD 44 KẾT LUẬN CHƯƠNG 45 CHƯƠNG III TÌM HIỂU VỀ LUCENE 46 3.1 Tìm hiểu lucene 46 3.1.1 Giới thiệu chung Lucene .46 3.1.2 Tìm hiểu lớp đối tượng lập mục 46 3.1.2 Tìm hiểu lớp đối tượng tìm kiếm 48 3.2 Lập số Lucene 49 3.2.1 Các tiến trình lập số 49 3.2.2 Các toán tử lập số với Lucene 50 3.2.3 Khuếch đại tài liệu trường 51 3.2.4 Điều khiển tiến trình lập số 51 3.2.5 Tối ưu hóa việc lập số 52 3.3 Tìm kiếm tập số 53 3.3.1 Tìm kiếm thuật ngữ cụ thể 53 3.3.2 Bộ chuyển đổi câu truy vấn người dùng: QueryParser 53 3.3.3 Sử dụng lớp IndexSearcher 54 3.4 Tiến trình phân tích Lucene 3.5 54 Định dạng số lucene 55 3.5.1 Cấu trúc số 55 3.5.2 Chỉ số ngược 57 TỔNG KẾT CHƯƠNG 58 CHƯƠNG - CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ THỰC HIỆN 59 4.1 Giới thiệu chương trình thử nghiệm 59 4.2 Kết thử nghiệm .62 KẾT LUẬN CHƯƠNG 64 KẾT LUẬN 65 TÀI LIỆU THAM KHẢO .66 PHỤ LỤC .68 DANH MỤC CÁC KÝ HIỆU VIẾT TẮT IR: Hệ thống tìm kiếm thơng tin (Information Retrieval) IF: Tập tin ngược (Inverted File) IL: danh sách ngược (inverled list) URL: Uniform Resource Locator CSDL: Cơ sở liệu VB: Variable byte PFD: PforDelta IPC: Interpolative Coding TF: Tần suất xuất (Term frequency) DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 – Quy trình tìm kiếm thơng tin 11 Hình 1.2 - Ví dụ số ngược_tìm theo từ 17 Hình 1.3 - Tổng quan trình lập mục 20 Hình 2.1- Xây dựng số cách phân loại nhóm từ vựng 28 Hình 2.2 - Lưu trữ theo khối 31 Hình 2.3 - Tìm kiếm từ trường hợp khơng nén tập từ điển (hình a) nén theo khối có kích thước k=4 (hình b) 32 Hình 2.4 - Lưu trữ từ điển mảng có độ rộng cố định 32 Hình 2.5 - Lưu trữ tập từ điển kho từ vựng chuỗi 33 Hình 2.6 - Sơ đồ mục tiêu cho Opt-PFD 44 Hình 3.1 Các thao tác tiến trình lập mục 50 Hình 3.2 Bộ nhớ đệm giúp cải thiện hiệu suất lập mục Lucene 51 Hình 3.3 - Các thành phần định dạng tập mục ngược 57 Hình 4.1- Kết trả sau lập mục 63 Hình 4.2 - Cấu trúc tập mục compound index 63 Hình 4.3 - Cấu trúc số multifile index 63 59 CHƯƠNG - CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ THỰC HIỆN 4.1 Giới thiệu chương trình thử nghiệm Trong phạm vi luận văn này, áp dụng thuật toán nén mục VB code thuật tốn cải tiến OPT-PFD vào chương trình thực nghiệm Để thực nghiệm kết nén số VB code OPT-PFD, tơi thể thuật tốn ngơn ngữ lập trình Java Console Chức chương trình gồm: - Lập mục: Dựa ý tưởng lập mục sử dụng Lucnene, chương trình xây dựng chức cho phép chương trình thực quy trình tạo tập số cho tập liệu cho sẵn Các tập liệu bổ sung, sửa chữa để nâng cao hiệu việc lập mục Trên sở nghiên cứu kế thừa mã nguồn mở Lucene phiên apache_lucene để xây dựng quy trình lập mục cho tập tài liệu có sẵn Trong chức dựa lớp có sẵn phiên apache_lucene để thực hiện: • Directory: cho phép định nghĩa vùng nhớ, xác định nơi lưu trữ nhớ nhớ RAM trình tạo mục • Document Field: định nghĩa tài liệu trường thông tin tài liệu sử dụng cho lập mục, sử dụng cho việc lấy kết trả cho thành phần Tìm kiếm • Analyzer: thực chức xử lý tách văn để lấy nội dung, chuẩn hóa, loại bỏ mục từ không cần thiết,… để chuẩn bị cho việc lập mục • IndexWriter: phần thành phần Tạo mục, thực việc tạo mở mục, sau thực thêm cập nhật nội dung mục • TermFerqVector: thực chức đếm tần số xuất từ từ điển tập liệu - Nén mục: Chức cho phép thực nén tập số lập Với ý tưởng sử dụng phương pháp nén để đối sánh đưa kết đánh gía hiệu suất, tỷ lệ thời gian thực ứng dụng chúng vào hệ thống tìm kiếm Chương trình xây dựng 60 chức nén mục để thực cho thuật toán khoảng cách byte (VB code) thuật tốn cải tiến OPT-PFD • Thuật tốn nén khoảng cách byte (VB code) VBENDCODENUMBER(n) bytes 2.While true PREPEND (bytes, n mod 128) if n

Ngày đăng: 11/11/2020, 21:44

w