1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Tìm kiếm và trình diễn thông tin: Bài 6 - TS.Nguyễn Bá Ngọc

29 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Tổ chức lưu trữ chỉ mục ngược; quy luật phân bố từ vựng; quy luật Heap; dự đoán kích thước bộ từ vựng; quy luật Zipf,... là những nội dung chính mà Bài giảng Tìm kiếm và trình diễn thông tin: Bài 6 hướng đến trình bày.

(IT4853) Tìm kiếm trình diễn thơng tin Tổ chức lưu trữ mục ngược Giảng viên     Nguyễn Bá Ngọc, TS., ĐHBKHN/Viện CNTT & TT/BM HTTT/B1-603, ngocnb@soict.hust.edu.vn, http://is.hust.edu.vn/~ngocnb Ch Nội dung    Quy luật phân bố từ vựng Nén từ điển Nén danh sách thẻ định vị Quy luật Heap M = kTb,   Trong M kích thước từ vựng; T số từ liệu; k, b số Trong mặt phẳng log-log: log(M) = log(k) + b log(T) Có thể sử dụng hàm log với số Dự đốn kích thước từ vựng cov( X , Y ) b1  var( X ) b1 ( X  X )  (Y  Y )   (X  X ) i i i b0  Y  b1 X y = b0 + b1x log(M) = b0 + b1log(T) Quy luật Zipf   Từ sử dụng thường xuyên thứ i có tần suất liệu tỉ lệ nghịch với i cfi = K/i , Trong K số, cfi tần suất liệu Tần suất liệu số lần từ sử dụng toàn liệu Quy luật Zipf   cf2 = cf1/2; cf3 = cf1/3; v.v Mối liên hệ tuyến tính log(cfi ) log(i)  log(cfi )= log(K) – log(i) Có từ sử dụng nhiều lần có nhiều từ sử dụng ==> Ảnh hưởng tới khả nén danh sách thẻ định vị Ch Nội dung    Quy luật phân bố từ vựng Lưu trữ từ điển Lưu trữ danh sách thẻ định vị Nén bảo tồn vs khơng bảo tồn  Nén bảo toàn:    Dữ liệu bảo toàn sau giải nén; Phổ biến tìm kiếm Nén khơng bảo tồn:   Loại bỏ phần liệu, tỉ lệ nén thường cao phương pháp bảo tồn; Có thể coi phép lọc q trình tách từ (chuẩn hóa cách viết, loại từ dừng, v.v.) phương pháp nén khơng bảo tồn Lý nén từ điển  Thực truy vấn bắt đầu với tìm kiếm từ từ điền:   Cần sử dụng cấu trúc liệu nhớ để tìm kiếm nhanh; Áp dụng phương pháp nén giúp:   Lưu từ điển kích thước lớn nhớ; Giảm thời gian tải liệu từ ổ đĩa 10 Tìm kiếm từ điển khơng phân đoạn   Giả sử xác suất sử dụng từ đồng nhất, Số so sánh trung bình để tìm từ (1+2∙2+4∙3+4)/8 ~2.6 15 Tìm kiếm từ điển có phân đoạn   Tìm kiếm nhị phân khối Tìm kiếm khối  Với khối từ, số so sánh trung bình = (1+2∙2+2∙3+2∙4+5)/8 = so sánh 16 Chuỗi ký tự dài, phân đoạn Frontcoding   Đặc điểm: Những từ xếp thường có phần bắt đầu giống Front-coding: Trong khối, lưu hoàn chỉnh từ phần khác biệt từ 8automata8automate9automatic10automation 87automata1e2ic3ion Phần đầu automat Độ dài phần mở rộng automat 17 Ch Nội dung    Quy luật phân bố từ Lưu trữ từ điển Lưu trữ danh sách thẻ định vị 18 Nén thẻ định vị  Mục đích: Sử dụng nhớ để lưu danh sách thẻ định vị   Giữ số lượng lớn thẻ định vị nhớ; Giảm thời gian đọc từ ổ đĩa 19 Nén thẻ định vị  Xét trường hợp đơn giản thẻ định vị chứa mã văn  Số bit tối ưu để biểu diễn mã văn bản: log2(DocID) bits   Nếu sử dụng số bit cố định cho tất mã văn (số bit mã văn lớn nhất) lãng phí nhớ cho mã số nhỏ Phương pháp nén sử dụng với mục đích giảm kích thước danh sách thẻ định vị cách sử dụng số bit thay đổi tùy theo giá trị mã văn 20 Danh sách thẻ định vị  Danh sách mã văn lưu theo thứ tự tăng dần, ví dụ:   Có thể thay khoảng cách, giá trị số nhỏ   Máy tính: 33,47,154,159,202 … 33,14,107,5,43 … Mục đích nén: Sử dụng số bit tối thiểu để mã hóa giá trị số 21 Mã hóa với số Byte động  VB: Variable Bytes  Được sử dụng nhiều hệ thống thương mại/nghiên cứu  Có log2G bits biểu diễn nhị phân khoảng cách G  Mã hóa:  Gom nhóm bits,  Sử dụng byte để lưu nhóm,  Đặt bit cao (bit c) byte phải 1, byte lại c = 0,  Dãy byte thu mã VB khoảng cách G 22 Ví dụ docIDs 824 gaps VB code 00000110 10111000 829 215406 214577 10000101 00001101 00001100 10110001 Danh sách thẻ định vị lưu dãy byte liên tiếp 000001101011100010000101000011010000110010110001 Thuộc tính bản: Mã VB giải mã theo thứ tự đọc vào Với khoảng cách nhỏ (5), VB sử dụng bytes 23 Đơn vị mã hóa  Nếu sử dụng đơn vị mã hóa lớn lãng phí nhớ khoảng cách nhỏ, ngược lại sử dụng đơn vị nhỏ lãng phí nhớ giá trị lớn  Có thể sử dụng đơn vị mã hóa khác: 32 bits, 16 bits, bits tùy theo đặc điểm phân bố giá trị số;  Hoặc gom vài giá trị thành giá trị lớn 24 Unary code Biểu diễn số n chuỗi n số thêm số cuối  Unary code 1110  Unary code 40 11111111111111111111111111111111111111110  Unary code 80 là: 11111111111111111111111111111111111111111111 1111111111111111111111111111111111110  Tiềm ứng dụng? 25 Mã Gamma   Biểu diễn khoảng cách G offset length offset mã nhị phân G loại bỏ bit đứng đầu    Ví dụ 13 → 1101 → 101 length mã Unary Code độ dài offset  Với 13: offset = 101, length = 1110 Mã Gamma = length + offset  Mã Gamma 13 1110101 26 Ví dụ mã Gamma number length g-code offset none 0 10 10,0 10 10,1 110 00 110,00 1110 001 1110,001 13 1110 101 1110,101 24 11110 1000 11110,1000 511 111111110 11111111 111111110,11111111 1025 11111111110 0000000001 11111111110,0000000001 27 Mã Gamma vs mã VB    Đều giải mã tiến trình đọc liệu Mã Gamma có tỉ lệ nén ổn định cho giá trị mã văn nén tốt mã VB Mã Gamma sử dụng thao tác bits nên chậm mã VB 28 29 ... 14 Tìm kiếm từ điển khơng phân đoạn   Giả sử xác suất sử dụng từ đồng nhất, Số so sánh trung bình để tìm từ (1+2∙2+4∙3+4)/8 ~2 .6 15 Tìm kiếm từ điển có phân đoạn   Tìm kiếm nhị phân khối Tìm. .. Mảng phần tử kích thước tĩnh  Mảng phần tử kích thước tĩnh Từ … Cấu trúc tìm kiếm từ điển a Tần Con trỏ suất 65 6, 265 abc 65 … … zwx 221 fixed word length Danh sách thẻ định vị tf_size pointer_size.. .Giảng viên     Nguyễn Bá Ngọc, TS., ĐHBKHN/Viện CNTT & TT/BM HTTT/B1 -6 0 3, ngocnb@soict.hust.edu.vn, http://is.hust.edu.vn/~ngocnb

Ngày đăng: 08/05/2021, 13:19