1. Trang chủ
  2. » Tất cả

BAI GIANG TVS

22 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 22
Dung lượng 1,61 MB

Nội dung

BAI GIANG TVS PHD DO QUANG VINHPHD DO QUANG VINH Email Email dqvinh@live comdqvinh@live com HANOI ­ 2013HANOI ­ 2013 mailto dqvinh@live com BÀI GI NG TH VI N SẢ Ư Ệ Ố TS Đ QUANG VINHỖ Email dqvinh@liv[.]

      PHD. DO QUANG VINH         Email: dqvinh@live.com HANOI ­ 2013 BÀI GIẢNG THƯ VIỆN SỐ       TS. Đ Ỗ QUANG VINH             Email: dqvinh@live.com HÀ NỘI ­ 2013 NỘI  DUNG I TỔNG QUAN VỀ THƯ VIỆN SỐ DL II MƠ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL III CHỈ MỤC TÀI LIỆU IV TÌM KIẾM THƠNG TIN V CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ VI THỰC HÀNH HỆ PHẦN MỀM  THƯ VIỆN SỐ GREENSTONE III CHỈ MỤC TÀI LIỆU VĂN BẢN   3.1 MỞ ĐẦU   Định nghĩa 3.1 (từ để nhận dạng đối với chỉ mục): là một  dãy cực đại của các ký tự chữ và số, nhưng giới hạn tối đa  256 ký tự và tối đa 4 ký tự số  Bảng 3.1 ­ CSDL TREC  Số tài liệu N 741856 Số thuật ngữ F 333338738 Số thuật ngữ riêng biệt n 535346 Số con trỏ chỉ mục f 134994414 Kích thước tổng (MB) 2070.29 3.2 CHỈ MỤC TỆP ĐẢO IFID   Định nghĩa 3.2  (Đỗ Trung Tuấn):  Chỉ mục  là bảng dữ liệu hay  cấu trúc dữ liệu dùng để xác định vị trí của các dịng trong tệp  theo điều kiện nào đó  Định nghĩa 3.3 (Folk M.J., Zoellick B., Riccardi G.): Chỉ mục là  một cách tìm kiếm thơng tin  Định nghĩa 3.4: Chỉ mục là một cơ chế nhằm định vị thuật ngữ  cho trước trong văn bản  Định  nghĩa  3.5  (chỉ  mục  tệp  đảo  IFID):  Đối  với  mỗi  một  thuật  ngữ  trong  từ  điển,  một  IF  chứa  một  danh  sách  đảo  (IL)  lưu trữ một danh sách con trỏ tới tất cả xuất hiện của thuật ngữ  đó trong văn bản chính, trong đó mỗi một con trỏ trong thực tế  là số tài liệu mà thuật ngữ đó xuất hiện. IL đơi khi được coi là  một danh sách mục lục và các con trỏ là mục lục   Đây là phương pháp chỉ mục tự nhiên nhất, gần tương  ứng với  chỉ  mục  của  một  cuốn  sách  và  với  cách  dùng 5mục  lục  truyền  thống Bảng 3.2 ­ Văn bản mẫu; mỗi dòng là một tài liệu  TÀI LIỆU  VĂN BẢN Information retrieval is searching and indexing Indexing is building an index An inverted file is an index Building an inverted file is indexing Số 10 11 Bảng 3.3 ­ IF đối với văn bản của bảng 3.2 Thuật ngữ IL(tài liệu; vị trí) an (2;4), (3;1), (3;5), (4;2) and (1;5) building (2;3), (4;1) file (3;3), (4;4) index (2;5), (3;6) indexing (1;6), (2;1), (4;6) information (1;1) inverted (3;2), (4;3) is (1;3), (2;2), (3;4), (4;5) retrieval (1;2) searching (1;4)  Định nghĩa 3.6:  Độ hạt  (granularity) của một chỉ mục  là tính chính xác để nhận dạng vị trí của thuật ngữ  Bảng 3.4 ­ IF mức từ đối với văn bản của bảng 3.2 Số Thuật ngữ (Tài liệu; từ) an and building file index indexing information inverted is 10 retrieval 11         searching  Xây dựng chỉ mục tệp đảo IFID  Xây  dựng  chỉ  mục  là  một  trong  những  nhiệm  vụ  thách  thức  nhất phải đương đầu khi xây dựng một CSDL.  Ở  đây,  ta  đề  cập  đến  bài  tốn  xây  dựng  chỉ  mục  tệp  đảo  IFID,  vì  đây  là  dạng  chỉ  mục  thiết  thực  nhất  đối  với  cả  hai  truy vấn BQ và RQ  Quá trình xây dựng chỉ mục được coi là sự đảo văn bản. Từ  điển  The  Concise  Oxford  Dictionary  định  nghĩa  “sự  đảo  là  đảo  lộn  trên  dưới,  đảo  vị  trí,  trật  tự  hoặc  quan  hệ  bình  thường” và đây đúng là điều phải làm để tạo lập chỉ mục.   Xét văn bản mẫu ở bảng 3.2 Mỗi tài liệu của văn bản chứa một số thuật ngữ chỉ mục và  mỗi một thuật ngữ chỉ mục xuất hiện  ở một số dịng. Quan  hệ có thể được biểu diễn với một ma trận tần suất, trong đó  mỗi  một  cột  tương  ứng  với  một  từ,  mỗi  một  hàng  tương  ứng với một tài liệu và số chứa tại hàng và cột bất kỳ là tần  suất của từ chỉ định bởi cột đó. Ma trận tần suất đối với văn  bản của bảng 3.2 được trình bày ở bảng 5.1 10 Bảng 5.1 ­ Ma trận tần suất đối với văn bản của bảng 3.2 Thuật ngữ information retrieval searching indexing building index inverted file 1 ­ ­ ­ ­ ­ ­ ­ ­ 1 ­ ­ ­ ­ ­ ­ ­ 1 ­ ­ ­ 1 ­ 1 11 Bảng 5.2 ­ Chuyển vị tương đương của ma trận tần suất của  bảng 5.1 Thuật ngữ Số Tài liệu information ­ ­ ­ retrieval ­ ­ ­ searching ­ ­ ­ ­ indexing 1 ­ building ­ ­ index ­ 1 ­ inverted ­ ­ 1 file ­ ­ 1 12  GIẢI THUẬT 5.1 ĐẢO DANH SÁCH MÓC NỐI 1. Sản xuất một chỉ mục đảo đối với một CSDL tài liệu  /* Khởi tạo */ 2. Tạo ra một cấu trúc từ điển rỗng S /* Pha 1 ­ tập hợp các xuất hiện thuật ngữ  */ Đối với mỗi một tài liệu Dd  trong CSDL, 1 ≤ d ≤ N, a. Đọc Dd  , phân tích cú pháp nó thành các thuật ngữ chỉ mục b. Đối với mỗi một thuật ngữ chỉ mục  t   Dd   i Cho fd,t là tần suất của thuật ngữ t trong Dd   ii Tìm kiếm S đối với t iii Nếu t khơng có trong S, chèn nó iv Thêm một nút lưu trữ  vào danh sách tương ứng với thuật ngữ t  13 3. /* Pha 2 ­ đầu ra của IF  */ Đối với mỗi một thuật ngữ 1 ≤ t ≤ N a Bắt đầu một mục vào IF mới b Đối với mỗi một  trong danh sách tương ứng với  t,  thêm  vào mục vào IF này a Nếu yêu cầu, nén mục vào IF b Thêm mục vào IF này vào IF  Thời gian đảo T u cầu là: T = Btr + Ftp + (đọc và phân tích cú pháp văn bản)        I(td + tr) (ghi IF nén) 14 Hình 5.1 ­ Cấu trúc dữ liệu biểu diễn IF đối với văn bản của bảng  3.2 information 1   retrieval   searching   indexing buiding   index   inverted   file 3 4   15 3.3 CHỈ MỤC TỆP KÝ SỐ SFID Bảng 3.5 – Mã hoá chồng lên của tài liệu 2 đối với SF Thuật ngữ Ký số thuật ngữ  indexing 0001 0000 1100 0100 is 0100 0100 0001 0000 building 0101 0011 0000 0000 an 0000 0100 0100 1100 index 1100 1000 0010 0000 Ký số bloc 1101 1111 1111 1110  Tệp ký số SF: là một phương pháp xác suất để chỉ mục văn  bản.  Mỗi  một  tài  liệu  có  một  ký  số  liên  kết,  một  xâu  bit  bắt nội dung tài liệu theo một nghĩa nào đó   Tệp ký số bitslice: Sự truy cập SF có thể được tăng nhanh  hơn  bằng  cách  dùng  kỹ  thuật  bitslicing,  tức  là  kỹ  thuật  chuyển vị ma trận bit  16 3.4 SO SÁNH CÁC PHƯƠNG PHÁP CHỈ MỤC   Phương  pháp  chỉ  mục  tệp  đảo  IFID  và  chỉ  mục  tệp  ký  số  SFID là hai phương pháp chỉ mục chính tài liệu trong thư viện  số.   Quy  luật  chỉ  mục  tài  liệu  trong  DL:  Ở  hầu  hết  các  ứng  dụng, IF thực hiện tốt hơn SF trong phạm vi của cả hai kích  thước chỉ mục và tốc độ truy vấn. IF nén là phương pháp chỉ  mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ  dài có thể thay đổi.  3.5 CÁC MƠ HÌNH NÉN IFID  3.5.1 Đặt vấn đề                                                                                 Khảo sát các mơ hình và phương pháp mã hố để nén IFID  CSDL tài liệu trong thư viện số Chìa khố của bài tốn nén là nhận xét mỗi một IL có thể  được lưu trữ như một dãy số ngun tăng dần 17 3.5.2 Mơ hình nén tồn cục  Mơ hình khơng tham số   Mơ hình Bernoulli tồn cục 3.5.3 Các mơ hình nén cục bộ  Mơ hình hyperbol cục bộ   Mơ hình Bernoulli cục bộ  Mơ hình Bernoulli lệch  Mơ hình nén nội suy  18 3.5.4 Hiệu năng của các mơ hình nén chỉ mục Bảng 3.9 ­ Nén IF bằng số bit/con trỏ đối với TREC Mơ hình  Số bit/con trỏ Mơ hình tồn cục Đơn ngun          1918 Nhị phân 20.00 Bernoulli 12.30 6.63 6.38 Mơ hình cục bộ Hyperbol  5.89  Bernoulli 5.84 Bernoulli lệch 5.44 Nội suy 5.18 19  NHẬN XÉT:  Các mơ hình cục bộ có xu hướng thực hiện nén tốt hơn mơ  hình tồn cục và khơng hiệu quả hơn về thời gian xử lý địi  hỏi  trong  khi  giải  mã,  vì  chúng  có  xu  hướng  cài  đặt  phức  tạp hơn. Đối với mục đích thực hành, mơ hình nén chỉ mục  phù  hợp  nhất  là  phương  pháp  Bernoulli  cục  bộ,  cài  đặt  dùng kỹ thuật mã hoá Golomb 3.6 CÁC HIỆU ỨNG  Gộp dạng chữ (case folding)  Truy gốc từ (stemming)   Từ bỏ qua (stop word)  20

Ngày đăng: 19/11/2022, 18:28

w