1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Tìm kiếm và trình diễn thông tin: Bài 5 - TS.Nguyễn Bá Ngọc

30 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Giải thuật xây dựng chỉ mục ngược là vấn đề chính mà bài giảng Tìm kiếm và trình diễn thông tin: Bài 5 hướng đến trình bày với nội dung trọng tâm phần cứng căn bản; các đặc trưng phần cứng cơ bản; mở rộng quy mô chỉ mục; các giải thuật xây dựng chỉ mục ngược;...

(IT4853) Tìm kiếm trình diễn thơng tin Giải thuật xây dựng mục ngược Nội dung   Phần cứng Các giải thuật xây dựng mục ngược:     BSBI SPIMI MapReduce Quản lý liệu động Phần cứng    Tốc độ truy cập liệu nhớ nhanh nhiều so với ổ đĩa; Không thể đọc/ghi liệu với ổ đĩa định vị đầu đọc; Thời gian đọc/ghi ngyên khối liệu lượng nhỏ nhau;   Kích thước khối xác định q trình định dạng ổ đĩa Trao đổi liệu ổ đĩa nhớ điều khiển BUS hệ thống Các đặc trưng phần cứng Ký hiệu Đặc trưng Giá trị s Thời gian định vị đầu đọc ms = x 10−3 s b Thời gian trung bình đọc/ghi byte 0.02 μs = x 10−8 s Chu kỳ đồng hồ vi xử lý 10-9 s Thời gian thực lệnh 0.01 μs = 10−8 s p Mở rộng quy mô mục   Phương pháp xây dựng mục nhớ phù hợp với liệu nhỏ Đối với liệu lớn   Cần sử dụng ổ đĩa, Phân tán mục nhiều máy Nội dung   Phần cứng Các giải thuật xây dựng mục ngược:     BSBI SPIMI MapReduce Quản lý liệu động Giải thuật BSBI    Blocked sort-based Indexing (BSBI) Đọc liệu, tách từ sinh thẻ định vị Các thao tác bản:    Tích lũy thẻ định vị thành khối khơng q lớn, đảm bảo xử lý nhớ; Thực xếp khối lưu tạm thời ổ đĩa; Hợp mục ngược khối đơn lẻ thành mục ngược liệu Hợp danh sách thẻ định vị 1 Kết hợp Các danh sách thẻ định vị Ổ đĩa Giải thuật BSBI Sec 4.2 Hợp mục  Sơ đồ hợp theo cặp: 10 Nội dung   Phần cứng Các giải thuật xây dựng mục ngược:     BSBI SPIMI MapReduce Quản lý liệu động 16 Sec 4.4 MapReduce  MapReduce (Dean and Ghemawat 2004) kiến trúc tính tốn phân tán:   Đơn gian: Không cần viết code đảm bảo tương tác nốt phân chia công việc, trao đổi liệu, v.v Độ tin cậy cao: Đảm bảo tính kết thúc hệ thống máy tính sử dụng phần cứng phổ thơng 17 Sec 4.4 Phân tán trình xây dựng mục  Các bước cần phân tán:   Đọc liệu Nghịch đảo 18 Sec 4.4 Đọc liệu  Nốt điều khiển thực phân chia công việc đọc liệu:    Chia liệu thành nhiêu khối phân chia cho nốt đọc liệu; Nốt đọc xử lý văn sinh thẻ định vị, vd, theo dạng cặp Sau chép thẻ định vị vào j phân vùng: Mỗi phân vùng ứng với khoảng từ (ví dụ, j = 3, từ bắt đầu với, a-f, g-p, q-z) 19 Sec 4.4 Nghịch đảo   Số lượng nốt nghịch đảo bẳng số lượng phân đoạn, j; Nhiệm vụ nốt nghịch đảo:   Tiếp nhận tất phân đoạn tương ứng thu sau đọc liệu; Sắp xếp thiết lập danh sách thẻ định vị 20 Sec 4.4 Sơ đồ luồng liệu gán Master gán Parser a-f g-p q-z Parser a-f g-p q-z Khối Parser a-f g-p q-z Map phase Tệp phân đoạn Danh sách Inverter a-f Inverter g-p Inverter q-z Reduce phase 21 Sec 4.4 Các phương pháp phân đoạn mục  Phân đoạn theo từ: máy xử lý khoảng từ    Phân đoạn theo văn bản: máy xử lý tập văn văn Cần thực chuyển đổi dạng phân đoạn Hầu hết cơng cụ tìm kiếm sử dụng mục phân đoạn theo văn 22 Ví dụ xây dựng mục phân tán       Map: d1 : C ca, C ce d2 : C d → , , , , , Reduce: (, , , ) → (, , , ) 23 Nội dung   Phần cứng Các giải thuật xây dựng mục ngược:     BSBI SPIMI MapReduce Quản lý liệu động 24 Sec 4.5 Bộ liệu động  Đối với mục tĩnh:    Phải xây dựng lại mục có thay đổi liệu; cập nhật lại từ vựng; cập nhật lại danh sách thẻ định vị Cần giải pháp khác liệu thay đổi thường xuyên 25 Sec 4.5 Chỉ mục phụ  Sử dụng mục mục phụ    Thực truy vấn hai mục tổng hợp kết   Thêm văn vào mục phụ; Chỉ đánh dấu văn cần xóa mục Cần lọc văn đánh dấu xóa Định kỳ xây dựng lại toàn mục 26 Sec 4.5 Nhược điểm mục phụ    Thay đổi thường xuyên làm kích thước mục phụ tăng nhanh Cần nhiều thời gian để hợp mục mục phụ Giải pháp: Sử dụng nhiều mục giảm thời gian hợp nhất, nhiên thực truy vấn phức tạp 27 Sec 4.5 Hợp độ phức tạp Logarith  Sử dụng nhiều cấp mục:    Lưu mục nhỏ (Z0) nhớ Những mục lớn (I0, I1, I2, …) ổ đĩa Khi Z0 trở nên lớn, ghi Z0 lên đĩa thực hợp với mục tồn 28 Sec 4.5 29 30 ... luồng liệu gán Master gán Parser a-f g-p q-z Parser a-f g-p q-z Khối Parser a-f g-p q-z Map phase Tệp phân đoạn Danh sách Inverter a-f Inverter g-p Inverter q-z Reduce phase 21 Sec 4.4 Các phương... vd, theo dạng cặp Sau chép thẻ định vị vào j phân vùng: Mỗi phân vùng ứng với khoảng từ (ví dụ, j = 3, từ bắt đầu với, a-f, g-p, q-z) 19 Sec 4.4 Nghịch đảo   Số lượng nốt nghịch...     BSBI SPIMI MapReduce Quản lý liệu động 13 Sec 4.3 Giải thuật SPIMI      Single-pass in-memory indexing (SPIMI); Sinh từ điển cục cho khối; Không xếp thẻ định vị, lưu thẻ định vị

Ngày đăng: 08/05/2021, 13:19

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN