1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Tìm kiếm và trình diễn thông tin: Bài 2 - TS.Nguyễn Bá Ngọc

20 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Bài 2 - Bộ từ vựng và bộ thẻ định vị là nội dung chính thuộc bộ bài giảng Tìm kiếm và trình diễn thông tin. Với nội dung chính của bài giảng giới thiệu đến người học các kiến thức về: Biểu diễn văn bản, chuẩn hóa từ tiếng Việt, truy vấn AND, bổ xung bước nhảy vào danh sách thẻ định vị... đồng thời cuối bài giảng có kèm theo các bài tập giúp các bạn củng cố kiến thức đã học một cách hệ thống.

(IT4853) Tìm kiếm trình diễn thơng tin Bộ từ vựng thẻ định vị Giảng viên     TS Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb Biểu diễn văn Chuẩn hóa từ tiếng Việt   Các bảng mã Dấu ngữ âm Tiếng Việt Unicode  Tổ hợp (composite)  Dựng sẵn (precomposed)  TCVN 6909:2001 Truy vấn AND  Các bước thực diện truy vấn kiểu: a AND b Tìm a lấy danh sách thẻ định vị tương ứng Tìm b lấy danh sách thẻ định vị tương ứng Chọn phần tử chung La Lb Chọn phần tử chung  Duyệt đồng thời hai danh sách Nếu độ dài danh sách tương ứng x y, cần thực khơng q x + y so sánh Với điều kiện: danh sách xếp theo mã văn Thuật toán 2.1 2, 4, 8, 16, 32, 64, 128 La 1, 2, 3, 5, 8, 13, 21, 34 Lb answer = {2, 8} La Lb 2 4 5 16 16 32 13 21 21 32 34 64 128 34 34 128 NIL answer 2, Bổ xung bước nhảy vào danh sách thẻ định vị 128 41 41  64 128 31 11 48 11 17 21 31 Sử dụng bước nhảy để bỏ qua thẻ định vị không thỏa mãn điều kiện 12 Xử lý truy vấn với bước nhảy 128 41 41 64 128 31 11 48 11 17 21 31 Giả sử trình duyệt danh sách, trỏ vị trí số danh sách Tiếp theo: Chúng ta lưu giá trị Dịch chuyển trỏ sang phải, vị trí 41 11 Tại vị trí 11, thực bước nhảy, 31 < 41, bỏ qua phần danh sách 13 Độ dài bước nhảy   Nếu nhiều bước nhảy khoảng cách nhỏ  xác suất di chuyển theo bước nhảy cao Nhưng phải so sánh bước nhảy nhiều lần Ít bước nhảy  so sánh hơn, khoảng cách lớn  xác suất di chuyển theo bước nhảy thấp 14 Tối ưu hóa truy vấn AND  Số kết khơng lớn độ dài danh sách thẻ định vị ngắn Tối ưu hóa truy vấn AND Với thuật ngữ truy vấn t • Tìm t từ vựng Sắp xếp thuật ngữ tăng dần theo df(t) Khởi tạo tập kết answer danh sách ngắn Tiếp tục thực truy vấn theo thứ tự xếp Ví dụ  Cho truy vấn a AND b AND c với danh sách thẻ định vị hình vẽ Thứ tự tối ưu với truy vấn a AND b AND c (c AND a) AND b AND of OR’s  Ví dụ truy vấn dạng AND of OR’s: (văn OR liệu OR hình ảnh) AND (nén OR gom nhóm) AND (tìm kiếm OR đánh mục OR lưu trữ)  Tối ưu hóa truy vấn • • • Lấy độ dài danh sách thẻ vị trí cho từ Ước lượng số kết cho truy vấn OR Sắp xếp truy vấn OR theo thứ tự tăng dần số lượng kết Bài tập  Đối với truy vấn AND, thứ tự tăng dần theo độ dài danh sách thẻ định vị có ln thứ tự tối ưu hay không? Chứng minh? Bài Tương tự thuật toán 2.1, viết thuật toán thực truy vấn dạng a OR b a AND NOT b với độ phức tạp tuyến tính Bài Những phát biểu sau hay sai? a Trong mơ hình tìm kiếm Boolean, loại bỏ dấu khơng làm giảm tính xác b Trong mơ hình tìm kiếm Boolean, loại bỏ dấu khơng làm giảm tính đầy đủ c Loại bỏ dấu làm tăng kích thước từ vựng d Nên thực thao tác chuẩn hóa q trình xây dựng mục thay thực truy vấn ... toán 2. 1 2, 4, 8, 16, 32, 64, 128 La 1, 2, 3, 5, 8, 13, 21 , 34 Lb answer = {2, 8} La Lb 2 4 5 16 16 32 13 21 21 32 34 64 128 34 34 128 NIL answer 2, Bổ xung bước nhảy vào danh sách thẻ định vị 128 ... 41 41  64 128 31 11 48 11 17 21 31 Sử dụng bước nhảy để bỏ qua thẻ định vị không thỏa mãn điều kiện 12 Xử lý truy vấn với bước nhảy 128 41 41 64 128 31 11 48 11 17 21 31 Giả sử trình duyệt danh.. .Giảng viên     TS Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B 1-6 03 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb Biểu diễn văn Chuẩn hóa từ

Ngày đăng: 08/05/2021, 13:19

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN