1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Tìm kiếm và trình diễn thông tin: Bài 1 - TS.Nguyễn Bá Ngọc

24 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Mời các bạn cùng tham khảo bộ bài giảng Tìm kiếm và trình diễn thông tin do TS.Nguyễn Bá Ngọc biên soạn. Nội dung của bài 1 giới thiệu đến người học các kiến thức cơ bản về: Các khái niệm cơ bản, phương pháp Boolean, chỉ mục ngược.

(IT4853) Tìm kiếm trình diễn thơng tin Các khái niệm bản, phương pháp Boolean, mục ngược Giảng viên     TS Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb Tìm kiếm thơng tin gì? Nếu khơng giới hạn dạng thể thông tin đối tượng chứa thơng tin, tìm kiếm thơng tin khái niệm vơ rộng lớn, khó bao quát hết phạm vi học phần Đặt giả thiết biết mô tả dạng văn số lưu trữ hệ thống máy tính Trong giới hạn đó, tìm kiếm thơng tin tìm kiếm văn chứa thơng tin hữu ích nhằm đáp ứng nhu cầu thơng tin người dùng Trong định nghĩa này, văn văn phi cấu trúc có cấu trúc Thuật ngữ tiếng Anh Information Retrieval Tìm kiếm vs phản hồi thơng tin Nếu xét khía cạnh tương tác người-máy, tìm kiếm thơng tin q trình tương tác Trong trình tương tác này, người dùng người tìm, cịn máy tính phản hồi lại thơng tin đáp ứng nhu cầu Hành động q trình tương tác thực người dùng Trước phản hồi kết quả, hệ thống phải thực tìm kiếm Những định hướng mang tính lịch sử  Memex mơ tả thiết bị lưu trữ sách điện tử, nhật ký, thông tin cá nhân khác Đây thiết bị khí nhỏ gọn, có giao diện đơn giản hoạt động với tốc độ cao Thiết bị giống phần mở rộng cho nhớ người Vannevar Bush, As we may think, Atlantic monthly, tháng năm 1945  Sứ mệnh Google tổ chức thơng tin tồn giới làm cho trở nên phổ cập hữu ích Larry Page, Sergey Brin, Google’s mission statement, ~1998 Mơ hình tìm kiếm thông tin   Nền tảng lý thuyết để xây dựng cơng cụ tìm kiếm Là sở để giải thích hành vi hệ thống Mơ hình tìm kiếm thông tin Các thành phần mô hình tìm kiếm:  D: Tập biểu diễn logic văn   Q: Tập truy vấn   Truy vấn coi mơ hình nhu cầu thơng tin F: Cơ sở lý thuyết để định nghĩa D, Q so sánh biểu diễn logic văn nhu cầu thông tin   Biểu diễn logic đơi cịn gọi mơ hình văn Lý thuyết tập hợp, đại số, xác suất, R(d, q): Hàm xếp hạng, định lượng mức độ phù hợp văn nhu cầu thông tin Mô hình Boolean   Phương pháp tìm kiếm phổ biến khoảng thập kỷ trước Hiện sử dụng nhiều hệ thống   Vd, Thư viện số http://www.westlaw.com: nhiều TB liệu, > 700 000 người dùng Mơ hình Boolean D: Văn biểu diễn dạng tập từ xuất văn Q: Biểu thức Boolean từ +) Ràng buộc xuất từ văn F: Lý thuyết tập hợp, đại số Boolean R: Một văn phù hợp thỏa mãn biểu thức truy vấn Ví dụ phù hợp Boolean Truy vấn: ((văn ˅ thơng tin) ˄ tìm kiếm ˄ ¬lý thuyết) Văn bản:     “Tìm kiếm thơng tin “Lý thuyết thơng tin” “Tìm kiếm thơng tin đại: lý thuyết thực hành” “Phương pháp nén văn bản” Ví dụ phù hợp Boolean Truy vấn: ((văn ˅ thông tin) ˄ tìm kiếm ˄ ¬lý thuyết) Văn bản:     “Tìm kiếm thơng tin “Lý thuyết thơng tin” “Tìm kiếm thơng tin đại: lý thuyết thực hành” “Phương pháp nén văn bản” Giải pháp cho liệu nhỏ  Kiểm tra tất văn bản:   Đơn giản, Bất khả thi với liệu lớn Ý tưởng sử dụng mục  1: từ xuất văn bản; 0: từ không xuất Xử lý truy vấn ma trận đánh dấu  Xử lý truy vấn Boolean quy thực phép toán logic theo bit:       Ví dụ, truy vấn a AND b AND NOT d thực sau: 1101001 AND 1001101 AND 1011010 = 1001000 Nhanh kiểm tra tuần tự, cần nhiều nhớ Cấu trúc liệu mục ngược   Chỉ mục ngược cấu trúc liệu hỗ trợ tìm kiếm phổ biến Nếu lưu giá trị ma trận đánh dấu, thu dạng mục ngược  Trong thực tế có nhiều loại mục ngược khác nhau, phân biệt liệu lưu trữ Cấu trúc mục ngược Cấu trúc mục ngược  Mỗi từ mục ngược liên kết với danh sách chứa thông tin văn sử dụng từ Mỗi phần tử danh sách lưu thông tin ứng với văn (ví dụ, mã văn bản, vị trí, v.v.), có vai trị hỗ trợ xác định vị trí xuất từ, gọi thẻ định vị (posting) Tương ứng, danh sách gắn với từ gọi danh sách thẻ định vị (hoặc danh sách ngược), tất thẻ định vị gộp lại gọi thẻ định vị Các bước để xây dựng mục ngược  Tách từ→ Sinh thẻ định vị → Sắp xếp thẻ định vị → Tổng hợp danh sách thẻ định vị → Lưu từ vựng thẻ định vị Ví dụ xây dựng mục ngược   D1 “Dế mèn phiêu lưu kí" tác phẩm văn xi đặc sắc tiếng Tơ Hồi viết lồi vật, dành cho lứa tuổi thiếu nhi D2 Tơ Hoài (sinh ngày 27 tháng năm 1920) nhà văn Việt Nam tiếng Một số tác phẩm đề tài thiếu nhi ông dịch ngoại ngữ   Tách từ D1 Dế mèn phiêu lưu kí, là, tác phẩm, văn xi, đặc sắc, và, tiếng nhất, của, Tơ Hồi, viết về, lồi vật, dành cho, lứa tuổi thiếu nhi D2 Tơ Hồi, sinh, ngày 27 tháng năm 1920, là, một, nhà văn, Việt Nam, tiếng, Một số, tác phẩm, đề tài, thiếu nhi, của, ông, được, dịch, ra, ngoại ngữ Từ   D1 Dế mèn phiêu lưu kí, là, tác phẩm, văn xuôi, đặc sắc, và, tiếng nhất, của, Tô Hoài, viết về, loài vật, dành cho, lứa tuổi thiếu nhi D2 Tơ Hồi, sinh, ngày 27 tháng năm 1920, là, một, nhà văn, Việt Nam, tiếng, Một số, tác phẩm, đề tài, thiếu nhi, của, ông, được, dịch, ra, ngoại ngữ Sinh thẻ định vị *DMPLK: Dế mèn phiêu lưu kí 27-9-1920: ngày 27 tháng năm 1920 Mã văn DMPLK tác phẩm văn xuôi đặc sắc tiếng Tơ Hồi viết lồi vật dành cho lứa tuổi thiếu nhi Tơ Hoài sinh 27-9-1920 nhà văn Việt Nam tiếng Một số tác phẩm đề tài thiếu nhi ông dịch ngoại ngữ 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 Từ Mã văn DMPLK tác phẩm văn xuôi đặc sắc tiếng Tơ Hồi viết lồi vật dành cho lứa tuổi thiếu nhi Tơ Hồi sinh 27-9-1920 nhà văn Việt Nam tiếng Một số tác phẩm đề tài thiếu nhi ông dịch ngoại ngữ 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 Sắp xếp Từ Mã văn DMPLK 27-9-1920 của đặc sắc dành cho đề tài dịch là loài vật lứa tuổi thiếu nhi Một số ngoại ngữ nhà văn tiếng tiếng ông sinh tác phẩm tác phẩm thiếu nhi Tơ Hồi Tơ Hồi văn xi Việt Nam viết 2 1 2 2 1 2 2 2 2 2 1 Từ Mã văn DMPLK 27-9-1920 của đặc sắc dành cho đề tài dịch là loài vật lứa tuổi thiếu nhi Một số ngoại ngữ nhà văn tiếng tiếng ông sinh tác phẩm tác phẩm thiếu nhi Tơ Hồi Tơ Hồi văn xi Việt Nam viết 2 1 2 2 1 2 2 2 2 2 1 Từ , tần suất vb Tổng hợp danh sách DMPLK, 27-9-1920, của, đặc sắc, dành cho, đề tài, dịch, được, là, loài vật, lứa tuổi thiếu nhi, một, Một số, ngoại ngữ, nhà văn, tiếng, tiếng nhất, ông, ra, sinh, tác phẩm, thiếu nhi,1 Tơ Hồi, và, văn xuôi, Việt Nam, viết về, danh sách thẻ vị trí → → → → → → → → → → → → → → → → → → → → → → → → → → → 1, 1 2 1, 1 2 2 2 2 1, 1, 1 2 2 Lưu từ vựng thẻ định vị  Bộ từ vựng thẻ định vị thường tách rời lưu trữ riêng rẽ lý kỹ thuật ... AND NOT d thực sau: 11 010 01 AND 10 011 01 AND 10 110 10 = 10 010 00 Nhanh kiểm tra tuần tự, cần nhiều nhớ Cấu trúc liệu mục ngược   Chỉ mục ngược cấu trúc liệu hỗ trợ tìm kiếm phổ biến Nếu lưu giá... cụ tìm kiếm Là sở để giải thích hành vi hệ thống Mơ hình tìm kiếm thông tin Các thành phần mơ hình tìm kiếm:  D: Tập biểu diễn logic văn   Q: Tập truy vấn   Truy vấn coi mơ hình nhu cầu thông. .. thiếu nhi ông dịch ngoại ngữ 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 Từ Mã văn DMPLK tác phẩm văn xuôi đặc sắc tiếng Tơ Hồi viết lồi vật dành cho lứa tuổi thiếu nhi Tơ Hồi sinh 2 7-9 -1 9 20 nhà văn Việt Nam tiếng

Ngày đăng: 08/05/2021, 13:19

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN