Information retrieval

18 15 0
Information retrieval

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Information Retrieval Information Retrieval Trình bày Thân Trọng Thành Information Retrieval là gì? Cấu trúc chung Những vấn đề trong bài toán Information Retrieval Một số kĩ thuật phổ biến Ứng dụng T.

Information Retrieval Trình bày: Thân Trọng Thành Nội dung - Information Retrieval gì?   - Cấu trúc chung   - Những vấn đề toán Information Retrieval   - Một số kĩ thuật phổ biến   - Ứng dụng   - Thách thức   Information Retrieval gì? Thuật ngữ Information Retrieval mang nghĩa rộng Tuy nhiên, khía cạnh học thuật, ta định nghĩa là:   Information Retrieval hoạt động tìm kiếm tài liệu có chất phi cấu trúc (unstructured) văn bản, hình ảnh, video, cho phù hợp (relevant) với nhu cầu thông tin (information need) đó, từ tập hợp liệu lớn (large collections)   Quá tải thông tin (Information overload) - Khối lượng thông tin khổng lồ ngày bùng nổ theo thời gian   - Thời gian tìm kiếm: tỉ lệ thuận với khối lượng thông tin   => Information Retrieval đời để giải vấn đề   Cấu trúc chung   Trong tốn IR điển hình, đầu vào là: • Một ngữ liệu (corpus) tài liệu văn • Một câu truy vấn (query) người dùng dạng văn   Đầu ra: • Một tập xếp hạng (ranked list) văn mà cho phù hợp (relevant) với câu truy vấn (query) Tính phù hợp (relevant) IR Dựa đặc tính thơng tin, ta suy tính phù hợp đánh giá mang tính chủ quan (subjective) (có thể) bao gồm:   Độ tin cậy Tính đầy đủ Tính thích hợp dễ hiểu Tính an tồn Tính kịp thời • Đúng chủ đề (proper subject) • Đúng thời điểm (timely, recent information) • Đáng tin cậy (authoritative) • Thỏa mãn mục tiêu ý định người dùng nhu cầu thông tin (information need) Dữ liệu IR Mục tiêu IR để quản lí/làm việc với liệu phi cấu trúc (handling unstructured data)   • • Dữ liệu có cấu trúc: sở liệu (database) lựa chọn tốt Dữ liệu phi cấu trúc:    Tồn nhiều dạng khác nhau: email, hình ảnh, video, âm thanh, 85% liệu doanh nghiệp tồn dạng phi cấu trúc, theo Merril Lynch Ngữ nghĩa không rõ ràng (unknown semantic meaning) Những vấn đề toán IR Biểu diễn tập tài liệu nào? (Index)   Biểu diễn nhu cầu thông tin nào? (Query)   Bằng cách hệ thống trả tài liệu có liên quan đến nhu cầu thơng tin có hiệu quả? (Information Retrieval)   Những vấn đề toán IR Trong hệ thống IR điển hình:    Biểu diễn tài liệu mà ta cần tìm kiếm (offline)  Biểu diễn câu query từ người dùng (online)  So khớp tương đồng câu query người tài liệu đưa bảng xếp hạng kết cho relevant  Kết đánh giá phương pháp cụ thể  Từ kết đánh giá ta tìm hướng cải thiện hệ thống tìm kiếm Một số kĩ thuật phổ biến Boolean Model   Mơ hình u cầu thơng tin phải biểu diễn thành dạng biểu thức Boolean (True/False) truy vấn dạng Boolean Sau sử dụng để xác định thông tin cần thiết biểu thức Boolean Kĩ thuật sử dụng phép toán Boolean (AND, OR, NOT) để tạo kết hợp nhiều thành phần dựa người dung yêu cầu - Vector Space Model   - Mơ hình sử dụng tài liệu truy vấn dạng vector truy xuất tài liệu dựa độ giống chúng Điều dẫn đến cho ta kết loại vector sử dụng để xếp hạng kết tìm kiếm: Binary Boolean VSM Weighted Non-binary VSM Một số kĩ thuật phổ biến Probability Distribution Model   Trong mơ hình này, tài liệu coi phân phối thành phần truy vấn so khớp dựa giống biểu diễn Điều thực cách sử dụng entropy cách tính tốn khả liên quan tài liệu, xuất loại:   Similarity-based Probability Distribution Model Expected-utility-based Probability Distribution Model Probabilistic Models      Mơ hình xác suất đơn giản sử dụng xếp hạng xác suất để hiển thị kết Nói cách dễ hiểu tài liệu xếp hạng dựa xác suất mức độ liên quan chúng với truy vấn tìm kiếm Boolean Model “Cung-Tiến AND rừng-Sim AND NOT Trà-Long” Mơ hình u cầu thông tin phải biểu diễn thành dạng biểu thức Boolean (True/False) truy vấn dạng Boolean Sau sử dụng để xác định thơng tin cần thiết biểu thức Boolean Kĩ thuật sử dụng phép toán Boolean (AND, OR, NOT) để tạo kết hợp nhiều thành phần dựa người dung yêu cầu   Một cách đơn giản duyệt mắt dòng trang, qua chương ghi lại chương có chứa Cung-Tiến và rừng-Sim, sau loại chương có chữ Trà-Long Khi thực giải pháp tìm kiếm tuyến tính lên máy tính, cách tiếp cận ngây thơ (naive) trở nên hiệu (inefficient) chi phí tính tốn khổng lồ Ứng dụng Tìm kiếm thơng tin web (web search) ứng dụng điển hình tốn Information Retrieval Tuy nhiên giới hạn khơng nằm đó, IR ứng dụng nhiều tốn khác QA, Recommendation, Text mining,…   Ứng dụng Ứng dụng Thách thức  Truy cập thơng tin tồn cầu (Global information access): Nhằm đáp ứng nhu cầu thông tin người cách tự nhiên hiệu với hệ thống tự động tận dụng liệu có cấu trúc phi cấu trúc tồn giới ngơn ngữ  Truy xuất theo ngữ cảnh (Contextual retrieval): Kết hợp cơng nghệ tìm kiếm tri thức truy vấn với ngữ cảnh người dùng vào framework nhằm cung cấp thơng tin “thích hợp” với u cầu người dùng Thách thức • Sensory Gap: Khoảng cách thông tin vật thể thực tế thể chúng máy tính, vấn đề liên quan tới thiếu bị thu nhận (camera, lidar, máy ghi âm, ) • Semantic Gap: khoảng cách thông tin người hiểu/tiếp thu với biểu diễn cấp thấp (low-level representation) liệu lưu máy tính Ví dụ: Một ảnh hồng biển hiểu theo nhiều cáchMột ảnh hồng lãng mạn Một buổi chiều buồn hiu hắt Bầu trời rực lửa chiều tàn • Intention Gap: Khoảng cách câu truy vấn người dùng thứ họ thực muốn REF - https://nlp.stanford.edu/IR-book/information-retrieval-book.html - https://www.upgrad.com/blog/information-retrieval-system-explained/ - https://www.vietcs.org/information-retrieval-gioi-thieu/ - Wikipedia - https://www.geeksforgeeks.org/what-is-information-retrieval/ - https://www.geeksforgeeks.org/issues-in-information-retrieval/ - Challenges in Information Retrieval and Language Modeling [https://sigir.org/files/forum/S2003/ir-challenges2.pdf] ... dung - Information Retrieval gì?   - Cấu trúc chung   - Những vấn đề toán Information Retrieval   - Một số kĩ thuật phổ biến   - Ứng dụng   - Thách thức   Information Retrieval gì? Thuật ngữ Information. .. https://nlp.stanford.edu/IR-book /information- retrieval- book.html - https://www.upgrad.com/blog /information- retrieval- system-explained/ - https://www.vietcs.org /information- retrieval- gioi-thieu/ - Wikipedia... https://www.geeksforgeeks.org/what-is -information- retrieval/ - https://www.geeksforgeeks.org/issues-in -information- retrieval/ - Challenges in Information Retrieval and Language Modeling [https://sigir.org/files/forum/S2003/ir-challenges2.pdf]

Ngày đăng: 18/09/2022, 15:45

Tài liệu cùng người dùng

Tài liệu liên quan