Trong Bài giảng Chương 4: Tìm kiếm DL ĐPT (Phần 1 - Nguyễn Thị Oanh) trình bày những nội dung về văn bản, biểu diễn văn bản, đánh chỉ mục, tìm kiếm văn bản, phản hồi thích đáng và đánh giá hiệu năng.
Chương 4: Tìm kiếm DL ĐPT P1: Dữ liệu văn Nguyễn Thị Oanh Bộ môn HTTT – Viện CNTT & TT oanhnt@soict.hut.edu.vn Nội dung Giới thiệu chung Biểu diễn văn – Chất lượng từ – Trọng số từ Đánh mục (chỉ số hóa) (indexing) Tìm kiếm văn (retrieving) Phản hồi thích đáng (relevance feedback) Đánh giá hiệu Văn Dữ liệu văn bản: – tài liệu văn chuỗi từ Giây phút cận kề chết Nhật Vẫn biết động đất chuyện cơm bữa Tokyo năm có khoảng 200 trận Vẫn biết động đất lớn phải thật bình tĩnh việc phải chui xuống gầm bàn đừng có chạy Vậy mà! – Từ đồng nghĩa: coi – xem (hát), coi – giữ - trông (nhà) – Từ đa nghĩa: mũi (người), mũi (thuyền, dao, mác) – Thứ tự từ: – Tập văn bản: tập chuỗi Tìm kiếm thơng tin văn ? Cho: (tập) tài liệu văn (từ, câu, đoạn, văn bản, …) Mục tiêu: tìm tài liệu liên quan đến tài liệu truy vấn (tài liệu tương tự) Biểu diễn tìm kiếm tài liệu văn chuỗi từ, có thể: – tiêu đề – tóm tắt – tồn nội dung tài liệu CSDL văn bản: tập chuỗi số hóa cách hợp lý Tìm kiếm: tìm văn CSDL có chứa từ văn truy vấn Bài toán khớp xâu (string-matching, substring-finding) Ví dụ Document ID d1 d2 d3 d4 d5 d6 d7 d8 d9 d10 String Jose Orojuelo’s Operations in Bosnia The Medellin Cartel’s Financial Organization The Cali Cartel’s Distribution Network Banking Operation and Money Laundering Profile of Hector Gomez Connection between Terrorism and Asian Dope Operations Hector Gomez: How He Gave Agents the Slip in Cali Sex, Drugs, and Videotape The Iranian Connection Boating and Drugs: Slips Owned by the Cali Cartel Vấn đề khớp xâu VD truy vấn 1: tìm tài liệu liên quan đến chủ đề « money laundering » – Tìm d4, khơng có d2 VD truy vấn 2: tìm tài liệu liên quan đến vấn đề « drugs » – Tìm d8,d10, khơng có d6 dù « dope » ~~ « drugs » – d2, d3 bị bỏ qua hai phối hợp hành động chung chống ma tuý (drug cartel) Vấn đề khớp xâu Xử lý vấn đề ngữ nghĩa: – Từ đồng nghĩa: buy/purchase – Từ đa nghĩa: present : a gift, the current moment, to show or display Xử lý trật tự từ Kiến trúc tổng thể hệ thống IR Biểu diễn văn 10 LSI bước LSI: – Tạo ma trận: tính bảng tần suất (frequency table) FreqT (MxN) – Áp dụng SVD để phân rã FreqT thành T, S, D – Xác định vector biểu diễn cho văn d (vec(d)): phần tử FreqT tương ứng với dịng khơng bị loại bỏ ma trận S – Tạo số: Lưu lại vec(d) CSDL (sử dụng cấu trúc DL đa chiều, vd: R-tree, k-D tree,TV-tree ) 36 LSI (…) – Truy vấn Giả sử sau loại bỏ thành phần quan trọng, SVD cho FreqT biểu diễn T*,S*, D*T Sự tương tự văn di, dj CSDL: K D i, z D j, z *T z 1 37 *T LSI (…) – Truy vấn Tìm kiếm p văn phù hợp cho truy vấn Q: – Coi Q tài liệu để tính vector biểu diễn cho Q vecQ – Điểm khác biệt: xét K khái niệm M p tài liệu d(1), ,d(p) phù hợp với Q: i, j : i j p similarityvecQ , d ( i ) similarityvecQ , d ( j ) z (1), (2), , ( p) similarityvecQ , d z similarityvecQ , d ( p ) 38 LSI (…) – Truy vấn FreqT T S D D FreqT T S * * *T T * *1 Xác định vector vecQ biểu diễn cho Q từ T*, S*, D*T: – Vector tần số cho truy vấn Q M từ: fQ : M x1 vecQ f T S T Q * *1 Xác định độ tương tự vector vecQ vector tương ứng với cột D*T 39 Probabilistic Model Dựa lý thuyết xác suất, tham số: – P(rel | dj): xác suất văn liên quan (relevant) tới truy vấn q – P(nonrel | dj): xác suất văn KHÔNG liên quan (non- relevant, irrelevant) tới truy vấn q – Giá tương ứng TRẢ VỀ tài liệu non-relevant – Giá tương ứng KHÔNG lấy tài liệu relevant KHƠNG hiệu truy vấn khó xác định P(rel | dj), P(nonrel | dj) 40 Phản hồi thích đáng (Relevance Feedback) 41 Phản hồi thích đáng (RF) RF: Relevance Feedback – Cho phép người sử dụng đánh dấu câu trả lời (relevant) chưa (irrelevant) Cải tiến hiệu hệ thống – Thích hợp với Vector Model hướng tiếp cận với RF: – Query Modification – Document Modification 42 Phản hồi thích đáng (RF)… 43 http://wiki.nectec.or.th/ru-newwiki/bin/view/IT630_11_Assignment/Gr11_RelevanceFeedback Phản hồi thích đáng (RF) Thay đổi biểu Modification): diễn câu Q ( i 1) Q ( i 1) Thông dụng truy vấn i D j D D i rel (Query D j rel Cải tiến hiệu hệ thống Chỉ cho người sử dụng, không tận dụng cho người dùng khác Thay đổi biểu diễn văn CSDL (Document Modification): Có thể tận dụng cho người dùng khác Có thể giảm hiệu truy vấn sau khác câu truy vấn 44 thay đổi văn Đánh giá hiệu hệ thống truy vấn liệu 45 Các độ đo thông dụng Độ xác (Precision) P = C/ (A+C) Độ triệu hồi (Recall): Tất văn CSDL có liên quan đến truy vấn (relevant) R = C/ (B+C) Tất văn CSDL A 46 Văn trả hệ thống cho câu truy vấn C B Các độ đo thông dụng Precision-recall curve: 47 Độ đo khác – P@n, R@n: độ xác tính, độ triệu hồi n kết trả gần – F-score: * precision* recall F precision recall – Average precision – Mean average precision – … 48 Tổng kết Biểu diễn văn bản: – Xử lý từ: stop list, stemming, thesaurus – Biểu diễn từ với trọng số: tf, tf.idf, … Đánh mục: inverted file Truy vấn: Boolean Model, Vector Model, Probabilistic Model – Vector Model: hiệu nhất, Phản hồi thích đáng Đánh giá hiệu năng: Precision, Recall, Precision- recall curve 49 50 ... lần xuất từ ti văn dj 15 Biểu diễn văn (…) Term/document d1 d2 d3 d4 d5 d6 t1 615 390 10 10 18 65 t2 15 76 217 91 816 t3 815 14 2 765 t4 312 511 677 11 711 t5 45 33 516 64 4 91 59 – Mỗi văn dj biểu... information: R99, 10 , 8, 3; R155, 15 , 3, 6; R166, 2, 3, retrieval: R77, 9, 7, 2; R99, 10 , 8, 4; R166, 10 , 2, – Có thể có thơng tin tần suất xuất term tài liệu term 1: R1, 0.33; R3, 0.5 22 Tìm kiếm (Retrieving/Searching)... số hóa cách hợp lý Tìm kiếm: tìm văn CSDL có chứa từ văn truy vấn ? ?Bài toán khớp xâu (string-matching, substring-finding) Ví dụ Document ID d1 d2 d3 d4 d5 d6 d7 d8 d9 d10 String Jose Orojuelo’s