TẬP BÀI GIẢNG MÔN THƯ VIỆN SỐ TỔNG QUAN VỀ THƯ VIỆN SỐ DL MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL CHỈ MỤC TÀI LIỆU TÌM KIẾM THÔNG TIN CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ THỰC HÀNH HỆ PHẦN MỀM THƯ VIỆN SỐ GREENSTONE
BÀI GIẢNG THƯ VIỆN SỐ NỘI DUNG I TỔNG QUAN VỀ THƯ VIỆN SỐ DL II MƠ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL III CHỈ MỤC TÀI LIỆU IV TÌM KIẾM THƠNG TIN V CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ VI THỰC HÀNH HỆ PHẦN MỀM THƯ VIỆN SỐ GREENSTONE IV TÌM KIẾM THƠNG TIN 4.1 MƠ HÌNH TÌM KIẾM THƠNG TIN Tìm kiếm thông tin IR đề cập đến tổ chức, lưu trữ, tìm kiếm đánh giá thơng tin có liên quan tới nhu cầu thơng tin NSD Mơ hình IR tổng quát cặp bao gồm đối tượng ánh xạ liên kết (“tìm kiếm”) số đối tượng với đối tượng đại diện cho truy vấn Cho D = {d1, d2, , dM}, M 2(4.1) tập hữu hạn không rỗng đối tượng Chú ý: trường hợp M = xem xét tầm thường Các đối tượng tiêu biểu đại diện Cho ánh xạ tìm kiếm từ D vào lực lượng (D), nghĩa là, : D (D) (4.2) Bằng cách kết hợp tập đối tượng D ánh xạ tìm kiếm , chúng tơi định nghĩa cấu trúc tìm kiếm thơng tin sau: Định nghĩa 4.1 (cấu trúc tìm kiếm thơng tin): Cấu trúc tìm kiếm thơng tin SIR S = (4.3) Định nghĩa 4.1 định nghĩa tổng qt: khơng đề cập đến dạng riêng biệt ánh xạ tìm kiếm đối tượng D Từ đó, mơ hình IR riêng biệt khác nhận cách đặc tả D Định nghĩa 4.2 (mơ hình tìm kiếm thơng tin MIR): Mơ hình tìm kiếm thơng tin MIR SIR S = với thuộc tính sau đây: i q = ãi(q, ) = i, q, (tính phản xạ); (4.4) ii i (q) = { D| ãi(q, ) = max ãk(q, k)} ai, i cố định tùy ý đó: + T = {t1, t2, , tN} tập hữu hạn thuật ngữ mục, N 1; + O = {o1, o2, , oU} tập hữu hạn đối tượng, U 2; + (Dj)j J = {1, 2, , M} họ cluster đối tượng, Dj (O), M 2; + D = {j| j J} tập tài liệu, tập mờ chuẩn hóa j = {(tk , j(tk))| tk T, k = 1, , N}, j = 1, , M, j : T S [0, 1] R đại diện cluster cluster đối tượng Dj + A = {ã1, , ãC} tập hữu hạn tiêu chuẩn, C 1, ãi = {((q, j), ãi(q, j)) | j D, j =1, , M}, i = 1, , C quan hệ mờ chuẩn hóa, ãi : D x D [0, 1] R, q D cố định tùy ý Theo truyền thống, IR kinh điển có thuộc tính phân đơi (lưỡng cực) có tiêu chuẩn rõ ràng: i có mặt khơng có mặt; ii tìm kiếm thực dựa vào (i) + ai = { D| ãi(q, ) > i}, i = 1, , C i-lát cắt tiêu chuẩn mạnh ãi, i 0, q D cố định tùy ý; + : D (D) ánh xạ tìm kiếm Về mặt hình thức, tìm kiếm nghĩa liên kết tập tài liệu với truy vấn chúng liên quan với – tuân theo tiêu chuẩn lựa chọn đủ mạnh Từ đó, bắt buộc phải xem truy vấn tài liệu tìm kiếm định nghĩa dùng -lát cắt Định nghĩa 4.3: R.B Yates B.R Neto Một mơ hình tìm kiếm thơng tin bốn [D, Q, F, R(qi, dj)] đó: + D tập tài liệu; + Q tập hợp truy vấn NSD; + F khung mơ hình hóa biểu diễn tài liệu, truy vấn quan hệ chúng; + R(qi, dj) hàm xếp liên kết số thực với truy vấn qi Q biểu diễn tài liệu dj D Hàm xếp xác định thứ tự tài liệu truy vấn qi Khảo sát kiểu truy vấn: Truy vấn Boole BQ truyền thống; Truy vấn xếp hạng RQ; Mơ hình tìm kiếm thơng tin xác suất 4.2 TRUY VẤN BOOLE BQ 4.2.1 Truy vấn BQ hội Dạng t1 AND t2 AND AND tr 4.2.2 Truy vấn BQ không hội Dạng phổ biến khác phép hội phép tuyển: (text OR data OR information) AND (search OR seek) AND (retrieval OR indexing) 4.3 TRUY VẤN XẾP HẠNG RQ 4.3.1 So khớp toạ độ Đếm số thuật ngữ truy vấn xuất tài liệu 4.3.2 Tích độ tương tự Q trình hình thức hố tích vectơ truy vấn với tập vectơ tài liệu Độ tương tự truy vấn Q với tài liệu Dd biểu diễn sau: S(Q, Dd) = Q Dd (4.5) đó: phép tốn phép tích Tích hai n-vectơ X = Y = định nghĩa: n X.Y x i yi i 1 (4.6) 10 4.4 ĐỘ ĐO COSIN 4.4.1 Tần suất bên tài liệu 4.4.2 Tính độ đo cosin Xét lại công thức (4.22) độ đo cosin: N cos(Q, Dd ) (1 log e f d, t ) log e 1 Wd Wq tQDd ft 4.4.3 Bộ nhớ dành cho trọng số tài liệu 4.4.4 Sắp xếp 20 Giải thuật 4.2 Tìm kiếm r tài liệu dùng độ đo cosin, 1. Đặt A { } A tập tích luỹ 2. Đối với thuật ngữ truy vấn t Q, (a) Truy gốc từ t (b) Tìm kiếm từ vựng (c) Ghi ft địa It , mục vào IF t (d) Đặt wt + loge(N / ft) (e) Đọc mục vào IF It (f) Đối với cặp (d, fd,t) thuộc It , i> Nếu Ad A Đặt Ad , Đặt A A + {Ad} ii> Đặt Ad Ad + loge(1 + fd,t) * wt 21 3. Đối với Ad A, Đặt Ad Ad / Wd Bây Ad tỉ lệ với giá trị cos(Q, Dd) 4. Đối với i r, (a) Lựa chọn d cho Ad = max{A} (b) Dị tìm địa tài liệu d (c) Tìm kiếm tài liệu d trình bày với NSD (d) Đặt A A - {Ad} Giải thuật nêu lên điểm sau: Wq bị bỏ qua Wq số lượng lớn nhớ sử dụng r i} (4.30) Định nghĩa 4.6 (mơ hình tìm kiếm thơng tin xác suất kinh điển) Cho D tập tài liệu, q D truy vấn P(R|(q, d)) xác suất tài liệu d D có liên quan /không liên quan với truy vấn q tương ứng Cho R(q) tập tài liệu tìm kiếm đáp ứng truy vấn q Một tài liệu d lựa chọn đáp ứng truy vấn q P(R|(q, d)) P(I|(q, d)) (4.31) (Luật định Bayes) 24 nghĩa là, R(q) = {d| P(R|(q, d)) P(I|(q, d))} (4.32) Chính xác hơn, P(R|(q, d)) P(I|(q, d)) xác suất liên đới tới d xét có liên quan khơng liên quan tới q tương ứng Đánh giá P(R|(q, d)) P(I|(q, d)) dựa vào công thức Bayes Cho D tập đối tượng, đối tượng cố định q D hai tiêu chuẩn ã1 ã2 liên quan không liên quan tương ứng Cho ãi(q, ), i = 1, mức độ mà đối tượng d D thỏa mãn tiêu chuẩn ãi liên quan tới q Định nghĩa 4.7 (PIR): Mơ hình tìm kiếm thơng tin xác suất PIR MIR S = đó: (q) = {|ã1(q,) ã2(q, )}, ã1(q, ) > 1} (4.33) 25 PIR trường hợp đặc biệt MIR (ở định nghĩa 4.5, lấy i =1) S Dominich chứng minh PIR định nghĩa 4.7 mô hình tìm kiếm thơng tin xác suất kinh điển định nghĩa 4.6 tương đương Bảng 4.4 – Các xác suất có điều kiện Số tài liệu Có liên quan Khơng liên quan Tổng Thuật ngữ t có mặt Rt ft - Rt ft Thuật ngữ t vắng mặt R - Rt N - ft - (R - Rt) N - ft Tổng R N–R N 26 Các xác suất có điều kiện đánh giá từ bảng 4.4 P [có liên quan | thuật ngữ t có mặt] = R t / ft (4.34) P [khơng liên quan | thuật ngữ t có mặt] = (f t – Rt) / ft Tương tự, P [thuật ngữ t có mặt | có liên quan] = R t / R (4.35) P [thuật ngữ t có mặt | khơng liên quan] = (f t – Rt) / (N – R) trọng số wt thuật ngữ t nhận dùng công thức Bayes: R t /(R R t ) wt (f t R t ) /( N f t (R R t )) 27 (4.36) SỰ PHẢN HỒI LIÊN QUAN Là trình sửa đổi truy vấn để nâng cao hiệu suất tìm kiếm Salton, Buckley Harman đề xuất phương pháp lặp lại truy vấn Tất sử dụng biểu diễn vectơ, tài liệu D d truy vấn Q coi n-vectơ trọng số, n số thuật ngữ truy vấn riêng biệt Chiến lược đơn giản sau: Qi 1 Qi Dn Dd dR (4.39) đó: + Dn tài liệu xếp hạng cao không liên quan; + R tập tài liệu có liên quan 28 Các biểu thức phản hồi tổng quát cho phép số lớn tài liệu không liên quan ảnh hưởng đến truy vấn bao hàm dự trữ sẵn cho truy vấn ban đầu nhằm ảnh hưởng đến tất truy vấn tiếp theo: Q i 1 Q Q i D d D d dR dI (4.40) đó: , , trọng số (với 0); R tập tài liệu có liên quan; I tập tài liệu không liên quan đáp ứng NSD với phép lặp truy vấn 29 4.6 ĐÁNH GIÁ HIỆU SUẤT TÌM KIẾM 4.6.1 Độ xác độ phục hồi Độ xác P phương pháp xếp hạng điểm cắt r phần số tài liệu xếp hạng cao r có liên quan đến truy vấn: so tai lieu tim kiem co lien quan P tong so tai lieu tim kiem (4.41) Độ phục hồi R phương pháp giá trị r tỷ lệ tổng số tài liệu có liên quan tìm kiếm r cao nhất: (4.42) so tai lieu co lien quan duoc tim kiem R tong so tai lieu co lien quan 30 Độ xác P: (4.41’) Độ phục hồi R: NR P NR R NT (4.42’) đó: NT tổng số tài liệu có liên quan tới truy vấn q, NT 0; | (q) | = số tài liệu tìm kiếm đáp ứng q, 0; NR số tài liệu có liên quan tìm kiếm Định đề: Tỉ số độ phục hồi độ xác R / P thay đổi tuyến tính Chứng minh: NR = R NT = P R / P = / NT (4.43) 31 4.6.2 Đường cong độ phục hồi-độ xác Hình 4.1 – Đường cong P-R hạng bảng 3.2 Đuong cong P-R doi voi hang 120 100 P 80 R (%) P (%) 60 40 20 R Do thi hieu suat tinh toan 200 P 150 chinh xac 100 phuc hoi 50 R 32 TÀI LIỆU THAM KHẢO Đỗ Quang Vinh (2009), Thư viện số - Chỉ mục Tìm kiếm, Nxb Đại học Quốc gia Hà Nội Lourdes T.D (2006), Thư viện số truy cập mở tài liệu lưu trữ, Nguyễn Xuân Bình nnk biên dịch, UNESCO, Hà Nội The 10th International Conference on Digital Libraries (2007), Asian Digital Libraries: Looking Back 10 years and Forging New Frontiers, Ha Noi Tài liệu hướng dẫn cài đặt, sử dụng phát triển hệ phần mềm thư viện số Greenstone Arms W.Y (2003), Digital Libraries, MIT Press, Cambridge Fox E.A (2000), Advanced Digital Libraries, Virginia Polytechnic Institue and State University Lesk M (2005), Understanding Digital Libraries, 2nd Edition, Morgan Kaufmann, San Francisco Witten I.H., Bainbridge D (2003), How to Build a Digital Library, Morgan Kaufmann, San Francisco 33 KẾT THÚC ! TRÂN TRỌNG CÁM ƠN ! 34 ... TỔNG QUAN VỀ THƯ VIỆN SỐ DL II MƠ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL III CHỈ MỤC TÀI LIỆU IV TÌM KIẾM THƠNG TIN V CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ VI THỰC HÀNH HỆ PHẦN MỀM THƯ VIỆN SỐ GREENSTONE... 50 R 32 TÀI LIỆU THAM KHẢO Đỗ Quang Vinh (2009), Thư viện số - Chỉ mục Tìm kiếm, Nxb Đại học Quốc gia Hà Nội Lourdes T.D (2006), Thư viện số truy cập mở tài liệu lưu trữ, Nguyễn Xuân Bình nnk... nhiều thuật ngữ Bài tốn giải cách thay đánh giá “có” “khơng” nhị phân số nguyên thị thuật ngữ xuất lần tài liệu 12 Định nghĩa tần suất bên tài liệu thuật ngữ fd,t : Số đếm thị số lần thuật ngữ