BAI GIANG TVS PHD DO QUANG VINHPHD DO QUANG VINH Email Email dqvinh@live comdqvinh@live com HANOI 2013HANOI 2013 mailto dqvinh@live com BÀI GI NG TH VI N SẢ Ư Ệ Ố TS Đ QUANG VINHỖ Email dqvinh@liv[.]
PHD. DO QUANG VINH Email: dqvinh@live.com HANOI 2013 BÀI GIẢNG THƯ VIỆN SỐ TS. Đ Ỗ QUANG VINH Email: dqvinh@live.com HÀ NỘI 2013 NỘI DUNG I TỔNG QUAN VỀ THƯ VIỆN SỐ DL II MƠ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL III CHỈ MỤC TÀI LIỆU IV TÌM KIẾM THƠNG TIN V CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ VI THỰC HÀNH HỆ PHẦN MỀM THƯ VIỆN SỐ GREENSTONE IV TÌM KIẾM THƠNG TIN 4.1 MƠ HÌNH TÌM KIẾM THƠNG TIN Tìm kiếm thơng tin IR đề cập đến tổ chức, lưu trữ, tìm kiếm và đánh giá thơng tin có liên quan tới nhu cầu thơng tin của NSD Mơ hình IR tổng qt là một cặp bao gồm các đối tượng và một ánh xạ liên kết (“tìm kiếm”) một số đối tượng với một đối tượng đại diện cho một truy vấn. Cho D = {d1, d2, , dM}, M 2 (4.1) là một tập hữu hạn khơng rỗng đối tượng Chú ý: trường hợp M = 1 có thể được xem xét nhưng nó là tầm thường. Các đối tượng tiêu biểu là đại diện Cho là một ánh xạ tìm kiếm từ D vào trong lực lượng của nó (D), nghĩa là, : D (D) (4.2) Bằng cách kết hợp tập đối tượng D và ánh xạ tìm kiếm , chúng tơi định nghĩa cấu trúc tìm kiếm thơng tin như sau: Định nghĩa 4.1 (cấu trúc tìm kiếm thơng tin): Cấu trúc tìm kiếm thơng tin SIR là một bộ 2 S = (4.3) Định nghĩa 4.1 là một định nghĩa tổng qt: nó khơng đề cập đến về các dạng riêng biệt của ánh xạ tìm kiếm và đối tượng D. Từ đó, các mơ hình IR riêng biệt khác nhau có thể nhận được bằng cách đặc tả D và Định nghĩa 4.2 (mơ hình tìm kiếm thơng tin MIR): Mơ hình tìm kiếm thơng tin MIR là một SIR S = với 2 thuộc tính sau đây: i q = ãi(q, ) = 1 i, q, (tính phản xạ); (4.4) ii i (q) = { D| ãi(q, ) = max ãk(q, k)} a i, i cố định tùy ý trong đó: + T = {t1, t2, , tN} là một tập hữu hạn thuật ngữ chỉ mục, N 1; + O = {o1, o2, , oU} là một tập hữu hạn đối tượng, U 2; + (Dj)j J = {1, 2, , M} là một họ cluster đối tượ ng, Dj (O), + D = { j| j J} là một tập tài liệu, trong đó tập mờ đã chuẩn hóa j = {(tk , (tk))| tk T, k = 1, , N}, j = 1, , M, j T S [0, 1] tượng Dj. j : R là đại diện cluster của cluster đối + A = {ã1, , ãC} là một tập hữu hạn tiêu chuẩn, C 1, trong đó ãi = {((q, j), ãi(q, j)) | j D, j =1, , M}, i = 1, , C là một quan hệ mờ chuẩn hóa, ãi : D x D [0, 1] R, q D cố định tùy ý. Theo truyền thống, IR kinh điển có thuộc tính phân đơi (lưỡng cực) trong đó có 2 tiêu chuẩn rõ ràng: i có mặt và khơng có mặt; ii tìm kiếm được thực hiện dựa vào (i). + a i = { D| ãi(q, ) > i}, i = 1, , C là một ilát cắt tiêu chuẩn mạnh ãi, i 0, q D cố định tùy ý; + : D (D) là một ánh xạ tìm kiếm. Về mặt hình thức, tìm kiếm nghĩa là liên kết một tập con tài liệu với một truy vấn nếu chúng liên quan với nhau – tn theo một tiêu chuẩn lựa chọn đủ mạnh. Từ đó, chúng ta bắt buộc phải xem truy vấn là một tài liệu và tìm kiếm được định nghĩa dùng lát cắt Định nghĩa 4.3: R.B. Yates và B.R. Neto Một mơ hình tìm kiếm thơng tin là một bộ bốn [D, Q, F, R(qi, dj)] trong đó: + D là một tập các tài liệu; + Q là một tập hợp các truy vấn của NSD; + F là một khung mơ hình hóa các biểu diễn tài liệu, truy vấn và các quan hệ giữa chúng; + R(qi, dj) là một hàm sắp xếp liên kết một số thực với một truy vấn qi Q và một biểu diễn tài liệu dj D. Hàm sắp xếp xác định thứ tự giữa các tài liệu đối với truy vấ9n qi Khảo sát 3 kiểu truy vấn: Truy vấn Boole BQ truyền thống; Truy vấn xếp hạng RQ; Mơ hình tìm kiếm thơng tin xác suất 4.2 TRUY VẤN BOOLE BQ 4.2.1 Truy vấn BQ hội Dạng t1 AND t2 AND AND tr 4.2.2 Truy vấn BQ khơng hội Dạng phổ biến khác là một phép hội của các phép tuyển: (text OR data OR information) AND (search OR seek) AND (retrieval OR indexing) 10