Tìm hiểu các phương pháp tìm kiếm tài liệu trong thư viện số

21 29 0
Tìm hiểu các phương pháp tìm kiếm tài liệu trong thư viện số

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BÀI TẬP Môn: Thư viện số “Tìm hiểu các phương pháp tìm kiếm tài liệu trong thư viện số” NỘI DUNG I. TÌM KIẾM THÔNG TIN 1.1 Mô hình tìm kiếm thông tin 1.2 Truy vấn Boole BQ 1.3 Truy vấn xếp hạng RQ 1.4 Độ đo Cosin 1.5 Mô hình tìm kiếm thông tin xác suất 1.6 Hiệu suất tìm kiếm

BÀI TẬP Mơn: Thư viện số “Tìm hiểu phương pháp tìm kiếm tài liệu thư viện số” NỘI DUNG I I.1 I.2 I.3 I.4 I.5 I.6 TÌM KIẾM THƠNG TIN Mơ hình tìm kiếm thơng tin Truy vấn Boole BQ Truy vấn xếp hạng RQ Độ đo Cosin Mơ hình tìm kiếm thơng tin xác suất Hiệu suất tìm kiếm 1.1 MƠ HÌNH TÌM KIẾM THƠNG TIN Tìm kiếm thơng tin (IR) đề cập đến tổ chức, lưu trữ, tìm kiếm đánh giá thơng tin có liên quan tới nhu cầu thông tin NSD Mô hình tìm kiếm thơng tin IR tổng qt cặp bao gồm đối tượng ánh xạ liên kết (“tìm kiếm”) số đối tượng với đối tượng đại diện cho truy vấn Cho D = {d1, d2, , dM}, M  (1)* tập hữu hạn không rỗng đối tượng, M số tài liệu  Chú ý: trường hợp M = xem xét tầm thường Các đối tượng tiêu biểu đại diện Cho  ánh xạ tìm kiếm từ D vào lực lượng (D), nghĩa là,  : D  (D) (2)* Bằng cách kết hợp tập đối tượng D ánh xạ tìm kiếm , chúng tơi định nghĩa cấu trúc tìm kiếm thơng tin sau: (3 định nghĩa)  Định nghĩa (cấu trúc tìm kiếm thơng tin): Cấu trúc tìm kiếm thơng tin SIR S = (3)* Đây định nghĩa tổng qt: khơng đề cập đến dạng riêng biệt ánh xạ tìm kiếm  đối tượng D Từ đó, mơ hình IR riêng biệt khác nhận cách đặc tả D   Định nghĩa (mơ hình tìm kiếm thơng tin MIR):  Mơ hình tìm kiếm thơng tin MIR SIR S = với thuộc tính sau đây: a q =   ãi(q, ) = i, q,  (tính phản xạ); b i (q) = {  D| ãi(q, ) = max ãk(q, k)} ai, i cố định tùy ý Trong đó: + T = {t1, t2, , tN} tập hữu hạn thuật ngữ mục, N  1; + O = {o1, o2, , oU} tập hữu hạn đối tượng, U  2; + (Dj)j  J = {1, 2, , M} họ cluster ( nhóm) đối tượng, Dj  (O), M  2; + D = {j| j  J} tập tài liệu, tập mờ chuẩn hóa j = {(tk , j(tk))| tk  T, k = 1, , N}, j = 1, , M, j : T  S  [0, 1]  R đại diện cluster cluster đối tượng Dj + A = {ã1, , ãC} tập hữu hạn tiêu chuẩn, C  1, ãi = {((q, j), ãi(q, j)) | j D, j =1, , M}, i = 1, , C quan hệ mờ chuẩn hóa, ãi : D x D  [0, 1]  R, q  D cố định tùy ý  Theo truyền thống, IR kinh điển có thuộc tính phân đơi ( lưỡng cực ) có tiêu chuẩn rõ ràng: a có mặt khơng có mặt; b tìm kiếm thực dựa vào (a)  ai = {  D| ãi(q, ) > i}, i = 1, , C i-lát cắt tiêu chuẩn mạnh ãi, i  0, q  D cố định tùy ý;   : D  (D) ánh xạ tìm kiếm Về mặt hình thức, tìm kiếm nghĩa liên kết tập tài liệu với truy vấn chúng liên quan với – tuân theo tiêu chuẩn lựa chọn - đủ mạnh Từ đó, bắt buộc phải xem truy vấn tài liệu tìm kiếm định nghĩa dùng -lát cắt  Định nghĩa 3: R.B Yates B.R Neto Một mơ hình tìm kiếm thơng tin bốn [ D, Q, F, R(qi, dj) ] Trong + D tập tài liệu; + Q tập hợp truy vấn NSD; + F khung mô hình hóa biểu diễn tài liệu, truy vấn quan hệ chúng; + R(qi, dj) hàm xếp liên kết số thực với truy vấn qi  Q biểu diễn tài liệu dj  D Hàm xếp xác định thứ tự tài liệu truy vấn qi Khảo sát kiểu truy vấn :  Truy vấn Boole BQ truyền thống;  Truy vấn xếp hạng RQ;  Mơ hình tìm kiếm thơng tin xác suất 1.2 TRUY VẤN BOOLE BQ TRUYỀN THỐNG Đây kiểu truy vấn đơn giản nhất, thuật ngữ tổ hợp với phép toán AND, OR, NOT Quá trình truy vấn dùng IFID tương đối trực tiếp từ vựng tìm kiếm thuật ngữ, IL tìm kiếm giải mã, danh sách trộn, lấy giao, bù thích hợp Cuối cùng, tài liệu mục tìm kiếm hiển thị với NSD danh sách câu trả lời Đối với truy vấn điển hình có ÷ 10 thuật ngữ, giây bị thời gian đọc giải mã IL; sau Gồm  1.1 Truy vấn BQ hội Giả sử truy vấn phép hội, bao gồm thuật ngữ kết nói với phép tốn AND Dạng t1 AND t2 AND AND tr  1.2 Truy vấn BQ không hội Dạng phổ biến khác phép hội phép tuyển: (text OR data OR information) AND (search OR seek) AND (retrieval OR indexing)  Ở thuật ngữ bao gồm liên kết xử lý đồng thời => Đánh giá: Hiện nay, hầu hết hệ thống tìm kiếm IR thơng tin có thư viện sử dụng truy vấn Boole BQ, xử lí khơng xác truy vấn Boole khơng hội, phức tạp BQ khơng phải phương pháp tìm kiếm thông tin Nếu tập tài liệu xác tìm kiếm biết trước BQ chắn thích hợp, ngun nhân BQ thành cơng hệ thống tìm kiếm thư mục Tuy nhiên yêu cầu tin thường biết xác 1.3 TRUY VẤN XẾP HẠNG RQ Hiện hầu hết hệ thống tìm kiếm thơng tin IR có thư viện sử dụng truy vấn Boole BQ, xử lý khơng xác truy vấn Boole không hội, phức tạp BQ phương pháp tìm kiếm thơng tin Nếu tập cong tài liệu xác tìm kiếm biết trước BQ chắn thích hợp Tuy nhiên u cầu thơng tin thường biết xác 1.3.1 So khớp toạ độ Đếm số thuật ngữ truy vấn xuất tài liệu.Càng nhiều thuật ngữ xuất hơn, có nhiều khả tài liệu có liên quan Truy vấn thành truy vấn lai, trung gian truy vấn hội AND truy vấn tuyển OR: tài liệu chứa bất kỳtrong sốthuật ngữ xem câu trả lời tiềm năng, ưu tiên cho tài liệu chứa tất hầu hết chúng Tất thông tin cần thiết nằm IF cài đặt tương đối dễ Xét tài liệu trình bày bảng Đối với truy vấn searching, tài liệu câu trả lời tốt Nhưng truy vấn information retrieval? Ở ngữ cảnh BQ hội, tài liệu câu trả lời Nhưng tài liệu khác có liên quan so khớp toạ độ tạo xếp hạng D1> D2= D3= D4= Các tài liệu chứa số thuật ngữ có sẵn trả lời, NSD nên kiểm tra Bảng – Văn mẫu Information retrieval issearching and indexing Indexing is building an index An inverted file is an index Building an inverted file is indexing 1.3.2 Tích độ tương tự Q trình hình thức hố tích vectơ truy vấn với tập vectơ tài liệu Độ tương tự truy vấn Q với tài liệu Dd biểu diễn sau: S(Q, Dd) = Q Dd (4)* đó: phép tốn phép tích Tích hai n-vectơ X = Y = định nghĩa: (5)*  Bài tốn giải cách thay đánh giá “có” “khơng” nhị phân số nguyên thị thuật ngữ xuất lần tài liệu  Định nghĩa tần suất bên tài liệu thuật ngữ fd,t : Số đếm thị số lần thuật ngữ xuất tài liệu  Tổng quát hơn, thuật ngữ t tài liệu d gán trọng số tài liệu - thuật ngữ, ký hiệu wd,t trọng số khác wq,t vectơ truy vấn  Độ tương tự tích hai trọng số wd,t wq,t – lấy tổng tích trọng số thuật ngữ truy vấn thuật ngữ tài liệu tương ứng: S(Q, Dd) = Q Dd = (6)* Nếu wq,t = (nếu t không xuất Q) độ tương tự sau: S(Q, Dd) = (7)*  Bài tốn khơng tính đến thuật ngữ khó tìm Một tài liệu với đủ lần xuất thuật ngữ phổ biến xếp hạng truy vấn chứa thuật ngữ đó, khổng kể từ khác, cách lấy trọng số thuật ngữ tuân theo tần suất tài liệu đảo IDF  Zipf quan sát tần suất mục tin có xu hướng tỉ lệ nghịch với hạng Tức là, hạng coi độ đo tầm quan trọng trọng số wt thuật ngữ t tính sau: (8)* đó: ft số tài liệu chứa thuật ngữ t  Trọng số thuật ngữ wt sử dụng theo cách khác nhau: Có thể nhân với giá trị tần suất thuật ngữ tương đối rd,t để sinh trọng số tài liệu-thuật ngữ wd,t , rd,t tính theo số cách khác Trọng số thuật ngữ tổ hợp cách nhân với rq,t sinh trọng số truy vấn-thuật ngữ wq,t Có thể dùng hai tính tốn wd,t wq,t , tức là, áp dụng hai lần Không công thức khả dùng wt , thành phần IDF  Luật TFxIDF: tần suất thuật ngữ nhân tần suất tài liệu đảo Các vectơ tài liệu tính sau: wd,t = rd,t wd,t = rd,t wt (9)* (TF x IDF)  Chú ý: + Các thành phần TF IDF không nên hiểu theo nghĩa đen hàm đưa tên chúng Một heuristic độ tương tự gọi “TF x IDF” dùng tần suất thuật ngữ fd,t tăng tần suất tài liệu thuật ngữ ft giảm + Các trọng số truy vấn-thuật ngữ wq,t tính tương tự  Nhân tử chuẩn hố để khơng kể đến phần đóng góp tài liệu dài Do đó, luật tích đánh giá độ tương tự (10)* độ dài tài liệu Dd 1.3.4 Mơ hình khơng gian vectơ Độ tương tự cặp vectơ khoảng cách Euclide: (11)* Điều quan tâm hướng thị vecto hay xác khác hướng, khơng kể độ dài, góc vecto Hướng thị vectơ (12)* Cơng thức có hàm ý: Chứng minh chuẩn hoá: Nhân tử chuẩn hoá độ dài Euclide tài liệu Cung cấp trực quan rõ ràng luật xếp hạng Luật cosin xếp hạng: (13)* (14)* độ dài Euclide – trọng số – tài liệu d (15)* trọng số truy vấn q Độ tương tự: (16)* 1.4 ĐỘ ĐO COSIN Đo độ cosin nhiều thông tin yêu cầu so với xử lý BQ thực định thông tin 1.4.1 Tần suất bên tài liệu Giả sử truy vấn Q dùng để xếp hạng CSDL tài liệu.Tần suất thuật ngữ fts từ vựng hầu hết luật gán trọng số thuật ngữ mô tả, trọng số tài liệu - thuật ngữ wd,t tính với điều kiện fd,t biết, Ngía trị khác tồn cục Vì vậy, f d,t lưu trữ danh sách đảo (IL) với số tài liệu d Lưu ý: Dù cho ft mặt logic trường danh sách đảo , có nhiều khă lưu trữ từ vựng với thuật ngữ t, địa tệp đảo I t lưu trữ rõ ràng khơng trích dẫn trọng số thuật ngữ wt Mỗi danh sách đảo phải chứa giá trị f d,t Thực tế mã đơn nguyên phương pháp hiệu để nén tần suất bên tài liệu Là lý tưởng để biểu diễn giá trị tần suất bên tài liệu f d,t Nếu từ xuất lần tài liệu, yêu cầu mã bit; xuất hai lần, mã bit… Thực tế IL thuật ngữ t tăng lên số bit tổng số lần xuất thuật ngữ tồn CSDL F t tổng số lần xuất thuật ngữ t, xuất trùng lặp tính: Ft d,t Sau t =F F tổng số từ CSDL Vì mã đơn nguyên x yêu cầu x bit, IL thuật ngữ t tăng lên Ft bit IF tổng tăng lên F bit Hàng tần suất quan sát tương ứng với mã Huffman toàn cục dựa vào tần suất thực số mã hóa, biểu diễn tốt trong số mã hóa đạt Bảng 2: Cộng thêm thông tin tần suất, bit/giây TREC Mô hình Đơn nguyên Γ Δ Nội suy Bit/giây 2.49 2.13 2.41 1.77 Có thể mục thuật ngữ văn lớn dùng 1B cho trỏ, tệp mục chứa tần suất thuật ngữ 10 γ phương pháp lựa chọn mã đơn giản dùng làm phương pháp nội suy lựa chọn thích hợp làm giảm kích thước mục, mối quan tâm bao quát 1.4.2 Tính độ đo cosin Dùng luật đánh trọng số (TFxIDF) đánh giá độ đo cosin Xét công thức: Lấy tổng đánh giá cách xử lý IL, xếp hạng đánh giá không cần trợ giúp văn CSDL tài liệu Sự có mặt f d,t IL nghĩa trọng số Wd tài liệu d giá trị cịn lại tính rõ Mỗi số tài liệu xuất IL tạo phần đóng góp cosin cộng vào tích lũy Mỗi tài liệu chứa số thuật ngữ truy vấn kết thúc với tích lũy khác 0.Tất phần đóng góp cosinđược tích lũy lần, chúng chuẩn hóa trọng số tài liệu tương ứng vào giá trị tỉ lệ với độ cosin Cuối chọn r lớn tất giá trị, tìm kiếm hiển thị tài liệu chũng biểu diễn Tìm kiếm r tài liệu dùng độ đo cosin: a) b) c) d) e) f) Đặt A  { } A tập hợp tích lũy Đối với thuật ngữ truy vấn t Q, ∊ Truy gốc từ t Tìm kiếm từ vựng Ghi ft địa It, mục vào IF t Đặt wt  + loge (N / ft) Đọc mục vào IF It Đỗi với cặp (d, fd,f) thuộc It, i Nếu Ad ∊thì A Đặt Ad  Đặt A  A + {Ad} Đặt Ad  Ad + loge(1 + fd,t)* wt ii Đối với Ad ∊A, 11 Đặt Ad  Ad / wd Bây Ad tỉ lệ với giá trị cos(Q,Dd) a) b) c) Đối với ≤ i ≤ r, Lựa chọn d cho Ad = max {A} Dị tìm địa tài liệu d Tìm kiếm tài liệu d trình bày với NSD Đặt A  A – {Ad} Giải thuật nêu lên điểm sau: Wq bị bỏ qua Wq số lượng lớn nhớ sử dụng r 1} (20)*  PIR trường hợp đặc biệt MIR (ở định nghĩa 1.5.1 , lấy i =1) S Dominich chứng minh PIR định nghĩa 1.5.6 mơ hình tìm kiếm thơng tin xác suất kinh điển định nghĩa 1.5.3 tương đương Bảng 4.4 – Các xác suất có điều kiện Số tài liệu Thuật ngữ t có mặt Có liên quan Khơng liên quan Tổng R t f -R t t f t 14 Thuật ngữ t vắng mặt R-R t N - f - (R - R ) t t N-f Tổng R N–R N t mơ hình xác suất, xuất mọt thuật ngữ riêng biệt tài liệu hiểu chứng tài liệu có liên quan không liên quan Để thiết lập trọng số thuâtj ngữ, xác suất có điều kiện “ có liên quan tới truy vấn, vào thuật ngữ xuất hiện” “ không liên quan tới truy vấn, vào thuật ngữ xuất hiện” đánh giá dựa số xét đoán liên quan biết  Các xác suất có điều kiện đánh giá từ bảng 4.4 P [có liên quan | thuật ngữ t có mặt] = Rt / ft (21)* P [không liên quan | thuật ngữ t có mặt] = (ft – Rt) / ft Tương tự, P [thuật ngữ t có mặt | có liên quan] = Rt / R (22)* P [thuật ngữ t có mặt | khơng liên quan] = (ft – Rt) / (N – R)  trọng số wt thuật ngữ t nhận dùng cơng thức Bayes: (23)* Trong giá trị lớn 1chir thị xuất thuật ngữ t nên lấy trợ giúp cho giả thuyết tài liệu có liên quan giá trị nhỏ thị xuất thuật ngữ giả thiết tài liệu không liên quan  SỰ PHẢN HỒI LIÊN QUAN 15  Là trình sửa đổi truy vấn để nâng cao hiệu suất tìm kiếm Giả sử truy vấn Qo đưa với mọt hệ tìm kiếm số tài liệu trả lại sau người sử dụng khảo sát số tất chúng địnhlà chúng có, khơng liên quan Trong mơi trường xử lý theo lô, điểm cuối trình- hệ thống cho phép định tài liệu có liên quan sau đó, khơng thực nghi ngờ lựa chọn này, NSD làm việc với tập tài liệu nay, khơng cần kết thúc  Salton, Buckley Harman đề xuất phương pháp lặp lại truy vấn Tất sử dụng biểu diễn vectơ, tài liệu Dd truy vấn Q coi n-vectơ trọng số, n số thuật ngữ truy vấn riêng biệt Chiến lược đơn giản sau: (24)* Trong đó: + Dn tài liệu xếp hạng cao khơng liên quan; + R tập tài liệu có liên quan  Các biểu thức phản hồi tổng quát cho phép số lớn tài liệu không liên quan ảnh hưởng đến truy vấn bao hàm dự trữ sẵn cho truy vấn ban đầu nhằm ảnh hưởng đến tất truy vấn tiếp theo: (25)* đó: , ,   trọng số (với   0); R tập tài liệu có liên quan; I tập tài liệu khơng liên quan đáp ứng NSD với phép lặp truy vấn 16 Sự đánh giá kĩ thuật phản hồi liên quan phức tạp xếp hạng duyệt lại, độ xác cao hệ thống sẵn sang cho biết số tài liệu liên quan không liên quan Để đơn giản, thường giả thiết tài liệu xem xét NSD đơn giản khơng có mặt CSDL vòng đánh giá thứ hai truy vấn duyệt lại thực chống lại CSLD duyệt lại Nhưng tài liệu xóa xếp hạng cao vịng thứ nhất, chúng liên quan vog thứ hai vắng mặt tài liệu chắn nghĩa độ xác giảm dần Do truy vấn lặp báo cáo có hiệu tìm kiếm đánh giá, phản hồi hoạt động tốt để đưa vào tài liệu liên quan 1.6 ĐÁNH GIÁ HIỆU SUẤT TÌM KIẾM Có nhiều biến thể luật xếp hạng, số chúng mô tả Để so sánh chúng, cần có cách định lượng hiệu chúng Hiệu luật xếp hạng nên dựa vào xếp hạng tổng áp đặt CSDL truy vấn số phương pháp đưa Khơng có phương pháp hoàn toan thỏa đáng, hệ tự nhiên thử nghiệm trình bày cách xử lý nhiều chiều với giá trị đại diện đơn, có độ đo quan trọng hiệu xuất : độ phục hồi độ xác 1.6.1 Độ xác độ phục hồi Độ xác P phương pháp xếp hạng điểm cắt r phần số tài liệu xếp hạng cao r có liên quan đến truy vấn: (26)* Độ phục hồi R phương pháp giá trị r tỷ lệ tổng số tài liệu có liên quan tìm kiếm r cao nhất: (27)* Trong đó: NT tổng số tài liệu có liên quan tới truy vấn q, NT  0; 17 | (q) | =  số tài liệu tìm kiếm đáp ứng q,   0; NR số tài liệu có liên quan tìm kiếm  Định đề: Tỉ số độ phục hồi độ xác R / P thay đổi tuyến tính  Chứng minh: NR = R NT = P   R / P =  / NT (28)* Van Rijsbergen đưa tổ hợp có trọng số độ phục hồi độ xác sau: 1-(( a P R)/(b P+R)) Đuong cong P-R doi voi hang 120 100 P 80 R (%) P (%) 60 40 20 R 1.6.2 Đường cong độ phục hồi-độ xác Hình 4.1 – Đường cong P-R hạng bảng 3.2 18 P Do thi hieu suat tinh toan 160 140 120 100 80 60 40 20 chinh xac phuc hoi R Vì độ phục hồi hàm khơng giảm hạng, độ xác coi hàm độ phục hồi hàm hạng quan hệ tạo thành đồ thị đường cong P-R, vẽ đồ thị xác hàm độ phục hồi độ xác thường cao mức độ phục hồi thấp thấp mức độ phục hồi cao, đường cong nói chung giảm dần Phương pháp đánh giá độ tương tự dự đoán tập tài liệu chuẩn truy vấn có sẵn tập xét đoán liên quan đầy đủ- định tài liệu có CSDL câu trả lời cho truy vấn- có sẵn yêu cầu khó, đặc biệt thử nghiệm thực mẫu thực CSDL lớn 19 GHI CHÚ: * : Trích giáo trình “ Thư viện số mục tìm kiếm- Đỗ Quang Vinh” DANH MỤC CÁC TỪ VIẾT TẮT - NSD : Người sử dụng CSDL: Cơ sở liệu IR : Information Retrieval ( Tìm kiếm thơng tin) IL : Inverted List (Danh sách đảo) BQ : Boolean Query ( Truy vấn Boole) DL : Digatal Library ( thư viện số) TÀI LIỆU THAM KHẢO Đỗ Quang Vin.h (2009), Thư viện số - Chỉ mục Tìm kiếm, Nxb Đại học Quốc gia Hà Nội 20 Đỗ Quang Vinh (2009) , Thư viện số http://dlib.huc.edu.vn/handle/123456789/1036 Nguyễn Thị Thanh Hải (2013) , Tìm kiếm thơng tin văn Thư viện số http://dlib.huc.edu.vn/handle/123456789/1089 21 ... nhất: (27)* Trong đó: NT tổng số tài liệu có liên quan tới truy vấn q, NT  0; 17 | (q) | =  số tài liệu tìm kiếm đáp ứng q,   0; NR số tài liệu có liên quan tìm kiếm  Định đề: Tỉ số độ phục... phân số nguyên thị thuật ngữ xuất lần tài liệu  Định nghĩa tần suất bên tài liệu thuật ngữ fd,t : Số đếm thị số lần thuật ngữ xuất tài liệu  Tổng quát hơn, thuật ngữ t tài liệu d gán trọng số tài. .. : Digatal Library ( thư viện số) TÀI LIỆU THAM KHẢO Đỗ Quang Vin.h (2009), Thư viện số - Chỉ mục Tìm kiếm, Nxb Đại học Quốc gia Hà Nội 20 Đỗ Quang Vinh (2009) , Thư viện số http://dlib.huc.edu.vn/handle/123456789/1036

Ngày đăng: 22/04/2021, 15:35

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan