Nghiên cứu các phương pháp chỉ số hoá và tìm kiếm thông tin văn bản ứng dụng trong thư viện số
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐỖ QUANG VINH NGHIÊN CỨU CÁC PHƯƠNG PHÁP CHỈ SỐ HỐ VÀ TÌM KIẾM THƠNG TIN VĂN BẢN ỨNG DỤNG TRONG THƯ VIỆN SỐ Chuyên ngành: Đảm bảo tốn học cho máy tính hệ thống tính tốn Mã số: 1.01.10 TĨM TẮT LUẬN ÁN TIẾN SỸ TỐN HỌC HÀ NỘI - 2006 Cơng trình hồn thành tại: Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: 1.TS QUÁCH TUẤN NGỌC PGS PHƯƠNG XUÂN NHÀN Phản biện 1: PGS.TS HỒ THUẦN Viện Công nghệ Thông tin Phản biện 2: PGS.TS ĐỖ TRUNG TUẤN Đại học Quốc gia Hà Nội Phản biện 3: TSKH NGUYỄN MINH HẢI Học viện Cơng nghệ Bưu Viễn thông Luận án bảo vệ trước Hội đồng chấm luận án cấp nhà nước họp tại: Trường Đại học Bách khoa Hà Nội vào hồi ngày tháng năm 2006 Có thể tìm hiểu luận án thư viện: Thư viện Quốc gia Việt Nam Thư viện Trường Đại học Bách khoa Hà Nội DANH MỤC CƠNG TRÌNH Đỗ Quang Vinh, Qch Tuấn Ngọc (2001), “Một mơ hình liệu hướng đối tượng thời gian tài liệu cấu trúc”, Tạp chí Bưu viễn thơng & Cơng nghệ thơng tin, 160(6), tr 29-32 Đỗ Quang Vinh (2005), “Mơ hình nén mục tệp đảo thư viện số”, Kỷ yếu Hội thảo Quốc gia số vấn đề chọn lọc công nghệ thông tin truyền thông lần thứ VIII, Hải Phòng, tr 666-674 Đỗ Quang Vinh (2005), “Phương pháp mục tài liệu thư viện số”, Tạp chí Bưu viễn thơng & Cơng nghệ thơng tin, 265, tr 40-47 Đỗ Quang Vinh (2005), “Tóm tắt trích rút tài liệu văn thư viện số”, Tạp chí Khoa học Cơng nghệ Viện Khoa học Công nghệ Việt Nam, tập 43, số 4, tr.6-14 Đỗ Quang Vinh (2006), “Một phương pháp tìm kiếm thông tin dựa vào mã BCH thư viện số”, Tạp chí Khoa học Cơng nghệ - Viện Khoa học Công nghệ Việt Nam, tập 44, số 1, tr.11-18 Đỗ Quang Vinh (2006), “Truy vấn xếp hạng tài liệu văn thư viện số”, Kỷ yếu Hội thảo Quốc gia số vấn đề chọn lọc công nghệ thông tin truyền thông lần thứ IX, Đà Lạt MỞ ĐẦU NHIỆM VỤ VÀ PHƯƠNG PHÁP NGHIÊN CỨU ♦ Tính cấp thiết, ý nghĩa lý thuyết thực tiễn đề tài Ngày nay, World Wide Web xâm nhập vào sống hàng ngày, đồng thời, qua số năm giao diện cho Web tiến triển từ duyệt đến tìm kiếm Hàng triệu người giới thực tìm kiếm Web hàng ngày, cơng nghệ tìm kiếm sở liệu tài liệu lớn thay đổi từ năm 1980 Sự nhận thức chung Net tạo cách mạng cơng nghệ tìm kiếm thông tin thư viện số (DL), diễn theo cách mạng phần cứng máy tính cá nhân Hiện nay, DL hướng nghiên cứu cơng nghệ thơng tin giới ♦ Nhiệm vụ luận án: Nghiên cứu phương pháp số hố tìm kiếm thơng tin văn ứng dụng thư viện số ♦ Các phương pháp nghiên cứu: Hệ sở liệu Multimedia; phương pháp mục; phương pháp mã hoá; phương pháp nén liệu; phương pháp tìm kiếm thơng tin; phương pháp xác suất thống kê toán học CẤU TRÚC LUẬN ÁN Phần mở đầu: trình bày nhiệm vụ, đối tượng, phương pháp nghiên cứu tóm tắt đóng góp luận án Chương trình bày tổng quan thư viện số, đề xuất mơ hình hình thức cho thư viện số dựa vào đại số đại Chương trình bày hai phương pháp mục tài liệu văn thư viện số, phân tích chi tiết phương pháp mục tệp đảo IFID, mơ hình nén tồn cục mơ hình nén cục hyperbol IFID, đề xuất mơ hình nén cục Bernoulli nén nội suy IFID Chương trình bày mơ hình tìm kiếm thơng tin kinh điển: mơ hình truy vấn Boole BQ, đề xuất mơ hình truy vấn xếp hạng tài liệu RQ thư viện số, đánh giá hiệu suất tìm kiếm dựa vào hai tham số: độ xác P độ phục hồi R Chương trình bày giải thuật kinh điển: đảo dựa vào nhớ, đảo dựa vào xếp, đề xuất giải thuật trộn nhiều đường chỗ dựa vào xếp giải thuật phân chia dựa vào văn bản, so sánh giải thuật đảo, trình bày tốn mục CSDL động Phần kết luận: trình bày kết luận luận án hướng nghiên cứu CHƯƠNG - TỔNG QUAN VỀ THƯ VIỆN SỐ 1.1 MỞ ĐẦU Định nghĩa 1.1 (Arms W.Y.) [31]: Thư viện số kho thơng tin có tổ chức với dịch vụ liên kết, thơng tin lưu trữ dạng số truy cập qua mạng Định nghĩa 1.2 (Chen H., Houston A.L.) [43]: Thư viện số thực thể liên quan tới tạo nguồn tin hoạt động thơng tin qua mạng tồn cầu DL kho thơng tin số có tổ chức Định nghĩa 1.3 (Reddy R., Wladawsky-Berger I.) [121]: Thư viện số kho liệu mạng tài liệu văn số, ảnh, âm thanh, liệu khoa học phần mềm lõi Internet kho liệu số truy cập phổ biến tất tri thức loài người tương lai Định nghĩa 1.4 (Sun Microsystems) [135]: Thư viện số mở rộng điện tử chức điển hình NSD thực tài nguyên NSD truy cập thư viện truyền thống Các tài nguyên thông tin chuyển thành dạng số, lưu trữ kho multimedia làm cho sẵn có thông qua dịch vụ Web Định nghĩa 1.5 (Witten I.H., Bainbridge D.) [154]: Thư viện số kho đối tượng số, bao gồm văn bản, video audio với phương pháp truy cập tìm kiếm, lựa chọn, tổ chức bảo trì Tóm lại, thư viện số kho thông tin số khổng lồ có tổ chức với dịch vụ liên kết qua mạng 1.2 CÁC KHÁI NIỆM CƠ BẢN Tác giả trình bày khái niệm DL: Cơ sở liệu tài liệu, máy tính mạng 1.3 NGHIÊN CỨU TIN HỌC TRONG THƯ VIỆN SỐ Tác giả trình bày chủ đề nghiên cứu tin học DL: Mơ hình đối tượng, giao diện người sử dụng, tìm kiếm thơng tin, quản trị bảo trì CSDL, tính liên tác 1.4 MƠ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ 1.4.1 Cơ sở toán học Tác giả xét sở tốn học cần thiết để phát triển mơ hình hình thức cho DL Các khái niệm bao gồm tập hợp, quan hệ, hàm, dãy, bộ, xâu, đồ thị văn phạm [1], [3], [4], [7], [8], [9], [13], [144], [147], [150] 1.4.2 Dòng Định nghĩa 1.14: Một dòng dãy có miền giá trị tập không rỗng 1.4.3 Cấu trúc Định nghĩa 1.15: Một cấu trúc (G,L,F), G=(V,E) dồ thị có hướng với tập đỉnh V tập cạnh E, L tập giá trị nhãn F hàm gán nhãn F:(V∪E)→L 1.4.4 Không gian Định nghĩa 1.23: Một không gian không gian đo được, không gian độ đo, không gian xác suất, không gian vectơ không gian topo 1.4.5 Kịch Định nghĩa 1.26: Một kịch dãy kiện chuyển trạng thái liên quan (e1, e2, , en) tập trạng thái S cho ek = (sk, sk+1) ≤ k ≤ n 1.4.6 Cộng đồng Định nghĩa 1.29: Một cộng đồng (C, R), đó: C = {c1 , c2, , cn} tập cộng đồng khái niệm, cộng đồng quy tập cá thể có lớp kiểu; R = {r1 , r2, , rn} tập quan hệ, quan hệ rj = (ej, ij) ej tích Đề ck1 x ck2 x x ckn , ≤ k1 < k2 < < knj ≤ n, định rõ cộng đồng bị dính j vào quan hệ ij hoạt động (xem định nghĩa 1.26) mô tả tương tác truyền thơng cá thể 1.4.7 Định nghĩa hình thức thư viện số Ở đây, tác giả tiếp cận toán cách định nghĩa thư viện số “tối thiểu”, nghĩa là, tập tối thiểu thành phần tạo nên thư viện số Định nghĩa 1.35: Cho C CSDL với điều khiển H Một mục lục siêu liệu MC C tập cặp {(h, {mc1, mc2, , mckn})}, h ∈ H mci siêu liệu mô tả Định nghĩa 1.36: Cho C CSDL với điều khiển H Một kho (R, gt, sto, dl), R ⊂ 2C họ CSDL (bao gồm C ) hàm gt, sto dl thỏa mãn: gt:H→C ánh xạ điều khiển h đến đối tượng số gt(h) sto:CxR→R ánh xạ (do, C ) đến CSDL mở rộng {do}∪ C dl:HxR→R ánh xạ (h, C ) đến CSDL nhỏ C -{gt(h)} Định nghĩa 1.37: Một mục I : T → 2H hàm, T khơng gian mục tập thuật ngữ mục H tập điều khiển Một dịch vụ mục cài đặt mục Định nghĩa 1.38: Cho Q tập nhu cầu thông tin NSD, thường gọi truy vấn Cho MI : Q x C → R hàm so khớp, định nghĩa mục I, liên kết số thực với truy vấn q ∈ Q đối tượng số ∈ C, thị đại diện truy vấn so khớp với đối tượng số tốt nào, hai theo cấu trúc nội dung Một dịch vụ tìm kiếm tập kịch tìm kiếm {sc1, sc2, , sct}, truy vấn q ∈ Q có kịch tìm kiếm sck = cho e0 kiện bắt đầu gây truy vấn q kiện en kiện cuối trả lại giá trị hàm so khớp MI(q, d) d ∈ C Định nghĩa 1.40: Một dịch vụ duyệt tập kịch {sc1, , scn} siêu văn (nghĩa kiện định nghĩa cạnh đồ thị siêu văn (VH,EH)), cho kiện liên kết duyệt ei liên kết với hàm TL : VH x EH → ND, cho trước nút liên kết tìm kiếm nội dung nút đích, nghĩa là, TL(vk,eki)=P(vt) eki=(vk,vt)∈EH Định nghĩa 1.41: Một thư viện số bốn (R, MC, DV, XH) , đó: R kho; MC mục lục siêu liệu; DV tập dịch vụ chứa tối thiểu dịch vụ mục, tìm kiếm duyệt; XH cộng đồng NSD thư viện số Kết luận chương Trình bày tổng quan DL định nghĩa khơng hình thức DL tác giả khác giới Đề xuất mơ hình hình thức cho DL dựa vào đại số đại: thư viện số bốn (R, MC, DV, XH) CHƯƠNG - CHỈ MỤC TÀI LIỆU VĂN BẢN 2.1 MỞ ĐẦU Đối với DL, nói liệu lớn, hàng triệu trang văn có cấu trúc Nếu khơng có mục có sẵn, xác đầy đủ, việc tìm kiếm thơng tin thất bại Tác giả thử nghiệm CSDL TREC (Text REtrieval Conference) Đây CSDL tài liệu lớn, có tổng cộng 2070.29 MB văn 741856 tài liệu 2.2 CHỈ MỤC TỆP ĐẢO IFID Định nghĩa 2.2 (Đỗ Trung Tuấn [17]): Chỉ mục/Chỉ số bảng liệu hay cấu trúc liệu dùng để xác định vị trí dịng tệp theo điều kiện Định nghĩa 2.3 (Folk M.J., Zoellick B., Riccardi G [6]): Chỉ mục cách tìm kiếm thơng tin Định nghĩa 2.4: Chỉ mục chế nhằm định vị thuật ngữ cho trước văn [22] Ở ứng dụng văn bản, cấu trúc phù hợp đơn giản tệp đảo (IF)/ tệp mục lục Định nghĩa 2.5 (chỉ mục tệp đảo IFID): Đối với thuật ngữ từ điển, IF chứa danh sách đảo (IL) lưu trữ danh sách trỏ tới tất xuất thuật ngữ văn chính, trỏ thực tế số tài liệu mà thuật ngữ xuất IL đơi coi danh sách mục lục trỏ mục lục Bảng 2.2 - Văn mẫu; dòng tài liệu TÀI VĂN BẢN LIỆU Information retrieval is searching and indexing Indexing is building an index An inverted file is an index Building an inverted file is indexing Bảng 2.3 - IF văn bảng 2.2 Số Thuật ngữ IL(tài liệu; vị trí) an (2;4), (3;1), (3;5), (4;2) and (1;5) building (2;3), (4;1) file (3;3), (4;4) index (2;5), (3;6) indexing (1;6), (2;1), (4;6) information (1;1) inverted (3;2), (4;3) is (1;3), (2;2), (3;4), (4;5) 10 retrieval (1;2) 11 searching (1;4) 2.3 CHỈ MỤC TỆP KÝ SỐ SFID SFID phương pháp mục khác 10 Golomb lại đòi hỏi khắt khe mặt tính toán so với mã hoá số học cho nén tương tự Để khai thác mơ hình, cần lưu trữ tham số ft với IL, cho giá trị xác b dùng giải mã Tổng giá thực nhỏ Mỗi IL nén dễ dàng tiếp đầu ngữ với mã γ ft – mã γ lựa chọn tốt hầu hết tần suất mong đợi nhỏ 2.5.3.3 Mơ hình Bernoulli lệch Như mã γ, vectơ mã Golomb VG = kích thước bucket sử dụng, lượng lớn đối xứng lệch phân bố γ bị Vì vậy, mã Golomb cục thực mép tốt so với mã γ δ tồn cục 2.5.3.4 Mơ hình nén nội suy Mặc dù thúc đẩy chế đương đầu với gom nhóm xuất từ, mã VT mã tĩnh tương đương với mơ hình bậc d-gap Sử dụng mơ hình bậc cao cho phép nén nhạy với gom nhóm dãy dgap nhỏ chứng rõ ràng d-gap nhỏ Một chế giả thiết tham số b dùng d-gap trung bình số d-gap giải mã trước Trong hấp dẫn lý thuyết, lợi ích nén phụ thường nhỏ có nhiều trường hợp điều khiển, cài đặt phức tạp Một cách tinh tế nén IL nhạy với phân nhóm 2.5.4 Hiệu mơ hình nén mục Các mơ hình cục có xu hướng thực nén tốt mơ hình tồn cục khơng hiệu thời gian xử lý địi hỏi giải mã, chúng có xu hướng cài đặt phức tạp 11 Đối với mục đích thực hành, mơ hình nén mục phù hợp mơ hình Bernoulli cục bộ, cài đặt dùng kỹ thuật mã hoá Golomb Bảng 2.7 - Nén IF số bit/con trỏ TREC Mơ hình Các mơ hình tồn cục Đơn ngun Nhị phân Bernoulli γ δ Các mơ hình cục Hyperbol Bernoulli Bernoulli lệch Nội suy 2.6 CÁC HIỆU ỨNG Số bit/con trỏ 1918.00 20.00 12.30 6.63 6.38 5.89 5.84 5.44 5.18 Tác giả xét hiệu ứng ảnh hưởng đến mục tài liệu văn DL: Gộp dạng chữ, truy gốc từ, từ bỏ qua [31], [94], [102], [154] Kết luận chương Phân tích chi tiết hai phương pháp mục tài liệu văn DL: mục tệp đảo IFID mục ký số SFID So sánh phương pháp mục IFID SFID, từ đó, rút quy luật mục tài liệu DL Phân tích hai mơ hình nén tịan cục: mơ hình nén khơng tham số mơ hình nén tồn cục Bernoulli Tiếp theo, luận án phân tích chi tiết mơ hình nén hyperbol cục bộ, từ đề xuất mơ hình nén cục Bernoulli nén nội suy IFID Phân tích hiệu ứng ảnh hưởng đến kích thước mục tệp đảo IFID: Gộp dạng chữ, truy gốc từ, từ bỏ qua 12 CHƯƠNG - TÌM KIẾM THƠNG TIN 3.1 MỞ ĐẦU Tác giả khảo sát hai kiểu truy vấn Thứ truy vấn Boole (BQ) truyền thống Thứ hai truy vấn xếp hạng (RQ) 3.2 TRUY VẤN BOOLE Kiểu truy vấn đơn giản BQ, thuật ngữ tổ hợp với phép toán AND, OR NOT [31], [45], [48], [74], [82], [83], [86], [102], [126], [130], [145], [154], [159] Quá trình truy vấn dùng IFID tương đối trực tiếp Từ vựng tìm kiếm thuật ngữ; IL tìm kiếm giải mã; danh sách trộn, lấy giao, hợp bù thích hợp Cuối cùng, tài liệu mục tìm kiếm hiển thị với NSD danh sách câu trả lời 3.2.1 Truy vấn BQ hội Tác giả khảo sát chi tiết trình BQ hội Giả sử truy vấn phép hội, bao gồm thuật ngữ kết nối với phép toán AND sau: t1 AND t2 AND AND tr BQ hội có r thuật ngữ xử lý 3.2.2 Truy vấn BQ không hội Cho đến nay, tác giả xét kiểu BQ hội Dạng phổ biến khác phép hội phép tuyển, số lựa chọn định rõ thành phần BQ hội: (text OR data OR information) AND (search OR seek) AND (retrieval OR indexing) 3.3 TRUY VẤN XẾP HẠNG RQ 13 Cho đến nay, hầu hết hệ thống tìm kiếm thơng tin IR có thư viện sử dụng truy vấn Boole BQ, xử lý khơng xác truy vấn Boole khơng hội, phức tạp BQ khơng phải phương pháp tìm kiếm thơng tin Nếu tập tài liệu xác tìm kiếm biết trước BQ chắn thích hợp, ngun nhân BQ thành cơng hệ thống tìm kiếm thư mục Tuy nhiên, u cầu thơng tin thường biết xác Vì vậy, đơi hữu ích có khả định rõ danh sách thuật ngữ thị tốt tài liệu có liên quan, dù chúng khơng cần tất có mặt tìm kiếm tài liệu Ở đây, tác giả nghiên cứu gán độ tương tự cho tài liệu theo cách đòi hỏi phải so khớp sát truy vấn 3.3.1 So khớp toạ độ Một cách đưa tính linh động so với câu trả lời cóhoặc-khơng nhị phân đơn giản đếm số thuật ngữ truy vấn xuất tài liệu Càng nhiều thuật ngữ xuất hơn, có nhiều khả tài liệu có liên quan Cách tiếp cận gọi so khớp toạ độ Truy vấn thành truy vấn lai, trung gian truy vấn hội AND truy vấn tuyển OR: tài liệu chứa số thuật ngữ xem câu trả lời tiềm năng, ưu tiên cho tài liệu chứa tất hầu hết chúng Tất thông tin cần thiết nằm IF cài đặt tương đối dễ 3.3.2 Tích độ tương tự Q trình hình thức hố tích vectơ truy vấn với tập vectơ tài liệu Độ tương tự truy vấn Q với tài liệu Dd biểu diễn sau: 14 S(Q, Dd) = Q Dd phép tốn phép tích (3.1) Bảng 3.1 – Các vectơ tính tốn tích trong: d (a) (b) (a) Vectơ tài liệu; (b) Vectơ truy vấn Vectơ tài liệu Wd,t inf ret sea indexing bui index 1 1 0 0 1 0 0 0 1 inv 0 1 file 0 1 searching 0 0 0 indexing 0 0 0 Bài tốn thứ giải cách thay đánh giá “có” “không” nhị phân số nguyên thị thuật ngữ xuất lần tài liệu Số đếm xuất gọi tần suất bên tài liệu thuật ngữ fd,t Tổng quát hơn, thuật ngữ t tài liệu d gán trọng số tài liệu-thuật ngữ, ký hiệu wd,t trọng số khác wq,t vectơ truy vấn Độ tương tự tích hai trọng số wd,t wq,t – lấy tổng tích trọng số thuật ngữ truy vấn thuật ngữ tài liệu tương ứng: n S(Q, D d ) = Q D d = ∑ w q , t ⋅ w d , t (3.3) t =1 Bài tốn thứ hai khơng nhấn mạnh đến thuật ngữ khó tìm Thực vậy, tài liệu với đủ lần xuất thuật ngữ phổ biến xếp hạng truy vấn chứa thuật ngữ đó, khơng kể từ khác Điều thực cách lấy trọng số thuật ngữ tuân theo tần suất tài liệu đảo (IDF) Giả thiết quán với quan sát Zipf [82], [83] Zipf quan sát tần suất mục có xu hướng tỉ 15 lệ nghịch với hạng Tức là, hạng coi độ đo tầm quan trọng trọng số wt thuật ngữ t tính sau: wt = ft (3.5) đó: ft số tài liệu chứa thuật ngữ t Sau đó, vectơ tài liệu tính sau: wd,t = rd,t (3.8) wd,t = rd,t wt (TF x IDF) Phương pháp sau nhằm gán trọng số tài liệu-thuật ngữ gọi luật TF x IDF: tần suất thuật ngữ nhân tần suất tài liệu đảo Các trọng số truy vấn-thuật ngữ wq,t tính tương tự Giả sử tài liệu vectơ truy vấn mô tả wt = loge(1 + N / ft) rd,t = + logefd,t wd,t = rd,t rq,t = (3.9) wq,t = rq,t wt Vì vậy, người ta thường dựa vào nhân tử chuẩn hố để khơng kể đến phần đóng góp tài liệu dài Do đó, biến thể khác luật tích đánh giá độ tương tự S(Q, D d ) = ∑ t∈Q w q,t ⋅ w d,t Dd (3.10) D d = ∑ i f d, i độ dài tài liệu Dd nhận cách đếm số thuật ngữ mục 3.3.3 Mơ hình khơng gian vectơ Bất kỳ trọng số thuật ngữ wt tần suất thuật ngữ tương đối rd,t tài liệu rq,t gán số tài liệu-thuật 16 ngữ wd,t trọng số truy vấn-thuật ngữ wq,t phát sinh gán này, kết giống – tài liệu biễu diễn vectơ không gian n-chiều truy vấn biễu diễn vectơ n-chiều Độ tương tự cặp vectơ khoảng cách Euclide: (3.11) n ∑ w q, t − w d, t t =1 Điều thực quan tâm hướng thị hai vectơ S(Q, D d ) = xác khác hướng, không kể độ dài Góc θ tính từ X ⋅Y cos θ = X Y Luật cosin xếp hạng: cos(Q, D d ) = n Q ⋅ Dd ‡”w q, t ⋅ w d, t = Q D d Wq Wd t =1 (3.14) (3.15) đó: Wd độ dài Euclide – trọng số – tài liệu d; Wq trọng số truy vấn Có thể sử dụng luật với phương pháp lấy trọng số thuật ngữ mô tả Chẳng hạn, giả sử biến thể mơ tả phương trình (3.9) sử dụng Sau đó, tính độ tương tự mơ tả (3.18): cos(Q, D d ) = W d Wq ⎛ N⎞ (1 + log e f d , t ) ⋅ log e ⎜1 + ⎟ ⎜ f ⎟ t∈Q ∩ D d t ⎠ ⎝ ∑ 3.4 ĐÁNH GIÁ HIỆU SUẤT TÌM KIẾM 3.4.1 Độ xác độ phục hồi Đánh giá hiệu suất tìm kiếm dựa vào hai tham số sau [45], [82], [83], [86], [122], [145], [159] 17 Độ xác (precision) P phương pháp xếp hạng điểm cắt r phần số tài liệu xếp hạng cao r có liên quan đến truy vấn: P= so tai lieu tim kiem duoc co lien quan tong so tai lieu tim kiem duoc (3.19) Độ phục hồi (recall) R phương pháp giá trị r tỷ lệ tổng số tài liệu có liên quan tìm kiếm r cao nhất: so tai lieu tim kiem duoc co lien quan R= tong so tai lieu co lien quan (3.20) 3.4.2 Đường cong độ phục hồi-độ xác Do t hi hi eu s uat t i nh t oan 200 P 100 R R Đuong cong P-R doi voi hang P 200 R 100 P R Hình 3.1 – Đường cong P-R hạng bảng 3.2 3.5 ĐỘ ĐO COSIN Tác giả khảo sát độ đo cosin Rõ ràng, nhiều thông tin yêu cầu so với xử lý BQ thực định thông tin nên cấu trúc để làm cho xử lý xếp hạng có hiệu giới hạn thời gian nhớ yêu cầu Các kỹ thuật phát triển cho phép RQ đánh giá CSDL lớn dùng không nhiều không gian nhớ thời gian CPU so với yêu cầu đánh giá BQ 18 3.5.1 Tần suất bên tài liệu 3.5.2 Tính độ đo cosin Tác giả đánh giá độ đo cosin dùng luật lấy trọng số TFxIDF Chiến lược đơn giản đọc tài liệu CSDL, tính giá trị cosin cho trì danh sách xếp giá trị cosin r cao tìm tới chừng mực với văn tài liệu tương ứng 3.5.3 Bộ nhớ dành cho trọng số tài liệu 3.5.4 Sắp xếp Thành phần cuối trình xếp hạng xếp Kết luận chương Phân tích chi tiết mơ hình tìm kiếm thơng tin kinh điển dựa vào truy vấn Boole BQ sử dụng hầu hết hệ thư viện, nhược điểm truy vấn BQ Đề xuất mơ hình tìm kiếm văn dựa vào truy vấn xếp hạng RQ có đánh giá hiệu suất dựa vào độ xác P độ phục hồi R Khảo sát chi tiết độ đo cosin CHƯƠNG - GIẢI THUẬT XÂY DỰNG IFID 4.1 MỞ ĐẦU Tác giả khảo sát toán xây dựng mục tệp đảo IFID, dạng mục thiết thực hai truy vấn BQ RQ Bảng 4.1 - Ma trận tần suất văn bảng 2.2 Thuật ngữ inf ret sea ind bui index inv fil 1 1 1 1 1 1 19 Bảng 4.2 - Chuyển vị tương đương ma trận tần suất Tài liệu Số Thuật ngữ information retrieval searching indexing 1 building 1 index 1 inverted 1 file 1 4.2 GIẢI THUẬT ĐẢO DANH SÁCH MÓC NỐI Thực tế, tham khảo chéo tên khác mục đảo, thuật ngữ văn liệt kê theo thứ tự ABC, với danh sách số dòng xuất Thời gian đảo T là: T = Btr + Ftp + I(td + tr) (đọc phân tích cú pháp văn bản) (ghi IF nén) giây, ký hiệu định nghĩa bảng 4.3 Đối với CSDL cỡ GB, cách tiếp cận danh sách móc nối khơng thích hợp địi hỏi q nhiều nhớ q nhiều thời gian Tuy nhiên, phương pháp tốt CSDL nhỏ 4.3 GIẢI THUẬT ĐẢO DỰA VÀO SẮP XẾP Vấn đề với giải thuật thảo luận đòi hỏi nhiều nhớ sử dụng dãy truy cập liệu chủ yếu ngẫu nhiên, ngăn cản ánh xạ hiệu từ nhớ lên đĩa Sự truy cập phương thức xử lý hiệu tệp đĩa lớn tốc độ truyền thường cao tìm kiếm ngẫu nhiên thời gian Hơn nữa, sử dụng đĩa dường không 20 thể tránh lượng liệu xem xét vậy, giải thuật đảo nên thực xử lý tệp đĩa yêu cầu Sự xem xét dẫn đến giải thuật đảo dựa vào xếp [4], [10], [29], [81] Thời gian thực là: T = Btr + Ftp + 10ftr + (đọc phân tích cú pháp, ghi tệp) 20ftr + R(1.2k log k)tc + (sắp xếp chương trình) [log R] (20ftr + ftc)+ (trộn chương trình) 10ftr + I(td + tr) (ghi IF nén) Yêu cầu không gian đĩa khổng lồ, nghĩa phép đảo dựa vào xếp đơn giản giải thuật tốt CSDL trung bình cỡ khoảng 10÷100 MB, khơng phù hợp CSDL thực lớn cỡ GB 4.4 GIẢI THUẬT NÉN CHỈ MỤC TRỰC TIẾP 4.4.1 Giải thuật trộn nhiều đường Bây giờ, trình trộn hướng xử lý so với hướng đĩa giảm thời gian đạt cách sử dụng trộn nhiều đường, dẫn đến giải thuật trộn nhiều đường dựa vào xếp khảo sát Moffat Bell [108] Cách tiếp cận thực sâu Giả sử tất chương trình R ghi vào tệp tạm thời, thực trộn đơn R-đường Thời gian thực hiện: T = Btr + Ftp + (đọc phân tích cú pháp) R(1.2k log k)tc + I’(tr + td) + (sắp xếp, nén ghi) f [log R]tc + I’(ta/b + tr + td) + (trộn) I(tr + td) (nén lại) giây, b ≤ M/R kích thước đệm nhập cấp phát cho chương trình k, R I’ 21 4.4.2 Giải thuật trộn nhiều đường chỗ Trong phép trộn R-đường mô tả trên, bloc b B từ chương trình có nhớ, cung cấp dự tuyển vào heap Khi bắt đầu trộn, bloc từ chương trình đọc Mỗi ba cuối từ bloc riêng biệt đưa vào heap, bloc thay đọc Giả sử bloc cuối chương trình nhồi q xác dài b B Đệm làm tăng nhẹ kích thước tệp tạm thời nghĩa chương trình nén chiếm số bloc nguyên; nhận thấy ngay, điều cho phép tiết kiệm không gian đáng kể chỗ khác Thời gian thực là: T = Btr + Ftp + (đọc phân tích cú pháp) R(1.2k log k)tc + I’(tr + td) + (sắp xếp, nén ghi) f [ log R]tc + (I’ + I)( ts/b + tr + td) + (trộn mã hoá lại) 2I’( ts/b + tr) (hoán vị) giây, k = (M - L)/10, R = [f / k], b < M / (R + 1) I’ kích thước lớn IF, giả sử I’ = 1.35 I 4.5 GIẢI THUẬT ĐẢO NÉN BÊN TRONG BỘ NHỚ 4.5.1 Giải thuật đảo nhớ lớn Giả sử máy có nhớ lớn Nếu thuật ngữ t tần suất tài liệu ft biết rõ bắt đầu đảo, mảng bên nhớ lớn cấp phát xác kích thước thích hợp để lưu trữ danh sách số tài liệu d tần suất fd,t Thời gian đảo là: T = Btr + Ftp + (lượt thứ nhất, đọc phân tích cú pháp) Btr + Ftp + 2I’ td + I(tr + td) + (lượt thứ hai, đảo) 4.5.2 Giải thuật phân chia dựa vào từ vựng 22 Giống giải thuật đảo dựa vào xếp đơn giản, giải thuật “bộ nhớ lớn” thích hợp CSDL có kích thước trung bình Thời gian địi hỏi là: T = Btr + Ftp + (đọc phân tích cú pháp) l(Btr + Ftp) + 2I’td + I(tr + td) (xử lý tải) giây, l số tải I’ = 1.05I 4.5.3 Giải thuật phân chia dựa vào văn Cơ sở cho chia nhỏ công việc, giả sử văn tự phân chia từ vựng Thứ nhất, IF tạo chùm tài liệu ban đầu, sau đó, chùm tài liệu thứ hai v.v, trộn tất IF riêng phần thành IF cuối Tác giả nhận thấy trường hợp thực trộn chỗ có ứng dụng tương tự chiến lược trộn chỗ khác sử dụng Thời gian thực là: T = Btr + Ftp + (đọc phân tích cú pháp) Btr + Ftp + 3I’td + 2cI’(ts/b+ tr) (đảo chỗ) (I’ + I) (ts/b+ tr + td) (kết đặc) giây, c = I’/(M – L/3) số chùm văn bị cắt thành trước đây, I’≈1.05I b kích thước bloc phù hợp 4.6 SO SÁNH CÁC GIẢI THUẬT ĐẢO Các giải thuật xử lý tốt với CSDL lớn giải thuật dựa vào xếp, nhiều đường, trộn, chỗ mục 4.4.2 giải thuật phân chia dựa vào văn mục 4.5.3 4.7 CƠ SỞ DỮ LIỆU ĐỘNG Ở trên, tác giả khảo sát giải thuật mục với giả thiết CSDL tĩnh Tuy nhiên, CSDL thực tĩnh Vì vậy, tốn CSDL động khơng thể bị bỏ qua Một 23 CSDL động theo hai cách: mở rộng văn mở rộng mục Kết luận chương Phân tích chi tiết giải thuật kinh điển: giải thuật đảo danh sách móc nối giải thuật đảo dựa vào xếp, từ hạn chế chúng thích hợp với CSDL tài liệu văn cỡ nhỏ vừa Đề xuất hai giải thuật trộn nhiều đường chỗ dựa vào xếp giải thuật phân chia dựa vào văn So sánh giải thuật đảo, từ rút kết luận hai giải thuật trộn nhiều đường chỗ dựa vào xếp giải thuật phân chia dựa vào văn phù hợp với CSDL tài liệu văn cỡ lớn thư viện số Khảo sát toán CSDL động theo hai cách: mở rộng văn mở rộng mục KẾT LUẬN Các kết luận rút từ luận án bao gồm: Luận án đề xuất mơ hình hình thức cho thư viện số dựa vào đại số đại: Một thư viện số bốn (R, MC, DV, XH) , đó: R kho; MC mục lục siêu liệu; DV tập dịch vụ chứa tối thiểu dịch vụ mục, tìm kiếm duyệt; XH cộng đồng NSD thư viện số Luận án phân tích chi tiết phương pháp mục tài liệu văn thư viện số: phương pháp mục tệp đảo IFID phương pháp mục ký số SFID, so sánh hai phương 24 pháp mục, rút quy luật mục tài liệu thư viện số là: Ở hầu hết ứng dụng, IF thực tốt SF phạm vi hai kích thước mục tốc độ truy vấn IF nén chắn phương pháp mục hữu ích CSDL lớn tài liệu văn có độ dài thay đổi Luận án phân tích mơ hình nén tồn cục mơ hình nén cục hyperbol, từ đó, đề xuất mơ hình nén cục Bernoulli nén nội suy IFID dựa vào phương pháp xác suất thống kê tốn học, phương pháp mã hóa, phương pháp nén liệu Luận án phân tích chi tiết mơ hình tìm kiếm thơng tin kinh điển dựa vào truy vấn Boole BQ sử dụng hầu hết hệ thư viện, nhược điểm truy vấn BQ Từ đó, luận án đề xuất mơ hình tìm kiếm văn dựa vào truy vấn xếp hạng RQ có đánh giá hiệu suất dựa vào độ xác P độ phục hồi R Luận án phân tích chi tiết giải thuật kinh điển: giải thuật đảo danh sách móc nối giải thuật đảo dựa vào xếp, hạn chế chúng thích hợp với CSDL tài liệu văn cỡ nhỏ vừa Từ đó, luận án đề xuất hai giải thuật trộn nhiều đường chỗ dựa vào xếp giải thuật phân chia dựa vào văn phù hợp với CSDL tài liệu văn cỡ lớn thư viện số Các định hướng nghiên cứu Tác giả dự định nghiên cứu tương lai: Nghiên cứu phương pháp mục tìm kiếm ảnh; Nghiên cứu phương pháp mục tìm kiếm video; Nghiên cứu tốn tóm tắt trích rút tài liệu văn thư viện số ... tin văn ứng dụng thư viện số ♦ Các phương pháp nghiên cứu: Hệ sở liệu Multimedia; phương pháp mục; phương pháp mã hoá; phương pháp nén liệu; phương pháp tìm kiếm thơng tin; phương pháp xác suất... tài liệu văn cỡ lớn thư viện số Các định hướng nghiên cứu Tác giả dự định nghiên cứu tương lai: Nghiên cứu phương pháp mục tìm kiếm ảnh; Nghiên cứu phương pháp mục tìm kiếm video; Nghiên cứu tốn... thư viện số (DL), diễn theo cách mạng phần cứng máy tính cá nhân Hiện nay, DL hướng nghiên cứu cơng nghệ thơng tin giới ♦ Nhiệm vụ luận án: Nghiên cứu phương pháp số hố tìm kiếm thơng tin văn ứng