1. Trang chủ
  2. » Thể loại khác

NGHIÊN CỨU CÁC PHƯƠNG PHÁP CHỈ SỐ HOÁ VÀ TÌM KIẾM THÔNG TIN VĂN BẢN ỨNG DỤNG TRONG THƯ VIỆN SỐ

29 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 709,5 KB

Nội dung

UEH Digital Repository Other | University level 2006 NGHIÊN CỨU CÁC PHƯƠNG PHÁP CHỈ SỐ HỐ VÀ TÌM KIẾM THƠNG TIN VĂN BẢN ỨNG DỤNG TRONG THƯ VIỆN SỐ Lưu, Thị Thúy Liên Đỗ, Quang Vinh UEH University Citation: Lưu, Thị Thúy L and Đỗ, Quang V.(2006), "NGHIÊN CỨU CÁC PHƯƠNG PHÁP CHỈ SỐ HỐ VÀ TÌM KIẾM THƠNG TIN VĂN BẢN ỨNG DỤNG TRONG THƯ VIỆN SỐ ", Other, UEH University Available at https://digital.lib.ueh.edu.vn/handle/11461/851 This item is protected by copyright and made available here for research and educational purposes The author(s) retains copyright ownership of this item Permission to reuse, publish, or reproduce the object beyond the bounds of Vietnam Law No 36/2009/QH12 on Intellectual Property (Article 25, Sec.1, Chapter 2) or other exemptions to the law must be obtained from the author(s) BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐỖ QUANG VINH NGHIÊN CỨU CÁC PHƯƠNG PHÁP CHỈ SỐ HOÁ VÀ TÌM KIẾM THƠNG TIN VĂN BẢN ỨNG DỤNG TRONG THƯ VIỆN SỐ Chuyên ngành: Đảm bảo toán học cho máy tính hệ thống tính tốn Mã số: 1.01.10 TĨM TẮT LUẬN ÁN TIẾN SỸ TOÁN HỌC HÀ NỘI - 2006 Cơng trình hồn thành tại: Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: 1.TS QUÁCH TUẤN NGỌC PGS PHƯƠNG XUÂN NHÀN Phản biện 1: PGS.TS HỒ THUẦN Viện Công nghệ Thông tin Phản biện 2: PGS.TS ĐỖ TRUNG TUẤN Đại học Quốc gia Hà Nội Phản biện 3: TSKH NGUYỄN MINH HẢI Học viện Cơng nghệ Bưu Viễn thơng Luận án bảo vệ trước Hội đồng chấm luận án cấp nhà nước họp tại: Trường Đại học Bách khoa Hà Nội vào hồi ngày tháng năm 2006 Có thể tìm hiểu luận án thư viện: Thư viện Quốc gia Việt Nam Thư viện Trường Đại học Bách khoa Hà Nội MỞ ĐẦU NHIỆM VỤ VÀ PHƯƠNG PHÁP NGHIÊN CỨU ♦ Tính cấp thiết, ý nghĩa lý thuyết thực tiễn đề tài Ngày nay, World Wide Web xâm nhập vào sống hàng ngày, đồng thời, qua số năm giao diện cho Web tiến triển từ duyệt đến tìm kiếm Hàng triệu người giới thực tìm kiếm Web hàng ngày, cơng nghệ tìm kiếm sở liệu tài liệu lớn thay đổi từ năm 1980 Sự nhận thức chung Net tạo cách mạng cơng nghệ tìm kiếm thông tin thư viện số (DL), diễn theo cách mạng phần cứng máy tính cá nhân Hiện nay, DL hướng nghiên cứu cơng nghệ thơng tin giới ♦ Nhiệm vụ luận án: Nghiên cứu phương pháp số hố tìm kiếm thơng tin văn ứng dụng thư viện số ♦ Các phương pháp nghiên cứu: Hệ sở liệu Multimedia; phương pháp mục; phương pháp mã hoá; phương pháp nén liệu; phương pháp tìm kiếm thông tin; phương pháp xác suất thống kê toán học CẤU TRÚC LUẬN ÁN Phần mở đầu: trình bày nhiệm vụ, đối tượng, phương pháp nghiên cứu tóm tắt đóng góp luận án Chương trình bày tổng quan thư viện số, đề xuất mơ hình hình thức cho thư viện số dựa vào đại số đại Chương trình bày hai phương pháp mục tài liệu văn thư viện số, phân tích chi tiết phương pháp mục tệp đảo IFID, mơ hình nén tồn cục mơ hình nén cục hyperbol IFID, đề xuất mơ hình nén cục Bernoulli nén nội suy IFID Chương trình bày mơ hình tìm kiếm thơng tin kinh điển: mơ hình truy vấn Boole BQ, đề xuất mơ hình truy vấn xếp hạng tài liệu RQ thư viện số, đánh giá hiệu suất tìm kiếm dựa vào hai tham số: độ xác P độ phục hồi R Chương trình bày giải thuật kinh điển: đảo dựa vào nhớ, đảo dựa vào xếp, đề xuất giải thuật trộn nhiều đường chỗ dựa vào xếp giải thuật phân chia dựa vào văn bản, so sánh giải thuật đảo, trình bày tốn mục CSDL động Phần kết luận: trình bày kết luận luận án hướng nghiên cứu CHƯƠNG - TỔNG QUAN VỀ THƯ VIỆN SỐ 1.1 MỞ ĐẦU Định nghĩa 1.1 (Arms W.Y.) [31]: Thư viện số kho thơng tin có tổ chức với dịch vụ liên kết, thơng tin lưu trữ dạng số truy cập qua mạng Định nghĩa 1.2 (Chen H., Houston A.L.) [43]: Thư viện số thực thể liên quan tới tạo nguồn tin hoạt động thơng tin qua mạng tồn cầu DL kho thơng tin số có tổ chức Định nghĩa 1.3 (Reddy R., Wladawsky-Berger I.) [121]: Thư viện số kho liệu mạng tài liệu văn số, ảnh, âm thanh, liệu khoa học phần mềm lõi Internet kho liệu số truy cập phổ biến tất tri thức loài người tương lai Định nghĩa 1.4 (Sun Microsystems) [135]: Thư viện số mở rộng điện tử chức điển hình NSD thực tài nguyên NSD truy cập thư viện truyền thống Các tài nguyên thông tin chuyển thành dạng số, lưu trữ kho multimedia làm cho sẵn có thơng qua dịch vụ Web Định nghĩa 1.5 (Witten I.H., Bainbridge D.) [154]: Thư viện số kho đối tượng số, bao gồm văn bản, video audio với phương pháp truy cập tìm kiếm, lựa chọn, tổ chức bảo trì Tóm lại, thư viện số kho thông tin số khổng lồ có tổ chức với dịch vụ liên kết qua mạng 1.2 CÁC KHÁI NIỆM CƠ BẢN Tác giả trình bày khái niệm DL: Cơ sở liệu tài liệu, máy tính mạng 1.3 NGHIÊN CỨU TIN HỌC TRONG THƯ VIỆN SỐ Tác giả trình bày chủ đề nghiên cứu tin học DL: Mơ hình đối tượng, giao diện người sử dụng, tìm kiếm thơng tin, quản trị bảo trì CSDL, tính liên tác 1.4 MƠ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ 1.4.1 Cơ sở toán học Tác giả xét sở toán học cần thiết để phát triển mơ hình hình thức cho DL Các khái niệm bao gồm tập hợp, quan hệ, hàm, dãy, bộ, xâu, đồ thị văn phạm [1], [3], [4], [7], [8], [9], [13], [144], [147], [150] 1.4.2 Dòng Định nghĩa 1.14: Một dịng dãy có miền giá trị tập không rỗng 1.4.3 Cấu trúc Định nghĩa 1.15: Một cấu trúc (G,L,F), G=(V,E) dồ thị có hướng với tập đỉnh V tập cạnh E, L tập giá trị nhãn F hàm gán nhãn F:(V∪E)→L 1.4.4 Không gian Định nghĩa 1.23: Một không gian không gian đo được, không gian độ đo, không gian xác suất, không gian vectơ không gian topo 1.4.5 Kịch Định nghĩa 1.26: Một kịch dãy kiện chuyển trạng thái liên quan (e1, e2, , en) tập trạng thái S cho ek = (sk, sk+1) ≤ k ≤ n 1.4.6 Cộng đồng Định nghĩa 1.29: Một cộng đồng (C, R), đó: C = {c1 , c2, , cn} tập cộng đồng khái niệm, cộng đồng quy tập cá thể có lớp kiểu; R = {r1 , r2, , rn} tập quan hệ, quan hệ rj = (ej, ij) ej tích Đề ck1 x ck2 x x ckn , ≤ k1 < k2 < < knj ≤ n, định rõ cộng đồng bị dính j vào quan hệ ij hoạt động (xem định nghĩa 1.26) mô tả tương tác truyền thơng cá thể 1.4.7 Định nghĩa hình thức thư viện số Ở đây, tác giả tiếp cận toán cách định nghĩa thư viện số “tối thiểu”, nghĩa là, tập tối thiểu thành phần tạo nên thư viện số Định nghĩa 1.35: Cho C CSDL với điều khiển H Một mục lục siêu liệu MC C tập cặp {(h, {mc1, mc2, , mckn})}, h ∈ H mci siêu liệu mô tả Định nghĩa 1.36: Cho C CSDL với điều khiển H Một kho (R, gt, st, dl), R ⊂ 2C họ CSDL (bao gồm C ) hàm gt, sto dl thỏa mãn: gt:H→C ánh xạ điều khiển h đến đối tượng số gt(h) sto:CxR→R ánh xạ (do, C ) đến CSDL mở rộng {do}∪ C dl:HxR→R ánh xạ (h, C ) đến CSDL nhỏ C -{gt(h)} Định nghĩa 1.37: Một mục I : T → 2H hàm, T khơng gian mục tập thuật ngữ mục H tập điều khiển Một dịch vụ mục cài đặt mục Định nghĩa 1.38: Cho Q tập nhu cầu thông tin NSD, thường gọi truy vấn Cho MI : Q x C → R hàm so khớp, định nghĩa mục I, liên kết số thực với truy vấn q ∈ Q đối tượng số ∈ C, thị đại diện truy vấn so khớp với đối tượng số tốt nào, hai theo cấu trúc nội dung Một dịch vụ tìm kiếm tập kịch tìm kiếm {sc1, sc2, , sct}, truy vấn q ∈ Q có kịch tìm kiếm sck = cho e0 kiện bắt đầu gây truy vấn q kiện en kiện cuối trả lại giá trị hàm so khớp MI(q, d) d ∈ C Định nghĩa 1.40: Một dịch vụ duyệt tập kịch {sc1, , scn} siêu văn (nghĩa kiện định nghĩa cạnh đồ thị siêu văn (VH,EH)), cho kiện liên kết duyệt ei liên kết với hàm TL : VH x EH → ND, cho trước nút liên kết tìm kiếm nội dung nút đích, nghĩa là, TL(vk,eki)=P(vt) eki=(vk,vt)∈EH Định nghĩa 1.41: Một thư viện số bốn (R, MC, DV, XH) , đó: R kho; MC mục lục siêu liệu; DV tập dịch vụ chứa tối thiểu dịch vụ mục, tìm kiếm duyệt; XH cộng đồng NSD thư viện số Kết luận chương Trình bày tổng quan DL định nghĩa khơng hình thức DL tác giả khác giới Đề xuất mơ hình hình thức cho DL dựa vào đại số đại: thư viện số bốn (R, MC, DV, XH) CHƯƠNG - CHỈ MỤC TÀI LIỆU VĂN BẢN 2.1 MỞ ĐẦU Đối với DL, nói liệu lớn, hàng triệu trang văn có cấu trúc Nếu khơng có mục có sẵn, xác đầy đủ, việc tìm kiếm thơng tin thất bại Tác giả thử nghiệm CSDL TREC (Text REtrieval Conference) Đây CSDL tài liệu lớn, có tổng cộng 2070.29 MB văn 741856 tài liệu 2.2 CHỈ MỤC TỆP ĐẢO IFID Định nghĩa 2.2 (Đỗ Trung Tuấn [17]): Chỉ mục/Chỉ số bảng liệu hay cấu trúc liệu dùng để xác định vị trí dịng tệp theo điều kiện Định nghĩa 2.3 (Folk M.J., Zoellick B., Riccardi G [6]): Chỉ mục cách tìm kiếm thơng tin Định nghĩa 2.4: Chỉ mục chế nhằm định vị thuật ngữ cho trước văn [22] Ở ứng dụng văn bản, cấu trúc phù hợp đơn giản tệp đảo (IF)/ tệp mục lục Định nghĩa 2.5 (chỉ mục tệp đảo IFID): Đối với thuật ngữ từ điển, IF chứa danh sách đảo (IL) lưu trữ danh sách trỏ tới tất xuất thuật ngữ văn chính, trỏ thực tế số tài liệu mà thuật ngữ xuất IL đơi coi danh sách mục lục trỏ mục lục Bảng 2.2 - Văn mẫu; dòng tài liệu TÀI VĂN BẢN LIỆU Information retrieval is searching and indexing Indexing is building an index An inverted file is an index Building an inverted file is indexing Bảng 2.3 - IF văn bảng 2.2 Số Thuật ngữ IL(tài liệu; vị trí) an (2;4), (3;1), (3;5), (4;2) and (1;5) building (2;3), (4;1) file (3;3), (4;4) index (2;5), (3;6) indexing (1;6), (2;1), (4;6) information (1;1) inverted (3;2), (4;3) is (1;3), (2;2), (3;4), (4;5) 10 retrieval (1;2) 11 searching (1;4) 2.3 CHỈ MỤC TỆP KÝ SỐ SFID SFID phương pháp mục khác 14 3.2 TRUY VẤN BOOLE Kiểu truy vấn đơn giản BQ, thuật ngữ tổ hợp với phép toán AND, OR NOT [31], [45], [48], [74], [82], [83], [86], [102], [126], [130], [145], [154], [159] Quá trình truy vấn dùng IFID tương đối trực tiếp Từ vựng tìm kiếm thuật ngữ; IL tìm kiếm giải mã; danh sách trộn, lấy giao, hợp bù thích hợp Cuối cùng, tài liệu mục tìm kiếm hiển thị với NSD danh sách câu trả lời 3.2.1 Truy vấn BQ hội Tác giả khảo sát chi tiết trình BQ hội Giả sử truy vấn phép hội, bao gồm thuật ngữ kết nối với phép toán AND sau: t1 AND t2 AND AND tr BQ hội có r thuật ngữ xử lý 3.2.2 Truy vấn BQ không hội Cho đến nay, tác giả xét kiểu BQ hội Dạng phổ biến khác phép hội phép tuyển, số lựa chọn định rõ thành phần BQ hội: (text OR data OR information) AND (search OR seek) AND (retrieval OR indexing) 3.3 TRUY VẤN XẾP HẠNG RQ Cho đến nay, hầu hết hệ thống tìm kiếm thơng tin IR có thư viện sử dụng truy vấn Boole BQ, xử lý không xác truy vấn Boole khơng hội, phức tạp BQ khơng phải phương pháp tìm kiếm thơng tin Nếu tập tài liệu xác tìm kiếm biết trước BQ chắn thích hợp, ngun nhân BQ thành cơng hệ 15 thống tìm kiếm thư mục Tuy nhiên, u cầu thơng tin thường biết xác Vì vậy, đơi hữu ích có khả định rõ danh sách thuật ngữ thị tốt tài liệu có liên quan, dù chúng khơng cần tất có mặt tìm kiếm tài liệu Ở đây, tác giả nghiên cứu gán độ tương tự cho tài liệu theo cách đòi hỏi phải so khớp sát truy vấn 3.3.1 So khớp toạ độ Một cách đưa tính linh động so với câu trả lời cóhoặc-khơng nhị phân đơn giản đếm số thuật ngữ truy vấn xuất tài liệu Càng nhiều thuật ngữ xuất hơn, có nhiều khả tài liệu có liên quan Cách tiếp cận gọi so khớp toạ độ Truy vấn thành truy vấn lai, trung gian truy vấn hội AND truy vấn tuyển OR: tài liệu chứa số thuật ngữ xem câu trả lời tiềm năng, ưu tiên cho tài liệu chứa tất hầu hết chúng Tất thông tin cần thiết nằm IF cài đặt tương đối dễ 3.3.2 Tích độ tương tự Q trình hình thức hố tích vectơ truy vấn với tập vectơ tài liệu Độ tương tự truy vấn Q với tài liệu Dd biểu diễn sau: S(Q, Dd) = Q Dd phép tốn phép tích (3.1) Bảng 3.1 – Các vectơ tính tốn tích trong: (a) d (a) Vectơ tài liệu; (b) Vectơ truy vấn Vectơ tài liệu Wd,t inf ret sea indexing bui index 1 1 0 0 1 inv 0 file 0 16 (b) 0 0 0 1 1 1 searching 0 0 0 indexing 0 0 0 Bài tốn thứ giải cách thay đánh giá “có” “khơng” nhị phân số nguyên thị thuật ngữ xuất lần tài liệu Số đếm xuất gọi tần suất bên tài liệu thuật ngữ fd,t Tổng quát hơn, thuật ngữ t tài liệu d gán trọng số tài liệu-thuật ngữ, ký hiệu wd,t trọng số khác wq,t vectơ truy vấn Độ tương tự tích hai trọng số wd,t wq,t – lấy tổng tích trọng số thuật ngữ truy vấn thuật ngữ tài liệu tương ứng: n S(Q, D d ) = Q D d = ∑ w q , t ⋅ w d , t (3.3) t =1 Bài toán thứ hai khơng nhấn mạnh đến thuật ngữ khó tìm Thực vậy, tài liệu với đủ lần xuất thuật ngữ phổ biến xếp hạng truy vấn chứa thuật ngữ đó, khơng kể từ khác Điều thực cách lấy trọng số thuật ngữ tuân theo tần suất tài liệu đảo (IDF) Giả thiết quán với quan sát Zipf [82], [83] Zipf quan sát tần suất mục có xu hướng tỉ lệ nghịch với hạng Tức là, hạng coi độ đo tầm quan trọng trọng số wt thuật ngữ t tính sau: wt = ft đó: ft số tài liệu chứa thuật ngữ t (3.5) 17 Sau đó, vectơ tài liệu tính sau: wd,t = rd,t (3.8) wd,t = rd,t wt (TF x IDF) Phương pháp sau nhằm gán trọng số tài liệu-thuật ngữ gọi luật TF x IDF: tần suất thuật ngữ nhân tần suất tài liệu đảo Các trọng số truy vấn-thuật ngữ wq,t tính tương tự Giả sử tài liệu vectơ truy vấn mô tả wt = loge(1 + N / ft) rd,t = + logefd,t wd,t = rd,t rq,t = (3.9) wq,t = rq,t wt Vì vậy, người ta thường dựa vào nhân tử chuẩn hố để khơng kể đến phần đóng góp tài liệu dài Do đó, biến thể khác luật tích đánh giá độ tương tự S(Q, D d ) = ∑ t∈Q w q,t ⋅ w d,t Dd (3.10) D d = ∑ i f d, i độ dài tài liệu Dd nhận cách đếm số thuật ngữ mục 3.3.3 Mơ hình khơng gian vectơ Bất kỳ trọng số thuật ngữ wt tần suất thuật ngữ tương đối rd,t tài liệu rq,t gán số tài liệu-thuật ngữ wd,t trọng số truy vấn-thuật ngữ wq,t phát sinh gán này, kết giống – tài liệu biễu diễn vectơ không gian n-chiều truy vấn biễu diễn vectơ n-chiều Độ tương tự cặp vectơ khoảng cách Euclide: S(Q, D d ) = n ∑ w q, t − w d, t t =1 (3.11) 18 Điều thực quan tâm hướng thị hai vectơ xác khác hướng, khơng kể độ dài Góc θ tính từ X ⋅Y cos θ = X Y Luật cosin xếp hạng: cos(Q, D d ) = n Q ⋅ Dd ∑ w q,t ⋅ w d,t = Q D d Wq Wd t =1 (3.14) (3.15) đó: Wd độ dài Euclide – trọng số – tài liệu d; Wq trọng số truy vấn Có thể sử dụng luật với phương pháp lấy trọng số thuật ngữ mô tả Chẳng hạn, giả sử biến thể mơ tả phương trình (3.9) sử dụng Sau đó, tính độ tương tự mơ tả (3.18): cos(Q, D d ) = W d Wq ⎛ N⎞ (1 + log e f d , t ) ⋅ log e ⎜⎜1 + ⎟⎟ t∈Q ∩ D d ⎝ ft ⎠ ∑ 3.4 ĐÁNH GIÁ HIỆU SUẤT TÌM KIẾM 3.4.1 Độ xác độ phục hồi Đánh giá hiệu suất tìm kiếm dựa vào hai tham số sau [45], [82], [83], [86], [122], [145], [159] Độ xác (precision) P phương pháp xếp hạng điểm cắt r phần số tài liệu xếp hạng cao r có liên quan đến truy vấn: P= so tai lieu tim kiem duoc co lien quan tong so tai lieu tim kiem duoc (3.19) 19 Độ phục hồi (recall) R phương pháp giá trị r tỷ lệ tổng số tài liệu có liên quan tìm kiếm r cao nhất: so tai lieu tim kiem duoc co lien quan R= tong so tai lieu co lien quan (3.20) 3.4.2 Đường cong độ phục hồi-độ xác Do t hi hi eu s uat t i nh t oan 200 P 100 R R Đuong cong P-R doi voi hang P 200 R 100 P R Hình 3.1 – Đường cong P-R hạng bảng 3.2 3.5 ĐỘ ĐO COSIN Tác giả khảo sát độ đo cosin Rõ ràng, nhiều thông tin yêu cầu so với xử lý BQ thực định thông tin nên cấu trúc để làm cho xử lý xếp hạng có hiệu giới hạn thời gian nhớ yêu cầu Các kỹ thuật phát triển cho phép RQ đánh giá CSDL lớn dùng không nhiều không gian nhớ thời gian CPU so với yêu cầu đánh giá BQ 3.5.1 Tần suất bên tài liệu 3.5.2 Tính độ đo cosin Tác giả đánh giá độ đo cosin dùng luật lấy trọng số TFxIDF Chiến lược đơn giản đọc tài liệu CSDL, tính giá trị cosin cho trì danh sách 20 xếp giá trị cosin r cao tìm tới chừng mực với văn tài liệu tương ứng 3.5.3 Bộ nhớ dành cho trọng số tài liệu 3.5.4 Sắp xếp Thành phần cuối trình xếp hạng xếp Kết luận chương Phân tích chi tiết mơ hình tìm kiếm thơng tin kinh điển dựa vào truy vấn Boole BQ sử dụng hầu hết hệ thư viện, nhược điểm truy vấn BQ Đề xuất mơ hình tìm kiếm văn dựa vào truy vấn xếp hạng RQ có đánh giá hiệu suất dựa vào độ xác P độ phục hồi R Khảo sát chi tiết độ đo cosin CHƯƠNG - GIẢI THUẬT XÂY DỰNG IFID 4.1 MỞ ĐẦU Tác giả khảo sát toán xây dựng mục tệp đảo IFID, dạng mục thiết thực hai truy vấn BQ RQ Bảng 4.1 - Ma trận tần suất văn bảng 2.2 Thuật ngữ inf ret sea ind bui index inv fil 1 1 1 1 1 1 Bảng 4.2 - Chuyển vị tương đương ma trận tần suất Tài liệu Số Thuật ngữ information retrieval searching indexing 1 21 building 1 index 1 inverted 1 file 1 4.2 GIẢI THUẬT ĐẢO DANH SÁCH MÓC NỐI Thực tế, tham khảo chéo tên khác mục đảo, thuật ngữ văn liệt kê theo thứ tự ABC, với danh sách số dịng xuất Thời gian đảo T là: T = Btr + Ftp + I(td + tr) (đọc phân tích cú pháp văn bản) (ghi IF nén) giây, ký hiệu định nghĩa bảng 4.3 Đối với CSDL cỡ GB, cách tiếp cận danh sách móc nối khơng thích hợp địi hỏi q nhiều nhớ nhiều thời gian Tuy nhiên, phương pháp tốt CSDL nhỏ 4.3 GIẢI THUẬT ĐẢO DỰA VÀO SẮP XẾP Vấn đề với giải thuật thảo luận đòi hỏi nhiều nhớ sử dụng dãy truy cập liệu chủ yếu ngẫu nhiên, ngăn cản ánh xạ hiệu từ nhớ lên đĩa Sự truy cập phương thức xử lý hiệu tệp đĩa lớn tốc độ truyền thường cao tìm kiếm ngẫu nhiên thời gian Hơn nữa, sử dụng đĩa dường tránh lượng liệu xem xét vậy, giải thuật đảo nên thực xử lý tệp đĩa yêu cầu Sự xem xét dẫn đến giải thuật đảo dựa vào xếp [4], [10], [29], [81] Thời gian thực là: T = Btr + Ftp + 10ftr + (đọc phân tích cú pháp, ghi tệp) 20ftr + R(1.2k log k)tc + (sắp xếp chương trình) 22 [log R] (20ftr + ftc)+ (trộn chương trình) 10ftr + I(td + tr) (ghi IF nén) Yêu cầu không gian đĩa khổng lồ, nghĩa phép đảo dựa vào xếp đơn giản giải thuật tốt CSDL trung bình cỡ khoảng 10÷100 MB, khơng phù hợp CSDL thực lớn cỡ GB 4.4 GIẢI THUẬT NÉN CHỈ MỤC TRỰC TIẾP 4.4.1 Giải thuật trộn nhiều đường Bây giờ, trình trộn hướng xử lý so với hướng đĩa giảm thời gian đạt cách sử dụng trộn nhiều đường, dẫn đến giải thuật trộn nhiều đường dựa vào xếp khảo sát Moffat Bell [108] Cách tiếp cận thực sâu Giả sử tất chương trình R ghi vào tệp tạm thời, thực trộn đơn R-đường Thời gian thực hiện: T = Btr + Ftp + (đọc phân tích cú pháp) R(1.2k log k)tc + I’(tr + td) + (sắp xếp, nén ghi) f [log R]tc + I’(ta/b + tr + td) + (trộn) I(tr + td) (nén lại) giây, b ≤ M/R kích thước đệm nhập cấp phát cho chương trình k, R I’ 4.4.2 Giải thuật trộn nhiều đường chỗ Trong phép trộn R-đường mô tả trên, bloc b B từ chương trình có nhớ, cung cấp dự tuyển vào heap Khi bắt đầu trộn, bloc từ chương trình đọc Mỗi ba cuối từ bloc riêng biệt đưa vào heap, bloc thay đọc Giả sử bloc cuối chương trình nhồi q xác dài b B Đệm làm tăng nhẹ kích thước tệp tạm 23 thời nghĩa chương trình nén chiếm số bloc nguyên; nhận thấy ngay, điều cho phép tiết kiệm không gian đáng kể chỗ khác Thời gian thực là: T = Btr + Ftp + (đọc phân tích cú pháp) R(1.2k log k)tc + I’(tr + td) + (sắp xếp, nén ghi) f [ log R]tc + (I’ + I)( ts/b + tr + td) + (trộn mã hoá lại) 2I’( ts/b + tr) (hốn vị) giây, k = (M - L)/10, R = [f / k], b < M / (R + 1) I’ kích thước lớn IF, giả sử I’ = 1.35 I 4.5 GIẢI THUẬT ĐẢO NÉN BÊN TRONG BỘ NHỚ 4.5.1 Giải thuật đảo nhớ lớn Giả sử máy có nhớ lớn Nếu thuật ngữ t tần suất tài liệu ft biết rõ bắt đầu đảo, mảng bên nhớ lớn cấp phát xác kích thước thích hợp để lưu trữ danh sách số tài liệu d tần suất fd,t Thời gian đảo là: T = Btr + Ftp + (lượt thứ nhất, đọc phân tích cú pháp) Btr + Ftp + 2I’ td + I(tr + td) + (lượt thứ hai, đảo) 4.5.2 Giải thuật phân chia dựa vào từ vựng Giống giải thuật đảo dựa vào xếp đơn giản, giải thuật “bộ nhớ lớn” thích hợp CSDL có kích thước trung bình Thời gian địi hỏi là: T = Btr + Ftp + (đọc phân tích cú pháp) l(Btr + Ftp) + 2I’td + I(tr + td) (xử lý tải) giây, l số tải I’ = 1.05I 4.5.3 Giải thuật phân chia dựa vào văn Cơ sở cho chia nhỏ công việc, giả sử văn tự phân chia từ vựng Thứ nhất, IF tạo 24 chùm tài liệu ban đầu, sau đó, chùm tài liệu thứ hai v.v, trộn tất IF riêng phần thành IF cuối Tác giả nhận thấy trường hợp thực trộn chỗ có ứng dụng tương tự chiến lược trộn chỗ khác sử dụng Thời gian thực là: T = Btr + Ftp + (đọc phân tích cú pháp) Btr + Ftp + 3I’td + 2cI’(ts/b+ tr) (đảo chỗ) (I’ + I) (ts/b+ tr + td) (kết đặc) giây, c = I’/(M – L/3) số chùm văn bị cắt thành trước đây, I’≈1.05I b kích thước bloc phù hợp 4.6 SO SÁNH CÁC GIẢI THUẬT ĐẢO Các giải thuật xử lý tốt với CSDL lớn giải thuật dựa vào xếp, nhiều đường, trộn, chỗ mục 4.4.2 giải thuật phân chia dựa vào văn mục 4.5.3 4.7 CƠ SỞ DỮ LIỆU ĐỘNG Ở trên, tác giả khảo sát giải thuật mục với giả thiết CSDL tĩnh Tuy nhiên, CSDL thực tĩnh Vì vậy, tốn CSDL động khơng thể bị bỏ qua Một CSDL động theo hai cách: mở rộng văn mở rộng mục Kết luận chương Phân tích chi tiết giải thuật kinh điển: giải thuật đảo danh sách móc nối giải thuật đảo dựa vào xếp, từ hạn chế chúng thích hợp với CSDL tài liệu văn cỡ nhỏ vừa Đề xuất hai giải thuật trộn nhiều đường chỗ dựa vào xếp giải thuật phân chia dựa vào văn So sánh giải thuật đảo, từ rút kết luận hai giải thuật trộn nhiều đường chỗ dựa vào xếp giải thuật 25 phân chia dựa vào văn phù hợp với CSDL tài liệu văn cỡ lớn thư viện số Khảo sát toán CSDL động theo hai cách: mở rộng văn mở rộng mục KẾT LUẬN Các kết luận rút từ luận án bao gồm: Luận án đề xuất mơ hình hình thức cho thư viện số dựa vào đại số đại: Một thư viện số bốn (R, MC, DV, XH) , đó: R kho; MC mục lục siêu liệu; DV tập dịch vụ chứa tối thiểu dịch vụ mục, tìm kiếm duyệt; XH cộng đồng NSD thư viện số Luận án phân tích chi tiết phương pháp mục tài liệu văn thư viện số: phương pháp mục tệp đảo IFID phương pháp mục ký số SFID, so sánh hai phương pháp mục, rút quy luật mục tài liệu thư viện số là: Ở hầu hết ứng dụng, IF thực tốt SF phạm vi hai kích thước mục tốc độ truy vấn IF nén chắn phương pháp mục hữu ích CSDL lớn tài liệu văn có độ dài thay đổi Luận án phân tích mơ hình nén tồn cục mơ hình nén cục hyperbol, từ đó, đề xuất mơ hình nén cục Bernoulli nén nội suy IFID dựa vào phương pháp xác suất thống kê tốn học, phương pháp mã hóa, phương pháp nén liệu Luận án phân tích chi tiết mơ hình tìm kiếm thơng tin kinh điển dựa vào truy vấn Boole BQ sử dụng 26 hầu hết hệ thư viện, nhược điểm truy vấn BQ Từ đó, luận án đề xuất mơ hình tìm kiếm văn dựa vào truy vấn xếp hạng RQ có đánh giá hiệu suất dựa vào độ xác P độ phục hồi R Luận án phân tích chi tiết giải thuật kinh điển: giải thuật đảo danh sách móc nối giải thuật đảo dựa vào xếp, hạn chế chúng thích hợp với CSDL tài liệu văn cỡ nhỏ vừa Từ đó, luận án đề xuất hai giải thuật trộn nhiều đường chỗ dựa vào xếp giải thuật phân chia dựa vào văn phù hợp với CSDL tài liệu văn cỡ lớn thư viện số Các định hướng nghiên cứu Tác giả dự định nghiên cứu tương lai: Nghiên cứu phương pháp mục tìm kiếm ảnh; Nghiên cứu phương pháp mục tìm kiếm video; Nghiên cứu tốn tóm tắt trích rút tài liệu văn thư viện số 27 DANH MỤC CƠNG TRÌNH Đỗ Quang Vinh, Qch Tuấn Ngọc (2001), “Một mơ hình liệu hướng đối tượng thời gian tài liệu cấu trúc”, Tạp chí Bưu viễn thơng & Cơng nghệ thông tin, 160(6), tr 29-32 Đỗ Quang Vinh (2005), “Mơ hình nén mục tệp đảo thư viện số”, Kỷ yếu Hội thảo Quốc gia số vấn đề chọn lọc công nghệ thông tin truyền thơng lần thứ VIII, Hải Phịng, tr 666-674 Đỗ Quang Vinh (2005), “Phương pháp mục tài liệu thư viện số”, Tạp chí Bưu viễn thơng & Công nghệ thông tin, 265, tr 40-47 Đỗ Quang Vinh (2005), “Tóm tắt trích rút tài liệu văn thư viện số”, Tạp chí Khoa học Công nghệ Viện Khoa học Công nghệ Việt Nam, tập 43, số 4, tr.6-14 Đỗ Quang Vinh (2006), “Một phương pháp tìm kiếm thơng tin dựa vào mã BCH thư viện số”, Tạp chí Khoa học Công nghệ - Viện Khoa học Công nghệ Việt Nam, tập 44, số 1, tr.11-18 Đỗ Quang Vinh (2006), “Truy vấn xếp hạng tài liệu văn thư viện số”, Kỷ yếu Hội thảo Quốc gia số vấn đề chọn lọc công nghệ thông tin truyền thông lần thứ IX, Đà Lạt 28 ... hàm gán nhãn F:(V∪E)→L 1.4.4 Không gian Định nghĩa 1.23: Một không gian không gian đo được, không gian độ đo, không gian xác suất, không gian vectơ không gian topo 1.4.5 Kịch Định nghĩa 1.26:... searching and indexing Indexing is building an index An inverted file is an index Building an inverted file is indexing Bảng 2.3 - IF văn bảng 2.2 Số Thuật ngữ IL(tài liệu; vị trí) an (2;4),... tiết trình BQ hội Giả sử truy vấn phép hội, bao gồm thuật ngữ kết nối với phép toán AND sau: t1 AND t2 AND AND tr BQ hội có r thuật ngữ xử lý 3.2.2 Truy vấn BQ không hội Cho đến nay, tác giả

Ngày đăng: 07/12/2022, 14:51

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w