Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 44 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
44
Dung lượng
324,5 KB
Nội dung
1 2 THƯVIỆNSỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008 3 Tính cấp thiết World Wide Web đã xâm nhập vào cuộc sống hàng ngày Giao diện cho Web tiến triển từ duyệt đến tìm kiếm DL là một trong những hướng nghiên cứu chính về công nghệ thông tin trên thế giới Tổng quan hoạt động nghiên cứu DL Sự bùng nổ về nghiên cứu DL, các dự án và chương trình DL ở Mỹ và trên thế giới Trọng tâm của các dự án DL Về công nghệ: các phương pháp và công nghệ mới về lưu trữ và tìm kiếm thông tin 4 (tiếp) Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL Hoạt động nghiên cứu DL ở Mỹ Có nhiều hoạt động và chương trình nghiên cứu DL đang được tiến hành ở Mỹ và số lượng tăng nhanh 2 dự án DL được tài trợ bởi chính phủ Mỹ là Dự án thưviệnsố - giai đoạn 2 (DLI-2) và Dự án thưviệnsố quốc tế Dự án thưviệnsố DLI: Dự án thưviện video số Informedia của Đại học Carnegie Mellon CMU 5 (tiếp) Dự án dịch vụ thông tin số của Đại học California ở Berkeley Dự án Alexandria của Đại học California ở Santa Barbara Dự án Interspace của Đại học Illinois ở Urbana- Champaign Dự án UMDL của Đại học Michigan Dự án InfoBus của Đại học Stanford Các dự án DL chủ yếu khác ở Mỹ: Thưviện quốc hội (Library of Congress) Dự án công nghệ thưviệnsố DLT của NASA Dự án FedStats của hơn 70 cơ quan chính phủ khác nhau của Mỹ 6 (tiếp) Dự án thưviệnsố của IBM Dự án thưviệnsố California CDL Chương trình thưviệnsố D-Lib của DARPA (the Defence Advanced Researh Project Agency) Dự án MOA của hai Đại học Cornel và Michigan Dự án Open Book của Đại học Yale Dự án hợp tác Red Sage của Đại học California ở San Francisco, Công ty AT&T Laboratories và Springer-Verlag Dự án TULIP của nhà xuất bản Elsevier Science Publisher 7 (tiếp) Hoạt động DL ở các nước khác: Tập trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tới các CSDL tài liệu về lịch sử, văn hoá và nghệ thuật: Canada, Anh, Pháp, Đức, Nhật, Hàn quốc, Singapore, Trung quốc, Hồng Kông, Đài loan, Australia, New Zealand 8 (tiếp) Việt Nam Nhu cầu nghiên cứu DL bắt đầu từ khi hoạch định chiến lược phát triển thông tin - thưviện cho đến năm 2010, 2020, trước xu thế của sự chuyển hướng toàn cầu sang xã hội thông tin Xây dựng DL lý tưởng, độc lập, với vốn tư liệu hoàn toàn số hoá, với toàn bộ dịch vụ chuyển sang phương thức điện tử, là không khả thi Xu hướng sẽ xuất hiện nhiều thưviện điện tử là kết quả của quá trình tin học hoá, là các cổng vào thông tin và là một bộ phận của các thưviện lớn truyền thống ở Việt Nam 9 (tiếp) Con đường mà đại bộ phận thưviện sẽ đi là: kết hợp các nguồn tin truyền thống với hiện đại, bổ sung thêm các tạp chí điện tử toàn văn trên CD- ROM, đặt mua các tạp chí điện tử toàn văn trên mạng, số hoá một phần vốn tư liệu, tự động hoá các dịch vụ và tạo điều kiện cho NSD chủ động khai thác thông tin Hiện nay, một số phần mềm được cài đặt: Giải pháp thưviện điện tử ILIB của công ty CMC ở Thưviện Quốc gia Việt Nam Giải pháp thưviện điện tử LIBOL của công ty Tinh vân ở Trung tâm Thông tin khoa học và công nghệ Quốc gia Hệ phần mềm thưviệnsố Greenstone của dự án New Zealand Digital Library ở thưviện Đại học Khoa học tự nhiên TP Hồ Chí Minh 10 I. TỔNG QUAN VỀ THƯVIỆNSỐ 1. ĐỊNH NGHĨA Định nghĩa 1.1 (Arms W.Y.): DL là một kho thông tin có quản lý với các dịch vụ liên kết, trong đó thông tin được lưu trữ ở dạng số và có thể truy cập qua một mạng. Định nghĩa 1.2 (Chen H., Houston A.L.): DL là một thực thể liên quan tới sự tạo ra các nguồn tin và sự hoạt động thông tin qua các mạng toàn cầu. Định nghĩa 1.3 (Reddy R., Wladawsky-Berger I.): DL là các kho dữ liệu mạng về tài liệu văn bản số, ảnh, âm thanh, dữ liệu khoa học và phần mềm là lõi của Internet hiện nay và các kho dữ liệu số có thể truy cập phổ biến về tất cả tri thức của loài người trong tương lai. [...]... dụ: S(indexing, D1) = (0, 0, 0, 1, 0, 0, 0, 0) (1, 1, 1, 1, 0, 0, 0, 0) = 1 Cách tiếp cận so khớp toạ độ có 3 hạn chế: 1 không tính đến tần suất thu t ngữ 2 không tính đến sự khó tìm thu t ngữ 3 các tài liệu dài với nhiều thu t ngữ Định nghĩa tần suất bên trong tài liệu của thu t ngữ fd,t : Số đếm chỉ thị số lần thu t ngữ xuất hiện trong tài liệu Ví dụ: Tính độ tương tự đối với truy vấn mẫu trở thành... điểm cắt nào đó r là một phần trong số tài liệu xếp hạng cao nhất r có liên quan đến truy vấn: P = so tai lieu tim kiem co lien quan tong so tai lieu tim kiem (3.19) Độ phục hồi R của một phương pháp tại giá trị r nào đó là tỷ lệ của tổng số tài liệu có liên quan được tìm kiếm trong r cao nhất: R = so tai lieu co lien quan duoc tim kiem tong so tai lieu co lien quan (3.20) 35 3 (tiếp) 3.4.2 Đường cong... Định nghĩa 2.4: Chỉ mục là một cơ chế nhằm định vị thu t ngữ cho trước trong văn bản Định nghĩa 2.5 (chỉ mục tệp đảo IFID): Đối với mỗi một thu t ngữ trong từ điển, một IF chứa một danh sách đảo (IL) lưu trữ một danh sách con trỏ tới tất cả xuất hiện của thu t ngữ đó trong văn bản chính, trong đó mỗi một con trỏ trong thực tế là số tài liệu mà thu t ngữ đó xuất hiện IL đôi khi được coi là một danh... 0, 0, 0, 0) =2 30 (tiếp) Tổng quát hơn, thu t ngữ t trong tài liệu d có thể được gán một trọng số tài liệu - thu t ngữ, ký hiệu là wd,t và trọng số khác wq,t trong vectơ truy vấn n S(Q, Dd) = Q Dd = ∑ w q, t ⋅ w d, t (3.3) t =1 Độ tương tự là tích trong của hai trọng số S(Q, Dd) = n a (3.4) Nếu hạng được coi là một độ đo tầm quan trọng thì trọng số wt của một thu t ngữ t được tính như sau: ∑ w q, t... liệu có một ký số liên kết, một xâu bit bắt nội dung tài liệu theo một nghĩa nào đó Tệp ký số bitslice: Sự truy cập SF có thể được tăng nhanh hơn bằng cách dùng kỹ thu t bitslicing, tức là kỹ thu t chuyển vị ma trận bit 23 (tiếp) 2.4 SO SÁNH CÁC PHƯƠNG PHÁP CHỈ MỤC Phương pháp chỉ mục tệp đảo IFID và chỉ mục tệp ký số SFID là hai phương pháp chỉ mục chính tài liệu trong thưviệnsố Quy luật chỉ... nghĩa 2.1 (từ để nhận dạng đối với chỉ mục): là một dãy cực đại của các ký tự chữ và số, nhưng giới hạn tối đa 256 ký tự và tối đa 4 ký tự số Bảng 2.1 - CSDL TREC Số tài liệu N 741856 Sốthu t ngữ F 333338738 Sốthu t ngữ riêng biệt n 535346 Số con trỏ chỉ mục f 134994414 Kích thước tổng (MB) 2070.29 18 (tiếp) 2.2 CHỈ MỤC TỆP ĐẢO IFID Định nghĩa 2.2 (Đỗ Trung Tuấn): Chỉ mục là bảng dữ liệu hay cấu... vấn BQ không hội Dạng phổ biến khác là một phép hội của các phép tuyển: (text OR data OR information) AND (search OR seek) AND (retrieval OR indexing) 28 (tiếp) 3.3 TRUY VẤN XẾP HẠNG RQ 3.3.1 So khớp toạ độ Đếm sốthu t ngữ truy vấn xuất hiện trong mỗi một tài liệu 3.3.2 Tích trong độ tương tự Quá trình được hình thức hoá bằng một tích trong của một vectơ truy vấn với một tập vectơ tài liệu Độ tương tự... Thông tin dễ dàng cập nhật hơn 5 Thông tin luôn sẵn có 6 Các dạng thông tin mới trở thành thực hiện được 7 Giá của DL 4 lĩnh vực kỹ thu t nổi bật đối với DL 1 Lưu trữ điện tử trở nên rẻ hơn giấy 2 Hiển thị máy tính cá nhân trở nên dùng thích hợp hơn 3 Mạng tốc độ cao trở nên phổ biến 4 Máy tính trở nên di động 12 (tiếp) NGHIÊN CỨU TIN HỌC TRONG DL 1 Mô hình đối tượng 2 Giao diện NSD 3 Chỉ mục và... bản của bảng 2.2 Thu t ngữ IL(tài liệu; vị trí) an (2;4), (3;1), (3;5), (4;2) and (1;5) building (2;3), (4;1) file (3;3), (4;4) index (2;5), (3;6) indexing (1;6), (2;1), (4;6) information (1;1) inverted (3;2), (4;3) is (1;3), (2;2), (3;4), (4;5) retrieval (1;2) searching (1;4) 21 (tiếp) Định nghĩa 2.6: Độ hạt (granularity) của một chỉ mục là tính chính xác để nhận dạng vị trí của thu t ngữ Bảng 2.4... 9 is 10 retrieval 11 searching 22 (tiếp) 2.3 CHỈ MỤC TỆP KÝ SỐ SFID Bảng 2.5 – Mã hoá chồng lên của tài liệu 2 đối với SF Thu t ngữ Ký sốthu t ngữ indexing 0001 0000 1100 0100 is 0100 0100 0001 0000 building 0101 0011 0000 0000 an 0000 0100 0100 1100 index 1100 1000 0010 0000 Ký số bloc 1101 1111 1111 1110 Tệp ký số SF: là một . trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tới các CSDL tài liệu về lịch sử, văn hoá và nghệ thu t: Canada, Anh, Pháp, Đức, Nhật, Hàn quốc,. lĩnh vực kỹ thu t nổi bật đối với DL 1. Lưu trữ điện tử trở nên rẻ hơn giấy 2. Hiển thị máy tính cá nhân trở nên dùng thích hợp hơn 3. Mạng tốc độ cao trở