BAO CAO THU VIEN SO

44 540 1
BAO CAO THU VIEN SO

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1   2 THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008 3  Tính cấp thiết  World Wide Web đã xâm nhập vào cuộc sống hàng ngày  Giao diện cho Web tiến triển từ duyệt đến tìm kiếm  DL là một trong những hướng nghiên cứu chính về công nghệ thông tin trên thế giới  Tổng quan hoạt động nghiên cứu DL  Sự bùng nổ về nghiên cứu DL, các dự án và chương trình DL ở Mỹ và trên thế giới  Trọng tâm của các dự án DL  Về công nghệ: các phương pháp và công nghệ mới về lưu trữ và tìm kiếm thông tin 4 (tiếp)  Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL  Hoạt động nghiên cứu DL ở Mỹ  Có nhiều hoạt động và chương trình nghiên cứu DL đang được tiến hành ở Mỹ và số lượng tăng nhanh  2 dự án DL được tài trợ bởi chính phủ Mỹ là Dự án thư viện số - giai đoạn 2 (DLI-2) và Dự án thư viện số quốc tế  Dự án thư viện số DLI:  Dự án thư viện video số Informedia của Đại học Carnegie Mellon CMU 5 (tiếp)  Dự án dịch vụ thông tin số của Đại học California ở Berkeley  Dự án Alexandria của Đại học California ở Santa Barbara  Dự án Interspace của Đại học Illinois ở Urbana- Champaign  Dự án UMDL của Đại học Michigan  Dự án InfoBus của Đại học Stanford  Các dự án DL chủ yếu khác ở Mỹ:  Thư viện quốc hội (Library of Congress)  Dự án công nghệ thư viện số DLT của NASA  Dự án FedStats của hơn 70 cơ quan chính phủ khác nhau của Mỹ 6 (tiếp)  Dự án thư viện số của IBM  Dự án thư viện số California CDL  Chương trình thư viện số D-Lib của DARPA (the Defence Advanced Researh Project Agency)  Dự án MOA của hai Đại học Cornel và Michigan  Dự án Open Book của Đại học Yale  Dự án hợp tác Red Sage của Đại học California ở San Francisco, Công ty AT&T Laboratories và Springer-Verlag  Dự án TULIP của nhà xuất bản Elsevier Science Publisher 7 (tiếp)  Hoạt động DL ở các nước khác: Tập trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tới các CSDL tài liệu về lịch sử, văn hoá và nghệ thuật: Canada, Anh, Pháp, Đức, Nhật, Hàn quốc, Singapore, Trung quốc, Hồng Kông, Đài loan, Australia, New Zealand 8 (tiếp)  Việt Nam  Nhu cầu nghiên cứu DL bắt đầu từ khi hoạch định chiến lược phát triển thông tin - thư viện cho đến năm 2010, 2020, trước xu thế của sự chuyển hướng toàn cầu sang xã hội thông tin  Xây dựng DL lý tưởng, độc lập, với vốn tư liệu hoàn toàn số hoá, với toàn bộ dịch vụ chuyển sang phương thức điện tử, là không khả thi  Xu hướng sẽ xuất hiện nhiều thư viện điện tử là kết quả của quá trình tin học hoá, là các cổng vào thông tin và là một bộ phận của các thư viện lớn truyền thống ở Việt Nam 9 (tiếp)  Con đường mà đại bộ phận thư viện sẽ đi là: kết hợp các nguồn tin truyền thống với hiện đại, bổ sung thêm các tạp chí điện tử toàn văn trên CD- ROM, đặt mua các tạp chí điện tử toàn văn trên mạng, số hoá một phần vốn tư liệu, tự động hoá các dịch vụ và tạo điều kiện cho NSD chủ động khai thác thông tin  Hiện nay, một số phần mềm được cài đặt:  Giải pháp thư viện điện tử ILIB của công ty CMC ở Thư viện Quốc gia Việt Nam  Giải pháp thư viện điện tử LIBOL của công ty Tinh vân ở Trung tâm Thông tin khoa học và công nghệ Quốc gia  Hệ phần mềm thư viện số Greenstone của dự án New Zealand Digital Library ở thư viện Đại học Khoa học tự nhiên TP Hồ Chí Minh 10 I. TỔNG QUAN VỀ THƯ VIỆN SỐ 1. ĐỊNH NGHĨA  Định nghĩa 1.1 (Arms W.Y.): DL là một kho thông tin có quản lý với các dịch vụ liên kết, trong đó thông tin được lưu trữ ở dạng số và có thể truy cập qua một mạng.  Định nghĩa 1.2 (Chen H., Houston A.L.): DL là một thực thể liên quan tới sự tạo ra các nguồn tin và sự hoạt động thông tin qua các mạng toàn cầu.  Định nghĩa 1.3 (Reddy R., Wladawsky-Berger I.): DL là các kho dữ liệu mạng về tài liệu văn bản số, ảnh, âm thanh, dữ liệu khoa học và phần mềm là lõi của Internet hiện nay và các kho dữ liệu số có thể truy cập phổ biến về tất cả tri thức của loài người trong tương lai. [...]... dụ: S(indexing, D1) = (0, 0, 0, 1, 0, 0, 0, 0) (1, 1, 1, 1, 0, 0, 0, 0) = 1 Cách tiếp cận so khớp toạ độ có 3 hạn chế: 1 không tính đến tần suất thu t ngữ 2 không tính đến sự khó tìm thu t ngữ 3 các tài liệu dài với nhiều thu t ngữ Định nghĩa tần suất bên trong tài liệu của thu t ngữ fd,t : Số đếm chỉ thị số lần thu t ngữ xuất hiện trong tài liệu Ví dụ: Tính độ tương tự đối với truy vấn mẫu trở thành... điểm cắt nào đó r là một phần trong số tài liệu xếp hạng cao nhất r có liên quan đến truy vấn: P = so tai lieu tim kiem co lien quan tong so tai lieu tim kiem (3.19) Độ phục hồi R của một phương pháp tại giá trị r nào đó là tỷ lệ của tổng số tài liệu có liên quan được tìm kiếm trong r cao nhất: R = so tai lieu co lien quan duoc tim kiem tong so tai lieu co lien quan (3.20) 35 3 (tiếp) 3.4.2 Đường cong...  Định nghĩa 2.4: Chỉ mục là một cơ chế nhằm định vị thu t ngữ cho trước trong văn bản  Định nghĩa 2.5 (chỉ mục tệp đảo IFID): Đối với mỗi một thu t ngữ trong từ điển, một IF chứa một danh sách đảo (IL) lưu trữ một danh sách con trỏ tới tất cả xuất hiện của thu t ngữ đó trong văn bản chính, trong đó mỗi một con trỏ trong thực tế là số tài liệu mà thu t ngữ đó xuất hiện IL đôi khi được coi là một danh... 0, 0, 0, 0) =2 30 (tiếp) Tổng quát hơn, thu t ngữ t trong tài liệu d có thể được gán một trọng số tài liệu - thu t ngữ, ký hiệu là wd,t và trọng số khác wq,t trong vectơ truy vấn n S(Q, Dd) = Q Dd = ∑ w q, t ⋅ w d, t (3.3) t =1 Độ tương tự là tích trong của hai trọng số S(Q, Dd) = n a (3.4) Nếu hạng được coi là một độ đo tầm quan trọng thì trọng số wt của một thu t ngữ t được tính như sau: ∑ w q, t... liệu có một ký số liên kết, một xâu bit bắt nội dung tài liệu theo một nghĩa nào đó  Tệp ký số bitslice: Sự truy cập SF có thể được tăng nhanh hơn bằng cách dùng kỹ thu t bitslicing, tức là kỹ thu t chuyển vị ma trận bit 23 (tiếp) 2.4 SO SÁNH CÁC PHƯƠNG PHÁP CHỈ MỤC  Phương pháp chỉ mục tệp đảo IFID và chỉ mục tệp ký số SFID là hai phương pháp chỉ mục chính tài liệu trong thư viện số  Quy luật chỉ... nghĩa 2.1 (từ để nhận dạng đối với chỉ mục): là một dãy cực đại của các ký tự chữ và số, nhưng giới hạn tối đa 256 ký tự và tối đa 4 ký tự số  Bảng 2.1 - CSDL TREC Số tài liệu N 741856 Số thu t ngữ F 333338738 Số thu t ngữ riêng biệt n 535346 Số con trỏ chỉ mục f 134994414 Kích thước tổng (MB) 2070.29 18 (tiếp) 2.2 CHỈ MỤC TỆP ĐẢO IFID  Định nghĩa 2.2 (Đỗ Trung Tuấn): Chỉ mục là bảng dữ liệu hay cấu... vấn BQ không hội Dạng phổ biến khác là một phép hội của các phép tuyển: (text OR data OR information) AND (search OR seek) AND (retrieval OR indexing) 28 (tiếp) 3.3 TRUY VẤN XẾP HẠNG RQ 3.3.1 So khớp toạ độ Đếm số thu t ngữ truy vấn xuất hiện trong mỗi một tài liệu 3.3.2 Tích trong độ tương tự Quá trình được hình thức hoá bằng một tích trong của một vectơ truy vấn với một tập vectơ tài liệu Độ tương tự... Thông tin dễ dàng cập nhật hơn 5 Thông tin luôn sẵn có 6 Các dạng thông tin mới trở thành thực hiện được 7 Giá của DL  4 lĩnh vực kỹ thu t nổi bật đối với DL 1 Lưu trữ điện tử trở nên rẻ hơn giấy 2 Hiển thị máy tính cá nhân trở nên dùng thích hợp hơn 3 Mạng tốc độ cao trở nên phổ biến 4 Máy tính trở nên di động 12 (tiếp)  NGHIÊN CỨU TIN HỌC TRONG DL 1 Mô hình đối tượng 2 Giao diện NSD 3 Chỉ mục và... bản của bảng 2.2 Thu t ngữ IL(tài liệu; vị trí) an (2;4), (3;1), (3;5), (4;2) and (1;5) building (2;3), (4;1) file (3;3), (4;4) index (2;5), (3;6) indexing (1;6), (2;1), (4;6) information (1;1) inverted (3;2), (4;3) is (1;3), (2;2), (3;4), (4;5) retrieval (1;2) searching (1;4) 21 (tiếp)  Định nghĩa 2.6: Độ hạt (granularity) của một chỉ mục là tính chính xác để nhận dạng vị trí của thu t ngữ Bảng 2.4... 9 is 10 retrieval 11 searching 22 (tiếp) 2.3 CHỈ MỤC TỆP KÝ SỐ SFID Bảng 2.5 – Mã hoá chồng lên của tài liệu 2 đối với SF Thu t ngữ Ký số thu t ngữ indexing 0001 0000 1100 0100 is 0100 0100 0001 0000 building 0101 0011 0000 0000 an 0000 0100 0100 1100 index 1100 1000 0010 0000 Ký số bloc 1101 1111 1111 1110  Tệp ký số SF: là một . trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tới các CSDL tài liệu về lịch sử, văn hoá và nghệ thu t: Canada, Anh, Pháp, Đức, Nhật, Hàn quốc,. lĩnh vực kỹ thu t nổi bật đối với DL 1. Lưu trữ điện tử trở nên rẻ hơn giấy 2. Hiển thị máy tính cá nhân trở nên dùng thích hợp hơn 3. Mạng tốc độ cao trở

Ngày đăng: 07/09/2013, 06:10

Hình ảnh liên quan

mở rộng điện tử về các chức năng điển hình NSD thực hiện và các tài nguyên NSD truy cập trong thư  viện truyền thống - BAO CAO THU VIEN SO

m.

ở rộng điện tử về các chức năng điển hình NSD thực hiện và các tài nguyên NSD truy cập trong thư viện truyền thống Xem tại trang 11 của tài liệu.
1. Mô hình đối tượng 2. Giao diện NSD - BAO CAO THU VIEN SO

1..

Mô hình đối tượng 2. Giao diện NSD Xem tại trang 13 của tài liệu.
Hình - Máy tính trong thư viện số (W.Y.Arms) - BAO CAO THU VIEN SO

nh.

Máy tính trong thư viện số (W.Y.Arms) Xem tại trang 14 của tài liệu.
2. Mô hình hình thức cho DL 1.Cơ sở toán học  - BAO CAO THU VIEN SO

2..

Mô hình hình thức cho DL 1.Cơ sở toán học Xem tại trang 15 của tài liệu.
7. Định nghĩa hình thức thư viện số - BAO CAO THU VIEN SO

7..

Định nghĩa hình thức thư viện số Xem tại trang 17 của tài liệu.
 Bảng 2.1 - CSDL TREC - BAO CAO THU VIEN SO

Bảng 2.1.

CSDL TREC Xem tại trang 18 của tài liệu.
 Định nghĩa 2.2 (Đỗ Trung Tuấn): Chỉ mục là bảng dữ liệu - BAO CAO THU VIEN SO

nh.

nghĩa 2.2 (Đỗ Trung Tuấn): Chỉ mục là bảng dữ liệu Xem tại trang 19 của tài liệu.
Bảng 2.3 - IF đối với văn bản của bảng 2.2 - BAO CAO THU VIEN SO

Bảng 2.3.

IF đối với văn bản của bảng 2.2 Xem tại trang 21 của tài liệu.
Bảng 2.4 - IF mức từ đối với văn bản của bảng 2.2 - BAO CAO THU VIEN SO

Bảng 2.4.

IF mức từ đối với văn bản của bảng 2.2 Xem tại trang 22 của tài liệu.
Bảng 2.5 – Mã hoá chồng lên của tài liệu 2 đối với SF - BAO CAO THU VIEN SO

Bảng 2.5.

– Mã hoá chồng lên của tài liệu 2 đối với SF Xem tại trang 23 của tài liệu.
3.3.3 Mô hình không gian vectơ - BAO CAO THU VIEN SO

3.3.3.

Mô hình không gian vectơ Xem tại trang 32 của tài liệu.
Hình 3.1 – Đường cong P-R đối với hạng của bảng 3.2 - BAO CAO THU VIEN SO

Hình 3.1.

– Đường cong P-R đối với hạng của bảng 3.2 Xem tại trang 36 của tài liệu.
1. Đưa ra một mô hình hình thức cho thư viện số dựa vào đại số hiện đại: Một thư viện số là một bộ bốn (R,  MC, DV, XH) - BAO CAO THU VIEN SO

1..

Đưa ra một mô hình hình thức cho thư viện số dựa vào đại số hiện đại: Một thư viện số là một bộ bốn (R, MC, DV, XH) Xem tại trang 40 của tài liệu.
3. Phân tích chi tiết mô hình tìm kiếm thông tin kinh điển dựa vào truy vấn Boole BQ hiện đang được sử dụng  trong hầu hết các hệ thư viện, chỉ ra nhược điểm của  truy vấn BQ - BAO CAO THU VIEN SO

3..

Phân tích chi tiết mô hình tìm kiếm thông tin kinh điển dựa vào truy vấn Boole BQ hiện đang được sử dụng trong hầu hết các hệ thư viện, chỉ ra nhược điểm của truy vấn BQ Xem tại trang 42 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan