Cơ sở dữ liệu toàn văn

Một phần của tài liệu Khảo sát bộ máy tra cứu tin tại Thư viện Tạ Quang Bửu - Trường Đại học Bách Khoa Hà Nội (Trang 60)

- Mục lục phân loại sách tiếng gốc Latinh Mục lục phân loại sách tiếng Nga

2.2.2.2Cơ sở dữ liệu toàn văn

c. Cách sắp xếp phích mô tả

2.2.2.2Cơ sở dữ liệu toàn văn

Nhằm tối đa khả năng truy cập và khai thác thông tin cho NDT dù ở bất cứ đâu, tháng 1/2005, TV TQB đã bắt tay vào nghiên cứu và triển khai xây dựng CSDL toàn văn trên phần mềm mã nguồn mở Dspace (địa chỉ truy cập: http: // dlib.hut.edu.vn.). Dspace là phần mềm hỗ trợ giải pháp xây dựng và phân phối các bộ sưu tập số hóa trên Internet. Đây là phần mềm mã nguồn mở cho phép các thư viện, các cơ quan nghiên cứu phát triển và mở rộng, được đánh giá cao và sử dụng rộng rãi trên thế giới, đặc biệt là thư viện các trường đại học.

Hình 31: Giao diện trang Thư viện số của TV TQB

Hiện nay, trong CSDL toàn văn của TV số TV TQB đã xây dựng được 3 bộ sưu tập:

+ Bộ sưu tập Luận văn thạc sĩ – Luận án tiến sĩ: gồm tất cả các Luận án tiến sĩ bảo vệ thành công và nộp lưu chiểu về trường (từ năm 2005 – nay) và một số Luận văn thạc sĩ do các Khoa, Viện lựa chọn và xét duyệt và đưa vào quản trị trong Thư viện số (khoảng 700 tài liệu)

+ Bộ sưu tập Bài giảng, Giáo trình điện tử: gồm các bài giảng điện tử, giáo trình điện tử mà TV đã tiến hành mua bản quyền (gồm 24 tài liệu)

+ Bộ sưu tập Sách điện tử (Ebook); gồm các sách điện tử, bách khoa toàn thư, sổ tay tra cứu,… do Thư viện bỏ ngân sách ra mua và do các cá nhân trong, ngoài trường biếu tặng (gồm 254 tài liệu)

STT Bộ sưu tập Số tài liệu

1 Luận văn thạc sĩ - Luận án tiến sĩ 700

2 Bài giảng, Giáo trình điện tử 24

3 Sách điện tử 254

Bảng 6: Thống kê số lượng tài liệu trong Dspace

Các tài liệu này cơ bản được xây dựng theo quy trình: - Số hoá và chuẩn hoá dữ liệu

+ Số hóa dữ liệu: Đây là công đoạn đòi hỏi đầu tư nhiều công sức, kinh phí nhưng lại là khâu dễ dàng thực hiện nhất. Bởi vì hiện nay công nghệ số hóa tài liệu đã tiến bộ rất nhiều. Nếu như trước đây, khi ta muốn số hóa một cuốn sách khoảng 2000 trang thì phải mất hàng mấy ngày để quét từng trang sách. Nhưng hiện nay cũng với cuốn sách đó chỉ mất vài giờ đồng hồ là cho ra một sản phẩm tài liệu số đảm bảo chất lượng tốt, sắc nét, hình ảnh đẹp, giống 100% bản gốc và đặc biệt còn cho phép tự động tạo các siêu dữ liệu mô tả và siêu dữ liệu cấu trúc của tài liệu ở định dạng XML. Tuy nhiên, trong điều kiện hiện tại Thư viện chỉ tiến hành biên mục những tài liệu đã được số hoá (đã có dạng bản “mềm”), do đó nhóm nghiên cứu sẽ không đi sâu vào công nghệ số hoá mà chỉ nghiên cứu thực hiện việc chuẩn hoá dữ liệu số.

+ Chuẩn hoá dữ liệu số

Các bước thực hiện chuẩn hoá dữ liệu tại Thư viện Tạ Quang Bửu:

 Copy và kiểm tra file DL gốc - Kiểm tra file dữ liệu gốc

• Yêu cầu file gốc đầy đủ, không lỗi

• Nếu file gốc thiếu hoặc lỗi (không sửa được) => loại

- Copy dữ liệu từ đĩa CD hoặc đĩa mềm vào ổ cứng phục vụ cho quá trình convert.

- Scan virus dữ liệu đã copy.

- Yêu cầu về chất lượng file fulltext

• Chuẩn file .PDF

• Đánh bookmark theo các chương – phần lớn

• Nội dung file phải liền mạch và không bị lỗi font chữ.

• Không thiếu và không thừa trang (kể cả trang trắng)

- Thực hiện chuyển đổi và chuẩn hoá file theo đúng Quy trình convert

- Tạo lập biểu ghi biên mục

Việc biên mục các tài liệu được thực hiện với việc áp dụng chuẩn biên mục Dublin Core với 15 trường chính. Trong các trường này còn có các trường con để biên mục chi tiết cho tài liệu. Tùy vào từng loại hình tài liệu mà các trường chính và các trường con được lựa chọn để sử dụng cho phù hợp.

1. DC. Creater (Tác giả): 2. DC. Title (Nhan đề): 3. DC. Subject (Chủ đề):

4. DC. Contributor (Cộng tác, đóng góp) 5. DC. Date (Năm xuất bản):

6. DC. Publisher (Nhà xuất bản): (adsbygoogle = window.adsbygoogle || []).push({});

7. DC. Description (Trích dẫn, trích yếu nội dung): 8. DC . Series/no (Tùng thư/ số từng thư)

9. DC. Identifiers (Nhận dạng) 10. DC. Type (Kiểu tài liệu) 11. DC. Language (Ngôn ngữ) 12. DC. Format (Định dạng)

13. DC. Coverage (Liên kết toàn văn) 14. DC. Source (Nguồn tài liệu) 15. DC. Right (Quyền tác giả)

Một phần của tài liệu Khảo sát bộ máy tra cứu tin tại Thư viện Tạ Quang Bửu - Trường Đại học Bách Khoa Hà Nội (Trang 60)