á
Có sáu nguyên tắc được xác định nhằm chọn tài liệu để số hóa hướng đến việc phát triển sưu tập thư viện
ố:
Tính hữu ụng : Hữu dụng là lý do cơ bản trước tất cả mọi quyết định phát triển sưu tập. Tài liệu có tần suất sử dụng cao (như giáo trình, tài liệu tham khảo mà các giáo viên thường yêu cầu tất cả sinh viên tìm đ
);
Nhu cầu nộ bộ : Sưu tập nội bộ được xây dựng để phục vụ nhu cầu nội bộ và chi phí cho tài nguyên nội bộ phải được thuyết minh vì lợi ích nội bộ - chẳng hạn như đối với thư viện đại học, yêu cầu học tập, giảng dạy, và nghiên cứu là ưu t
n;
Tài liệumới : Mặc dù sưu tập cũ mang tính lịch sử là cần thiết cho nghiên cứu, nhưng tài liệu mới vẫn ưu tiên
ơn
Tài liệu liên quan đến bảngốc : Những tài liệu mà người muốn tìm hiểu không thể tiếp cận được bản gốc (ví dụ các văn bản viết tay - "manuscript" của các nhà thơ, nhà văn, các nhà chính trị, hoặc các bản tuyên ngôn có chữ ký cuả các lãnh tụ như bản tuyên ngôn độc lập của Hoa Kỳ hiện có tại Thư viện Quốc hội Hoa Kỳ, vv…). Trên thực tế, còn có rất nhiều thể loại viết tay trên những chất liệu
khác nhau. Việc số hoá các bản viết tay đó tạo điều kiện tiếp cận thuận lợi hơn cho các nhà nghiên
ứu;
Tài liệu quýhiếm : Tài liệu quớ hiếm, lâu năm, độc giả không thể trực tiếp sử dụng, dễ hư hỏng - chẵng hạn như tài liệu chữ Nôm trên giấy
ổi;
Chuyển đối nhậnthức : Ngày càng có nhiều thông tin chuyển sang dạng số. Tài liệu giúp người sử dụng chuyển đổi nhận thức để làm quen việc sử dụng dạng thông tin này là ưu
.
Số hóa tài
ệu:
Một trong những công việc đầu tiên mà ta quan tâm khi bắt đầu xây dựng một thư viện số là liệu ta có cần phải số hoá tài liệu hiện hữu trong thư viện hay không. Số hoá là tiến trình chuyển tài liệu thư viện truyền thống, cụ thể là sách và văn bản sang dạng điện tử và lưu trữ trên máy
nh.
Có hai giai đoạn trong tiến trình số
á.
Giai đoạn đầu cho ra sản phẩm số hoá dạng hình bằng một tiến trình gọi là quét
hình - scani
.
Giai đoạn hai cho ra một sản phẩm dạng số hoá văn bản bằng mụt tiến trình gọi
Máy
uét
Các máy quét rất đa dạng về giá cả, hình dạng và kích thước. Chúng từ 100USD cho các máy quét hình phẳng cho đến 50,000USD cho các máy quét công nghiệp cở lớn của các nhà sản xuất như Bell & How
l.
Rất nhiều website cung cấp đa dạng máy quét. Để tìm những website này, bạn chỉ định từ khóa “scanners”cho các bộ máy tìm kiếm như Google, Altavista hoặc Y
oo.
Kết quả của một trang tài liệu được quét là một tập tin máy tính mà thông thường ở định dạng TIFF hoặc Bit
p.
Định dạng nén TIFF phiên bản 4 là sự lựa chọn tốt nhất. Trung bình một trang được nén và được chuyển thành định dạng này chỉ chiếm khoảng 5
b,
Trong khi ở định dạng Bitmap không được nén sẽ là Mb.
Quét dữ
ệu
Chuẩn bị các tài
iệu
Trước khi quét các tài liệu phải được chuẩn bị tốt. Các tài liệu phải sạch, khô ráo, tháo bỏ các ghim kẹp tài
Gáy sách nên được gở bỏ. Các cuốn sách của thư viện thông thường được đóng lại, và nếu như vậy bạn nên cẩn thận khi gở bỏ gáy sách để dể dàng cho việc đóng lại s
h.
Nếu như chỉ có ít tài liệu thì việc cắt gáy sách có thể được thực hiện bằng tay thông qua một cây thước và bộ cắt. Còn nếu có nhiều tài liệu thì nên dựng các máy cắt bằng tay đặc
ệt.
Đối với số lượng lớn – hơn 20 tài liệu thì chúng tôi khuyến cáo nên yêu cầu thợ in hoặc chủ tiệm photo sử dụng máy cắt chuyên dụng của họ, đừng quân gở bỏ các ghim kẹp kim loại vì chúng có thể gây hư hại máy
ắt. Tiến trình
uét
Nhờ vào phần mềm đi kèm với máy quét, một bức ảnh tài liệu kĩ thuật số sẽ được quét và chuyển thể thành hình ảnh định dạng Bitmap hoặc TIFF. Những tập tin hình này sẽ được lưu trữ trên ổ cứng với các tên chuẩn, và tiến trình nhận dạng kí tự sẽ được kích hoạt ngay khi một số tài liệu được
ét.
Thông thường độ phân giải khi quét khoảng 300dpi là đủ, mặc dù đôi lúc 200dpi là chấp nhận
ợc.
OCR: Nhận dạng
tự
Nhận dạng kí tự hay còn gọi là hệ thống OCR làm công việc chuyển thể các hình ảnh được quét thành văn bản. Đầu vào là một hình ảnh kỹ thuật số ở định dạng
TIFF hoặc Bitmap, tốt nhất là ảnh có chất lượng cao. Đầu ra là văn bản hoặc trang web, cơ bản là các định dạng RTF, Word hoặc H
L.
Sau đây là các bước cơ bản để chuyển thể tài liệu giấy tờ thành dạng kỹ thuậ
số: Quét tài iệu Phân tích lề ang Nhận ạng Quét ảnh và các ảng
Tuân theo những bước này, bạn kiểm tra chất lượng các tập tin kết quả và lưu chúng ở định dạng thíc
hợp.
Sử dụng tài liệu số hóa khô
OCR
Đối với tài liệu viết tay, văn bản ký tự cỗ, hay tài liệu hư hỏng khó nhận dạng ký tự thì phải số hóa bằng cách gỏ lại trên máy
ính.
Nếu sử dụng phần mềm nguồn mở Greenstone thì văn bản dạng PDF được Greenstone tự động chuyển qua một văn bản dạng HTML để có thể tra cứu theo từ khóa trong nội dung vă
bản.
Sử dụng các bộ s
Dịch vụ Tha
kảo
S ưu tầm tài liệu dưới tất cả mọi dạng thức, tổ chức thành bộ sưu tập thư viện số rồi xuất bản ra CD-ROM cho người s
dụng Công tác đ
chí
Sưu tầm tài liệu địa chí từ mẫu vật, di chỉ, hình ảnh, trang phục cho đến bài văn, tài liệu viết tay, vv…, số hoá rồi tổ chức thành bộ sưu tập để xuất bản trên Internet hay
-ROM
Kho tài ngyên h ọc tập trong trường đ
ọc
T ừng giảng viên hay nhà nghiên cứu, sưu tầm tài liệu theo chuyên ngành của mình, tổ chức thành bộ sưu tập rồi đóng góp cho thư viện mộ
bản.
3.3.3 Tạ và x uất bản bộ s tập
Mở công cụ tạo bộ sưu tập: Nhấn Start\Programs\Greenstone Digital Library\Greenstone Librarian Int
H12 : Cửa sổ ứng dụn
Trong cửa sổ GLI nhấn File\New để tạo bộ sưu tập mới. Nhập tên và phần mô tả
của bộ sưu tập: nhập tên bộ sưu tập muốn tạo (độ dài tối đa là 8 kí tự) trong ô
Collection titl , nhập phần mô tả về bộ sưu tập trong ô Description of content.
Hình13 : Tạo bộ sưu t
Chọn sử dụng tập Dublin Core Metadata bằng cách nhấn vào ô thứ hai, sau đó nhấn OK.
Hình 14 : Chọn chuẩn biên mụ
Cung cấp tài liệu nguồn cho bộ sưu tập: Nhấn biểu tượng Local Filespac , duyệt cây thư mục, chọn tài liệu nguồn và kéo thả sang cửa sổ bên phải
Mô tả tài liệu nguồn: Trong khung Collection bên trái chọn tài liệu muốn mô tả,
trong cửa sổ bên phải phía trên hiển thị các trường Dublin Core Metadat , chọn
các trường sử dụng để mô tả tài liệu và nhập giá trị vào ô Valu . Sau khi nhập
xong giá trị nhấn Appen , sử dụng hai nút Replace và Remove để chỉnh sửa
hoặc loại bỏ giá trị đã nhập. Trong ví dụ này chúng ta sử dụng 3 trường DC
Cấu hình bộ sưu tậ: mục tiêu của bước này là xác định các điều kiện tìm kiếm, giao diện hiển thị, plugin dùng cho việc chuyển đổi tài liệu và cách phân loại tài liệu. Chọn tab Desig , trong khung Design Sections ở bên trái hiển thị các thành phần dùng cho việc cấu hình bộ sưu tập
Hình15 : Cấu hinh bộ sưu t
- Xác định plugin: Chọn Document Plugins, trong cửa sổ bên phải trong danh
sách Select plugin to add chọn plugin phù hợp với loại tài liệu nguồn. Trong ví
dụ tài liệu nguồn là html do đó plugin là HTMLPlug, nhấn Add Plugin chọn
plugin này. Nhấn nút Configure Plugin để thêm các tham số cho plugin. Vì
trong tài liệu nguồn có tag mô tả cấu trúc hiển thị tài liệu do đó ta chọn tham số
description_tags, nhấn OK để kết thúc.
- Xác định các điều kiện tìm kiếm: Chọn Search Indexes, để xác định điều kiện
tìm kiếm bằng cách chọn trường mô tả trong khung Build index on, sau đó nhập
giá trong khung Index Name. Giá trị trong khung này sẽ được hiển thị trên giao
diện web khi người sử dụng thực hiện tìm kiếm. Nhấn nút Add Index để đưa
điều kiện tìm kiếm vào bộ sưu tập. Trong ví dụ chỉ đưa thêm một điều kiện tìm kiếm dựa trên trường dc.Creator.
- Xác định cách phân loại: Chọn Browsing Classifiers, trong danh sách Select classifier to add chọn kiểu phân loại muốn sử dụng, nhấn Add Classifier để thêm vào bộ sưu tập. Sau khi cửa sổ cấu hình tham số xuất hiện, chọn trường mô tả để phân loại sau đó chọn ô buttonname để nhập tên nút hiển thị trên giao diện
web, nhấn OK để kết thúc. Trong ví dụ chúng ta sử dụng hai cách phân loại là
tác giả và tiêu đề.
- Xác định cách hiển thị bộ sưu tậ: Chọn Format Feature , mục này có thể được chỉnh sửa nếu muốn bộ sưu tập hiển thị khác với mặc định
- Chuyển sang tiếng bản đị: mục đích chuyển một số từ ngữ tiếng Anh trong quá
trình xây dựng bộ sưu tập sang tiếng bản địa để thống nhất với ngôn ngữ hiển thị trên giao diện web. Chọn Translate Tex , trong danh sách Language of translation chọn VIETNAMESE
+ Trong khung Features chọn dòng General:collectionextra để chuyển sang
tiếng Việt nội dung mô tả sơ lược của bộ sưu tập, nhập giá trị trong khung
Translated Text sau đó nhấn Add Translatio
Hình17
: Chuyển sang tiếng bản đ
+ Chọn dòng Index:document:dc.Creator để chuyển creators thành tác giả.
+ Chọn dòng Index:document:text để chuyển entire documents thành toàn bộ
tài liệu.
+ Chọn dòng Index:section:ex.Title để chuyển section titles thành phần tiêu đề. + Chọn dòng Index:section:text để chuyển chapters thành chương.
Hình 18 : Xây bộ sưu tậ
Duyệt, tìm kiếm trong bộ sưu tậ
- Mở Greenstone Digital Library: Nhấn Start\Programs\ Greenstone Digital
Library\ Greenstone Digital Librar
- Nhấn nút Enter Library để mở web browser và truy cập trang chủ của Greenstone
Hình19
: Giao diện ứng dụng xuất bản bộ sưu t
Hình 20 : Trang chủ bộ sưu tập được hiển th
Hình21
: Duyệt bộ sưu tập theo nhan
- Duyệt bộ sưu tập theo tác giả: nhấn nút tác giả.
Hình 22 : Duyệt bộ sưu tập theo tác gi
Hình23
: Xem tài liệu trong bộ sưu t
- Tìm kiếm: Nhấn nút tìm kiếm, chọn điều kiện tìm kiếm trong hai danh sách có
trên màn hình.Ví dụ trong danh sách đầu chọn toàn bộ tài liệu dánh sách thứ hai
chọn một số từ, từ cần tìm kiếm là “cardinal wolsey”. Nhấn nút Bắt đầu tìm
kiếm để tìm kiếm. Nhấn vào một vào một dòng để xem kết quả.
Xuất bản bộ sưu tập ra CD-RO : Trong cửa sổ GLI chọn File\Export to CD-
ROM. Khi cửa sổ xuất bản bộ sưu tập ra CD-ROM xuất hiện, chọn bộ sưu tập
trong danh sách Available collections và nhập tên CD-ROM trong ô nhập CD-
ROM nam , nhấn nút Export để thực hiện xuất bản. Sau khi qua trình xuất bản hoàn tất sẽ nhận được thông báo thành công cùng đường dẫn đến thư mục chứa bộ sưu tập vừa thực hiện Expor
Tài liệu tham khả: 1.
B. Maruthu Pandian, Sha ad Kuma Sonker and R. Moorthy. Creating Digital
Libraries: An Experiment with Greenstone Digit l Library Open Source Software
2.
Ian H. witten, Rodge J McNab,St fan J. Boddie,David BainBridge.
Greenstone :A Comprehensive Open-Source Digital Library Software Syste
3.
Nguyễn Tuyền, Sự phát triển và sử dụng thư viện số GreenStone trên thế giớ ,
TP. HCM, 200 4.
Robert E. Kahn, Vinton G. Cerf, An open architecture for a digital library system and a plan for its developmen , 198
5.
Dương Thúy Hương, Kiểm soát thư mục (Bibliographic Control) và biên mục
(Cataloguing) chuẩn hó , TP. HCM, 200 6.
Daniel Greenstein and Suzanne E. Thorin, The Digital Library: A Biograph ,
Digital Library Federation, Washington, 200 7.
Michel Loots, Dan Camarzan and Ian H.Witten, Digital Library From Papers to