Sử dụng phần mềm thư viện số Greenstone để tạo một bộ sưu tậ

Một phần của tài liệu XÂY DỰNG THƯ VIỆN SỐ (Trang 56)

3.3.1 Bộ sưu tập thông ti

o

Một bộ sưu tập thông tin bao gồm nhiều tài liệu dưới nhiều dạng thức khác nhau: văn bản, hình ảnh, âm thanh, hình ảnh động.

o

Tài liệu là đơn vị căn bản từ đó sưu tập thông tin được xây dựng. Một bộ sưu tập có thể chứa nhiều loại tài liệu khác nhau

Ví dụ một bộ sưu tập về đề tài "Phố cổ Hội An" sẽ bao gồm những tài liệu dạng văn bản về lịch sử, văn hoá, phong tục, vv…; tài liệu dạng hình ảnh về những di tích, trang phục, các bản thiết kế, vv…; tài liệu dạng âm thanh về những bài hát, dân ca, vv…; tài liệu dạng phim về những lễ hội, sinh hoạt cộng đồng, vv…

o Một bộ sưu tập chứa nhiều tài liệu với dạng thức khác nhau, tuy

nhiên cung cấp một giao diện đồng nhất qua đó tất cả các tài liệu có thể được truy cập, mặc dù cách mà tài liệu đó hiển thị sẽ tuỳ thuộc vào phương tiện và dạng thức của tài liệu đó.

o Một bộ sưu tập như thế trước khi trình bày phải qua một quá trình

hình thành để tạo nên những cấu trúc hỗ trợ cho việc truy tìm và lướt tìm được dùng cho việc truy cập sưu tập.

o Khi xây dựng xong, bộ sưu tập có thể được xuất bản trên Internet

hoặc xuất ra CD-ROM một cách hoàn toàn tự động.

o Một khi sưu tầm thêm tài liệu mới, ta có thể dễ dàng bổ sung thêm

vào bộ sưu tâp bằng cách tái xây dựng.

o Một thư viện nói chung bao gồm nhiều bộ sưu tập khác nhau, mỗi

sưu tập tổ chức mỗi khác, tuy nhiên hoàn toàn giống nhau về phương cách hiển thị.

o Những bộ sưu tập như thế có thể được tạo nên bằng một Phần mềm

nguồn mở đa ngôn ngữ thư viện số Greenstone (Greenstone digital library multilingual open source software) .

Quá trình xây dựng bộ sưu tập thông tin được thực hiện theo các bước cơ bản sau:

Hình 11 : Quá trình xây dựng bộ sưu p

3.3.2 Nguyên tắc chọn tài liệu để số

á

Có sáu nguyên tắc được xác định nhằm chọn tài liệu để số hóa hướng đến việc phát triển sưu tập thư viện

ố:

Tính hữu ụng : Hữu dụng là lý do cơ bản trước tất cả mọi quyết định phát triển sưu tập. Tài liệu có tần suất sử dụng cao (như giáo trình, tài liệu tham khảo mà các giáo viên thường yêu cầu tất cả sinh viên tìm đ

);

Nhu cầu nộ bộ : Sưu tập nội bộ được xây dựng để phục vụ nhu cầu nội bộ và chi phí cho tài nguyên nội bộ phải được thuyết minh vì lợi ích nội bộ - chẳng hạn như đối với thư viện đại học, yêu cầu học tập, giảng dạy, và nghiên cứu là ưu t

n;

Tài liệumới : Mặc dù sưu tập cũ mang tính lịch sử là cần thiết cho nghiên cứu, nhưng tài liệu mới vẫn ưu tiên

ơn

Tài liệu liên quan đến bảngốc : Những tài liệu mà người muốn tìm hiểu không thể tiếp cận được bản gốc (ví dụ các văn bản viết tay - "manuscript" của các nhà thơ, nhà văn, các nhà chính trị, hoặc các bản tuyên ngôn có chữ ký cuả các lãnh tụ như bản tuyên ngôn độc lập của Hoa Kỳ hiện có tại Thư viện Quốc hội Hoa Kỳ, vv…). Trên thực tế, còn có rất nhiều thể loại viết tay trên những chất liệu

khác nhau. Việc số hoá các bản viết tay đó tạo điều kiện tiếp cận thuận lợi hơn cho các nhà nghiên

ứu;

Tài liệu quýhiếm : Tài liệu quớ hiếm, lâu năm, độc giả không thể trực tiếp sử dụng, dễ hư hỏng - chẵng hạn như tài liệu chữ Nôm trên giấy

ổi;

Chuyển đối nhậnthức : Ngày càng có nhiều thông tin chuyển sang dạng số. Tài liệu giúp người sử dụng chuyển đổi nhận thức để làm quen việc sử dụng dạng thông tin này là ưu

.

Số hóa tài

 ệu:

Một trong những công việc đầu tiên mà ta quan tâm khi bắt đầu xây dựng một thư viện số là liệu ta có cần phải số hoá tài liệu hiện hữu trong thư viện hay không. Số hoá là tiến trình chuyển tài liệu thư viện truyền thống, cụ thể là sách và văn bản sang dạng điện tử và lưu trữ trên máy

 nh.

Có hai giai đoạn trong tiến trình số

 á.

Giai đoạn đầu cho ra sản phẩm số hoá dạng hình bằng một tiến trình gọi là quét

hình - scani

 .

Giai đoạn hai cho ra một sản phẩm dạng số hoá văn bản bằng mụt tiến trình gọi

Máy

 uét

Các máy quét rất đa dạng về giá cả, hình dạng và kích thước. Chúng từ 100USD cho các máy quét hình phẳng cho đến 50,000USD cho các máy quét công nghiệp cở lớn của các nhà sản xuất như Bell & How

 l.

Rất nhiều website cung cấp đa dạng máy quét. Để tìm những website này, bạn chỉ định từ khóa “scanners”cho các bộ máy tìm kiếm như Google, Altavista hoặc Y

 oo.

Kết quả của một trang tài liệu được quét là một tập tin máy tính mà thông thường ở định dạng TIFF hoặc Bit

 p.

Định dạng nén TIFF phiên bản 4 là sự lựa chọn tốt nhất. Trung bình một trang được nén và được chuyển thành định dạng này chỉ chiếm khoảng 5

 b,

Trong khi ở định dạng Bitmap không được nén sẽ là Mb.

Quét dữ

 ệu

Chuẩn bị các tài

 iệu

Trước khi quét các tài liệu phải được chuẩn bị tốt. Các tài liệu phải sạch, khô ráo, tháo bỏ các ghim kẹp tài

Gáy sách nên được gở bỏ. Các cuốn sách của thư viện thông thường được đóng lại, và nếu như vậy bạn nên cẩn thận khi gở bỏ gáy sách để dể dàng cho việc đóng lại s

 h.

Nếu như chỉ có ít tài liệu thì việc cắt gáy sách có thể được thực hiện bằng tay thông qua một cây thước và bộ cắt. Còn nếu có nhiều tài liệu thì nên dựng các máy cắt bằng tay đặc

 ệt.

Đối với số lượng lớn – hơn 20 tài liệu thì chúng tôi khuyến cáo nên yêu cầu thợ in hoặc chủ tiệm photo sử dụng máy cắt chuyên dụng của họ, đừng quân gở bỏ các ghim kẹp kim loại vì chúng có thể gây hư hại máy

 ắt. Tiến trình

 uét

Nhờ vào phần mềm đi kèm với máy quét, một bức ảnh tài liệu kĩ thuật số sẽ được quét và chuyển thể thành hình ảnh định dạng Bitmap hoặc TIFF. Những tập tin hình này sẽ được lưu trữ trên ổ cứng với các tên chuẩn, và tiến trình nhận dạng kí tự sẽ được kích hoạt ngay khi một số tài liệu được

 ét.

Thông thường độ phân giải khi quét khoảng 300dpi là đủ, mặc dù đôi lúc 200dpi là chấp nhận

ợc.

OCR: Nhận dạng

 tự

Nhận dạng kí tự hay còn gọi là hệ thống OCR làm công việc chuyển thể các hình ảnh được quét thành văn bản. Đầu vào là một hình ảnh kỹ thuật số ở định dạng

TIFF hoặc Bitmap, tốt nhất là ảnh có chất lượng cao. Đầu ra là văn bản hoặc trang web, cơ bản là các định dạng RTF, Word hoặc H

 L.

Sau đây là các bước cơ bản để chuyển thể tài liệu giấy tờ thành dạng kỹ thuậ

 số: Quét tài  iệu Phân tích lề  ang Nhận  ạng Quét ảnh và các  ảng

Tuân theo những bước này, bạn kiểm tra chất lượng các tập tin kết quả và lưu chúng ở định dạng thíc

hợp.

Sử dụng tài liệu số hóa khô

 OCR

Đối với tài liệu viết tay, văn bản ký tự cỗ, hay tài liệu hư hỏng khó nhận dạng ký tự thì phải số hóa bằng cách gỏ lại trên máy

 ính.

Nếu sử dụng phần mềm nguồn mở Greenstone thì văn bản dạng PDF được Greenstone tự động chuyển qua một văn bản dạng HTML để có thể tra cứu theo từ khóa trong nội dung vă

bản.

Sử dụng các bộ s

Dịch vụ Tha

 kảo

S ưu tầm tài liệu dưới tất cả mọi dạng thức, tổ chức thành bộ sưu tập thư viện số rồi xuất bản ra CD-ROM cho người s

 dụng Công tác đ

 chí

Sưu tầm tài liệu địa chí từ mẫu vật, di chỉ, hình ảnh, trang phục cho đến bài văn, tài liệu viết tay, vv…, số hoá rồi tổ chức thành bộ sưu tập để xuất bản trên Internet hay

 -ROM

Kho tài ngyên h ọc tập trong trường đ

 ọc

T ừng giảng viên hay nhà nghiên cứu, sưu tầm tài liệu theo chuyên ngành của mình, tổ chức thành bộ sưu tập rồi đóng góp cho thư viện mộ

bản.

3.3.3 Tạ và x uất bản bộ s tập

Mở công cụ tạo bộ sưu tập: Nhấn Start\Programs\Greenstone Digital Library\Greenstone Librarian Int

H12 : Cửa sổ ứng dụn

Trong cửa sổ GLI nhấn File\New để tạo bộ sưu tập mới. Nhập tên và phần mô tả

của bộ sưu tập: nhập tên bộ sưu tập muốn tạo (độ dài tối đa là 8 kí tự) trong ô

Collection titl , nhập phần mô tả về bộ sưu tập trong ô Description of content.

Hình13 : Tạo bộ sưu t

Chọn sử dụng tập Dublin Core Metadata bằng cách nhấn vào ô thứ hai, sau đó nhấn OK.

Hình 14 : Chọn chuẩn biên mụ

Cung cấp tài liệu nguồn cho bộ sưu tập: Nhấn biểu tượng Local Filespac , duyệt cây thư mục, chọn tài liệu nguồn và kéo thả sang cửa sổ bên phải

Mô tả tài liệu nguồn: Trong khung Collection bên trái chọn tài liệu muốn mô tả,

trong cửa sổ bên phải phía trên hiển thị các trường Dublin Core Metadat , chọn

các trường sử dụng để mô tả tài liệu và nhập giá trị vào ô Valu . Sau khi nhập

xong giá trị nhấn Appen , sử dụng hai nút Replace và Remove để chỉnh sửa

hoặc loại bỏ giá trị đã nhập. Trong ví dụ này chúng ta sử dụng 3 trường DC

Cấu hình bộ sưu tậ: mục tiêu của bước này là xác định các điều kiện tìm kiếm, giao diện hiển thị, plugin dùng cho việc chuyển đổi tài liệu và cách phân loại tài liệu. Chọn tab Desig , trong khung Design Sections ở bên trái hiển thị các thành phần dùng cho việc cấu hình bộ sưu tập

Hình15 : Cấu hinh bộ sưu t

- Xác định plugin: Chọn Document Plugins, trong cửa sổ bên phải trong danh

sách Select plugin to add chọn plugin phù hợp với loại tài liệu nguồn. Trong ví

dụ tài liệu nguồn là html do đó plugin là HTMLPlug, nhấn Add Plugin chọn

plugin này. Nhấn nút Configure Plugin để thêm các tham số cho plugin. Vì

trong tài liệu nguồn có tag mô tả cấu trúc hiển thị tài liệu do đó ta chọn tham số

description_tags, nhấn OK để kết thúc.

- Xác định các điều kiện tìm kiếm: Chọn Search Indexes, để xác định điều kiện

tìm kiếm bằng cách chọn trường mô tả trong khung Build index on, sau đó nhập

giá trong khung Index Name. Giá trị trong khung này sẽ được hiển thị trên giao

diện web khi người sử dụng thực hiện tìm kiếm. Nhấn nút Add Index để đưa

điều kiện tìm kiếm vào bộ sưu tập. Trong ví dụ chỉ đưa thêm một điều kiện tìm kiếm dựa trên trường dc.Creator.

- Xác định cách phân loại: Chọn Browsing Classifiers, trong danh sách Select classifier to add chọn kiểu phân loại muốn sử dụng, nhấn Add Classifier để thêm vào bộ sưu tập. Sau khi cửa sổ cấu hình tham số xuất hiện, chọn trường mô tả để phân loại sau đó chọn ô buttonname để nhập tên nút hiển thị trên giao diện

web, nhấn OK để kết thúc. Trong ví dụ chúng ta sử dụng hai cách phân loại là

tác giả và tiêu đề.

- Xác định cách hiển thị bộ sưu tậ: Chọn Format Feature , mục này có thể được chỉnh sửa nếu muốn bộ sưu tập hiển thị khác với mặc định

- Chuyển sang tiếng bản đị: mục đích chuyển một số từ ngữ tiếng Anh trong quá

trình xây dựng bộ sưu tập sang tiếng bản địa để thống nhất với ngôn ngữ hiển thị trên giao diện web. Chọn Translate Tex , trong danh sách Language of translation chọn VIETNAMESE

+ Trong khung Features chọn dòng General:collectionextra để chuyển sang

tiếng Việt nội dung mô tả sơ lược của bộ sưu tập, nhập giá trị trong khung

Translated Text sau đó nhấn Add Translatio

Hình17

: Chuyển sang tiếng bản đ

+ Chọn dòng Index:document:dc.Creator để chuyển creators thành tác giả.

+ Chọn dòng Index:document:text để chuyển entire documents thành toàn bộ

tài liệu.

+ Chọn dòng Index:section:ex.Title để chuyển section titles thành phần tiêu đề. + Chọn dòng Index:section:text để chuyển chapters thành chương.

Hình 18 : Xây bộ sưu tậ

Duyệt, tìm kiếm trong bộ sưu tậ

- Mở Greenstone Digital Library: Nhấn Start\Programs\ Greenstone Digital

Library\ Greenstone Digital Librar

- Nhấn nút Enter Library để mở web browser và truy cập trang chủ của Greenstone

Hình19

: Giao diện ứng dụng xuất bản bộ sưu t

Hình 20 : Trang chủ bộ sưu tập được hiển th

Hình21

: Duyệt bộ sưu tập theo nhan

- Duyệt bộ sưu tập theo tác giả: nhấn nút tác giả.

Hình 22 : Duyệt bộ sưu tập theo tác gi

Hình23

: Xem tài liệu trong bộ sưu t

- Tìm kiếm: Nhấn nút tìm kiếm, chọn điều kiện tìm kiếm trong hai danh sách có

trên màn hình.Ví dụ trong danh sách đầu chọn toàn bộ tài liệu dánh sách thứ hai

chọn một số từ, từ cần tìm kiếm là “cardinal wolsey”. Nhấn nút Bắt đầu tìm

kiếm để tìm kiếm. Nhấn vào một vào một dòng để xem kết quả.

Xuất bản bộ sưu tập ra CD-RO : Trong cửa sổ GLI chọn File\Export to CD-

ROM. Khi cửa sổ xuất bản bộ sưu tập ra CD-ROM xuất hiện, chọn bộ sưu tập

trong danh sách Available collections và nhập tên CD-ROM trong ô nhập CD-

ROM nam , nhấn nút Export để thực hiện xuất bản. Sau khi qua trình xuất bản hoàn tất sẽ nhận được thông báo thành công cùng đường dẫn đến thư mục chứa bộ sưu tập vừa thực hiện Expor

Tài liệu tham khả: 1.

B. Maruthu Pandian, Sha ad Kuma Sonker and R. Moorthy. Creating Digital

Libraries: An Experiment with Greenstone Digit l Library Open Source Software

2.

Ian H. witten, Rodge J McNab,St fan J. Boddie,David BainBridge.

Greenstone :A Comprehensive Open-Source Digital Library Software Syste

3.

Nguyễn Tuyền, Sự phát triển và sử dụng thư viện số GreenStone trên thế giớ ,

TP. HCM, 200 4.

Robert E. Kahn, Vinton G. Cerf, An open architecture for a digital library system and a plan for its developmen , 198

5.

Dương Thúy Hương, Kiểm soát thư mục (Bibliographic Control) và biên mục

(Cataloguing) chuẩn hó , TP. HCM, 200 6.

Daniel Greenstein and Suzanne E. Thorin, The Digital Library: A Biograph ,

Digital Library Federation, Washington, 200 7.

Michel Loots, Dan Camarzan and Ian H.Witten, Digital Library From Papers to

Một phần của tài liệu XÂY DỰNG THƯ VIỆN SỐ (Trang 56)