3.2.1 Trên Window
Trước khi cài đặt Greenstone người sử dụng phải cài đặt hai phần mềm yêu cầu : ImageMagick và Java. ImageMagick là phần mềm hỗ trợ hiển thị đồ họa yêu cầu
trong GreenStone, có thể tải ImageMagick tại www.imagemagick.or
hoặc magemagic .sourceforge.ne . Java là thành phần không thể thiếu khi cài đặt GreenStone, yêu cầu tối thiểu là j2re-1.4.x phải được cài
Khi cài đặt thành công các phần mềm yêu cầu ở trên, có thể thực hiện cài phần mềm GreenStone. Khi quá trình cài đặt thành công sẽ có hai ứng dụng được nằm trên máy tính đó là ứng dụng tạo bộ sưu tập và ứng dụng xuất bản bộ sưu tập trên web
Hình10
: Hai thành phần ứng dụng của GreenSto 3.2.2 Trên Linux
- Login với user root để cài đặt.
- Mount CD vào một thư mục trên hệ điều hành (ví dụ /home/cdrom)
- Chuyển đến thư mục chứa tập tin Install_Linux.sh ghõ lệnh sau để cài đặt:
./Install_Linux.sh
- Nếu tập tin Install_Linux.sh không chạy được, copy tập tin gsdl-2.62- unix.tar.gz trong thư mục greenstone trên CD vào thư mục /var/www. Sau đó
chuyển vào thư mục /var/www và thực hiện lệnh giải nén: tar -xzvf gsdl-2.62-
unix.tar.gz
- Phần mềm Greenstone sau khi cài đặt nằm trong thư mục /var/www/gsdl và đã
được đóng gói sẵn giao diện tiếng Việt cùng các bộ sưu tập mẫu.
- Mở tập tin httpd.conf trong thư mục /etc/httpd/conf thêm các dòng sau vào phần
Alias và ScriptAlias. Tham khảo tập tin http.conf.sample cho phần cấu hình
Alias và ScriptAlias, tập tin mẫu này chỉ ra vị trí cần thêm những dòng phía dưới.
<Directory “/var/www/gsdl”>
Options Indexes MultiViews FollowSymLinks AllowOverride None
Order allow,deny Allow from all </Directory>
ScriptAlias /gsdl-bin/ “/var/www/gsdl/cgi-bin/” <Directory “/var/www/gsdl/cgi-bin”>
AllowOverride None Options None
Order allow,deny Allow from all </Directory>
- Khởi động lại Apache webserver bằng lệnh sau: service httpd restart
- Mở trình duyệt(IE, Mozilla) ghõ dòng sau trên thanh Address để chạy chương trình: http://localhost/gsdl-bin/librar
3.3 Sử dụng phần mềm thư viện số Greenstone để tạo một bộ sưu tậ3.3.1 Bộ sưu tập thông ti 3.3.1 Bộ sưu tập thông ti
o
Một bộ sưu tập thông tin bao gồm nhiều tài liệu dưới nhiều dạng thức khác nhau: văn bản, hình ảnh, âm thanh, hình ảnh động.
o
Tài liệu là đơn vị căn bản từ đó sưu tập thông tin được xây dựng. Một bộ sưu tập có thể chứa nhiều loại tài liệu khác nhau
Ví dụ một bộ sưu tập về đề tài "Phố cổ Hội An" sẽ bao gồm những tài liệu dạng văn bản về lịch sử, văn hoá, phong tục, vv…; tài liệu dạng hình ảnh về những di tích, trang phục, các bản thiết kế, vv…; tài liệu dạng âm thanh về những bài hát, dân ca, vv…; tài liệu dạng phim về những lễ hội, sinh hoạt cộng đồng, vv…
o Một bộ sưu tập chứa nhiều tài liệu với dạng thức khác nhau, tuy
nhiên cung cấp một giao diện đồng nhất qua đó tất cả các tài liệu có thể được truy cập, mặc dù cách mà tài liệu đó hiển thị sẽ tuỳ thuộc vào phương tiện và dạng thức của tài liệu đó.
o Một bộ sưu tập như thế trước khi trình bày phải qua một quá trình
hình thành để tạo nên những cấu trúc hỗ trợ cho việc truy tìm và lướt tìm được dùng cho việc truy cập sưu tập.
o Khi xây dựng xong, bộ sưu tập có thể được xuất bản trên Internet
hoặc xuất ra CD-ROM một cách hoàn toàn tự động.
o Một khi sưu tầm thêm tài liệu mới, ta có thể dễ dàng bổ sung thêm
vào bộ sưu tâp bằng cách tái xây dựng.
o Một thư viện nói chung bao gồm nhiều bộ sưu tập khác nhau, mỗi
sưu tập tổ chức mỗi khác, tuy nhiên hoàn toàn giống nhau về phương cách hiển thị.
o Những bộ sưu tập như thế có thể được tạo nên bằng một Phần mềm
nguồn mở đa ngôn ngữ thư viện số Greenstone (Greenstone digital library multilingual open source software) .
Quá trình xây dựng bộ sưu tập thông tin được thực hiện theo các bước cơ bản sau:
Hình 11 : Quá trình xây dựng bộ sưu p
3.3.2 Nguyên tắc chọn tài liệu để số
á
Có sáu nguyên tắc được xác định nhằm chọn tài liệu để số hóa hướng đến việc phát triển sưu tập thư viện
ố:
Tính hữu ụng : Hữu dụng là lý do cơ bản trước tất cả mọi quyết định phát triển sưu tập. Tài liệu có tần suất sử dụng cao (như giáo trình, tài liệu tham khảo mà các giáo viên thường yêu cầu tất cả sinh viên tìm đ
);
Nhu cầu nộ bộ : Sưu tập nội bộ được xây dựng để phục vụ nhu cầu nội bộ và chi phí cho tài nguyên nội bộ phải được thuyết minh vì lợi ích nội bộ - chẳng hạn như đối với thư viện đại học, yêu cầu học tập, giảng dạy, và nghiên cứu là ưu t
n;
Tài liệumới : Mặc dù sưu tập cũ mang tính lịch sử là cần thiết cho nghiên cứu, nhưng tài liệu mới vẫn ưu tiên
ơn
Tài liệu liên quan đến bảngốc : Những tài liệu mà người muốn tìm hiểu không thể tiếp cận được bản gốc (ví dụ các văn bản viết tay - "manuscript" của các nhà thơ, nhà văn, các nhà chính trị, hoặc các bản tuyên ngôn có chữ ký cuả các lãnh tụ như bản tuyên ngôn độc lập của Hoa Kỳ hiện có tại Thư viện Quốc hội Hoa Kỳ, vv…). Trên thực tế, còn có rất nhiều thể loại viết tay trên những chất liệu
khác nhau. Việc số hoá các bản viết tay đó tạo điều kiện tiếp cận thuận lợi hơn cho các nhà nghiên
ứu;
Tài liệu quýhiếm : Tài liệu quớ hiếm, lâu năm, độc giả không thể trực tiếp sử dụng, dễ hư hỏng - chẵng hạn như tài liệu chữ Nôm trên giấy
ổi;
Chuyển đối nhậnthức : Ngày càng có nhiều thông tin chuyển sang dạng số. Tài liệu giúp người sử dụng chuyển đổi nhận thức để làm quen việc sử dụng dạng thông tin này là ưu
.
Số hóa tài
ệu:
Một trong những công việc đầu tiên mà ta quan tâm khi bắt đầu xây dựng một thư viện số là liệu ta có cần phải số hoá tài liệu hiện hữu trong thư viện hay không. Số hoá là tiến trình chuyển tài liệu thư viện truyền thống, cụ thể là sách và văn bản sang dạng điện tử và lưu trữ trên máy
nh.
Có hai giai đoạn trong tiến trình số
á.
Giai đoạn đầu cho ra sản phẩm số hoá dạng hình bằng một tiến trình gọi là quét
hình - scani
.
Giai đoạn hai cho ra một sản phẩm dạng số hoá văn bản bằng mụt tiến trình gọi
Máy
uét
Các máy quét rất đa dạng về giá cả, hình dạng và kích thước. Chúng từ 100USD cho các máy quét hình phẳng cho đến 50,000USD cho các máy quét công nghiệp cở lớn của các nhà sản xuất như Bell & How
l.
Rất nhiều website cung cấp đa dạng máy quét. Để tìm những website này, bạn chỉ định từ khóa “scanners”cho các bộ máy tìm kiếm như Google, Altavista hoặc Y
oo.
Kết quả của một trang tài liệu được quét là một tập tin máy tính mà thông thường ở định dạng TIFF hoặc Bit
p.
Định dạng nén TIFF phiên bản 4 là sự lựa chọn tốt nhất. Trung bình một trang được nén và được chuyển thành định dạng này chỉ chiếm khoảng 5
b,
Trong khi ở định dạng Bitmap không được nén sẽ là Mb.
Quét dữ
ệu
Chuẩn bị các tài
iệu
Trước khi quét các tài liệu phải được chuẩn bị tốt. Các tài liệu phải sạch, khô ráo, tháo bỏ các ghim kẹp tài
Gáy sách nên được gở bỏ. Các cuốn sách của thư viện thông thường được đóng lại, và nếu như vậy bạn nên cẩn thận khi gở bỏ gáy sách để dể dàng cho việc đóng lại s
h.
Nếu như chỉ có ít tài liệu thì việc cắt gáy sách có thể được thực hiện bằng tay thông qua một cây thước và bộ cắt. Còn nếu có nhiều tài liệu thì nên dựng các máy cắt bằng tay đặc
ệt.
Đối với số lượng lớn – hơn 20 tài liệu thì chúng tôi khuyến cáo nên yêu cầu thợ in hoặc chủ tiệm photo sử dụng máy cắt chuyên dụng của họ, đừng quân gở bỏ các ghim kẹp kim loại vì chúng có thể gây hư hại máy
ắt. Tiến trình
uét
Nhờ vào phần mềm đi kèm với máy quét, một bức ảnh tài liệu kĩ thuật số sẽ được quét và chuyển thể thành hình ảnh định dạng Bitmap hoặc TIFF. Những tập tin hình này sẽ được lưu trữ trên ổ cứng với các tên chuẩn, và tiến trình nhận dạng kí tự sẽ được kích hoạt ngay khi một số tài liệu được
ét.
Thông thường độ phân giải khi quét khoảng 300dpi là đủ, mặc dù đôi lúc 200dpi là chấp nhận
ợc.
OCR: Nhận dạng
tự
Nhận dạng kí tự hay còn gọi là hệ thống OCR làm công việc chuyển thể các hình ảnh được quét thành văn bản. Đầu vào là một hình ảnh kỹ thuật số ở định dạng
TIFF hoặc Bitmap, tốt nhất là ảnh có chất lượng cao. Đầu ra là văn bản hoặc trang web, cơ bản là các định dạng RTF, Word hoặc H
L.
Sau đây là các bước cơ bản để chuyển thể tài liệu giấy tờ thành dạng kỹ thuậ
số: Quét tài iệu Phân tích lề ang Nhận ạng Quét ảnh và các ảng
Tuân theo những bước này, bạn kiểm tra chất lượng các tập tin kết quả và lưu chúng ở định dạng thíc
hợp.
Sử dụng tài liệu số hóa khô
OCR
Đối với tài liệu viết tay, văn bản ký tự cỗ, hay tài liệu hư hỏng khó nhận dạng ký tự thì phải số hóa bằng cách gỏ lại trên máy
ính.
Nếu sử dụng phần mềm nguồn mở Greenstone thì văn bản dạng PDF được Greenstone tự động chuyển qua một văn bản dạng HTML để có thể tra cứu theo từ khóa trong nội dung vă
bản.
Sử dụng các bộ s
Dịch vụ Tha
kảo
S ưu tầm tài liệu dưới tất cả mọi dạng thức, tổ chức thành bộ sưu tập thư viện số rồi xuất bản ra CD-ROM cho người s
dụng Công tác đ
chí
Sưu tầm tài liệu địa chí từ mẫu vật, di chỉ, hình ảnh, trang phục cho đến bài văn, tài liệu viết tay, vv…, số hoá rồi tổ chức thành bộ sưu tập để xuất bản trên Internet hay
-ROM
Kho tài ngyên h ọc tập trong trường đ
ọc
T ừng giảng viên hay nhà nghiên cứu, sưu tầm tài liệu theo chuyên ngành của mình, tổ chức thành bộ sưu tập rồi đóng góp cho thư viện mộ
bản.
3.3.3 Tạ và x uất bản bộ s tập
Mở công cụ tạo bộ sưu tập: Nhấn Start\Programs\Greenstone Digital Library\Greenstone Librarian Int
H12 : Cửa sổ ứng dụn
Trong cửa sổ GLI nhấn File\New để tạo bộ sưu tập mới. Nhập tên và phần mô tả
của bộ sưu tập: nhập tên bộ sưu tập muốn tạo (độ dài tối đa là 8 kí tự) trong ô
Collection titl , nhập phần mô tả về bộ sưu tập trong ô Description of content.
Hình13 : Tạo bộ sưu t
Chọn sử dụng tập Dublin Core Metadata bằng cách nhấn vào ô thứ hai, sau đó nhấn OK.
Hình 14 : Chọn chuẩn biên mụ
Cung cấp tài liệu nguồn cho bộ sưu tập: Nhấn biểu tượng Local Filespac , duyệt cây thư mục, chọn tài liệu nguồn và kéo thả sang cửa sổ bên phải
Mô tả tài liệu nguồn: Trong khung Collection bên trái chọn tài liệu muốn mô tả,
trong cửa sổ bên phải phía trên hiển thị các trường Dublin Core Metadat , chọn
các trường sử dụng để mô tả tài liệu và nhập giá trị vào ô Valu . Sau khi nhập
xong giá trị nhấn Appen , sử dụng hai nút Replace và Remove để chỉnh sửa
hoặc loại bỏ giá trị đã nhập. Trong ví dụ này chúng ta sử dụng 3 trường DC
Cấu hình bộ sưu tậ: mục tiêu của bước này là xác định các điều kiện tìm kiếm, giao diện hiển thị, plugin dùng cho việc chuyển đổi tài liệu và cách phân loại tài liệu. Chọn tab Desig , trong khung Design Sections ở bên trái hiển thị các thành phần dùng cho việc cấu hình bộ sưu tập
Hình15 : Cấu hinh bộ sưu t
- Xác định plugin: Chọn Document Plugins, trong cửa sổ bên phải trong danh
sách Select plugin to add chọn plugin phù hợp với loại tài liệu nguồn. Trong ví
dụ tài liệu nguồn là html do đó plugin là HTMLPlug, nhấn Add Plugin chọn
plugin này. Nhấn nút Configure Plugin để thêm các tham số cho plugin. Vì
trong tài liệu nguồn có tag mô tả cấu trúc hiển thị tài liệu do đó ta chọn tham số
description_tags, nhấn OK để kết thúc.
- Xác định các điều kiện tìm kiếm: Chọn Search Indexes, để xác định điều kiện
tìm kiếm bằng cách chọn trường mô tả trong khung Build index on, sau đó nhập
giá trong khung Index Name. Giá trị trong khung này sẽ được hiển thị trên giao
diện web khi người sử dụng thực hiện tìm kiếm. Nhấn nút Add Index để đưa
điều kiện tìm kiếm vào bộ sưu tập. Trong ví dụ chỉ đưa thêm một điều kiện tìm kiếm dựa trên trường dc.Creator.
- Xác định cách phân loại: Chọn Browsing Classifiers, trong danh sách Select classifier to add chọn kiểu phân loại muốn sử dụng, nhấn Add Classifier để thêm vào bộ sưu tập. Sau khi cửa sổ cấu hình tham số xuất hiện, chọn trường mô tả để phân loại sau đó chọn ô buttonname để nhập tên nút hiển thị trên giao diện
web, nhấn OK để kết thúc. Trong ví dụ chúng ta sử dụng hai cách phân loại là
tác giả và tiêu đề.
- Xác định cách hiển thị bộ sưu tậ: Chọn Format Feature , mục này có thể được chỉnh sửa nếu muốn bộ sưu tập hiển thị khác với mặc định
- Chuyển sang tiếng bản đị: mục đích chuyển một số từ ngữ tiếng Anh trong quá
trình xây dựng bộ sưu tập sang tiếng bản địa để thống nhất với ngôn ngữ hiển thị trên giao diện web. Chọn Translate Tex , trong danh sách Language of translation chọn VIETNAMESE
+ Trong khung Features chọn dòng General:collectionextra để chuyển sang
tiếng Việt nội dung mô tả sơ lược của bộ sưu tập, nhập giá trị trong khung
Translated Text sau đó nhấn Add Translatio
Hình17
: Chuyển sang tiếng bản đ
+ Chọn dòng Index:document:dc.Creator để chuyển creators thành tác giả.
+ Chọn dòng Index:document:text để chuyển entire documents thành toàn bộ
tài liệu.
+ Chọn dòng Index:section:ex.Title để chuyển section titles thành phần tiêu đề. + Chọn dòng Index:section:text để chuyển chapters thành chương.
Hình 18 : Xây bộ sưu tậ
Duyệt, tìm kiếm trong bộ sưu tậ
- Mở Greenstone Digital Library: Nhấn Start\Programs\ Greenstone Digital
Library\ Greenstone Digital Librar
- Nhấn nút Enter Library để mở web browser và truy cập trang chủ của Greenstone
Hình19
: Giao diện ứng dụng xuất bản bộ sưu t
Hình 20 : Trang chủ bộ sưu tập được hiển th
Hình21
: Duyệt bộ sưu tập theo nhan
- Duyệt bộ sưu tập theo tác giả: nhấn nút tác giả.
Hình 22 : Duyệt bộ sưu tập theo tác gi
Hình23
: Xem tài liệu trong bộ sưu t
- Tìm kiếm: Nhấn nút tìm kiếm, chọn điều kiện tìm kiếm trong hai danh sách có
trên màn hình.Ví dụ trong danh sách đầu chọn toàn bộ tài liệu dánh sách thứ hai
chọn một số từ, từ cần tìm kiếm là “cardinal wolsey”. Nhấn nút Bắt đầu tìm
kiếm để tìm kiếm. Nhấn vào một vào một dòng để xem kết quả.