0
Tải bản đầy đủ (.pdf) (74 trang)

Tổng quan về GreenStone

Một phần của tài liệu NGHIÊN CỨU CÔNG NGHỆ SỐ HÓA VÀ TẠO LẬP CHỈ SỐ TRONG HỆ QUẢN TRỊ NỘI DUNG (Trang 51 -51 )

Greenstone [6, 9] là bộ phần mềm miễn phí cho việc xây dựng và phân phối bộ sưu tập thư viện số. Nó cung cấp phương pháp mới để tổ chức thông tin và xuất bản thông tin trên internet hay trên CD ROM.

Greenstone xuất phát từ Dự án Thư viện Số của New Zealand tại trường Đại học Waikato, và được phát triển và phân phối bởi sự hợp tác Với UNESCO và Human Info NGO.

cho các trường Đại học, thư viện và các viện nghiên cứu xây dựng các bộ sưu tập cho riêng mình.

Lý do sử dụng Greenstone để tạo lập chỉ mục [9]

Chạy được trên nhiều hệ điều hành (muliplatform): Windows, Linux,…. Tìm kiếm toàn văn bản và tìm kiếm theo từng trường riêng biệt

Tận dụng các metadata sẵn có trong tài liệu, giúp người tạo lập bộ sưu tập không phải làm bằng tay.

Khả năng linh động, dễ mở rộng hệ thống nhờ các thành phần như plugin, classifier.

Hỗ trợ xử lý tài liệu với nhiều ngôn ngữ. Xây dựng đơn giản, hiệu quả.

Các bộ sưu tập dễ dàng mang chuyển, phân phối, chia sẻ.

Một số khái niệm cơ bản trong Greenstone [6] - MetaData:

Là thông tin mô tả cho một tài liệu trong bộ sưu tập. Greenstone dùng các thẻ XML để mô tả thông tin cho tài liệu.

<Metadata name = “Tile”>Greenstone trong tạo lập chỉ số</Metadata> <Metadata name=“Author”>Nguyễn Thị Hòa</Metadata>

- Biên mục:

Là khái niệm nghiệp vụ để chỉ hành động cung cấp thông tin mô tả cho các tài liệu. Hiện nay biên mục tài liệu theo chuẩn Dublin Core, chuẩn này được trình bày cụ thể trong mục 2.3.

- Plugin:

Là một chương trình con được dùng trong quá trình xây dựng bộ sưu tập

Do nguồn vào có nhiều dạng tài liệu khác nhau (pdf, word, text,…) nên cần plugin để chuyển chúng về một loại thống nhất là XML của Greenstone và trích thông tin từ tài liệu nguồn đưa vào tệp tin XML này.

Các plugin được liệt kê trong tệp tin cấu hình collect.cfg. Tùy theo tài liệu nguồn dạng nào ta sẽ chọn plugin tương ứng.

Các plugin được đặt trong thư mục “Greenstone\perllib\plugins” [9].

Bảng 2.2: Bảng danh sách các Plugin

Tên Plugin Công dụng Kiểu tệp tin xử lý

Kiểu tệp tin không xử lý BasPlugin Là lớp cơ sở cho tất cả các plugin

ConvertToPlug Gọi các chương trình để chuyển các tài liệu độc quyền sang HTML hay plain text

ArcPlug Xử lý các tệp tin chỉ ra trong tập archiver.inf, tập tin archiver.inf là cầu nối giữa tiến trình import và

tiến trinh build. Plugin này bắt buộc phải khai báo trong tập tin cấu hình.

RecPlug Duyệt qua thư mục để xử lý các tệp tin mà plug này tìm thấy

GSPlug Xử lý các tệp tin của Greenstone phát sinh từ chương trình import.pl

.xml

TextPlug Xử lý các tập tin text thuần túy .txt, .Text HTMLPlug Xử lý tệp tin HTML .htm, .html, .cgi, .php, .asp, .shm, .Shtml .gif, .jpg, .jpeg, .png, .css, .rft

WordPlug Xử lý tập tin word .doc .gif, .jpg, .jpeg, .png, .css, .rft PDFPlug Xử lý tập tin PDF .pdf .gif, .jpg,

.jpeg, .png, .css, .rft PSPlug Xử lý tài liệu Postscript, trích

thông tin metadata ngày, tựa đề, số trang,…

Tập tin kết thúc bằng số hoặc theo saulaf .Email BibTexPlug Xử lý các tập tin bibliography

theo chuẩn Refer

.bib

SRCPlug Xử lý các tệp tin mã nguồn Makefile, readme, .c, .cc, .cpp, .h, .hpp, .pl, .pm, .Sh

.o, .obj, .a, .so, .dll

ImagePlug Xử lý các tệp tin hình ảnh. Plugin này chỉ dùng trên Unix

.gif, .jpg, .jpeg, .png, .bmp, .xbm,

.tif, .Tiff SplitPlug Giống BasPlug và

ConvertToPlug. Không dùng trực tiếp Plugin này, plugin này phải được thừa kế để xử lý tài liệu.

FoxxPlug Xử lý tập tin FoxBase .dbt, .Dbf ZipPlug Xử lý các tệp tin nén .gzip, .bzip,

.tar, .zip, .gz, .bz, .tgz, .Taz

- Classifier:

Dùng để xây dựng cấu trúc duyệt tài liệu trên web của một bộ sưu tập. Tương tự các Plugin, các classifier được đặt tả trong tập tin cấu hình collect.cfg của mỗi bộ sưu tập.

Cú pháp: Classify <Tên classifier> <Các tham số>

<Tên classifier>: gồm

- AZList: liệt kê các tài liệu theo từng vùng alphabet.

- List: liệt kê tài liệu thành một danh sách sắp thứ tự alphabet. - DateList: liệt kê tài liệu theo từng vùng thời gian.

- Hierarchy: liệt kê tài liệu dưới dạng phân cấp

Ví dụ: classify AZList –metadata Title- buttonname TitleA-Z

liệu của bộ sưu tập sẽ được sắp xếp theo metadata đã được chỉ ra. Với ví dụ trên, các tài liệu được sắp xếp theo tựa đề của tài liệu (Title).

Tham số buttonname xác định tên nút xuất hiện trên thanh duyệt. Với dòng đặc tả trên, tên nút xuất hiện trên thanh trình duyệt là TitleA-Z, nghĩa là các tài liệu của bộ sưu tập được liệt kê theo thứ tự từng vùng alphabet.

Hình 2.10: Tài liệu được liệt kê theo từng vùng alphabet

Định dạng cách hiển thị tài liệu

Định dạng được chia thành 2 phần:

 Danh sách tài liệu được phát sinh bởi classifier hoặc danh sách tài liệu nhận được trong quá trình tìm kiếm:

Cú pháp:format <kiểu danh sách><chuỗi html định dạng>

<kiểu danh sách>: gồm 2 phần

Phần 1: Search – danh sách kết quả tìm kiếm tài liệu Cli – danh sách được phát sinh bởi classifier thứ i Phần 2: VList – danh sách theo chiều dọc

Hlist – danh sách theo chiều ngang

DateList – danh sách phân loại theo thời gian

Ví dụ: format SearchVList….: định dạng kết quả tìm kiếm tài liệu, áp dụng cho các danh sách hiển thị theo chiều dọc.

format CL1Hlist …: định dạng danh sách tài liệu phát sinh từ classifier thứ nhất, áp dụng cho các danh sách hiển thị theo chiều ngang.

 Những thành phần trên trang web hiển thị tài liệu hoặc hiển thị các đoạn của một tài liệu.

Cú pháp: format <tên thành phần><giá trị>

phần sau:

Bảng 2.3: Bảng các tên thành phần hiển thị trên trang web

Tên thành phần Giá trị Ý nghĩa

DoccumentHeading Chuỗi định dạng

Định dạng phần header của tài liệu trong trang tài liệu

DoccumentContents True/ False

Hiển thị bảng nội dung tài liệu được phân cấp hoặc các nút next/previous và đoạn chữ “page k of n” nếu tài liệu không phân cấp.

DoccumentButtons Chuỗi Quản lý các nút hiển thị trên trang tài liệu. Giá trị mặc định Detach/HighLight

DoccumentText Chuỗi định dạng

Định dạng nội dung hiển thị trên trang tài liệu. Giá trị mặc định: <center> <table width=537><tr>[Text]<td></td></tr></table></c enter>

DoccumentUseHTML True/ False

True: mỗi tài liệu được hiển thị trong một frame. False: không hiển thị tài liệu dưới dạng frame.

Một phần của tài liệu NGHIÊN CỨU CÔNG NGHỆ SỐ HÓA VÀ TẠO LẬP CHỈ SỐ TRONG HỆ QUẢN TRỊ NỘI DUNG (Trang 51 -51 )

×