Tìm hiểu Greenstone nguồn mở và ứng dụng xây dựng thư viện số

MỤC LỤC

DANH SÁCH BẢNG

TÌM HIỀU NGUỒN MỞ GREENSTONE

Trong phần này, chúng ta sẽ tìm hiểu thư viện số Greenstone, từ những khái niệm cơ bản, đến cấu trúc và cơ chế xử lý của hệ thống. Phần này sẽ giải thích tại sao Greenstone được rất nhiều thư viện trên thế giới lựa chọn như là một giải pháp xây dựng thư viện số đơn giản, hiệu quả, kinh tế và nhất là khả năng tuỳ biến cao nhưng vẫn đáp ứng được các tiêu chuẩn quốc tế về nghiệp vụ thư viện.

CÁC KHÁI NIỆM CƠ BẢN

  • Plugin
    • Classifier 1. Giới thiệu
      • Định dạng cách hiển thị tài liệu 1. Giới thiệu

        Ví dụ một plugin là HTMLPlug chuyển những trang HTML nguồn sang định dạng XML của Greenstone và trích thông tin metadata của tài liệu nguồn, ví dụ phần tiêu đề của trang HTML được bao trong cặp tag <title></title> được trích ra và đưa vào tập tin XML của Greenstone. Mục đích của việc thêm cặp thẻ <Section> </Section> vào tài liệu nguồn là để sau khi xây dựng bộ sưu tập, khi hiển thị nội dung của tài liệu bằng trình duyệt web, ta sẽ thấy cấu trúc phân cấp của tài liệu và có thể nhanh chóng xem nội dung một đoạn nào đó trong tài liệu nhờ cấu trúc phân cấp này.

        XÂY DỰNG BỘ SƯU TẬP

          Tập tin cấu hình của mỗi bộ sưu tập có tên collect.cfg được đặt trong thư mục “greenstone\collect\<tên bộ sưu tập>\etc” dùng để quản lý giao diện, cách thức xử lý tài liệu, cách hiển thị nội dung tài liệu…. Từ dòng 15 đến dòng 18 xác định thông tin chung của bộ sưu tập bao gồm : tên bộ sưu tập (collectionname), đường dẫn đến biểu tượng đại diện cho bộ sưu tập (iconcollection), mô tả bộ sưu tập (collectionextra), tên đại diện cho chỉ mục tìm kiếm tài liệu (tên này sẽ xuất hiện trong chức năng Search của Greenstone để người dùng có thể chọn cách tìm kiếm tài liệu).

          Hình   3.1 - Quá trình xây dựng bộ sưu tập
          Hình 3.1 - Quá trình xây dựng bộ sưu tập

          HIỆU CHỈNH GIAO DIỆN GREENSTONE

          • Các nút duyệt trang 1. Cách hiển thị
            • Các nút duyệt tài liệu 1. Giới thiệu
              • Hiển thị văn bản

                Tạo những macro _httpicon_ (định nghĩa các macro ảnh “of”, ảnh “on”) , những macro này chỉ ra vị trí của những ảnh, những macro này trong package Global của tập tin english.dm. Có thể thay đổi nội dung trên nút duyệt trang bằng cách chỉnh sửa các ảnh của nút, hoặc thay đổi liên kết của nút duyệt trang bằng cách chỉnh sửa macro _httppageX_(ví dụ _httppagecollect_), thay đổi chuỗi mô tả ảnh bằng cách chỉnh sửa macro _textimageX_ (ví dụ _textimagecollect_) hoặc thay đổi vị trí của nút này so với nút khác bằng cách chỉnh sửa macro _javalinks_. Thay đổi nút duyệt tài liệu bằng cách thay đổi macro _httpbrowseX_ (ví dụ _httpbrowseMuseum_) hay _httpicontX_ (ví dụ _httpicontmuseumgr_) hay _textimageX_ (ví dụ _textimageMuseum_)….

                Ví dụ, chuỗi format sau sẽ hiển thị danh sách các tiêu đề của tài liệu là classifier đầu tiên, với một thumbnail và phần mô tả chung, được minh họa ở hình 4.3. Nội dung của trang chủ sẽ được chứa trong macro _content_ .Ta có thể dùng một chương trình thiết kế website (Frontpage,Dreamweaver…) thiết kế giao diện trang chủ, sau đó copy phần source code trong đoạn <body>.</body> vào macro _content_ này. Trang zthesis hiển thị tất cả các bộ sưu tập luận văn, mỗi bộ sưu bao gồm các luận văn của một khóa học nào đó, ví dụ bộ sưu tập luận văn khóa 2001, bộ sưu tập luận văn khóa 2002….

                Hình   4.4 – Hiển thị nội dung tài liệu
                Hình 4.4 – Hiển thị nội dung tài liệu

                HỆ THỐNG WEB GREENSTONE

                • Mã nguồn

                  Collection server nhận được yêu cầu, phân tích, lấy những thông tin được yêu cầu từ các bộ sưu tập và phản hồi lại cho receptionist, sau đó receptionist hiển thị kết quả cho người dùng. Chuỗi này có ý nghĩa: người dùng muốn truy cập đến collection gberg(c=gberg), hành động(action) là muốn phát sinh ra một trang web (a = p) và trang được phát sinh là trang about (p=about). Những phản hồi từ phía server được receptionist dùng các thành tố như chuỗi định dạng (format), macro để phát sinh trang web kết quả hiển thị cho người dùng.

                  Collection server cũng trải qua quá trình khởi tạo các thành tố của nó, sau đó dùng các thành tố như Filter, Source, Search để phản hồi những yêu cầu gửi đến. Các thành tố như Filter, Source, Search truy cập đến hệ thống chỉ mục và cơ sở dữ liệu quản lý thông tin bộ sưu tập để lấy kết quả phản hồi cho người dùng. ™ gsdltools.h : định nghĩa các hàm hỗ trợ hệ thống Greenstone : kiểm tra trình thực thi Perl có tồn tại không, thực thi một câu lệnh hệ thống, xác định tài liệu định dạng theo little Endian hay big Endian….

                  Hình   5.1 - Cơ chế xử lý
                  Hình 5.1 - Cơ chế xử lý

                  XÂY DỰNG ỨNG DỤNG

                  • Tổng quan
                    • Các chức năng chính

                      Trước nhu cầu tin học hoá hệ thống thư viện khoa CNTT – ĐH KHTN, ta cần xây dựng hệ thống quản lý thư viện điện tử, dựa trên nền tảng của Greenstone. Hệ thống cho phép người dùng xây dựng bộ sưu tập luận văn, sách, giáo trình, các tài liệu khác, tìm kiếm thông tin tài liệu, tra cứu trên nội dung tài liệu, quản lý thông tin tài liệu trong cơ sở dữ liệu, quản lý người dùng và một số chức năng khác. Thành viên trong Khoa sẽ đăng nhập vào website thư viện điện tử của Khoa để nhập thông tin luận văn, cũng như dùng chương trình để chuẩn hoá luận văn theo định chuẩn của hệ thống.

                      Để tài liệu trong các bộ sưu tập hiển thị theo cấu trúc phân cấp, giúp người dùng nắm được cấu trúc tài liệu và truy xuất thông tin hiệu quả, tài liệu cần được xử lý trước. Thủ thư lấy thông tin luận văn của Thành viên trong Khoa cung cấp, hiệu chỉnh lại nếu cần thiết, và dùng những tập tin luận văn đã chuẩn hoá để tạo bộ sưu tập. Thủ thư biên mục tài liệu theo các chuẩn biên mục, phổ biến là chuẩn Dublin Core, hoặc tự tạo ra các chuẩn riêng nhờ hiệu chỉnh các bộ metadata.Các tài liệu bao gồm : các tài liệu văn phòng (Word, Power Point, Excel… ) , văn bản, Acrobat Reader (PDF), HTML, XML, Email, tập tin nén (.Zip) … hoặc âm thanh (mp3), hình ảnh, video…Sau khi biên mục, thủ thư có thể xây dựng bộ sưu tập.

                      ITLIBWEB

                      • Xác định yêu cầu 1. Giới thiệu
                        • Use case “Xem luan van” (Xem thông tin luận văn) a. Tóm tắt

                          Ở chức năng này hệ thống ITLibWeb sẽ kết nối với hệ thống Greenstone để thực hiện các chức năng tra cứu, tìm kiếm tài liệu, xem nội dung tài liệu…. Đặc tả này vạch rừ cỏc yờu cầu phi chức năng của hệ thống, như tớnh ổn định, tính khả dụng, hiệu năng, và tính hỗ trợ cũng như các yêu cầu chức năng chung cho một số Use case (Cỏc yờu cầu chức năng được chỉ rừ trong phần Đặc tả Use case). Cho phép người dùng nói chung xem các thông tin về nôi quy, điều lệ làm thẻ đọc giả, hình thức phạt, tra cứu tài liệu, xem thông báo các tài liệu mới, xem danh sách các đọc giả mượn quá hạn, đăng nhập, đăng xuất, đổi mật khẩu, xem các liên kết báo chí, hội họa, âm nhạc, xem các liên kết đến các thư viện điện tử khác.

                          Hệ thống phải ngăn chặn các người dùng không phải là giáo viên, sinh viên của Khoa truy cập bất hợp pháp vào các trang nhập thông tin luận văn, xem thông tin luận văn. Trong dòng sự kiện chính, nếu vì lý do nào đó (server quá tải, có lỗi ở các bộ sưu tập tài liệu), hệ thống ITLibWeb không kết nối với hệ thống Greenstone được, thì hệ thống Greenstone sẽ thông báo lỗi và Use case kết thúc. Trong dòng sự kiện chính, nếu thành viên Khoa nhập thông tin luận văn không hợp lệ (nhập thiếu các trường bắt buộc, nhập sai định dạng…) thì hệ thống sẽ hiển thị thông báo lỗi.

                          Hình   7.1 – Lược đồ Use case
                          Hình 7.1 – Lược đồ Use case

                          ITLib

                          • Xác định yêu cầu 1. Giới thiệu
                            • Use case “QL BST Tổng quát”

                              Đặc tả này vạch rừ cỏc yờu cầu phi chức năng của hệ thống, như là tớnh ổn định, tính khả dụng, hiệu năng, và tính hỗ trợ cũng như các yêu cầu chức năng chung cho một số Use case. Cho phép thủ thư làm việc nhiều phiên mà thông tin không bị mất (hay là quá trình tạo bộ sưu tập được lưu tại những điểm cần thiết). Hệ thống phân loại: tập tin luận văn chuẩn hóa được đưa vào thư mục import\<mã luận văn>, tập tin nguồn được đưa vào thư mục source\<mã luận văn>.

                              Trong luồng phụ “Tạo mới bộ sưu tập” , nếu một luận văn không có trong CSDL do ITLibWeb cung cấp, thủ thư sẽ điền thông tin mới cho luận văn và trở lại bước 10 của luồng phụ “Tạo mới bộ sưu tập”. Thông tin tạo lập bộ sưu tập không hợp lệ (tên bộ sưu tập có dấu tiếng Việt, hoặc không có thông tin mô tả bộ sưu tập, hoặc đã tồn tại bộ sưu tập cùng tên…). Thông tin tạo lập bộ sưu tập không hợp lệ (tên bộ sưu tập có dấu tiếng Việt, hoặc không có thông tin mô tả bộ sưu tập, hoặc đã tồn tại bộ sưu tập cùng tên…).

                              Hình    8.2 - “Chuẩn hóa tài liệu” : dòng sự kiện chính
                              Hình 8.2 - “Chuẩn hóa tài liệu” : dòng sự kiện chính