1. Trang chủ
  2. » Công Nghệ Thông Tin

TÌM HIỂU NGUỒN MỞ GREENSTONE VÀ ỨNG DỤNG - 2 pdf

19 395 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 19
Dung lượng 535,39 KB

Nội dung

Chương 1 – Tổng quan Trang 4 Một câu hỏi thú vị là, World Wide Web có phải là một thư viện số hay không? Nó cũng là một kho dữ liệu khổng lồ chuyên thu thập hàng ngàn, hàng triệu trang tài liệu, cho phép người ta tìm kiếm thông tin trên đó. Tuy nhiên, theo Clifford Lynch, một trong những nhà nghiên cứu hàng đầu trong lĩnh vực khoa học thư viện nói chung và thư viện số nói riêng, câu trả lời là không. “Internet và những tài nguyên đa phương tiện của nó, còn gọi là World Wide Web, không được thiết kế để hỗ trợ xuất bản và thu nhận thông tin có tổ chức. Nó chỉ là một kho hỗn độn của các thông tin vô tổ chức trên thế giới số… Internet không phải là một thư viện số.”[23] Thư viện số trước hết là một thư viện.Thêm vào đó nó có các đặc trưng riêng của một hệ thống điện tử với những công nghệ, dịch vụ mới. Hiện nay trên thế giới có r ất nhiều hệ thống phần mềm thư viện số như Project Gutenberg, Ibiblio và Internet Archieve. Tuy nhiên, chúng hầu hết là những sản phẩm thương mại. Chỉ tính riêng ở Việt Nam đã có ít nhất ba nhà cung cấp hệ thống phần mềm dạng này 1 . Đó là Công ty trách nhiệm hữu hạn CMC (CMC Co., Ltd) với hệ thống iLib; Công ty Tin học Lạc Việt (LAC VIET Computing Corp) với phần mềm VeBrary; và phần mềm Libol của Công ty Tin học Tinh Vân (TINH VAN Informatic Technology Co.). Theo các chuyên gia đánh giá, “Các phần mềm hiện nay đang sử dụng tại các thư viện Việt Nam do các nhà sản xuất Việt Nam cung cấp đang còn có một số hạn chế về độ tin cậy. Do thời gian dùng thử nghiệm chưa nhiều, qui mô khai thác chưa lớn nên ch ưa thể có kết luận một cách rõ ràng chất lượng của các sản phẩm này” [19]. Do đó, việc sử dụng một hệ thống thư viện số thoả mãn những tiêu chuẩn quốc tế, tạo mặt bằng chung trong quá trình liên kết hệ thống các thư viện hiện nay là rất cần thiết. 1.2. Thư viện số Greenstone 1.2.1. Giới thiệu Các thư viện số làm thay đổi nhanh chóng cách thức thu thập và phổ biến thông tin ở nhiều quốc gia, nhất là các quốc gia còn kém và đang phát triển. Đứng 1 Xin xem phần thăm dò các sản phẩm phần mềm thư viện ở Việt Nam trong phụ lục B Chương 1 – Tổng quan Trang 5 trước yêu cầu thực tế, năm 1995 một nhóm nhỏ các giảng viên và sinh viên Đại học Waikato, New Zealand đã xây dựng phần mềm thư viện số Greenstone, giúp người dùng dễ dàng xây dựng và phân phối các bộ sưu tập thư viện số. Phần mềm Greenstone cung cấp một phương pháp mới để tổ chức và xuất bản thông tin trên Internet và qua CD-ROM. Greenstone ban đầu là sản phẩm của dự án New Zealand Digital Library của trường đại họ c Waikato. Sau đó, thấy được ý nghĩa và tác dụng của phần mềm, từ tháng 8/2000, UNESCO 2 và Human Info NGO 3 đã tham gia phát triển và hỗ trợ. Đây là phần mềm mã nguồn mở được cung cấp trên http://www.greenstone.org theo thoả thuận đăng kí GNU General Public License. Greenstone mang tính quốc tế. Hiện nay Greenstone đã được sử dụng ở rất nhiều quốc gia, có giao diện và các bộ sưu tập với nhiều ngôn ngữ. Nhóm nghiên cứu nghĩ rằng, việc mở rộng, hỗ trợ cho mọi sinh ngữ là điều có thể thực hiện được. UNESCO đã và đang phát triển Greenstone như là một phần trong chương trình “Thông tin cho tất cả - Information for All”. Greenstone cũng là ph ần mềm đa môi trường : có thể chạy được trên hệ điều hành Windows, Unix, Macintosh OS/X. Người dùng sử dụng các bộ sưu tập của Greenstone qua web, hoặc qua đĩa CD, mà không có sự khác biệt gì nhiều. Hệ thống Greenstone gồm hai phần : Phần xử lý offline, thực hiện việc tạo dựng các bộ sưu tập, tạo các cấu trúc dữ liệu để tìm kiếm và trình duyệt; và phần xử lý online, cho phép người dùng truy xuất, sử dụng các bộ sưu tập. 1.2.2. Tính năng Sau đây là những điều tóm lược về những đặc trưng nổi bật, và cũng là ưu thế của Greenstone. - Truy cập qua trình duyệt web, cả ở chế độ cục bộ (local) và từ xa (remote). - Chạy được trên nhiều hệ điều hành : Windows, Unix, Macintosh. - Tìm kiếm toàn văn bản và tìm kiếm theo từng trường riêng biệt. 2 UNESCO (United Nations Educational, Scientific and Cultural Organization) – Tổ chức Giáo dục, Khoa học và Văn hoá của Liên Hợp Quốc. 3 Human Info NGO, viết tắt của Humanitarian Information for All - Non-Governmental Organization, một tổ chức phi chính phủ của Bỉ, hoạt động nhân đạo vì quyền tự do và phát triển của con người. Chương 1 – Tổng quan Trang 6 - Khả năng trình duyệt linh động, đa dạng - Cấu trúc duyệt tài liệu được xây dựng hoàn toàn tự động. - Tận dụng các metadata sẵn có trong tài liệu, giúp người tạo lập bộ sưu tập không phải làm bằng tay. - Khả năng linh động, dễ mở rộng hệ thống nhờ các thành phần như plugin, classifier. - Hỗ trợ xử lý tài liệu với nhiều loại ngôn ngữ. - Cung cấp giao diện đ a ngôn ngữ. - Ngoài các bộ sưu tập văn bản, hình ảnh thông thường, Greenstone còn cho phép tạo các bộ sưu tập hình ảnh, âm thanh đa phương tiện (multimedia) - Khả năng lưu trữ rất lớn, tới hàng Gigabyte dữ liệu. - Thêm mới bộ sưu tập đơn giản, có hiệu quả tức thì. - Khả năng xuất bản các bộ sưu tập ra CD, với đầy đủ tính năng để có thể tự cài đặt và chạy độc lập - Các bộ sưu tập dễ dàng được mang chuyển, phân phối, chia sẻ. - Theo phong cách WYSIWYG (What you see is what you get), dễ dùng, thuận tiện. 1.3. Mục đích của đề tài Sau khi tìm hiểu về hệ thống những phần mềm thư viện số trong nước và trên thế giới, Greenstone nổi bật lên với tính hiệu quả, dễ sử dụng, mã nguồn mở, dễ tùy biến và mang tính chuẩn quốc tế. Rất tâm đắc với phương châm hoạt động của Greenstone, chúng em đã chọn tìm hiểu về hệ thống phần mềm này làm đề tài Tốt nghiệp của mình. Hiểu rõ v ề Greenstone và ứng dụng phần mềm này vào mục đích xây dựng một thư viện số, trước hết là phục vụ nhu cầu học tập và giảng dạy trong Khoa Công nghệ Thông tin, Đại học KHTN. Sau đó, nếu có thể, sẽ tham gia vào việc số hoá hệ thống thư viện hiện có. Đây cũng là một yêu cầu cấp thiết, nhất là khi Trường chúng ta làm chủ đầu tư dự án “Hệ thố ng thông tin – thư viện điện tử liên kết các trường đại học” từ giữa năm 2004. Chương 2 – Các khái niệm cơ bản Trang 7 CHƯƠNG 2. CÁC KHÁI NIỆM CƠ BẢN  Tài liệu  Bộ sưu tập  Tìm kiếm  Duyệt tài liệu  Metadata  Biên mục  Plugin  Classifier  Định dạng cách hiển thị tài liệu Chương 2 – Các khái niệm cơ bản Trang 8 2.1. Tài liệu Greenstone hỗ trợ các loại tài liệu dạng HTML, XHTML và XML, TXT, các dạng phức tạp như Word, RTF hoặc dạng được sử dụng phổ biến trên nhiều môi trường như PDF, PostScript, dạng multi-media như âm thanh (ví dụ .mp3), hình ảnh, phim… 2.2. Bộ sưu tập Một thư viện số do Greenstone tạo ra chứa được nhiều bộ sưu tập. Mỗi bộ sưu tập tập trung vào một chủ đề nào đó. Ví dụ, bộ sưu tập Luận văn, bộ sưu tập Sách… Các bộ sưu tập có thể được bổ sung cập nhật. Kích thước bộ sưu tập có thể lên đến hàng gigabyte dữ liệu. Bộ sưu tập có thể xem là đơn vị của một thư viện số Greenstone. 2.3. Tìm kiếm Mặc định, các bộ sưu tập cho phép tìm kiếm trên toàn bộ nội dung văn bản. hoặc có thể tìm trên từng vùng (section) hay đoạn (paragraph). Cũng có thể tìm kiếm theo các từ khoá, hay các cụm từ, và kết quả sẽ được sắp xếp thứ tự theo yêu cầu của câu truy vấn. 2.4. Duyệt tài liệu Greenstone cho phép định nghĩa trước các cấu trúc để duyệt tài liệu trong mỗi bộ sưu tập dựa trên những metadata tìm thấy trong bộ sưu tập đó. Chương 2 – Các khái niệm cơ bản Trang 9 Ví dụ, bộ sưu tập Greenstone Demo cho phép ta duyệt các tài liệu theo metadata “đề mục” Hình 2.1 - Minh hoạ duyệt tài liệu Với những tài liệu phân cấp theo bảng mục lục, ta có thể duyệt theo chính mục lục đó, rất tiện lợi, như hình dưới đây Chương 2 – Các khái niệm cơ bản Trang 10 Hình 2.2 - Minh hoạ duyệt tài liệu được phân cấp 2.5. Metadata Là thông tin mô tả cho một tài liệu trong bộ sưu tập, ví dụ tựa đề tài liệu, tên tác giả, ngày xuất bản… Greenstone dùng các thẻ XML để mô tả thông tin cho tài liệu, ví dụ: <Metadata name =”Title”> Tìm hiểu nguồn mở Greenstone </Metadata> <Metadata name =”Author”> Quy,Quỳnh </Metadata> Các thẻ này có thể: - Được nhúng trong tài liệu của bộ sưu tập, ví dụ các thẻ HTML trong tài liệu HTML. - Được lưu thành tập tin metadata kèm theo tài liệu. - Được trích một cách tự động từ một tài liệu nào đó, ví dụ thông tin về tên, kích thước, ngày tạo, ngày hiệu chỉnh … tập tin tài liệu. Chương 2 – Các khái niệm cơ bản Trang 11 2.6. Biên mục Biên mục là khái niệm của nghiệp vụ thư viện để chỉ hành động cung cấp thông tin mô tả cho các tài liệu trong thư viện. Hiện nay người ta thường biên mục tài liệu theo chuẩn quốc tế Dublin Core. 2.7. Plugin 2.7.1. Giới thiệu Plugin là một chương trình con (script) được dùng trong quá trình xây dựng bộ sưu tập. Do nguồn vào có nhiều dạng tài liệu khác nhau (pdf, word, text…) nên cần plugin chuyển chúng về một dạng thống nhất là XML của Greenstone và trích thông tin từ những tài liệu nguồn đưa vào tập tin XML này. Ví dụ một plugin là HTMLPlug chuyển những trang HTML nguồn sang định dạng XML của Greenstone và trích thông tin metadata của tài liệu nguồn, ví dụ phần tiêu đề của trang HTML được bao trong cặp tag <title></title> được trích ra và đưa vào tập tin XML của Greenstone. Mỗi bộ sưu tập có một tập tin cấu hình collect.cfg. Tập tin này liệt kê các plugin được dùng trong quá trình xây dựng bộ sưu tập. Tùy theo tài liệu nguồn có định dạng thế nào, ta sẽ chọn các plugin tương ứng. Ví dụ nếu tài liệu nguồn là tập tin word thì ta dùng plugin WordPlug. Các plugin được viết bằng ngôn ngữ lập trình Perl. Mọi plugin đều kế thừa từ plugin cơ sở BasPlug. Plugin cơ sở BasPlug thực hiện những thao tác cơ bản như tạo tài liệu mới XML theo định dạng của Greenstone, gán định danh cho tài liệu. Các plugin được đặt trong thư mục “greenstone\perllib\plugins”. Để tìm hiểu thông tin của một plugin, ta dùng lệnh sau ở chế độ command prompt: pluginfo.pl plugin-name. Ta cũng có thể viết các plugin mới. Chương 2 – Các khái niệm cơ bản Trang 12 2.7.2. Danh sách các plugin Tên plugin Công dụng Kiểu tập tin xử lý Các tập tin không xử lý BasPlug Là lớp cơ sở cho tất cả các plugin - - ConvertToPlug Gọi các chương trình bên ngoài để chuyển các tài liệu độc quyền (word hay pdf) sang html hay plain text - - ArcPlug Xử lý những tập tin được chỉ ra trong tập tin archives.inf, tập tin archive.inf là cầu nối giữa tiến trình import và tiến trình build. Plugin này bắt buộc phải khai báo trong tập tin cấu hình - - RecPlug Duyệt qua thư mục để xử lý các tập tin mà plugin này tìm thấy - - GAPlug Xử lý những tập tin của Greenstone được phát sinh từ chương trình import.pl .xml - TEXTPlug Xử lý tập tin text thuần túy .txt, .text - HTMLPlug Xử lý tập tin HTML .htm, .html, .cgi, .php, .asp, .shm, .shtml .gif, .jpg, .jpeg, .png, .css, .rtf WordPlug Xử lý tài liệu Word .doc .gif, .jpg, .jpeg, .png, .css, .rtf PDFPlug Xử lý tập tin pdf .pdf .gif, .jpg, .jpeg, .png, .css, .rtf PSPlug Xử lý tài liệu postscript, trích thông tin metadata ngày, tựa đề, số trang .ps .eps EMAILPlug Xử lý những thông điệp email, trích thông tin như tác giả, chủ đề, ngày… Tên tập tin kết thúc bằng số, hoặc số theo sau là .Email - BibTexPlug Xử lý các tập tin bibliography theo chuẩn BibTex .bib - ReferPlug Xử lý các tập tin bibliography theo chuẩn Refer .bib - SRCPlug Xử lý các tập tin mã nguồn Makefile, Readme, .c, .cc, .cpp, .h, .hpp, pl, .o, .obj, .a, .so, .dll Chương 2 – Các khái niệm cơ bản Trang 13 .pm, .sh ImagePlug Xử lý các tập tin ảnh. Plugin này chỉ dùng trên UNIX .gif, .jpg, .jpeg, .png, .bmp, .xbm, .tif, .tiff - SplitPlug Giống BasPlug và ConvertToPlug. Không dùng trực tiếp plugin này, plugin này phải được kế thừa lại để xử lý tài liệu - - FOXPlug Xử lý các tập tin FoxBase .dbt, .dbf - ZIPPlug Xử lý các tập tin nén .gzip, .bzip, .zip, .tar, .gz, .bz, .tgz, .taz - Bảng 2.1 – Danh sách các plugin 2.7.3. Các plugin xử lý tài liệu độc quyền Đối với tài liệu độc quyền như word, pdf, ta dùng các plugin tương ứng là WordPlug và PDFPlug. Các plugin này thực hiện 2 thao tác: 1. Chuyển tài liệu nguồn sang dạng html hay plain text 2. Sử dụng plugin HTMLPlug hay TEXTPlug chuyển kết quả ở bước 1 sang dạng XML của Greenstone. Để chuyển tài liệu nguồn sang dạng html hay plain text, Greenstone dùng những chương trình có sẵn như pdftohtml, wvware trong thư mục “greenstone\bin\windows”. Các plugin WordPlug và PDFPlug kế thừa từ plugin ConvertToPlug. Tùy chọn convert_to của plugin ConvertToPlug cho biết chuyển sang dạng tài liệ u nào. [...]... vào tài liệu nguồn, tài liệu nguồn lúc này có nội dung như sau: < !- Tìm hiểu PP LT hướng khía cạnh > Tìm hiểu PP LT hướng khía cạnh < !- Lời cảm ơn > Trang 18 Chương 2 – Các khái niệm cơ bản Lời cảm ơn (Nội dung phần “Lời cảm ơn”) … < !-... RegPlug sẽ tìm trong thư mục tài liệu nguồn tập tin metadata.xml, sau đó gán thông tin metadata trong tập tin metadata.xml này cho các tập tin và thư mục con trong thư mục tài liệu nguồn 2. 7.5 Chia cấu trúc tài liệu nguồn Có thể chia tài liệu nguồn có cấu trúc phân cấp thành nhiều vùng (section), mỗi vùng được bao bằng cặp thẻ , các cặp thẻ có thể lồng nhau < !-... … < !- Trang 19 Chương 2 – Các khái niệm cơ bản Tìm hiểu phương pháp lập trình hướng khía cạnh > Phần 1: Tìm hiểu phương pháp lập trình hướng khía cạnh < !- Tổng quan về đề tài > Chương 1: Tổng quan về đề tài (Các nội dung trong chương 1) … < !-... > Trang 20 Chương 2 – Các khái niệm cơ bản Sau khi xây dựng bộ sưu tập từ tài liệu nguồn đã chèn các cặp thẻ , trình duyệt web sẽ hiển thị nội dung tài liệu này như sau: Hình 2. 7 - Hiển thị nội dung tài liệu trên trình duyệt web Giả sử ta muốn xem nội dung Chương 1, ta click vào link Chương 1: Tổng quan về đề tài, nội dung hiển thị như sau: Hình 2. 8 - Hiển thị nội dung... nội dung của Section) < !- > Hình 2. 6 - Minh họa cách chia section cho tài liệu Giữa cặp thẻ ta có thể thêm cặp thẻ để mô tả thông tin cho section Ví dụ trên mô tả thông tin metadata Trang 16 Chương 2 – Các khái niệm cơ bản Title cho section Ta chỉ có thể thêm các thẻ section vào tài liệu nguồn dạng html, word vì: - Đối với tập tin html, các... tả trên, khi ta click vào nút TitleA-Z trên thanh duyệt, các tài liệu của bộ sưu tập được liệt kê theo thứ tự từng vùng alphabet Hình 2. 9 - Dùng AZList để liệt kê các tài liệu theo từng vùng alphabet Các classifier được đặt trong thư mục greenstone\ perllib\classify Để biết thông tin của classifier, dùng lệnh: classinfo.pl Ta có thể viết các classifier mới Trang 22 ...Chương 2 – Các khái niệm cơ bản Hình 2. 3 - Cây kế thừa của các plugin xử lý tài liệu độc quyền 2. 7.4 Gán thông tin metadata từ một tập tin mô tả Các thông tin metadata cho một tài liệu có thể được đặc tả trong một tập tin XML metadata.xml Nếu tùy chọn use_metadata_files của plugin RecPlug được chỉ ra, plugin này sẽ gán thông tin metadata có trong tập tin metadata.xml vào tập tin XML chuyển... > Mục lục (Nội dung phần “Mục lục”) … < !- Mục lục > Danh mục các ảnh-Sơ đồ (Nội dung phần “Danh mục các ảnh-Sơ đồ”) … < !- Giới thiệu > Giới thiệu (Nội dung phần “Giới thiệu”) … < !- Nội... Metadata mode (accumulate|override) "override"> ]> Hình 2. 4 - Định nghĩa kiểu tài liệu XML của tập tin metadata.xml Trang 14 Chương 2 – Các khái niệm cơ bản vidu.* Đây... name="Title">Chương 2: Phương pháp lập trình hướng khía cạnh (AOP) > Chương 2: Phương pháp lập trình hướng khía cạnh (AOP) (Các nội dung trong chương 2) … < !- Chương 3: Ngôn ngữ lập trình AspectJ > Chương 3: Ngôn ngữ lập trình AspectJ (Các nội dung trong chương 3) … < !- . phương châm hoạt động của Greenstone, chúng em đã chọn tìm hiểu về hệ thống phần mềm này làm đề tài Tốt nghiệp của mình. Hiểu rõ v ề Greenstone và ứng dụng phần mềm này vào mục đích xây dựng một. đề tài Sau khi tìm hiểu về hệ thống những phần mềm thư viện số trong nước và trên thế giới, Greenstone nổi bật lên với tính hiệu quả, dễ sử dụng, mã nguồn mở, dễ tùy biến và mang tính chuẩn. của Greenstone. - Truy cập qua trình duyệt web, cả ở chế độ cục bộ (local) và từ xa (remote). - Chạy được trên nhiều hệ điều hành : Windows, Unix, Macintosh. - Tìm kiếm toàn văn bản và tìm

Ngày đăng: 30/07/2014, 20:20

TỪ KHÓA LIÊN QUAN