1. Trang chủ
  2. » Thể loại khác

Hướng dẫn sử dụng phần mềm thư viện số greenstone để tạo một bộ sưu tập

9 402 2

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 9
Dung lượng 108,5 KB

Nội dung

http://cnx.org/contents/2bb7e097-8c85-4c99-84b0-f14d74e71928@1/H %C6%B0%E1%BB%9Bng_d%E1%BA%ABn_s%E1%BB%AD_d%E1%BB %A5ng_ph%E1%BA%A7n_m%E1%BB%81m_th%C6%B0 MỤC LỤC Bản dịch từ Greenstone tutorial exercises (June 2006) http://www.greenstone.org Bộ sưu tập file Word PDF Xem liệu trích xuất (extracted metadata) Thêm thủ công siêu liệu vào tài liệu Thiết kế sưu tập; dán nhãn sưu tập hình ảnh Document plugins Chỉ mục tìm kiếm Phân loại cách duyệt danh sách tài liệu(Browsing classifier) Định dạng sưu tập file Word PDF Sắp xếp lại câu lệnh định dạng theo mặc định Kết nối đến phiên Greenstone phiên gốc tài liệu Xem có mục giá sách Hiển thị siêu liệu có nhiều giá trị Trình bày PDF (nâng cao) Các chế độ Librarian Interface Chia PDF thành nhiều phân đoạn Sử dụng định dạng hình ảnh Sử dụng process_exp để điều khiển trình xử lí tài liệu (nâng cao) Xuất sưu tập CD-ROM/DVD Bộ sưu tập file Word PDF Tạo sưu tập (File → New ), New Collection , chọn Dublin Core làm tập siêu liệu (metadata set) 1 Chép tất file vào sưu tập Chuyển sang ô Create, build, xong preview sưu tập Xem liệu trích xuất (extracted metadata) Bộ sưu tập chứa thông tin hiển thị - tiêu đề tên file—những thông tin trích xuất tự động chương trình Vì thế, hiệu việc chuyển đổi tự động không đáng tin cậy Có thể bạn phải chỉnh sửa thủ công phần Trở lại giao diện người thủ thư (Librarian Interface), kích chọn vào thẻ Enrich để xem liệu trích xuất tự động Bạn cuộn hình xuống để xem liệu trích xuất –được bắt đầu chữ "ex." Nhắp đúp chuột để mở tài liệu kiểm tra xem liệu ex.Title có xác không Thêm thủ công siêu liệu vào tài liệu Trong thẻ Enrich, thêm siêu liệu Dublin Core dc.Title vào tài liệu có liệu ex.Title bị sai Thêm thông tin dc.Creator vào tài liệu Bạn thêm nhiều giá trị vào trường Tất chương trình Greenstone dùng để xem tài liệu phải đóng trước xây dựng sưu tập Nếu không, sinh lỗi Thêm liệu dc.Title dc.Creator vào tài liệu khác theo cách tương tự Khi bạn thêm nhiều giá trị, chúng hiển thị hộp Existing values for phía bên bảng liệu Nếu bạn thêm giá trị vào nhiều tài liệu khác nhau, bạn chọn vào danh sách giá trị bên Ví dụ, có nhiều tài liệu có tác giả Thiết kế sưu tập; dán nhãn sưu tập hình ảnh Thẻ Design chia thành nhiều phần khác Phần General cho phép bạn chỉnh sửa giá trị mô tả sưu tập Bạn đính nhãn sưu tập hình ảnh thích hợp Kích chọn nút hộp URL to 'about page' icon:, tìm tới ảnh máy tính bạn Khi bạn chọn hình ảnh đó, Greenstone tự động phát sinh đường dẫn URL thích hợp tới ảnh Preview sưu tập: ảnh lên phía bên trái trang Bạn không cần phải Build lại sưu tập chỉnh sửa thông tin trang General Chỉ cần vào thẻ Create kích vào Document plugins Trong Librarian Interface, thẻ Design kích chọn vào phần Document Plugins danh sách bên trái Bạn thêm vào, cấu hình xóa plugin sưu tập Không thiết phải xóa plugin, điều giúp bạn tăng tốc độ xử lí lên chút Trong trường hợp này, có tài liệu Word, PDF, RTF, PostScript, nên bạn xóa ZIPPlug, TEXTPlug, HTMLPlug, EMAILPlug, ImagePlug, ISISPlug NULPlug plugins Để xóa plugin, chọn kích GAPlug đòi hỏi cần phải có loại tài liệu nên không xóa Chỉ mục tìm kiếm Phần thẻ Design Search Indexes, rõ phần sưu tập làm mục tìm kiếm (ví dụ : tìm theo tiêu đề tác giả) Xóa mục ex.Source (nếu không đặc biệt hữu ích) cách chọn kích vào Để chỉnh sửa mục ex.Title dc.Title, bychọn mục hộp Assigned Indexes chọn dc.Title hộp Build index on: Kích Tìm theo mục giúp tìm kiếm hai liệu dc.Title ex.Title Nếu bạn muốn giới hạn tìm kiếm liệu dc.Title metadata, chọn lại ex.Title hộp Build index on: kích Bạn thêm mục tìm kiếm dựa siêu liệu Thêm mục tìm kiếm dựa dc.Creator Đổi trường Index Name: thành "authors", and chọn dc.Creator danh sách Build index on: Bạn cần chọn lại mục ex.Title dc.Title Kích Phân loại cách duyệt danh sách tài liệu(Browsing classifier) Trong phần Browsing Classifiers cung cấp chức duyệt qua sưu tập Greenstone có cách phân loại AZLists dựa liệu ex.Title ex.Source Nó có chức tương tự nút Titles A-Z Filenames truy cập sưu tập Xóa phân loại ex.Source cách chọn kích Chỉnh sửa phân loại ex.Title thay dc.Title Chọn mục phân loại kích Trong hộp metadata, chọn dc.Title thay cho ex.Title Kích Bây thêm mục phân loại AZCompactList cho dc.Creator Chọn AZCompactList từ danh sách Select classifier to add: kích Một cửa sổ Configuring Arguments Chọn dc.Creator từ danh sách metadata kích AZCompactList giống AZList, khác giá trị hiển thị nhiều lần hệ thống thứ tự, tự động gộp lại tạo nút chung, hình thức giống kí hiệu chung giá sách Chuyển sang bảng Create, build, preview sưu tập Kiểm tra xem chức có làm việc cách không Nó có mục toàn văn text, titles, and authors Danh sách Titles A-Z hiển thị tất tài liệu có siêu liệu dc.Title Danh sách Authors A-Z hiển thị giá sách cho tác giả theo liệu dc.Creator, cách kích vào giá sách đó, Greenstone hiển thị toàn tài liệu tác giả Định dạng sưu tập file Word PDF Mở sưu tập Librarian Interface, vào phần Format Features bảng Design Sắp xếp lại câu lệnh định dạng theo mặc định Trong phần này, tạo câu lệnh định dạng đơn giản mà không làm thay đổi kết hiển thị Câu lệnh định dạng VList mặc định : [link][icon][/link][ex.srclink]{Or}{[ex.thumbicon], [ex.srcicon]}[ex./srclink][highlight]{Or}{[dls.Title],[dc.Title], [ex.Title],Untitled}[/highlight]{If}{[ex.Source],([ex.Source])} Định dạng dùng cho danh sách xếp theo chiều dọc, kết trả về, phân loại, bảng nội dung tài liệu {Or}{[ex.thumbicon],[ex.srcicon]} nghĩa chọn liệu ex.thumbicon có, không chọn liệu ex.srcicon Nếu hai liệu không hiển thị Trong sưu tập liệu ex.thumbicon nên câu chọn không cần thiết Thay {Or}{[ex.thumbicon],[ex.srcicon]} [ex.srcicon] Chúng ta liệu dls.Title, xóa phần dls.Title {Or}{[dls.Title], [dc.Title],[ex.Title],Untitled} Kết câu định dạng sau: [link][icon][/link][ex.srclink][ex.srcicon] [ex./srclink][highlight]{Or}{[dc.Title],[ex.Title],Untitled}[/highlight] {If}{[ex.Source],([ex.Source])} Kích Xem lại sưu tập để chắn việc hiển thị thay đổi Kết nối đến phiên Greenstone phiên gốc tài liệu Trong trường hợp tài liệu sưu tập xử lí chuyển đổi định dạng trước nạp vào Greenstone (Ví dụ: tài liệu Word, PDF, PowerPoint, trừ tài liệu dạng text, HTML), file gốc với phiên chuyển đổi định dạng lưu sưu tập Câu lệnh khai báo định dạng VList mặc định đường dẫn đến phiên sau: [link][icon][/link] liên kết tới phiên Greenstone HTML, [srclink][srcicon] [/srclink] liên kết tới phiên gốc Chọn SearchVList Format Features cách Search từ danh sách Choose Feature, VList từ danh sách Affected Component Kích để thêm khai báo định dạng SearchVList fvào danh sách định dạng định) Hãy thử nghiệm cách xóa liên kết nói (Nhớ kích sau thay đổi.) Để xem kết thay đổi nào, preview sưu tập thực tìm kiếm Bạn thay đổi SearchVList, nên bạn thấy thay đổi kết tìm kiếm Lưu hiển thị file gốc cho phép người sử dụng xem định dạng đúng, đòi hỏi người sử dụng phải cài đặt phần mềm tương ứng Phiên Greenstone cho phép xem tài liệu trực tiếp trình duyệt, trông không tốt Xem có mục giá sách Tiếp thep, tùy biến định dạng danh sách Authors A-Z Việc phân loại giá sách dựa số liệu hiển thị là: [ex.Title] [numleafdocs] Cho dù phân loại tài liệu theo siêu liệu nhãn giá sách lưu dạng [ex.Title] Đó lí liệu tác giả in với giá sách cho dù [dc.Creator] không định rõ câu lệnh kahi báo định dạng [numleafdocs] dùng để xác định giá sách, siêu liệu sử dụng câu lệnh {If} Tạo giá sách phân loại theo tác giả cho ta thấy mục giá sách Trong phần Format Features bảng Design, chọn phân loại CL2 AZCompactList dựa siêu liệu dc.Creator từ danh sách đổ xuống Choose Feature, VList từ danh sách Affected Component Kích nút để thêm vào định dạng danh sách định dạng Chú ý danh sách lưu với tên CL2VList: định dạng VList theo phân loại cấp (CL2) Thêm vào đoạn sau kích : {If}{[numleafdocs],([numleafdocs])} Kích , chuyển sang bảng Create, kích (không cần phải build lại sưu tập) Kích vào danh sách Authors A-Z để ý xem giá sách hiển thị có sách giá Câu lệnh định dạng sửa lại hiển thị kêt ngoặc đơn số lượng sách có giá sách Chỉ giá sách định nghĩa liệu [numleafdocs], hiển thị Bằng cách sửa CL2VList thay cho VList, thay đổi áp dụng phân loại cấp (Creators) Hiển thị siêu liệu có nhiều giá trị Tiếp theo chỉnh sửa mục tài liệu việc phân loại theo Creator để hiển thị tất tác giả Trở Format Features, chọn định dạng CL2VList danh sách định đạng Sau câu lệnh {If}{[ex.Source], bạn thêm vào [sibling:dc.Creator] Kích [ex.Source] không định nghĩa giá sách, dùng để phân biệt khác giá sách tài liệu Câu lệnh định dạng giống sau: [link][icon][/link][ex.srclink][ex.srcicon] [ex./srclink][highlight]{Or}{[dc.Title],[ex.Title],Untitled}[/highlight] {If}{[ex.Source],[sibling:dc.Creator] ([ex.Source])}{If} {[numleafdocs],([numleafdocs])} Câu lệnh hiển thị đường dẫn Greenstone, đường dẫn đến file gốc, sau tiêu đề.Trong giá sách hiển thị số lượng tài liệu có giá sách.Trong tài liệu hiên thị tất tác giả (Creators) nguồn tài liệu [sibling:dc.Creator] hiển thị tất liệu Creator tài liệu, phân cách khoảng trắng(" ") Xem lại danh sách Authors A-Z để chắn tất tác giả hiển thị tài liệu Bạn thay đổi dấu hiệu phân cách tác giả Bằng cách chỉnh sửa câu lệnh định dạng: thay [sibling:dc.Creator] [sibling(All''):dc.Creator] để tác giả hiển thị dòng ( ngắt dòng HTML) Đừng quên kích Xem lại danh sách Authors A-Z Trình bày PDF (nâng cao) Greenstone chuyển đổi file PDF sang HTML cách sử dụng phần mềm bên thứ 3: pdftohtml.pl Nó cho phép người sử dụng xem tài liệu dạng PDF mà không cần phải cài đặt phần mềm đọc PDF máy Rất tiếc định dạng file HTML chuyển đổi lại không tốt Chúng ta khảo sát số plugin PDF để xuất phiên hiển thị đẹp Một số tùy chọn dùng chương trình chuẩn pdftohtml, số khác dùng ImageMagick Ghostscript để chuyển đổi file thành loạt hình ảnh Ghostscript chương trình chuyển đổi file Postscript PDF sang định dạng khác Bạn tải xuống phần mềm http://www.cs.wisc.edu/~ghost/ Trong Librarian Interface, tạo sưu tập (chẳng hạn tên "PDF collection") New Collection Trong bảng Gather, chép tài liệu PDF sang sưu tập Vào bảng Create build sưu tập Xem xét thông tin đầu trình xây dựng sưu tập Bạn để ý có số tài liệu xử lí xuất dòng thông báo sau: "The file pdf05-notext.pdf was recognised but could not be processed by any plugin.", hay "15 documents were processed and included in the collection was rejected" Xem lại sưu tập, có tài liệu không hiển thị không xử lí chuyển đổi được, có tài liệu xử lí nhìn trông kì lạ tài liệu PDF khác hiển thị thành đoạn dài không thành đoạn rõ ràng Các chế độ Librarian Interface Librarian Interface làm việc nhiều chế độ khác nhau.Chế độ mặc định chế độ Librarian Chúng ta sử dụng chế độ Expert để xem file pdf xử lí Sử dụng mục Preferences menu File để chuyển sang chế độ Expert build lại sưu tập Bảng Create trông khác chế độ Expert có nhiều tính hơn: Kích nút gần cửa sổ Bây thông báo hiển thị file xử lí nêu rõ lí do: "Error: PDF contains no extractable text Could not convert pdf05notext.pdf to HTML format" Bạn chuyển sang chế độ Librarian để tránh xung đột Chia PDF thành nhiều phân đoạn Trong phần Document Plugins bảng Design, cấu hình PDFPlug Bật tùy chọn use_sections Build preview sưu tập Xem phiên text số tài liệu PDF Để ý tài liệu chia thành nhiều trang xuất hộp "go to page" Mặc dù thế, định dạng xấu Sử dụng định dạng hình ảnh Nếu việc chuyển đổi sang HTML có kết không làm bạn hài lòng, tài liệu PDF chuyển đổi thành loạt ảnh liên tiếp nhau, ảnh trang tờ chiếu Điều đòi hỏi cần phải cài đặt chương trình ImageMagick Ghostscript Trong phần Document Plugins, cấu hình PDFPlug Đặt tùy chọn convert_to đến kiểu định dạng ảnh, ví dụ pagedimg_jpg Tắt tùy chọn use_sections Build sưu tập preview Tất tài liệu xử lí phân chia thành phân đoạn, đoạn có "This document has no text." Chuyển đổi từ PDF để hiển thị hình ảnh, text không trích xuất Để xem tài liệu cho chuẩn hiển thị cách, bạn cần phải chỉnh sửa câu lệnh khai báo định dạng Trong phần Format Features thuộc bảng Design, chọn khai báo định dạng DocumentText Thay [Text] [srcicon] Xem lại sưu tập Hinh ảnh tài liệu hiển thị đoạn văn trích xuất Trong sưu tập này, có tài liệu PDF tất chuyển sang dạng ảnh Nếu chúng có loại khác sưu tập, cần phải có khai báo định dạng khác, sau: {If}{[parent:FileFormat] eq PDF,[srcicon],[Text]} FileFormat mục siêu liệu trích xuất, mô tả định dạng nguồn tài liệu Chúng ta sử dụng mục để kiểm tra xem tài liệu có phải thuộc loại PDF hay không.Nếu tài liệu PDF, hiển thị [srcicon]; tài liệu loại khác hiển thị [Text] Sử dụng process_exp để điều khiển trình xử lí tài liệu (nâng cao) Xử lí tài liệu PDF theo dạng hình ảnh chưa mang lại kết tốt Hình ảnh trông đẹp chưa trích xuất dạng text việc tìm kiếm theo dạng toàn văn thực Giải pháp tốt xử lí phần lớn file PDF sang HTML, sử dụng định dạng hình ảnh trường hợp HTML không thực Chúng ta thực cách thêm plugin PDFPlug vào sưu tập có tùy chọn khác Hiện tại, Librarian Interface không cho phép bạn thêm lần với plugin vào (ngoại trừ UnknownPlug) Bạn cần phải sửa lại file cấu hình tay Đóng sưu tập Librarian Interface Sau mở Greenstone → collect → pdfcolle → etc → collect.cfg chương trình chỉnh sửa văn bản, ví dụ WordPad Trong danh sách plugin, thêm vào PDFPlug nữa, tức plugin PDFPlug Đừng lo lắng tùy chọn đây, thêm chúng cách sử dụng Librarian Interface Chú ý bạn cần phải chỉnh sửa file collect.cfg tay, bạn phải đóng sưu tập Librarian Interface trước, không bạn lưu file lần tiếp theo, ghi đè lên thay đổi bạn Mở lại sưu tập Librarian Interface, vào bảng Gather Tạo thư muc tên "notext": kích chuột phải lên bảng sưu tập chọn New folder từ thực đơn Thay Folder Name thành "notext", kích Chuyển file pdf có vấn đề html vào thư mục vừa tạo Chúng ta thiết lập plugin để file PDF thư mục notext xử lí theo cách khác so với file PDF lại Chuyển sang phần Document Plugins bảng Design Bạn thấy có plugin PDFPlug danh sách Chuyển sang chế độ Library Systems Specialist (File → Preferences → Mode) Cấu ình plugin PDFPlug theo tùy chọn dạng sau:: plugin PDFPlug -convert_to pagedimg_jpg -process_exp "notext.*\.pdf"plugin PDFPlug -convert_to html -use_sections Phiên paged_img đứng trước phiên html danh sách process_exp dành cho PDFPlug xử lí file PDF thư mục notext PDFPlug thứ hai xử lí file PDF lại Chú ý rằng, plugin có tùy chọn process_exp, dùng để tùy chỉnh việc tài liệu plugin xử lí Tùy chọn có Library Systems Specialist chế độ Expert Trở lại chế độ Librarian Chỉnh sửa câu lệnh khai báo định dạng DocumentText Những file PDF xử lí sang HTML không hiển thị hình ảnh, phải chắn chúng hiển thị text thay Đổi [srcicon] thành {Or}{[srcicon],[Text]} Build and preview sưu tập Tất tài liệu PDF trông tương đối đẹp.Thử tìm kiếm sưu tập Bạn tìm kiếm file PDF chuyển sang HTML, file dạng hình ảnh không tìm kiếm Xuất sưu tập CD-ROM/DVD Để xuất sưu tập CD-ROM hay DVD, cần phải cài đặt môđun Greenstone's Export to CD-ROM Khởi chạy Greenstone Librarian Interface Chọn File → Write CD/DVD image , cửa sổ ra, chọn sưu tập nhiều sưu tập cách kích vào hộp chọn Bạn nhập vào tên CDROM: tên thực đơn chạy CDROM Nếu không nhập tên vào tên mặc định Greenstone Collections sử dụng Kích Những file cần thiết để xuất lưu : Greenstone → tmp → exported_xxx xxx tương ứng với tên mà bạn nhập vào Nếu bạn không rõ tên cho CD-ROM, tên thư mục mặc định exported_collections Bạn cần sử dụng phần mềm ghi đĩa CD-ROM máy tính bạn.Trong hệ điều hành Windows XP tích hợp sẵn chức ghi đĩa: giả sử bạn có đầu ghi CD-ROM DVD, bạn cần bỏ đĩa trắng vào ổ chép nội dung thư mục exported_xxx vào thư mục đĩa Kết cuối CD-ROM DVD tự cài đặt tự động Windows Greenstone, trình cài đặt tương tự ổ cứng ... liệu có tác giả Thiết kế sưu tập; dán nhãn sưu tập hình ảnh Thẻ Design chia thành nhiều phần khác Phần General cho phép bạn chỉnh sửa giá trị mô tả sưu tập Bạn đính nhãn sưu tập hình ảnh thích hợp... PDF (nâng cao) Greenstone chuyển đổi file PDF sang HTML cách sử dụng phần mềm bên thứ 3: pdftohtml.pl Nó cho phép người sử dụng xem tài liệu dạng PDF mà không cần phải cài đặt phần mềm đọc PDF máy... preview sưu tập Tất tài liệu PDF trông tương đối đẹp.Thử tìm kiếm sưu tập Bạn tìm kiếm file PDF chuyển sang HTML, file dạng hình ảnh không tìm kiếm Xuất sưu tập CD-ROM/DVD Để xuất sưu tập CD-ROM

Ngày đăng: 07/07/2017, 13:31

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w