http://cnx.org/contents/2bb7e097-8c85-4c99-84b0-f14d74e71928@1/H %C6%B0%E1%BB%9Bng_d%E1%BA%ABn_s%E1%BB%AD_d%E1%BB %A5ng_ph%E1%BA%A7n_m%E1%BB%81m_th%C6%B0 MỤC LỤC Bản dịch từ Greenstone tutorial exercises (June 2006) http://www.greenstone.org Bộsưutập file Word PDF Xem liệu trích xuất (extracted metadata) Thêm thủ công siêu liệu vào tài liệu Thiết kế sưu tập; dán nhãn sưutập hình ảnh Document plugins Chỉ mục tìm kiếm Phân loại cách duyệt danh sách tài liệu(Browsing classifier) Định dạng sưutập file Word PDF Sắp xếp lại câu lệnh định dạng theo mặc định Kết nối đến phiên Greenstone phiên gốc tài liệu Xem có mục giá sách Hiển thị siêu liệu có nhiều giá trị Trình bày PDF (nâng cao) Các chế độ Librarian Interface Chia PDF thành nhiều phân đoạn Sửdụng định dạng hình ảnh Sửdụng process_exp để điều khiển trình xử lí tài liệu (nâng cao) Xuất sưutập CD-ROM/DVD Bộsưutập file Word PDF Tạosưutập (File → New ), New Collection , chọn Dublin Core làm tập siêu liệu (metadata set) 1 Chép tất file vào sưutập Chuyển sang ô Create, build, xong preview sưutập Xem liệu trích xuất (extracted metadata) Bộsưutập chứa thông tin hiển thị - tiêu đề tên file—những thông tin trích xuất tự động chương trình Vì thế, hiệu việc chuyển đổi tự động không đáng tin cậy Có thể bạn phải chỉnh sửa thủ công phần Trở lại giao diện người thủthư (Librarian Interface), kích chọn vào thẻ Enrich để xem liệu trích xuất tự động Bạn cuộn hình xuống để xem liệu trích xuất –được bắt đầu chữ "ex." Nhắp đúp chuột để mở tài liệu kiểm tra xem liệu ex.Title có xác không Thêm thủ công siêu liệu vào tài liệu Trong thẻ Enrich, thêm siêu liệu Dublin Core dc.Title vào tài liệu có liệu ex.Title bị sai Thêm thông tin dc.Creator vào tài liệu Bạn thêm nhiều giá trị vào trường Tất chương trình Greenstonedùngđể xem tài liệu phải đóng trước xây dựngsưutập Nếu không, sinh lỗi Thêm liệu dc.Title dc.Creator vào tài liệu khác theo cách tương tự Khi bạn thêm nhiều giá trị, chúng hiển thị hộp Existing values for phía bên bảng liệu Nếu bạn thêm giá trị vào nhiều tài liệu khác nhau, bạn chọn vào danh sách giá trị bên Ví dụ, có nhiều tài liệu có tác giả Thiết kế sưu tập; dán nhãn sưutập hình ảnh Thẻ Design chia thành nhiều phần khác Phần General cho phép bạn chỉnh sửa giá trị mô tả sưutập Bạn đính nhãn sưutập hình ảnh thích hợp Kích chọn nút hộp URL to 'about page' icon:, tìm tới ảnh máy tính bạn Khi bạn chọn hình ảnh đó, Greenstone tự động phát sinh đường dẫn URL thích hợp tới ảnh Preview sưu tập: ảnh lên phía bên trái trang Bạn không cần phải Build lại sưutập chỉnh sửa thông tin trang General Chỉ cần vào thẻ Create kích vào Document plugins Trong Librarian Interface, thẻ Design kích chọn vào phần Document Plugins danh sách bên trái Bạn thêm vào, cấu hình xóa plugin sưutập Không thiết phải xóa plugin, điều giúp bạn tăng tốc độ xử lí lên chút Trong trường hợp này, có tài liệu Word, PDF, RTF, PostScript, nên bạn xóa ZIPPlug, TEXTPlug, HTMLPlug, EMAILPlug, ImagePlug, ISISPlug NULPlug plugins Để xóa plugin, chọn kích GAPlug đòi hỏi cần phải có loại tài liệu nên không xóa Chỉ mục tìm kiếm Phần thẻ Design Search Indexes, rõ phầnsưutập làm mục tìm kiếm (ví dụ : tìm theo tiêu đề tác giả) Xóa mục ex.Source (nếu không đặc biệt hữu ích) cách chọn kích vào Để chỉnh sửa mục ex.Title dc.Title, bychọn mục hộp Assigned Indexes chọn dc.Title hộp Build index on: Kích Tìm theo mục giúp tìm kiếm hai liệu dc.Title ex.Title Nếu bạn muốn giới hạn tìm kiếm liệu dc.Title metadata, chọn lại ex.Title hộp Build index on: kích Bạn thêm mục tìm kiếm dựa siêu liệu Thêm mục tìm kiếm dựa dc.Creator Đổi trường Index Name: thành "authors", and chọn dc.Creator danh sách Build index on: Bạn cần chọn lại mục ex.Title dc.Title Kích Phân loại cách duyệt danh sách tài liệu(Browsing classifier) Trong phần Browsing Classifiers cung cấp chức duyệt qua sưutậpGreenstone có cách phân loại AZLists dựa liệu ex.Title ex.Source Nó có chức tương tự nút Titles A-Z Filenames truy cập sưutập Xóa phân loại ex.Source cách chọn kích Chỉnh sửa phân loại ex.Title thay dc.Title Chọn mục phân loại kích Trong hộp metadata, chọn dc.Title thay cho ex.Title Kích Bây thêm mục phân loại AZCompactList cho dc.Creator Chọn AZCompactList từ danh sách Select classifier to add: kích Một cửa sổ Configuring Arguments Chọn dc.Creator từ danh sách metadata kích AZCompactList giống AZList, khác giá trị hiển thị nhiều lần hệ thống thứ tự, tự động gộp lại tạo nút chung, hình thức giống kí hiệu chung giá sách Chuyển sang bảng Create, build, preview sưutập Kiểm tra xem chức có làm việc cách không Nó có mục toàn văn text, titles, and authors Danh sách Titles A-Z hiển thị tất tài liệu có siêu liệu dc.Title Danh sách Authors A-Z hiển thị giá sách cho tác giả theo liệu dc.Creator, cách kích vào giá sách đó, Greenstone hiển thị toàn tài liệu tác giả Định dạng sưutập file Word PDF Mở sưutập Librarian Interface, vào phần Format Features bảng Design Sắp xếp lại câu lệnh định dạng theo mặc định Trong phần này, tạo câu lệnh định dạng đơn giản mà không làm thay đổi kết hiển thị Câu lệnh định dạng VList mặc định : [link][icon][/link][ex.srclink]{Or}{[ex.thumbicon], [ex.srcicon]}[ex./srclink][highlight]{Or}{[dls.Title],[dc.Title], [ex.Title],Untitled}[/highlight]{If}{[ex.Source],([ex.Source])} Định dạng dùng cho danh sách xếp theo chiều dọc, kết trả về, phân loại, bảng nội dung tài liệu {Or}{[ex.thumbicon],[ex.srcicon]} nghĩa chọn liệu ex.thumbicon có, không chọn liệu ex.srcicon Nếu hai liệu không hiển thị Trong sưutập liệu ex.thumbicon nên câu chọn không cần thiết Thay {Or}{[ex.thumbicon],[ex.srcicon]} [ex.srcicon] Chúng ta liệu dls.Title, xóa phần dls.Title {Or}{[dls.Title], [dc.Title],[ex.Title],Untitled} Kết câu định dạng sau: [link][icon][/link][ex.srclink][ex.srcicon] [ex./srclink][highlight]{Or}{[dc.Title],[ex.Title],Untitled}[/highlight] {If}{[ex.Source],([ex.Source])} Kích Xem lại sưutậpđể chắn việc hiển thị thay đổi Kết nối đến phiên Greenstone phiên gốc tài liệu Trong trường hợp tài liệu sưutập xử lí chuyển đổi định dạng trước nạp vào Greenstone (Ví dụ: tài liệu Word, PDF, PowerPoint, trừ tài liệu dạng text, HTML), file gốc với phiên chuyển đổi định dạng lưu sưutập Câu lệnh khai báo định dạng VList mặc định đường dẫn đến phiên sau: [link][icon][/link] liên kết tới phiên Greenstone HTML, [srclink][srcicon] [/srclink] liên kết tới phiên gốc Chọn SearchVList Format Features cách Search từ danh sách Choose Feature, VList từ danh sách Affected Component Kích để thêm khai báo định dạng SearchVList fvào danh sách định dạng định) Hãy thử nghiệm cách xóa liên kết nói (Nhớ kích sau thay đổi.) Để xem kết thay đổi nào, preview sưutập thực tìm kiếm Bạn thay đổi SearchVList, nên bạn thấy thay đổi kết tìm kiếm Lưu hiển thị file gốc cho phép người sửdụng xem định dạng đúng, đòi hỏi người sửdụng phải cài đặt phầnmềm tương ứng Phiên Greenstone cho phép xem tài liệu trực tiếp trình duyệt, trông không tốt Xem có mục giá sách Tiếp thep, tùy biến định dạng danh sách Authors A-Z Việc phân loại giá sách dựa số liệu hiển thị là: [ex.Title] [numleafdocs] Cho dù phân loại tài liệu theo siêu liệu nhãn giá sách lưu dạng [ex.Title] Đó lí liệu tác giả in với giá sách cho dù [dc.Creator] không định rõ câu lệnh kahi báo định dạng [numleafdocs] dùngđể xác định giá sách, siêu liệu sửdụng câu lệnh {If} Tạo giá sách phân loại theo tác giả cho ta thấy mục giá sách Trong phần Format Features bảng Design, chọn phân loại CL2 AZCompactList dựa siêu liệu dc.Creator từ danh sách đổ xuống Choose Feature, VList từ danh sách Affected Component Kích nút để thêm vào định dạng danh sách định dạng Chú ý danh sách lưu với tên CL2VList: định dạng VList theo phân loại cấp (CL2) Thêm vào đoạn sau kích : {If}{[numleafdocs],([numleafdocs])} Kích , chuyển sang bảng Create, kích (không cần phải build lại sưu tập) Kích vào danh sách Authors A-Z để ý xem giá sách hiển thị có sách giá Câu lệnh định dạng sửa lại hiển thị kêt ngoặc đơn số lượng sách có giá sách Chỉ giá sách định nghĩa liệu [numleafdocs], hiển thị Bằng cách sửa CL2VList thay cho VList, thay đổi áp dụngphân loại cấp (Creators) Hiển thị siêu liệu có nhiều giá trị Tiếp theo chỉnh sửa mục tài liệu việc phân loại theo Creator để hiển thị tất tác giả Trở Format Features, chọn định dạng CL2VList danh sách định đạng Sau câu lệnh {If}{[ex.Source], bạn thêm vào [sibling:dc.Creator] Kích [ex.Source] không định nghĩa giá sách, dùngđểphân biệt khác giá sách tài liệu Câu lệnh định dạng giống sau: [link][icon][/link][ex.srclink][ex.srcicon] [ex./srclink][highlight]{Or}{[dc.Title],[ex.Title],Untitled}[/highlight] {If}{[ex.Source],[sibling:dc.Creator] ([ex.Source])}{If} {[numleafdocs],([numleafdocs])} Câu lệnh hiển thị đường dẫn Greenstone, đường dẫn đến file gốc, sau tiêu đề.Trong giá sách hiển thị số lượng tài liệu có giá sách.Trong tài liệu hiên thị tất tác giả (Creators) nguồn tài liệu [sibling:dc.Creator] hiển thị tất liệu Creator tài liệu, phân cách khoảng trắng(" ") Xem lại danh sách Authors A-Z để chắn tất tác giả hiển thị tài liệu Bạn thay đổi dấu hiệu phân cách tác giả Bằng cách chỉnh sửa câu lệnh định dạng: thay [sibling:dc.Creator] [sibling(All''):dc.Creator] để tác giả hiển thị dòng ( ngắt dòng HTML) Đừng quên kích Xem lại danh sách Authors A-Z Trình bày PDF (nâng cao) Greenstone chuyển đổi file PDF sang HTML cách sửdụngphầnmềm bên thứ 3: pdftohtml.pl Nó cho phép người sửdụng xem tài liệu dạng PDF mà không cần phải cài đặt phầnmềm đọc PDF máy Rất tiếc định dạng file HTML chuyển đổi lại không tốt Chúng ta khảo sát số plugin PDF để xuất phiên hiển thị đẹp Mộtsố tùy chọn dùng chương trình chuẩn pdftohtml, số khác dùng ImageMagick Ghostscript để chuyển đổi file thành loạt hình ảnh Ghostscript chương trình chuyển đổi file Postscript PDF sang định dạng khác Bạn tải xuống phầnmềm http://www.cs.wisc.edu/~ghost/ Trong Librarian Interface, tạosưutập (chẳng hạn tên "PDF collection") New Collection Trong bảng Gather, chép tài liệu PDF sang sưutập Vào bảng Create build sưutập Xem xét thông tin đầu trình xây dựngsưutập Bạn để ý có số tài liệu xử lí xuất dòng thông báo sau: "The file pdf05-notext.pdf was recognised but could not be processed by any plugin.", hay "15 documents were processed and included in the collection was rejected" Xem lại sưu tập, có tài liệu không hiển thị không xử lí chuyển đổi được, có tài liệu xử lí nhìn trông kì lạ tài liệu PDF khác hiển thị thành đoạn dài không thành đoạn rõ ràng Các chế độ Librarian Interface Librarian Interface làm việc nhiều chế độ khác nhau.Chế độ mặc định chế độ Librarian Chúng ta sửdụng chế độ Expert để xem file pdf xử lí Sửdụng mục Preferences menu File để chuyển sang chế độ Expert build lại sưutập Bảng Create trông khác chế độ Expert có nhiều tính hơn: Kích nút gần cửa sổ Bây thông báo hiển thị file xử lí nêu rõ lí do: "Error: PDF contains no extractable text Could not convert pdf05notext.pdf to HTML format" Bạn chuyển sang chế độ Librarian để tránh xung đột Chia PDF thành nhiều phân đoạn Trong phần Document Plugins bảng Design, cấu hình PDFPlug Bật tùy chọn use_sections Build preview sưutập Xem phiên text số tài liệu PDF Để ý tài liệu chia thành nhiều trang xuất hộp "go to page" Mặc dù thế, định dạng xấu Sửdụng định dạng hình ảnh Nếu việc chuyển đổi sang HTML có kết không làm bạn hài lòng, tài liệu PDF chuyển đổi thành loạt ảnh liên tiếp nhau, ảnh trang tờ chiếu Điều đòi hỏi cần phải cài đặt chương trình ImageMagick Ghostscript Trong phần Document Plugins, cấu hình PDFPlug Đặt tùy chọn convert_to đến kiểu định dạng ảnh, ví dụ pagedimg_jpg Tắt tùy chọn use_sections Build sưutập preview Tất tài liệu xử lí phân chia thành phân đoạn, đoạn có "This document has no text." Chuyển đổi từ PDF để hiển thị hình ảnh, text không trích xuất Để xem tài liệu cho chuẩn hiển thị cách, bạn cần phải chỉnh sửa câu lệnh khai báo định dạng Trong phần Format Features thuộc bảng Design, chọn khai báo định dạng DocumentText Thay [Text] [srcicon] Xem lại sưutập Hinh ảnh tài liệu hiển thị đoạn văn trích xuất Trong sưutập này, có tài liệu PDF tất chuyển sang dạng ảnh Nếu chúng có loại khác sưu tập, cần phải có khai báo định dạng khác, sau: {If}{[parent:FileFormat] eq PDF,[srcicon],[Text]} FileFormat mục siêu liệu trích xuất, mô tả định dạng nguồn tài liệu Chúng ta sửdụng mục để kiểm tra xem tài liệu có phải thuộc loại PDF hay không.Nếu tài liệu PDF, hiển thị [srcicon]; tài liệu loại khác hiển thị [Text] Sửdụng process_exp để điều khiển trình xử lí tài liệu (nâng cao) Xử lí tài liệu PDF theo dạng hình ảnh chưa mang lại kết tốt Hình ảnh trông đẹp chưa trích xuất dạng text việc tìm kiếm theo dạng toàn văn thực Giải pháp tốt xử lí phần lớn file PDF sang HTML, sửdụng định dạng hình ảnh trường hợp HTML không thực Chúng ta thực cách thêm plugin PDFPlug vào sưutập có tùy chọn khác Hiện tại, Librarian Interface không cho phép bạn thêm lần với plugin vào (ngoại trừ UnknownPlug) Bạn cần phải sửa lại file cấu hình tay Đóng sưutập Librarian Interface Sau mở Greenstone → collect → pdfcolle → etc → collect.cfg chương trình chỉnh sửa văn bản, ví dụ WordPad Trong danh sách plugin, thêm vào PDFPlug nữa, tức plugin PDFPlug Đừng lo lắng tùy chọn đây, thêm chúng cách sửdụng Librarian Interface Chú ý bạn cần phải chỉnh sửa file collect.cfg tay, bạn phải đóng sưutập Librarian Interface trước, không bạn lưu file lần tiếp theo, ghi đè lên thay đổi bạn Mở lại sưutập Librarian Interface, vào bảng Gather Tạothư muc tên "notext": kích chuột phải lên bảng sưutập chọn New folder từ thực đơn Thay Folder Name thành "notext", kích Chuyển file pdf có vấn đề html vào thư mục vừa tạo Chúng ta thiết lập plugin để file PDF thư mục notext xử lí theo cách khác so với file PDF lại Chuyển sang phần Document Plugins bảng Design Bạn thấy có plugin PDFPlug danh sách Chuyển sang chế độ Library Systems Specialist (File → Preferences → Mode) Cấu ình plugin PDFPlug theo tùy chọn dạng sau:: plugin PDFPlug -convert_to pagedimg_jpg -process_exp "notext.*\.pdf"plugin PDFPlug -convert_to html -use_sections Phiên paged_img đứng trước phiên html danh sách process_exp dành cho PDFPlug xử lí file PDF thư mục notext PDFPlug thứ hai xử lí file PDF lại Chú ý rằng, plugin có tùy chọn process_exp, dùngđể tùy chỉnh việc tài liệu plugin xử lí Tùy chọn có Library Systems Specialist chế độ Expert Trở lại chế độ Librarian Chỉnh sửa câu lệnh khai báo định dạng DocumentText Những file PDF xử lí sang HTML không hiển thị hình ảnh, phải chắn chúng hiển thị text thay Đổi [srcicon] thành {Or}{[srcicon],[Text]} Build and preview sưutập Tất tài liệu PDF trông tương đối đẹp.Thử tìm kiếm sưutập Bạn tìm kiếm file PDF chuyển sang HTML, file dạng hình ảnh không tìm kiếm Xuất sưutập CD-ROM/DVD Để xuất sưutập CD-ROM hay DVD, cần phải cài đặt môđun Greenstone's Export to CD-ROM Khởi chạy Greenstone Librarian Interface Chọn File → Write CD/DVD image , cửa sổ ra, chọn sưutập nhiều sưutập cách kích vào hộp chọn Bạn nhập vào tên CDROM: tên thực đơn chạy CDROM Nếu không nhập tên vào tên mặc định Greenstone Collections sửdụng Kích Những file cần thiết để xuất lưu : Greenstone → tmp → exported_xxx xxx tương ứng với tên mà bạn nhập vào Nếu bạn không rõ tên cho CD-ROM, tên thư mục mặc định exported_collections Bạn cần sửdụngphầnmềm ghi đĩa CD-ROM máy tính bạn.Trong hệ điều hành Windows XP tích hợp sẵn chức ghi đĩa: giả sử bạn có đầu ghi CD-ROM DVD, bạn cần bỏ đĩa trắng vào ổ chép nội dungthư mục exported_xxx vào thư mục đĩa Kết cuối CD-ROM DVD tự cài đặt tự động Windows Greenstone, trình cài đặt tương tự ổ cứng ... liệu có tác giả Thiết kế sưu tập; dán nhãn sưu tập hình ảnh Thẻ Design chia thành nhiều phần khác Phần General cho phép bạn chỉnh sửa giá trị mô tả sưu tập Bạn đính nhãn sưu tập hình ảnh thích hợp... PDF (nâng cao) Greenstone chuyển đổi file PDF sang HTML cách sử dụng phần mềm bên thứ 3: pdftohtml.pl Nó cho phép người sử dụng xem tài liệu dạng PDF mà không cần phải cài đặt phần mềm đọc PDF máy... preview sưu tập Tất tài liệu PDF trông tương đối đẹp.Thử tìm kiếm sưu tập Bạn tìm kiếm file PDF chuyển sang HTML, file dạng hình ảnh không tìm kiếm Xuất sưu tập CD-ROM/DVD Để xuất sưu tập CD-ROM