Bài viết trình bày các tập tài liệu trong Bộ phần mềm Greenstone; những thành viên tham gia dự án phần mềm Greenstone; máy quét và quét dữ liệu; chuẩn bị các tài liệu; hiệu suất và các tài nguyên; hiệu năng và các tài nguyên...
THƯ VIỆN SỐ GREENSTONE TỪ GIẤY ĐẾN BỘ SƯU TẬP Giáo sư Michel Loots, Dan Camarzan and Ian H.Witten Human Info NGO, Belgium Simple Words, Romania Trường Đại học Waikato, New Zealand Greenstone phần mềm giúp xây dựng phân loại tập hợp thư viện số Nó đưa cách tiếp cận việc tổ chức xuất thông tin Internet CD-ROM Greenstone kết dự án thư viện số trường đại học Waikato, NewZealand (New Zealand Digital Library Project), triễn khai phân phối với hợp tác hai tổ chức UNESCO Human Info NGO Greenstone phần mềm nguồn mở có sẵn địa http://greenstone.com , mục GNU General Public License Chúng đảm bảo phần mềm đáp ứng tốt nhu cầu bạn Nếu có vấn đề liên quan đến phần mềm xin trình bày greenstone@cs.waikato.ac.nz Greenstone gsdl-2.39 2003 Tháng năm Nội dung tập tài liệu Tài liệu mô tả cách tạo sưu tập CD-ROM từ tài liệu giấy Nó miêu tả đầy đủ thủ tục nhu cầu tài cần thiết liên quan đến việc quét trình nhận dạng ký tự, phần nội dung phải định dạng để ứng dụng phần mềm Greenstone Nó miêu tả cách sử dụng chức tổ chức sưu tập, nói đơn giản “Organizer”, để tạo chỉnh sửa nguyên liệu liên quan đến sưu tập Đây phần mềm sẳn có, phân phối tên gọi Greenstone chạy hệ điều hành Windows Chúng cố gắng làm cho đơn giản nhằm giúp bạn đọc dễ hiểu dụng phần mềm Khi nhắc đến thương hiệu hay sản phẩm hồn tồn nhằm mục đích minh họa khơng phải chúng tơi khẳng định sản phẩm tốt quan tâm nhiều sản phẩm khác Các tập tài liệu Bộ phần mềm Greenstone Bộ phần mềm bao gồm tập tài liệu: • Hướng dẫn cài đặt • Hướng dẫn sử dụng • Hướng dẫn phát triển • Từ tài liệu giấy đưa lên mạng Những thành viên tham gia dự án phần mềm Greenstone Quá trình scanning, Organizer q trình khác có liên quan đến việc tạo sưu tập từ cộng tác phi lợi nhuận, phát triển Giáo sư Michel Loots, MD, Human Info NGO HumanityCD, Dan Camarzan of Simple Words, nhóm cộng tác viên Brasov, Romania Phần mềm đóng góp nhiều người Rodger McNab Stefan Boddie hai người đóng góp việc xây dựng phát triển phần mềm Ngồi cịn có đóng góp tác giả sau: David Bainbridge, George Buchanan, Hong chen, Elke Duncker, Carl Gutwin, Geoff Holmes, John McPherson, Craig Nevill-Manning, Gordon Paynter, Bernhard Pfahringe, Todd Reed, Bill Rogers Stuart Yeates Những thành viên khác dự án Thư viện số tham gia phần Thiết kế hệ thống là: Mark Apperley, Sally Jo Cunningham, Steve Jones, Te Taka Keegan, Michel Loots, Malika Mahoui Lloyd Smith Chúng chân thành cảm ơn đơn vị tham gia khâu đóng gói phân phối phần mềm này: MG, GDBM, WGET, WV, PDF2HTML, PERL MỤC LỤC Nội Dung Tài Liệu GIỚI THIỆU MÁY QUÉT VÀ QUÉT DỮ LIỆU 2.1 Máy quét Các máy quét hình phẳng giá thấp Máy qt cấp thấp có ngăn để giấy Các máy quét màu Các máy quét mặt chuyên nghiệp Các chương trình quét 2.2 Chuẩn bị tài liệu 2.3 Tiến trình quét Quản lý chất lượng Qui định tên tập tin 2.4 Hiệu suất tài nguyên Chi phí quét OCR: NHẬN DẠNG KÍ TỰ 3.1 Tiến trình nhận dạng kí tự Quản lý chất lượng Bảng Hình ảnh Các tài liệu chuyên ngành 3.2 Hiệu tài nguyên Intensive OCR Hiệu trình OCR 3.3 Các hình thức khác tiến trình nhận dạng kí tự: Tự đánh máy Các tập tin hình ảnh 3.4 Kết hợp việc qt nhận dạng kí tự BA VÍ DỤ: TỪ 1000 ĐẾN 100,0000 TRANG 4.1 Tập hợp nhỏ: 500-1000 trang 4.2 Toàn tài liệu từ tổ chức: 5000 trang 4.3 Thư viện nhỏ: 100,000 trang TẠO RA MỘT BỘ SƯU TẬP ĐIỆN TỬ 5.1 Các phương pháp xây dựng tập hợp 5.2 Công cụ tổ chức Cài đặt sử dụng Organizer Mơ hình tài liệu Tìm hiểu chức tổ chức 5.3 Các file tài liệu đính kèm Giới thiệu Mục tiêu phần mềm thư viện số Greenstone nhằm giúp cho tổ chức trường đại học, tổ chức Liên hiệp quốc, tổ chức phi phủ, phi lợi nhuận phủ việc tạo loại thơng tin phân phối trực tuyến CD-ROM Các bước cài đặt bản: i Chọn tài liệu muốn thêm vào ii Thiết đặt quyền hạn, quyền cho việc sử dụng tài liệu thư viện số iii Dùng máy quét ORC để chuyển thể tài liệu giấy tờ thành dạng kỹ thuật số iv Chuyển đổi tài liệu thành định dạng (có thể tích hợp văn hình) mà phần mềm Greenstone hiểu (tốt HTML, tài liệu soạn Microsoft Word, riêng số định dạng khác chấp nhận nhờ vào plug-in với mức độ xác khác (xem phần hướng dẫn người sử dụng Greenstone để biết thêm thông tin ) v Đặt tên cho chương, đoạn hình ảnh cho tài liệu vi Sắp xếp sưu tập thành thư viện số có cấu trúc tối ưu hóa vii Xây dựng thư viện số phần mềm Greenstone viii Xuất tập hợp thành CD-ROM và/hay phân phối Internet Để tạo thư viện số, văn phải dạng kỹ thuật số Nếu tài liệu sách, tin tài liệu giấy tờ khác chúng cần phải quét (scan) để chuyển thành dạng máy tính hiểu (bước iii) Thơng thường cơng việc thực nhờ vào nhận dạng kí tự ORC, dùng đánh máy Tiến trình trình bày chương đến phần hướng dẫn sử dụng Bước v cho phép người đọc chọn xem phần khác văn cách độc lập thư viện số Cịn bước vi gán thuộc tính cho tài liệu chẳng hạn loại chủ đề, từ khóa, liệu thư mục giúp thứ tự tìm kiếm thư viện Những bước mơ tả chương với hướng dẫn chi tiết chương trình Organizer kèm phần mềm Greenstone Tài liệu hướng dẫn giới thiệu nhiều vấn đề ảnh hưởng đến trình biên tập tạo thư viện số từ tài liệu, văn giấy Trước bắt đầu, bạn nên quan tâm đến câu hỏi đây: • Mục tiêu thư viện số bạn gì? • Nhóm đối tượng mà bạn quan tâm? • Nhóm đối tượng có qui mơ nào: địa phương, khu vực hay tồn cầu? • Số lượng tài liệu bạn muốn có thư viện số ? • Tổng cộng trang? • Có tài liệu hình ảnh đồ họa? • Tài liệu có cần thiết chia thành phần tra cứu số người đọc phần tham khảo cách phổ biến? • Các tài liệu sẵn dạng kỹ thuật số chưa? • Nếu vậy, chúng dạng ? (Xin lưu ý tập tin dạng PDF không xem chuyển đổi tự động sang dạng văn kỹ thuật số, trang tập tin thường hình ảnh.) • Bản quyền tài liệu gì? • Ai sở hữu quyền? • Có tổ chức khác có nhóm đối tượng khơng? • Bạn có sẵn sàng hợp tác với tổ chức khác khơng? • Ngân quỹ bạn dành cho tồn dự án thư viện số bao nhiêu? • Bao nhiêu nhân lực bạn dành cho việc biên tập tài liệu, qt tài liệu lập trình ? • Cần máy tính cho dự án? • Bao nhiêu đĩa CD-ROM bạn muốn phát hành? • Chúng miễn phí hay để bán? MÁY QUÉT VÀ QUÉT TÀI LIỆU Bước chuyển tài liệu giấy tờ thành tập hợp thư viện số có hình ảnh trang tài liệu dạng kỹ thuật số Khâu nhận dạng kí tự quang học (OCR) khâu cần hình ảnh tài liệu rõ ràng có chất lượng cao Giai đoạn số hóa địi hỏi máy qt phải làm việc độ phân giải 300 dpi Hầu hết công việc quét thực theo dạng trắng đen, tài liệu dùng màu sắc cần phải qt với máy qt màu Thơng thường bìa sách sử dụng màu quét hình ảnh màu 2.1 Máy quét Các máy quét đa dạng giá cả, hình dạng kích thước Chúng có giá từ 100USD cho máy quét hình phẳng 50000USD cho máy quét công nghiệp cở lớn nhà sản xuất Bell & Howell Rất nhiều website cung cấp đa dạng máy quét Để tìm website này, bạn cần dùng từ khóa “scanners” vào Google, Altavista Yahoo Kết trang tài liệu quét tập tin máy tính mà thơng thường định dạng TIFF Bitmap Định dạng nén TIFF phiên dạng tốt Trung bình trang nén chuyển thành định dạng chiếm khoảng 50Kb, định dạng Bitmap không nén 2Mb Các máy quét hình phẳng giá thấp Các loại máy quét hình phẳng rẻ sử dụng nhiều Thuộc nhiều hãng khác nhau: HP, Agfa, Acer v.v , giá từ 100USD đến 300USD Chúng qt hình trắng đen hay màu Do chi phí thấp nên trang bị cho máy tính máy quét riêng Điểm bất lợi máy in cho hình ảnh trang tài liệu mức trung bình, tỉ lệ quét thấp, không bền môi trường ẩm thấp dễ hư Chúng ta phải quét trang Mỗi trang phải định vị cẩn thận theo lề bảng quét Hiệu suất máy in Mặc dù nhà sản xuất khẳng định trang tài liệu quét vòng chưa tới phút thực tế cho thấy khó thể đạt tới mức 12 trang tiếng Tiến trình quét thường làm ì ạch máy tính gắn kết Do máy in hữu dụng cho công việc nhỏ (số lượng trang cần quét ít- từ 200 đến 400 trang tháng cách thừơng xuyên) công việc xảy lần từ 1000 đến 2000 trang Máy quét cấp thấp có ngăn để giấy Các máy quét thường có giá từ 500USD 1200USD Có thể quét từ 10 đến 50 trang tài liệu lần Vì người điều khiển khơng cần có mặt liên tục máy quét Điều làm gia tăng số lượng trang đến 150200 trang/ngày Những loại máy in có tuổi thọ cao hơn, thường khoảng từ 30000 đến 50000 trang Điểm bất lợi chúng thời điểm quét mặt tài liệu – ngăn để trang tài liệu phải đảo lại để quét mặt sau tài liệu Và điều gây vấn đề ngăn để giấy thường gặp trục trặc đôi lúc làm kẹt giấy Những loại hữu ích cho cơng việc quét từ 1500 đến 3000 trang/tháng Các máy quét màu Để quét hình màu thiết ta phải có máy quét màu Nhưng nói chung, chưa đến 5% ấn phẩm chứa màu cộng với bìa tài liệu Vì máy quét hình phẳng giá thành thấp kể thường đáp ứng nhu cầu Chúng ta nên chọn máy quét có độ phân giải lên đến 600dpi Các máy quét mặt chuyên nghiệp Các máy quét chuyên nghiệp máy tốt đáng tin cậy, có khả xử lý số lượng lớn trang tài liệu- từ 2000 đến 10000 trang/ngày Chúng có hệ thống khay để giấy tự động, xử lý nhóm gồm từ 50 đến 200 trang Các máy quét tốt nhanh thuộc dạng quét mặt tài liệu lúc Các máy quét yêu cầu máy tính kết nối với phải mạnh có dung lượng ổ cứng 10 -20Gb, giá từ 5000 – 50000USD Chẳng hạn như: máy quét Cannon DR-6020 giá khoảng 5000USD, quét mặt tài lịêu, 2000 trang/ngày tuổi thọ từ 600000 – 800000 trang Các máy quét nhãn hiệu Bell&Howell Fujitsu, giá từ 10000 – 50000USD, có tuổi thọ đến hàng triệu trang Các máy qt phích nhỏ có giá từ 15000USD loại bán tự động 80000USD loại tự động hồn tồn Các chương trình qt Mỗi máy qt có phần mềm riêng cài đặt máy tính để điều khiển máy quét Một số máy quét có card cài đặt vào máy tính để tăng tốc độ quét 2.2 Chuẩn bị tài liệu Trước quét, tài liệu phải chuẩn bị tốt Tài liệu phải sạch, khô ráo, ghim kẹp tài liệu tháo rời, trang xếp thẳng Gáy sách nên gở bỏ Các sách thư viện thơng thường đóng lại, bạn nên cẩn thận gở bỏ gáy sách để dể dàng đóng sách lại Nếu có tài liệu việc cắt gáy sách thực tay thông qua thước cắt Cịn có nhiều tài liệu nên dùng máy cắt tay đặc biệt Đối với số lượng lớn – 20 tài liệu khuyến cáo nên yêu cầu thợ in chủ tiệm photo sử dụng máy cắt chuyên dụng họ, đừng quên gở bỏ ghim kẹp kim loại chúng gây hư hại máy cắt 2.3 Tiến trình quét Nhờ vào phần mềm với máy quét, ảnh tài liệu kĩ thuật số quét chuyển thể thành hình ảnh định dạng Bitmap TIFF Những tập tin hình lưu trữ ổ cứng với tên chuẩn, tiến trình nhận dạng kí tự kích hoạt số tài liệu quét Công việc thực ngừơi quét tài liệu người khác Thông thường ta cần độ phân giải quét vào khoảng 300dpi , đôi lúc 200dpi chấp nhận Quản lý chất lượng Mục tiêu cuối giai đoạn quét nhận dạng kí tự trang để có tài liệu dạng văn HTML, để tạo tập tin ảnh tốt, chẳng hạn như: tập tin ảnh PDF Trong trường hợp chất lượng ảnh quan trọng Nếu chất lượng ảnh thấp tập tin ảnh không đẹp tốn nhiều nhớ Chất lượng ảnh đặc biệt ảnh hưởng đến tiến trình nhận dạng kí tự: với chất lượng thấp, hiệu suất giảm đến 40% Thơng thường q trình nhận dạng kí tự chiếm 90% tổng chi phí, chất lượng qt ảnh hưởng đến chi phí Chất lượng tập tin TIFF nâng cao cách điều chỉnh tiến trình quét cho loại tài liệu thông qua việc sử dụng tuỳ chọn cung cấp phần mềm quét Loại tài liệu rõ ràng cần tuỳ chọn Collections, Documents, Organisations or Subjects (các danh mục sử dụng bẳng cách kích hoạt dịng lệnh tương ứng menu view công cụ nằm ngang): • Danh mục sưu tập: chọn nút Collections (Được để chế độ mặc định trước nhập liệu) trình bày tất sưu tập hành sở liệu Nhấp đúp vào tên sưu tập để xem phần thuộc tính cửa sổ Collection Properties (Được miêu tả đây) bạn thêm vào tài liệu cho sưu tập thêm/chỉnh sửa thuộc tính tài liệu sưu tập Để tạo sưu tập mới, sử dụng lệnh New/Collection menu đỉnh biểu tượng thứ ba từ trái sang công cụ tắt (Xem phần trên) • Danh mục tài liệu: chọn nút Documents trình bày danh sách tất tài liệu có chủ đề toàn cầu sở liệu (Các tài liệu lấy từ tài liệu số tài liệu có liên kết, chưa kết nối với sưu tập) Nhấp đúp lên tên tài liệu để xem/thay đổi thuộc tính tài liệu nhanh phân chia chủ đề cửa sổ thuộc tính sưu tập (Được miêu tả phía trên) Để tạo tài liệu với thuộc tính mới, sử dụng lệnh New/ Document menu đỉnh biểu tượng thứ ba từ trái sang công cụ tắt (Xem phần trên) Tìm kiếm chuỗi ký tự: tìm kiếm danh mục có chứa từ hay chuỗi ký tự cách nhập vào từ hộp hội thoại nhỏ phía mục Tên tài liệu đầu danh sách để nhận kiện đầu tiên, sau click vào biểu tượng “ống nhòm” Click vào biểu tượng từ phải sang (Biểu tượng “ống nhòm” “mũi tên”) để nhảy sang nhanh sang kiện Lọc tài liệu: để thuận tiện cho việc trình bày chỉnh sửa tài liệu ngôn ngữ, tổ chức hay đề tài Để làm điều này, chọn nút lọc liệu (Hình “cái phiểu”), góc bên phải cửa sổ trình bày hộp hội thoại Search documents, nhập vào tên tài liệu cần tìm nhấn nút Apply filter để xác nhận yêu cầu Bạn thay đổi kiểm tra việc tìm kiếm mà không cần phải rời khỏi hộp hội thoại với nút Search and Reset search Bạn kích hoạt dừng chức lọc lại với check box Apply filter kỹ thuật lọc tương tự Boolean “và” tìm kiếm: • Danh mục tổ chức: chọn nút Organisations trình bày danh sách tất tài liệu có chủ đề tồn cầu sở liệu (Các tài liệu lấy từ tài liệu số tài liệu có liên kết, chưa kết nối với sưu tập) Nhấp đúp lên tên tổ chức để mở hội hội thoại Edit Organisation Name để xem/thay đổi tên tổ chức tên viết tắt nhanh (Giống hộp hội thoại trình bày với lệnh New/Organisation) Để tạo tổ chức mới, sử dụng lệnh New/Organisation menu biểu tượng thứ ba từ trái sang cơng cụ tắt (Xem phần trên) • Danh mục chủ đề: chủ đề thành phần phân lớp chuẩn để tiếp cận với tài liệu sưu tập Có thể chọn thêm nút Subjects, xố chỉnh sửa danh mục tồn cầu tất chủ đề sở liệu, chúng chưa định tài liệu Một số không giới hạn thư mục đề tài tạo để sử dụng phân lớp sưu tập nhằm xây dựng định cho tài liệu sưu tập theo cấu trúc phân lớp đề tài Nhấp đúp lên lên chủ đề danh mục để mở cửa sổ Edit subject để xem/chỉnh sửa thuộc tính đề tài Để tạo chủ đề mới, sử dụng lệnh Edit subject menu biểu tượng thứ ba từ trái sang công cụ tắt (xem bên trên) Trong cửa sổ Edit subject Add new subject, từ khố (keywords) thêm vào danh mục chủ đề toàn cầu (Hộp hội thoại New keyword name, giống việc sử dụng lệnh New/Add-Modify keywords từ thực đơn cùng), định với thuộc tính chủ đề riêng biệt (hộp hội thoại chọn lựa chủ đề) sử dụng việc tìm kiếm chủ đề để thêm vào sưu tập Từ khoá (Nếu khơng đánh dấu loại đề tài) dùng để truy xuất tài liệu thuộc tính tài liệu (Dùng “How to” sưu tập DLS) Chú ý có hai loại từ khố xếp theo thứ tự alphabet danh mục, tạo thuận lợi cho việc sử dụng từ khố để tìm tài liệu; bỏ qua cách thêm vào mã “z-” trước từ khoá định ứng với mục đề tài (Các mục không định rõ tài liệu bạn không muốn mã xuất danh mục tìm kiếm từ khố chương trình ứng dụng phát sinh) Lưu ý: sở liệu lớn, thời gian dài (một phút hơn) để upload thành phần sưu tập Sau chọn sưu tập, chờ tất thành phần upload lên hết trước bắt đầu cơng việc (Biểu tượng nhỏ có hình bóng đèn trịn xuất dịng tab q trình loading hồn thành) Thơng báo Failure q trình upload làm cho chương trình bị bỏ qua Nút Export Files mở cửa sổ Export Settings (Miêu tả bên dưới) lưu vào metadata sưu tập để truy xuất cấu trúc thư viện số vào thư viện Greenstone Nó lưu hồn tồn sở liệu ii Cửa sổ thuộc tính sưu tập Cửa sổ giúp cho ngừơi dùng xây dựng thay đổi sưu tập riêng biệt, xuất sưu tập chọn danh mục sưu tập cửa sổ Organizer Main Nó cho phép người dùng chọn môt trong cách trình bày sưu tập cách click vào tab Mỗi cách trình bày cung cấp chữ số hàm chọn lựa chỉnh sửa liệu miêu tả đây: a Trình bày đề tài: số khơng giới hạn mục đề tài tạo đây, phân cấp sưu tập chọn lên cấp độ (Mặc dù sưu tập không cần cấp) Để thêm đề tài vào sưu tập (có thể dùng thuộc tính hay nhiều tài liệu), i) chọn đề tài phần mà bạn muốn thêm thư mục vào, ii)chọn nút Add subject,iii) chọn Add Subjects từ danh mục toàn cầu , iv) sử dụng nút để trình bày tồn danh mục tồn cầu (Thủ tục thông thường hay mặc định) nút chưa sử dụng hệ thống phân cấp sưu tập,v) Chọn đề tài yêu cầu từ danh mục, vi) chọn OK đề tài mong muốn chưa có danh mục tồn cầu, sau sử dụng tùy chọn Add New Subject cung cấp nút Add subject (Giống quay trở lại menu thêm đề tài vào lệnh New/Subjects) Các đề tài thay đổi với biểu tượng Edit đề tài tài liệu trình bày; Phần sử dụng chức thêm vào tùy ý biểu đồ số cho cấp đề tài mục sử dụng sưu tập (Chú ý việc thay đổi mục dùng sưu tập hành khơng đem qua danh mục tồn cầu đề tài) Để thêm vào hay nhiều tài liệu vào chủ đề (i.e định đề tài cho nhiều tài liệu), trước tiên bạn chọn mục đề tài mục mà bạn muốn thêm vào tài liệu, hộp danh mục cấp Sau chọn hay nhiều tài liệu hộp danh mục cấp thấp hơn, click vào biểu tượng nhỏ hai cách trình bày với mũi tên hướng “lên’ sách màu đỏ (hoặc nhấp đúp lên tài liệu một) Do tài liệu định với đề tài chọn trình bày với dấu √ trước trường dòng tương ứng; để thuận lợi việc trình bày bạn di chuyển lên xuống trang trình bày với biểu tượng “√ up” “√ down” phần trình bày Bạn thấy tài liệu thêm vào nơi tương ứng cấu trúc phân lớp đề tài Bây lặp lại hành động tất tài liệu phân lớp Một tài liệu định với nhiều đề tài theo ý muốn Bạn di chuyển (nhưng copy) tài liệu phân lớp đề tài hay đề tài khác cách kéo thả với nút trái chuột Để di chuyển tài liệu khỏi đề tài, chọn danh mục tên tài liệu mục đề tài, nhấn phím delete xác nhận yêu cầu Trình bày tổ chức: Phần trình bày dùng phương tiện thuận lợi cho việc chọn hay không chọn tài liệu sưu tập theo tên tổ chức có liên quan mà trở thành phần danh mục thư viện số cho việc phục hồi tài liệu thơng qua tổ chức có liên quan (Lưu ý tài liệu thêm thay đổi thuộc tính tổ chức, từ phần trình bày tài liệu) Danh mục mặc định hộp phía tay trái chứa tổ chức có liên hệ với với tài liệu sưu tập; cịn hộp phía tay phải chứa tên tài liệu mà tổ chức liên hệ - Các tên đánh dấu với √ sưu tập với tên mà không đánh dấu click vào tên để chọn khơng chọn sưu tập Sử dụng biểu tượng góc bên phải (ơ trắng đánh dấu √ trịn trắng dùng để chọn không chọn tất tiêu đề) Để chọn tài liệu từ tổ chức chưa đặt thuộc tính cho tài liệu sưu tập, chọn Add Organisations từ tùy chọn danh mục toàn cầu nút Add organisation để thêm tổ chức vào danh mục tổ chức sưu tập, sau trình chọn tài liệu Tương tự, bạn sử dụng nút remove organisation để di chuyển tất tài liệu có liên quan với tổ chức chọn từ sưu tập (Nhưng khơng phải từ danh mục tài liệu tồn cầu) Để làm việc với tài liệu sưu tập, việc bật tắt hộp checkbox để chọn danh mục tài liệu Từ phần trình bày này, bạn thêm tổ chức mới, tài liệu vào danh mục toàn cầu (hộp hội thoại Add new organisation nút Add Organisation hộp hội thoại Add new document nút Add Document, thực theo thứ tự quay trở lại menu thêm tài liệu với dịng lệnh New/Organisations New/Subjects c Trình bày tài liệu: Danh mục tất tài liệu chọn gồm tài liệu sưu tập kích hoạt Điều giống danh mục tài liệu tập tài liệu xuất cửa sổ phía phần trình bày Các đề tài Điểm khác danh mục tài liệu này, nhấp đúp vào tài liệu cần trình bày mở hộp hội thoại Các thuộc tính tài liệu ứng với tài liệu Sau bạn thêm/thayđổi thuộc tính tài liệu (Hoặc khác mục đề tài liên kết thay đổi, miêu tả mục Subjects view) cách chọn tab thuộc tính phân lớp khác hộp hội thoại: • Tab General: cửa sổ bạn nhập tên tài liệu, số cơng việc, số trang số hình ảnh, năm xuất bản, tên loại Bạn thêm vào số lượng hình ảnh tự động cách click vào nút Find images chọn thư mục có chứa hình ảnh thư mục, sau kiểu định dạng phần mở rộng trường Extensions • Tab Advanced: tài liệu xuất định kỳ, phần tài liệu, bạn tiêu đề tài liệu cần phát hành hay tài liệu thuộc tính, tự động tạo thực thể danh mục tài liệu phát hành định kỳ, nhìn thấy cửa sổ tìm kiếm tiêu đề chương trình ứng dụng cần sử dụng Trong cửa sổ trình bày cấp cao mà bạn định phần Organisations Languages tài liệu, Cả hai trường lặp lại Nếu có nhiều tổ chức có liên hệ với tài liệu (Nhà xuất bản, đồng tác giả) viết nhiều ngôn ngữ, song ngữ Anh/Pháp, bạn nên tất tài liệu tương ứng với danh mục riêng • Tab Copyright: Việc biết rõ trạng thái quyền tác giả xuất tài liệu quan trọng Cửa sổ gồm hai phần: Thứ nơi gốc trình bày mức độ quyền xác định Thơng tin liên quan đến việc quản lý với Organizer, khơng ảnh hưởng đến trình ứng dụng thư viện số Greenstone • Tab Suggested collections: Phần trình bày danh mục sưu tập bao gồm tài liệu đề nghị sau Số lượng sưu tập đề nghị không giới hạn Thông tin dùng việc quản lý tài liệu với Organizer, khơng ảnh hưởng đến trình ứng dụng thư viện số Greenstone • Tab Keywords: Keyword dùng việc xuất tài liệu thuộc tính biểu đồ phân cấp thêm vào để bổ sung phân lớp đề tải sử dụng để hoạt động trình ứng dụng Thư viện số để chọn trình bày tập tài liệu Thư viện Trong DLS, dùng tham số “How to”, dùng cho metadata khác thêm vào, với ví dụ tác giả hay đất nước tài liệu nguồn Chú ý; Trong phần trình bày Đề tài, Tổ chức Tài liệu, nút Add documents cho phép người dùng thêm tài liệu trực tiếp vào sưu tập từ hộp hội thoại chọn từ danh mục liệu toàn cầu Tài liệu thêm vào cửa sổ thuộc tính trình bày cách tự động danh mục liệu toàn cầu nhập vào cho việc sử dụng tương lai Khi tài liệu thêm vào sưu tập từ danh mục liệu toàn cầu, hộp hội thoại Search documents xuất để người dùng dễ dàng xác định nhu cầu tài liệu theo nhiều nhiều chuẩn chọn lựa (Điều giống chức lọc liệu mô tả danh mục tài liệu thảo luận sử dụng cách chọn nút Documents công cụ đứng cửa sổ Organizer Main) d Các phần trình bày khác: Phần trình bày phân cấp khác cho thấy thứ tự tài liệu theo tiêu đề (Không phép chỉnh sửa) phân cấp tiêu đề theo mẫu tự alphabet theo ngôn ngữ Người dung thay đổi nhóm phân cấp theo mẩu tự alphabet (Ví dụ: A-C, E-G or A-L, M-Z v.v…) theo cở tốt để trình bày tài liệu Thư viện hoàn chỉnh Để làm điều này, click vào ngôn ngữ sử dụng chứa nút chia ký tự (Split letters) Khi cảm thấy hài long với kết quả, click vào nút Save Splitters (Cho đến bạn quay trở lại vị trí ban đầu hay ký tự lưu trước cách click vào Load/Refresh để phân chia loại bớt ký tự việc click vào Eliminate Splittings) iii The Export Settings window Cửa sổ trình bày biểu tượng công cụ đứng cửa sổ Organizer Main chọn, cho phép bạn lấy kết công việc thông thường giai đoạn cuối liên quan đến việc tạo sưu tập sưu tập Chọn Export Files để liên kết với cửa sổ Export Settings chọn sưu tập để truy xuất ngồi thư mục để nhận thơng tin truy xuất sau click Export files Việc làm thay đổi file collect.cfg, metadata.xml, sub.txt,org.txt, Keywords.txt AZList.txt thư mục chọn Để xây dựng sưu tập với thông tin này, bạn cần di chuyển file đến nơi liên kết Nơi có file metadata.xml thư mục import sưu tập thư mục khác sưu tập v.v Bắt đầu 10 bước 15 phút a Cài đặt thư mục Greenstone (xem tài liệu the Greenstone Installer’s Guide) bao gồm Thư viện Demo dạng DLS file nguồn Lưu ý bạn muốn thêm vào sưu tập 140 tài liệu sưu tập DLS sở liệu Organizer để chế độ mặc định (Thay 14 tài liệu sưu tập chương trình Demo Thư viện Greenstone), bạn nên cài DLS mẫu Thư viện Greenstone thay “Demo củ” “dls” theo cấu trúc Bộ sưu tập Demo DLS cài đặt theo thứ tự sau c:\program files\gsdl\collect\demo and c:\program files\gsdl\collect\dls Nếu bạn cài đặt Greenstone trước mà khơng có DLS muốn cài thêm DLS, bạn hủy việc cài đặt hay cài lại Greenstone với sưu tập b Thiết lập cấu trúc cho sưu tập (Chúng ta thích để dạng “newcol”) cách điều khiển dòng lệnh sau: run menu Start windows: “c:\program files\gsdl\bin\windows\build” newcol c Thay file collect.cfg mặc định tạo từ bước trước sử dụng chương trình Demo Lưu lại đường dẫn c:\program files\gsdl\collect\demo\etc\collect.cfg thành c:\program files\gsdl\collect\newcol\etc\collect.cfg Điều cần thiết Demo sử dụng (và tất sưu tập dạng DLS) sử dụng số tùy chọn đặt biệt mà sưu tập mặc định khơng có (xem TL GreenstoneDeveloper’s Guide để biết thêm chi tiết) Bạn in dẫn làm theo bước đây: Mở Collection Organizer, chọn sở liệu dls nhập từ “admin” cho user name password (Nút Collections công cụ đứng tô sang mặc định; nêu không sang click vào nút đó) Chọn lệnh New/Collection/Empty thực đơn nằm ngang cửa sổ Organizer Main để tạo sưu tập trống Đặt tên sưu tập phiên mà bạn chọn, ví dụ đặt tên “My First Collection” phiên “1.0” Với số thuộc tính tài liệu, bạn phải tạo danh mục giá trị trước tiên Vì bạn biết nhiều ngơn ngữ và/hoặc tổ chức xuất tài liệu bạn, dùng lệnh New/Add-Modify languages New/Organisation để them vào tất ngôn ngữ mà bạn sử dụng tài liệu cho sưu tập tương lai vai trò nhà xuất tài liệu bạn Bạn dùng dịng lệnh để thêm/Thay đổi ngơn ngữ tổ chức muốn, chỉnh sửa thân sưu tập dẫn sau Nhấp đúp lên dòng tên sưu tập mà bạn tạo Click vào tab Subjects đỉnh (Nếu chưa chọn để dạng mặc định); sau click vào nút Add subject lệnh Add new subject, sau nhập tên đề tài vào trường Subject title, nhấn phím “enter” sau lần thực Click vào dấu + trước từ Subjects danh mục liệt kê phân cấp để xem đề tài mà bạn yêu cầu Click lên tab Documents để mở trang trình bày tài liệu, sau thêm tài liệu vào sưu tập sau: a Để thêm tài liệu vào sưu tập Demo (Hoặc sưu tập DLS cài đặt Greenstone) vào sưu tập bạn, click nút Add documents chọn Add document từ danh mục toàn cầu Định vị trí tài liệu bạn yêu cầu (Sử dụng chức lọc liệu miêu tả trên) thêm vào sưu tập bạn Organizer Sau thêm tài liệu, định vị file nguồn sưu tập Thư mục Demo import (c:\program files\gsdl\collect\demo\import) copy chúng vào thư mục import sưu tập bạn Ví dụ, để thêm tài liệu “Butterfly Farming in Papua New Guinea” vào số công việc bạn xác định Organizer Số cơng việc tài liệu “b22bue”, bạn nên copy thư mục “b22bue” từ c:\program files\gsdl\collect\dls\import\ac01ne sang c:\program files\gsdl\collect\newcol\import\ac01ne Để thêm tài liệu (Nghĩa có tài liệu khơng có sưu tập Demo) vào sưu tập bạn, click nút Add documents chọn Add new document Nhập tên, số công việc tài liệu (Lựa chọn bạn), số trang, tổ chức xuất bản, ngôn ngữ thông tin khác Bạn phải tạo thư mục c:\program files\gsdl\collect\newcol\import để liên hệ với số công việc tài liệu Trong thư mục bạn nên để file nguồn tài liệu file hình ảnh có liên quan (Trong HTML hay định dạng khác chấp nhận Greenstone (xem tài liệu Greenstone User’s Manual) Quay trở lại tab đề tài bạn nhìn thấy tài liệu bạn trình bày hộp danh mục liệt kê phía Chọn tài liệu, sau chọn mơt chủ đề danh mục nhánh mà bạn muốn phân lớp tài liệu click vào biểu tượng nhỏ hai phần trình bày với mũi tên lên (“up”)và sách màu đỏ Khi tài liệu phân lớp, bạn di chuyển từ đề tài sang đề tài khác cách kéo – thả với nút trái chuột Bạn di chuyển tài liệu đề tài lên xuống cấp độ tương tự biểu đồ phân lớp cách chọn nút lên, xuống màu xanh vào phía bên phải danh mục phân cấp đề tài Cố gắng phân lớp trung bình từ – 30 tài liệu đề tài Một tài liệu định nhiều đề tài mà bạn muốn lặp lại bước cách thêm đề tài mới, thêm nhiều tài liệu Khi Thư viện hoàn thành, bạn phải xem lại danh mục đề tài tài liệu, để tất nhập vào phân lớp, thứ tự xác Cuối cùng, đóng cửa sổ thuộc tính sưu tập nhấn nút Export Files công cụ đứng Phần mở cửa sổ Export Settings Click vào nút Display collection list chọn sưu tập bạn, sau click vào nút Browse for folder chọn thư mục mà bạn muốn truy xuất file metadata, nhấn nút Export files để truy xuất metadata sưu tập cho trình xây dựng với Greenstone 10 Copy file truy xuất đến nơi có liên quan cấu trúc thư mục sưu tập bạn a File metadata.xml truy xuất, nên copy vào thư mục c:\program files\gsdl\collect\newcol\impor b Các file AZList.txt, Keyword.txt, sub.txt, and org.txt truy xuất, nên copy vào thư mục c:\program files\gsdl\collect\newcol\etc Lưu ý file collect.cfg sinh Organizer khơng u cầu dịng phân lớp chứa file collect.cfg cho sưu tập Demo DLS Bộ sưu tập The newcol sẳn sàng xây dựng Xây dựng từ dịng lệnh import.pl buildcol.pl (xem chi tiết tài liệu the Greenstone Developer’s Guide) 5.3 Đính kèm file tài liệu Tài liệu nguồn thường cần để xây dựng phần lớn phần nhỏ sưu tập, thông tin cần để liên kết với Greenstone để bảo tồn cấu trúc phân cấp Cũng metadata – đề tài điển hình – liên kết với phần lớn phần nhỏ Các tài liệu nguồn từ trình OCR điển hình cho tập hợp từ xử lý file, bao gồm file hình ảnh Nếu file thuộc dạng file MicrosoftWord, họ input vào Greenstone cách sử dụng plugin dạng Word Có thể vừa chuyển thành file HTML vừa dùng plugin HTML để input Trong trường hợp khác cấu trúc phân cấp tài liệu định cách thêm đuôi dạng text sau: Realizing human rights for poor people: Strategies for achieving the international development targets > (text of section goes here) > Cách ghi dùng chúng dịng lệnh dạng HTML; thêm vào phần không ảnh hưởng đến định dạng tài liệu Bạn phải ghi dịng vào phần phần, tài liệu mà bạn sử dụng khơng phải file HTML (e.g file dạng Microsoft Word ) Trong phần miêu tả chi tiết (between the and tags) loại metadata khác định, lại khơng làm tài liệu mà miêu tả Điều quan trọng phải nhớ bạn tạo bảng mục lục phân cấp chèn vào phần đuôi tài liệu bạn Điều có nghĩa phần để lòng vào phần khác Trên thực tế, tất phần phải lòng vào phần đơn khép kín bao quanh tồn tài liệu Ví dụ sau chứng minh tài liệu với hai chương, chương hai chứa hai phần nhỏ Ví dụ thực tế tài liệu gốc thêm vào phần cách này, nhìn tài liệu nguồn sưu tập Demo DLS My Document Chapter 1 > (text of chapter goes here) Chapter 2 Subsection 1 > (text of sub-section goes here) Subsection 2 > (text of sub-section goes here) > Lưu ý metadata định từ phần đuôi tài liệu nguồn theo thứ tự ưu tiên định từ file metadata.xml (Giống tạo Organizer) Điều có nghĩa bạn khơng nên định rõ metadata chủ đề cho cấp cao tài liệu nguồn trừ bạn muốn bỏ qua tiêu đề mà bạn cài vào từ Organizer Trong ví dụ đây, bạn muốn lấy tên tài liệu mà bạn cài Organizer bạn nên bỏ qua dòng sau: My Document ... liệu vi Sắp xếp sưu tập thành thư viện số có cấu trúc tối ưu hóa vii Xây dựng thư viện số phần mềm Greenstone viii Xuất tập hợp thành CD-ROM và/hay phân phối Internet Để tạo thư viện số, văn phải... metadata sưu tập để truy xuất cấu trúc thư viện số vào thư viện Greenstone Nó lưu hồn tồn sở liệu ii Cửa sổ thuộc tính sưu tập Cửa sổ giúp cho ngừơi dùng xây dựng thay đổi sưu tập riêng biệt, xuất sưu. .. độ mặc định (Thay 14 tài liệu sưu tập chương trình Demo Thư viện Greenstone) , bạn nên cài DLS mẫu Thư viện Greenstone thay “Demo củ” “dls” theo cấu trúc Bộ sưu tập Demo DLS cài đặt theo thứ tự