Nghiên cứu việc ứng dụng phần mềm nguồn mở greenstone tại viện thông tin khoa học xã hội

78 27 0
Nghiên cứu việc ứng dụng phần mềm nguồn mở greenstone tại viện thông tin khoa học xã hội

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ VĂN HOÁ, THỂ THAO VÀ DU LỊCH TRƯỜNG ĐẠI HỌC VĂN HÓA HÀ NỘI NGUYỄN THỊ LOAN NGHIÊN CỨU VIỆC ỨNG DỤNG PHẦN MỀM NGUỒN MỞ GREENSTONE TẠI VIỆN THÔNG TIN KHOA HỌC XÃ HỘI Chuyên ngành : Khoa học Thư viện Mã số : 60.32.20 LUẬN VĂN THẠC SĨ KHOA HỌC THƯ VIỆN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN VIẾT NGHĨA HÀ NỘI, 2010 DANH MỤC CÁC BẢNG BIỂU Hình Các đặc điểm cơng cụ tạo lập siêu liệu Hình Các đặc điểm cơng cụ quản lý Hình Minh hoạ hình tìm kiếm Greenstone Hình Cấu trúc liệu CSDL Báo cáo KQNC Hình Minh hoạ kết tìm kiếm tài liệu theo chủ đề CSDL Báo cáo KQNC Hình : Sơ đồ tóm tắt quy trình số hóa ảnh Hình : Minh họa hình nhập liệu CSDL Hán Nơm Hình Minh họa kết tìm kiếm CSDL Hán Nôm Sơ đồ Sơ đồ công nghệ OCR DANH MỤC CÁC TỪ VIẾT TẮT CSDL BCKQNC Cơ sở liệu Báo cáo kết quản nghiên cứu PMNM Phần mềm nguồn mở TT-TV Thông tin – Thư viện TTKHXH Thông tin Khoa học xã hội Lời cảm ơn Tơi xin bày tỏ lịng biết ơn sâu sắc đến thầy cô giáo Khoa Sau Đại học – Trường Đại học Văn hóa Hà Nội – người tận tình dạy bảo, truyền đạt cho tơi tri thức khoa học quý báu suốt năm học tập mái trường Tôi xin gửi lời cảm ơn chân thành sâu sắc đến TS Nguyễn Viết Nghĩa – Người trực tiếp hướng dẫn tơi hồn thành Luận văn Qua tơi xin gửi lời cảm ơn chân thành tới cán công tác Viện Thông tin Khoa học xã hội toàn thể bạn bè, đồng nghiệp gia đình tơi, người động viên giúp đỡ tơi suốt q trình tơi thực đề tài Hà Nội, ngày tháng năm 2010 Học viên Nguyễn Thị Loan MỤC LỤC MỞ ĐẦU: CHƯƠNG PHẦN MỀM NGUỒN MỞ GREENSTONE VÀ NHU CẦU XÂY DỰNG, PHÁT TRIỂN NGUỒN LỰC THÔNG TIN SỐ TẠI VIỆN THÔNG TIN KHOA HỌC XÃ HỘI 10 1.1 Phần mềm nguồn mở Greenstone 10 1.1.1 Một số khái niệm 10 1.1.2 Những nét phần mềm nguồn mở Greenstone 11 1.1.3 So sánh tính phần mềm Greenstone với phần mềm CDS/ISIS - Viện Thông tin Khoa học Xã hội sử dụng 14 1.2 Viện Thông tin Khoa học xã hội với việc xây dựng phát triển nguồn lực thông tin số 16 1.2.1 Một số nét khái quát Viện Thông tin Khoa học Xã hội 16 1.2.2 Nhu cầu số hóa tài liệu Viện Thông tin Khoa học xã hội 23 1.2.3 Vai trò phần mềm nguồn mở Greenstone việc xây dựng phát triển nguồn lực thông tin số Viện Thông tin Khoa học xã hội 25 CHƯƠNG KHẢO SÁT THỰC TRẠNG ỨNG DỤNG PHẦN MỀM NGUỒN MỞ GREENSTONE TẠI VIỆN THÔNG TIN KHOA HỌC XÃ HỘI 28 2.1 Kinh nghiệm số thư viện việc ứng dụng phần mềm nguồn mở Greenstone 28 2.1.1 Thư viện trường Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh28 2.1.2 Thư viện Học viện Ngân hàng Tp Hồ Chí Minh 30 2.2 Sử dụng phần mềm nguồn mở Greenstone xây dựng sưu tập số tìm kiếm thơng tin Viện Thông tin Khoa học xã hội 31 2.2.1 Tạo sưu tập số với phần mềm Greenstone 31 2.2.2 Công cụ hỗ trợ tạo lập quản lý sưu tập số với phần mềm Greenstone 36 2.2.3 Tìm kiếm tài nguyên thông tin số với phần mềm Greenstone 40 2.3 Giới thiệu vài sưu tập số Viện Thông tin Khoa học xã hội 46 2.3.1 Bộ sưu tập Báo cáo kết nghiên cứu 47 2.3.2 Bộ sưu tập Hán Nôm 51 2.4 Đánh giá việc ứng dụng phần mềm Greenstone Viện Thông tin Khoa học xã hội 57 2.4.1 Một số kết đạt 57 2.4.2 Một số tồn 57 CHƯƠNG CÁC GIẢI PHÁP HOÀN THIỆN VIỆC ỨNG DỤNG PHẦN MỀM NGUỒN MỞ GREENSTONE TẠI VIỆN THÔNG TIN KHOA HỌC XÃ HỘI 59 3.1 Mục tiêu, nguyên tắc thực phát triển nguồn lực thông tin số Viện Thông tin Khoa học xã hội 59 3.1.1 Mục tiêu 59 3.1.2 Nguyên tắc thực 60 3.2 Các giải pháp phát triển nguồn lực thông tin số phần mềm nguồn mở Greenstone Viện Thông tin Khoa học xã hội 61 3.2.1 Giải pháp sách 61 3.2.2 Giải pháp công nghệ 64 KẾT LUẬN 74 DANH MỤC TÀI LIỆU THAM KHẢO 76 MỞ ĐẦU Tính cấp thiết đề tài Trong hoạt động thông tin thư viện (TT-TV) q trình ứng dụng cơng nghệ thơng tin có bước phát triển mạnh mẽ vào cuối năm 1980, đó, biểu rõ rệt việc ứng dụng hệ quản trị sở liệu vào xử lý, lưu thông tài liệu Tại thời điểm này, đa số thư viện nước ta sử dụng phần mềm CDS/ISIS (Computerized Documentation System/ Intergrated Set of Information System) UNESCO phát triển để tạo lập hệ thống sở liệu (CSDL) Cùng với phát triển công nghệ thông tin truyền thông, vào khoảng cuối kỷ 20 đầu kỷ 21, hoạt động ứng dụng công nghệ thông tin khởi sắc ngành TT-TV, đời phần mềm thư viện số, bao gồm phần mềm thương mại (ở nước Libol công ty Tinh Vân, Ilib công ty CMC, Vebrary công ty Lạc Việt,… ) phần mềm nguồn mở (PMNM) Greenstone, Dspace, Zope, Drupal,… đáp ứng nhu cầu tự động hố cơng tác xử lý tài liệu hoạt động TT-TV Được đánh giá phương tiện hữu hiệu để chia sẻ thịnh vượng giới cơng nghiệp hố sang nước phát triển, đời PMNM thực cách mạng công nghiệp phần mềm Hơn nữa, sức ép phải sử dụng phần mềm có quyền khiến quan, tổ chức, doanh nghiệp phải tìm kiếm lựa chọn thay có chi phí rẻ - PMNM Với đời phần mềm, việc xây dựng phát triển nguồn lực thông tin số trở nên thuận tiện Tuy nhiên, để xây dựng nguồn lực thông tin số đạt hiệu cao đòi hỏi phải có bước thích hợp giải pháp thiết thực, lựa chọn phần mềm vấn đề quan trọng Hiện nay, Việt Nam, có nhiều phần mềm sử dụng để xây dựng nguồn lực thông tin số như: Dspace, Zope, Greenstone,… Với tính ưu điểm trội mình, Greenstone coi giải pháp hiệu quả, tiết kiệm phù hợp với việc xây dựng quản lý sưu tập số quan TT-TV Viện Thông tin Khoa học xã hội (TTKHXH) thuộc Viện Khoa học Xã hội Việt Nam qua 30 năm xây dựng trưởng thành, có thành tích xuất sắc việc nghiên cứu, cung cấp thông tin, tư liệu khoa học xã hội góp phần vào nghiệp xây dựng bảo vệ tổ quốc Trong thời kỳ cơng nghiệp hố, đại hố đất nước, nhu cầu thơng tin lại có đổi mới, nhiên Viện TTKHXH chưa đáp ứng kịp thời nhu cầu thơng tin có mặt bị tụt hậu so với thư viện khác nước quốc tế Một nguyên nhân chủ yếu Viện TTKHXH chưa có giải pháp hữu hiệu để tăng cường nguồn lực thơng tin Vốn tài liệu cổ, q mà Viện có nhiệm vụ tàng trữ bị hạn chế đưa phục vụ bạn đọc nhiều lý do, có lý tình trạng xuống cấp nghiêm trọng tài liệu, khơng thể phục vụ tài liệu nguyên gốc nguyên nhân việc ứng dụng công nghệ thông tin chưa làm cách đồng Nhận thức tầm quan trọng việc ứng dụng công nghệ thông tin nhằm xây dựng nguồn lực thông tin số, đặc biệt nguồn tài liệu cổ, quý hiếm, báo cáo kết nghiên cứu, tài liệu dịch,… Viện TTKHXH, để đưa tài liệu đến với người đọc, tác giả luận văn chọn đề tài: “Nghiên cứu việc ứng dụng phần mềm nguồn mở Greenstone Viện Thông tin Khoa học xã hội” với hy vọng làm rõ nét đặc trưng PMNM Greenstone việc ứng dụng phần mềm Viện TTKHXH, đồng thời đưa số giải pháp nhằm hoàn thiện việc ứng dụng Greenstone Viện góp phần phục vụ nhu cầu tin cho người dùng tin đạt hiệu cao Tình hình nghiên cứu PMNM Greenstone đề cập đến số tài liệu nước tạp chí chuyên ngành, liên ngành, báo cáo tổng kết hội nghị, hội thảo,… Các tài liệu nghiên cứu, mô tả số đặc điểm PMNM Greenstone việc ứng dụng hoạt động TT-TV Trong cơng trình Sử dụng phần mềm thư viện số Greenstone để xây dựng kho tài nguyên học tập, Kỷ yếu hội thảo xây dựng phát triển nguồn học liệu để phục vụ đào tạo nghiên cứu, Tr 93 -103, tác giả Nguyễn Minh Hiệp giới thiệu vắn tắt bước xây dựng sở liệu số PMNM Greenstone trường Đại học Khoa hoc Tự nhiên thành phố Hồ chí Minh Nguyễn Tuyến (2004), Sự phát triển sử dụng thư viện số Greenstone giới, Bản tin Thư viện – Công nghệ thông tin Đại học Khoa học Tự nhiên TP Hồ Chí Minh giới thiệu phương pháp khai thác Greenstone để tạo lập sưu tập tài liệu số Tác giả Nguyễn Thị Loan (2009) nghiên cứu Phần mềm thư viện số Greenstone vấn đề ứng dụng thực tiễn, Tạp chí Thơng tin KHXH, số 5, tr 47-52 giới thiệu nghiên cứu ban đầu việc ứng dụng phần mềm Greenstone Viện TTKHXH Những kết nghiên cứu tạo sở cho thư viện, trung tâm thông tin tham khảo nhằm triển khai ứng dụng Greenstone phù hợp với chức năng, nhiệm vụ điều kiện thực tế Tại Viện TTKHXH, việc nghiên cứu ứng dụng phần mềm Greenstone chưa tiến hành cách tổng thể, hồn chỉnh Chính vậy, tác giả chọn đề tài phù hợp, nhằm tìm hiểu rõ đặc điểm bật Greenstone việc ứng dụng phần mềm việc xây dựng sưu tập số, đồng thời đưa số giải pháp nhằm hoàn thiện ứng dụng Greenstone vào việc phát triển nguồn lực thông tin số Viện TTKHXH Hy vọng luận văn tài liệu tham khảo hữu ích cán Viện TTKHXH với quan tâm đến lĩnh vưc Mục tiêu nghiên cứu Mục tiêu nghiên cứu đề tài nhằm tìm hiểu nét đặc trưng phần mềm nguồn mở Greenstone việc ứng dụng phần mềm thực tiễn Viện TTKHXH đồng thời đưa giải pháp xây dựng nguồn lực thông tin số Viện TTKHXH nhằm đáp ứng tốt nhu cầu sử dụng người dùng tin 10 Đối tượng phạm vi nghiên cứu - Đối tượng nghiên cứu đề tài phần mềm nguồn mở Greenstone việc ứng dụng phần mềm hoạt động TT-TV Viện TTKHXH - Phạm vi nghiên cứu đề tài: Đề tài tập trung nghiên cứu vấn đề liên quan đến phần mềm Greenstone, việc ứng dụng phần mềm Viện TTKHXH đưa giải pháp phát triển nguồn lực thông tin số dựa phần mềm Phương pháp nghiên cứu: - Luận văn thực dựa phương pháp vật biện chứng - Phương pháp thu thập, tổng hợp, phân tích tài liệu, số liệu - Phương pháp thống kê, so sánh, hệ thống hố Kết cấu đề tài Ngồi phần mở đầu, kết luận, mục lục, danh mục tài liệu tham khảo, luận văn chia làm chương: Chương Phần mềm nguồn mở Greenstone việc xây dựng, phát triển nguồn lực thông tin số Viện Thông tin Khoa học xã hội Chương Khảo sát thực trạng ứng dụng phần mềm nguồn mở Greenstone Viện Thông tin Khoa học xã hội Chương Các giải pháp hoàn thiện việc ứng dụng phần mềm nguồn mở Greenstone Viện Thông tin Khoa học xã hội 64 Trong thư viện truyền thống, quyền sở hữu tài liệu quan trọng; lĩnh vực lưu hành tài liệu điện tử, quyền sở hữu trí tuệ, cụ thể quyền tác giả hay quyền quan trọng Sở hữu sách chắn xác lập quyền sở hữu tài liệu theo nghĩa quyền Mặc dù có nhiều tài liệu có quyền Điều không áp dụng cho in mà cho điện tử, dù số hoá từ in hay tạo nên dạng điện tử từ đầu Khi mua sách, ta bán lại, chắn khơng mua quyền tái phân phối tài liệu Quyền tùy thuộc vào quyền Bản quyền người sáng tác tác phẩm thuê sáng tác Trong trường hợp quyền thuộc quan hay tổ chức thuê theo hợp đồng; quyền sang nhượng hay chuyển cho đơn vị khác thông qua hợp đồng cụ thể, thực văn người chủ ký tên Luật quyền phức tạp Tình trạng luật pháp tập tin máy tính tài liệu cụ thể xuất World Wide Web lại mờ nhạt Muốn xây dựng thư viện số phải cần số hố tài liệu Do cần thiết phải lưu ý đến khía cạnh vấn đề quyền Để số hóa cách hợp pháp tài liệu có kho, Viện TTKHXH cần phải xem xét cách thật tỉ mỉ, loại tài liệu hết thời hạn bảo hộ quyền tác giả (theo Luật Sở hữu trí tuệ) nghĩa số hóa cách hợp pháp, loại cần phải xin phép người có quyền Hiện kho Viện TTKHXH, số tài liệu hết thời hạn bảo hộ quyền tác giả không nhiều (chủ yếu loại tài liệu cổ, thần tích, thần sắc,…) loại tài liệu số hóa mà khơng cần xin phép người sở hữu quyền Các loại tài liệu lại, kể loại tài liệu EFEO bàn giao, loại tài liệu xuất từ lâu theo Luật sở hữu trí tuệ cịn thời kỳ bảo hộ quyền tác giả nên Viện cần phải làm thủ tục xin phép trước số hóa để tránh khiếu nại, phiền phức sau 65 3.2.2 Giải pháp cơng nghệ Hồn thiện quy trình số hóa tài liệu Để tạo lập phát triển nguồn lực thông tin số cách hiệu trước hết cần thực quy trình bao gồm cơng đoạn sau: - Lựa chọn tài liệu số hóa (đối với dạng ấn phẩm dạng có yếu tố số hóa) - Sử dụng công nghệ phần mềm để tổ chức nguồn thơng tin số - Tiến hành số hóa tài liệu - Vận hành liệu Với công đọan có yêu cầu định để từ có sở lựa chọn giải pháp áp dụng vào thực tế tùy theo hoàn cảnh Căn vào yêu cầu điều kiện cụ thể đưa định đắn phù hợp với việc phát triển quản lý nguồn lực thơng tin số Việc thực quy trình áp dụng cho quan, tổ chức, với yếu tố đặc thù có chi tiết hóa cơng đoạn Tại Viện Thơng tin KHXH, hồn tồn áp dụng quy trình cơng đoạn cụ thể có yếu tố đặc thù Viện như: đặc điểm nguồn tài liệu, nhân sự, trang thiết bị hay yêu cầu đặc trưng tài liệu như: hình ảnh, đồ, … Lựa chọn thành phần tài liệu số hóa Lựa chọn thành phần tài liệu số hóa cơng đoạn quy trình phát triển quản lý nguồn lực thông tin số Viện Thông tin KHXH Đối với tài liệu dạng ấn phẩm có tiềm phát triển thành nguồn lực thông tin số cần phải dựa tiêu chí: - Theo tiêu chí nhóm người dùng mà thư viện xác định mức độ ưu tiên phục vụ: Cán lãnh đạo, nhà khoa học, cán nghiên cứu, sinh viên, học viên cao học, nghiên cứu sinh đối tượng người dùng tin khác 66 - Theo tiêu chí nội dung tài liệu: Trên sở xác định nhu cầu nhóm người dùng tin mà thư viện lựa chọn chủ đề tài liệu theo nội dung tài liệu phục vụ: tài liệu có tần suất sử dụng cao, tài liệu độc bản, tài liệu quý hiếm,… - Theo tiêu chí điều kiện bảo quản tại: Tùy tình hình cụ thể việc khai thác, sử dụng với nội dung tài liệu mà định lựa chọn nguồn tài liệu để đưa vào số hóa - Theo tiêu chí loại tài liệu đặc biệt: Tài liệu độc bản, tài liệu quý hiếm, thời gian xuất bản, luận án, luận văn, tài liệu ngoại văn có giá trị độc bản,… Như nói, Viện Thơng tin Khoa học xã hội nơi lưu giữ nhiều tư liệu quý Phương Đông Đông phương học Đông Nam Á như: hương ước, sắc phong, thần tích thần sắc, đồ, tranh ảnh, tin phục vụ nghiên cứu, tạp chí, báo cáo kết nghiên cứu, … Và tại, hầu hết tài liệu lưu giữ dạng truyền thống, điều gây nhiều khó khăn cho cơng tác bảo quản, lưu giữ tìm kiếm thơng tin người dùng tin Vì vậy, tiến hành số hoá cần đặc biệt quan tâm tới nguồn tài liệu Theo số liệu thống kê, kho Hương ước gồm có 5637 bản, Sắc phong gồm 4221 bản, Thần tích thần sắc gồm 9000 Kho tư liệu đồ gồm 4566 tấm, 6461 mảnh với nhiều nội dung kích thước khác Những sưu tập ổn định, hầu hết độc phần lớn tài liệu viết tay (đặc biệt Hương ước) Đây tư liệu đặc biệt hữu ích cho việc nghiên cứu người dùng tin, thực tế cho thấy có số lượng không nhỏ bạn đọc quan tâm đến nguồn tài liệu này, đặc biệt Đông Dương Tap chí Nam phong Tạp chí Chính vậy, việc lựa chọn sưu tập để số hoá giải pháp tốt để đáp ứng nhu cầu tin người dùng tin bảo quản lâu dài tài liệu Các báo cáo kết nghiên cứu gương ánh kết hoạt động nghiên cứu khoa học, việc lưu trữ, phổ biến tài liệu sở để tạo tri thức Do vậy, coi phương tiện để khuyến khích sáng tạo 67 khoa học Hiện tại, Viện có số lượng khơng nhỏ Báo cáo kết nghiên cứu đề tài nghiên cứu cấp Viện, cấp Bộ, cấp Nhà nước Nguồn tài liệu chủ nhiệm đề tài chịu trách nhiệm nộp phịng Quản lý Hoạt động Thơng tin Thư viện sau hồn thành cơng trình nghiên cứu Hội đồng Khoa học cấp nghiệm thu Tuy nhiên, việc khai thác sử dụng báo cáo kết nghiên cứu nhiều hạn chế, điều khơng có nghĩa khơng cần thiết người dùng tin người dùng tin nhu cầu sử dụng lựa chọn số hoá sưu tập cần thiết Đối với nguồn tài liệu ảnh, tạp chí thơng tin chuyên đề, sản phẩm thông tin đặc thù Viện Các tài liệu chứa đựng nội dung thông tin phong phú, đề cập đến nhiều khía cạnh thuộc lĩnh vực khoa học xã hội nhân văn Vì vậy, ln mối quan tâm hoạt động thông tin khoa học xã hội, đồng thời đặc biệt hữu ích cho hoạt động nghiên cứu khoa học Do vậy, cần lựa chọn để số hoá Đối với tài liệu dạng số hóa phần Viện gồm có dạng đĩa CD-ROM, CSDL liên kết Do đặc thù số hóa phần dạng tài liệu nên công việc cần thực thống định dạng để trở thành nguồn tài liệu giống dạng ấn phẩm số hóa Các công việc cụ thể sau: Đối với dạng đĩa CD – ROM: Việc tổ chức dạng đĩa CD – ROM chứa CSDL cần có biện pháp tích hợp vào hệ thống quản lý Với đĩa khơng thể chép liệu, quản lý tích hợp dạng tài liệu truyền thống Để bảo tồn liệu đĩa sử dụng nhân lực để lưu tách rời thông tin biên tập lại trường hợp đạt tiêu chí ưu tiên dạng ấn phẩm truyền thống trình bày Trong kế hoạch bổ sung cho tương lai cần lưu ý đến việc bổ sung đĩa CD, CSDL tích hợp nội dung, chia sẻ mạng chuyển hướng 68 sang CSDL chia sẻ trực tuyến để hạn chế hư hỏng vật lý vật mang tin Các đĩa CD-ROM kèm theo sách tổ chức tương tự, đặc biệt Viện bổ sung sách điện tử song song với việc bổ sung ấn phẩm truyền thống Đối với CSDL tài liệu mua, tài trợ, liên kết cần tổ chức, quản lý tích hợp vào hệ thống thơng tin số hóa Viện Hồn chỉnh vấn đề số hóa tài liệu Về cơng nghệ số hóa hình thức chuyển đổi tài liệu từ dạng ấn phẩm truyền thống sang dạng số để khai thác sử dụng thơng tin máy tính hệ thống mạng Có thể mơ tả theo sơ đồ sau: Chuyển đổi hình ảnh Tài liệu dạng giấy Chuyển đổi Text Tài liệu số hóa Chyển đổi hình ảnh sang dạng số không giống việc chụp ảnh thông thường mà đòi hỏi đảm bảo yếu tố kỹ thuật định độ phân giải, độ chống biến dạng, … thông thường phải sử dụng phần mềm xử lý ảnh để hỗ trợ Trong trang văn số hóa, cần có phân tách vùng ký tự ảnh để đảm bảo cho số hóa gắn với nguyên tài liệu gốc Việc chuyển đổi text đặt yêu cầu từ dạng ảnh chữ biến đổi thành dạng ký tự nhận dạng, giúp cho việc tra cứu nội dung đến ký tự Công nghệ đại cho phép thực điều đồng thời cơng nghệ thực nhận dạng ký tự quang học OCR (Optical Character Recognition) Công nghệ chuyển đổi vùng ảnh có ký tự gắn với ký tự cho phép với 69 khả chấp nhận độ biến dạng ảnh ký tự (như nghiêng, vỡ ảnh, mờ ảnh,…) Hiện phần mềm kèm với máy nhận dạng ký tự việc nhận dạng tiếng việt có dấu cịn hạn chế Tài liệu dạng giấy Scan, chụp Chữ dạng ảnh Trình bày thành phần, hệ thống Trình bày cấu trúc Nhận dạng chữ Hệ thống logic Nội dung Cấu trúc logic Chuyển đổi Format Yêu cầu OCR Sơ đồ Sơ đồ cơng nghệ OCR 70 Một số thích cho sơ đồ quy trình - Thơng qua việc scan, chụp ảnh từ ấn phẩm ta có dạng ảnh chứa chữ Sau phần mềm OCR phân tích cấu trúc trang ảnh văn để tìm cấu trúc văn (ví dụ như: mảng, cột, khối) - Quá trình nhận dạng chữ diễn ảnh ký tự phân tích so sánh với font chữ lưu trữ máy tính để tìm đồng dạng - Hệ thống cấu trúc logic xác lập tương ứng với nguyên trạng văn (có thể phân tách vùng chứa ảnh so với vùng ký tự) - Quá trình chuyển đổi diễn ra, tạo dạng format ký tự thực yêu cầu nhận dạng ký tự quang học font chữ, ngôn ngữ, định dạng file,… Tạo lập sưu tập số hóa phần mềm nguồn mở Greenstone Phương thức chung Thường ta dùng công cụ LIBRARIAN INTERFACE để tổ chức tài liệu, công việc nghiệp vụ thông tin - thư viện gọi biên mục (cataloging) mục (indexing), cịn cơng nghệ kỹ thuật số gọi xác định metadata Một tài liệu sau tổ chức biên mục theo chuẩn Dublin Core (thủ công) xác định metadata (tự động) trở thành thư mục chứa năm thư mục con: Import (chứa tài liệu thô); Archives (chứa tập tin tự tạo dạng GML), Index (chứa tập tin cuối phục vụ người dùng kèm theo metadata), Building (thư mục trung gian trình xây dựng sưu tập), etc (thư mục bổ trợ chứa tập tin điều khiển trình kiến tạo sưu tập) Giao diện INTERFACE LIBRARIAN Giao diện LIBRARIAN INTERFACE trình bày 15 yếu tố Dublin Core cho ta biên mục tài liệu Quá trình khiến ta chọn dẫn mục (entry) hay điểm truy cập (access point) tài liệu để phục vụ việc truy tìm lướt tìm sau Với giao diện này, Greenstone cho ta xác định dẫn mục hình thức truy tìm hay lướt tìm 71 trình bày giao diện sưu tập Chẳng hạn như: Nhan đề (Title), Tác giả (Author), Từ khố (Keywork), Đề mục (Subject),… Tìm kiếm (Search) tìm kiếm điểm truy cập Trong trình tổ chức tài liệu, việc thêm, bớt hay thay yếu tố Dublin Core dễ dàng Công việc sưu tầm tổ chức tài liệu tiếp diễn liên tục, tài liệu lưu vào máy tính cá nhân Khi muốn xuất tài liệu sưu tập lên Internet hay CD-ROM, Greenstone xử lý cách tự động nhanh chóng.Tuy nhiên, cập nhật tài liệu vào sưu tập cần thiết; ta phải cập nhật lại sưu tập Mỗi sưu tập xuất lên Internet hay CD-ROM có giao diện Greenstone kèm theo Nếu CD-ROM giao diện Greenstone có chứa sẳn phần trình duyệt (web browser) Netscape để tải xuống (download) cho máy cá nhân không sử dụng webNhư vậy, sưu tập xuất CD-ROM người sử dụng dùng máy tính với hệ điều hành đọc, truy tìm, lướt tìm, in thông tin sưu tập với giao diện thân thiện Greenstone Nếu sử dụng truy cập vào sưu tập quốc gia khác khắp nơi giới sử dụng giao diện nhiều ngơn ngữ, có giao diện Tiếng Việt Giao diện INTERFACE LIBRARIAN cung cấp bốn giao diện tương tác phản ánh bước thực sau: GATHER, ENRICH, DESIGN, CREATE Các bước thực Để tạo sưu tập phải thực nhiều bước, cụ thể là: khai báo thông tin sưu tập, xác định liệu nguồn, cấu hình xây dựng sưu tập Trong đó, bước cấu hình đóng vai trị quan trọng định sưu tập có hoạt động hay không – Bước khai báo tên sưu tập thông tin liên quan địa email, thông tin mô tả sưu tập Bước giúp quản lý dễ dàng xây dựng nhiều sưu tập 72 – Bước thứ hai xác định nguồn liệu để đưa vào sưu tập Bộ sưu tập gồm tất tập tin, thư mục thư mục định Khi tạo sưu tập hay thêm tài liệu vào sưu tập sẵn có, tài liệu nguồn đưa vào hệ thống – importing Đồng thời tài liệu chuyển sang dạng tương tự HTML, GML (“Greenstone Markup Language”), định dạng có kèm theo metadata vào tài liệu Tài liệu mang mã Unicode UTF-8 Cấu trúc tài liệu đáp ứng việc tìm kiếm theo mục Gồm có ba cấp mục: tài liệu, phân khu đoạn, ứng với đặc điểm khác mà GML tạo cấu trúc phân cấp phù hợp để tạo mục Các mục dạng text, metadata hay kết hợp Do đó, tạo mục tìm kiếm theo nhan đề, theo tác giả, theo nơi định tài liệu nội dung tài liệu – Bước thứ ba cấu hình tùy chọn, yêu cầu cần người dùng có am hiểu định Cấu trúc hình thức sưu tập định rõ tập tin cấu hình Tài liệu chuyển sang định dạng XML cách tự động Các plugin thích hợp chọn tập tin cấu hình Sau mục tìm kiếm cấu trúc trình duyệt tồn tài liệu qui định tập tin cấu hình tạo Cuối cùng, kết tiến trình xây dựng tạo sưu tập hoạt động Giai đoạn xây dựng tốn nhiều thời gian Những sưu tập nhỏ khoảng vài phút với sưu tập lớn hay nhiều Triển khai số hóa: Hiện Viện TTKHXH thực phương án chủ động số hóa Để thực phương án địi hỏi Viện hồn tồn có điều kiện thực tất cơng đoạn số hóa tài liệu lựa chọn Để làm điều Viện cần 73 phải có phần mềm, tổ chức nguồn nhân lực thực hiện, hoàn thiện hệ thống trang thiết bị vận hành liệu Ưu điểm phương án tính chủ động việc số hóa tài liệu tiếp tục số hóa tài liệu bổ sung dạng ấn phẩm khác tương lai Tuy nhiên, phương án có địi hỏi đặc biệt nhân lực, kinh phí, đầu tư cho trang thiết bị tương đối lớn Để thực phương án Viện cần triển khai công việc cụ thể sau: - Tổ chức nhân chun trách cơng việc số hóa tài liệu Nhân viên thực cơng việc địi hỏi phải có kỹ cơng nghệ thơng tin, sử dụng thành thạo thiết bị phần mềm chuyển đổi am hiểu hệ thống nguồn lực thông tin số - Có sách đầu tư trang thiết bị máy scan chuyên dụng cho việc số hóa tài liệu Máy scan dạng cần phải đảm bảo yêu cầu tính bảo vệ tài liệu trình scan, độ khử nhiễu, đảm bảo chất lượng ảnh định dạng có thêm phần mềm hỗ trợ nhận dạng OCR - Có sách bổ sung phần mềm xử lý ảnh phần mềm chuyên dụng đồ họa nhận dạng OCR phần mềm Adobe Photoshop, Adobe Acrobat, Auto Cad,… Vận hành liệu Khi lựa chọn phần mềm quản lý thư viện số có đủ khả quản lý nguồn lực thông tin số việc vận hành liệu Viện tiến hành sau: - Tạo siêu liên kết cho tài liệu số hóa, bao gồm siêu liệu là: + Siêu liệu quản trị: Thông tin kỹ thuật tài liệu thơng số định dạng, kích thước file (Siêu liệu tạo q trình số hóa tài liệu) 74 + Siêu liệu cấu trúc: Mô tả liên kết đối tượng thông tin liên quan tài liệu như: mục lục, chương, phần, trang sách, hình ảnh minh họa, phụ lục,… giúp người dùng dễ dàng di chuyển đến thành phần tài liệu Siêu liệu nhập vào hệ thống người xử lý định dạng tài liệu số + Siêu liệu mô tả: Các thông tin mô tả tài liệu theo chuẩn Dublin Core Thông tin lưu trữ máy chủ, quản lý đưa khai thác thông qua cổng thông tin trực tuyến Internet Intranet Đối với mạng Intranet, liệu truy xuất trực tiếp từ máy trạm người dùng tin Đối với người truy cập qua mạng Internet sử dụng tài khoản cấp để khai thác thơng tin - Rà sốt q trình vận hành thơng tin để đảm bảo thơng tin vận hành an toàn, tránh xâm nhập trái phép hay lỗi kỹ thuật gây hại đến hệ thống sưu tập số Đối với CSDL bên cần thực tạo liên kết trao đổi để xuất nhập liệu với hệ thống theo chuẩn chung chuyển khai thác 75 KẾT LUẬN Viện TTKHXH đơn vị nghiên cứu trực Viện Khoa học xã hội Việt Nam, quan đầu ngành thông tin khoa học xã hội Việt Nam, hệ thống thư viện Viện có vai trị quan trọng việc cung cấp thông tin phục vụ hoạt động nghiên cứu khoa học Viện Khoa học xã hội Việt Nam Trong xu phát triển kinh tế tri thức, xã hội hóa thơng tin hội nhập quốc tế, Viện TTKHXH chủ trương đẩy mạnh công tác thông tin khoa học theo hướng tăng cường tin học hóa nhằm nâng cao lực hoạt động thông tin thư viện – hướng tới xây dựng thư viện quốc gia khoa học xã hội Một biện pháp đẩy mạnh tin học hóa hoạt động thư viện xây dựng phát triển sưu tập số Cuộc cách mạng thông tin đáp ứng lực công nghệ hướng đến thư viện số, mà đáp ứng nhu cầu chưa có lưu trữ, tổ chức, truy cập thông tin Nếu thông tin tiền tệ kinh tế tri thức, thư viện số ngân hàng, nơi đầu tư Quả vậy, Goethe – Đại thi hào người Đức nói “đến thư viện giống vào nơi phơ giàu sang đỉnh, lãi suất hậu hĩnh toán cách thầm lặng” Cùng với phát triển khoa học công nghệ, xu hội nhập tạo hội đồng thời đặt khơng thách thức cho ngành Thơng tin Thư viện, địi hỏi cần phải có đổi hoạt động, bắt kịp tiến thời đại phục vụ đắc lực cho nghiệp cơng nghiệp hóa, đại hóa đất nước Trong đó, giải pháp xây dựng Bộ sưu tập số thư viện nói chung Viện Thơng tin Khoa học xã hội nói riêng động thái tích cực nhằm bảo quản lâu dài nguồn tài liệu, đáp ứng cách hiệu nhu cầu tin người dùng tin Với mục tiêu trên, đề tài luận văn tập trung làm rõ ưu điểm tính trội Greenstone việc xây dựng, quản lý tìm kiếm thơng tin dạng số hoá, đồng thời nêu rõ khả ứng dụng phần mềm 76 việc số hố tài liệu nói chung Viện Thơng tin Khoa học xã hội nói riêng Bên cạnh đó, tác giả luận văn đưa số giải pháp nhằm hoàn thiện việc ứng dung phần mềm Greenstone Viện TTKHXH Hy vọng đề tài góp phần thiết thực việc phát triển thư viện Viện Thông tin Khoa học xã hội theo hướng thư viện số dựa phần mềm nguồn mở thư viện số Greenstone 77 DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt Bản tin Thư viện – Công nghệ thông tin(2006), “Sử dụng Greenstone để xây dựng sưu tập thư viện số, 2006, tr 22-33 Cao Minh Kiểm, Đào Mạnh Thắng (2007), Lựa chọn phần mềm khổ mẫu liệu số phục vụ nông thôn miền núi Kỷ yếu Hội nghị thư viện số châu Á lần thứ 10, tr 106-118 Hồng Sơn Cơng (2008), Phát triển quản lý nguồn lực thông tin số trung tâm thông tin thư viện Trường Đại học Kiến trúc Hà Nội, Luận văn thạc sỹ khoa học, Đại học Văn hóa Hà Nội, 116 tr Nguyễn Minh Hiệp, Sử dụng phần mềm thư viện số Greenstone để xây dựng kho tài nguyên học tập Kỷ yếu hội thảo xây dựng phát triển nguồn học liệu để phục vụ đào tạo nghiên cứu tr 93 -103 Nguyễn Thị Loan (2009), “Phần mềm thư viện số Greenstone vấn đề ứng dụng thực tiễn”, Tạp chí Thơng tin KHXH, (5), tr 47-52 Nguyễn Tuyến (2004), “Sự phát triển sử dụng thư viện số Greenstone giới”, Bản tin Thư viện – Công nghệ thông tin Đại học Khoa học Tự nhiên TP Hồ Chí Minh Nghị định số 64/2007/NĐ-CP ứng dụng công nghệ thông tin hoạt động quan nhà nước Trần Mạnh Tuấn (2006), Thực trạng biện pháp nâng cao hiệu quản lý, khai thác nguồn tin khoa học nội sinh Viện Khoa học Xã hội Việt Nam, Đề tài nghiên cứu khoa học cấp Bộ, Viện TTKHXH Trung tâm TTKH&CNQG (2006), Kỷ yếu hội thảo khoa học: Tăng cường công tác tiêu chuẩn hóa hoạt động thơng tin tư liệu, Hà Nội, 131 tr 10 Viện Thông tin Khoa học xã hội, Chiến lược phát triển Viện TTKHXH 78 giai đoạn đến năm 2010 11 Viện Thông tin Khoa học xã hội (2010)Viện TTKHXH 35 năm xây dựng phát triển, Viện TTKHXH, Hà Nội Tiếng Anh 12 About Greenstone, http://greenstone.org, 13 Allison Zhang and Don Gourley, “A Digital Collections Management System Based On Open Source Software”, Washington Research Library Consortium Poster/Demo Presentation at JCDL 2003 14 Diane Hillmann, Using Dublincore, http://uk.dublincore.org/documents/usageguide/#whatis 15 Dublin Core Metatdata Initative, http://dublin-core.org, 16 Greenstone language support http://greenstone.sourceforge.net/wiki/index.php/Greenstone_language_support, 17 The National Information Standard Organization (2001) Dublin Core Metatdata Element set Bethesda, Maryland: NISO Press, ISSN1041-5653 18 Witten, Ian H., Baibridge (2001), “Greenstone Open - SourceDigital Library Software”, D-Lib Magazine, Volume ... Chương Phần mềm nguồn mở Greenstone việc xây dựng, phát triển nguồn lực thông tin số Viện Thông tin Khoa học xã hội Chương Khảo sát thực trạng ứng dụng phần mềm nguồn mở Greenstone Viện Thông tin Khoa. .. mềm nguồn mở Greenstone việc xây dựng phát triển nguồn lực thông tin số Viện Thông tin Khoa học xã hội 25 CHƯƠNG KHẢO SÁT THỰC TRẠNG ỨNG DỤNG PHẦN MỀM NGUỒN MỞ GREENSTONE TẠI VIỆN THÔNG TIN KHOA. .. Những nét phần mềm nguồn mở Greenstone 11 1.1.3 So sánh tính phần mềm Greenstone với phần mềm CDS/ISIS - Viện Thông tin Khoa học Xã hội sử dụng 14 1.2 Viện Thông tin Khoa học xã hội với việc xây

Ngày đăng: 25/06/2021, 16:55

Từ khóa liên quan

Mục lục

  • DANH MỤC CÁC BẢNG BIỂU

  • DANH MỤC CÁC TỪ VIẾT TẮT

  • Lời cảm ơn

  • MỤC LỤC

  • MỞ ĐẦU

  • CHƯƠNG 1PHẦN MỀM NGUỒN MỞ GREENSTONE VÀ VIỆCXÂY DỰNG, PHÁT TRIỂN NGUỒN LỰC THÔNG TIN SỐTẠI VIỆN THÔNG TIN KHOA HỌC XÃ HỘI

  • CHƯƠNG 2KHẢO SÁT THỰC TRẠNG ỨNG DỤNG PHẦN MỀMNGUỒN MỞ GREENSTONE TẠI VIỆNTHÔNG TIN KHOA HỌC XÃ HỘI

  • CHƯƠNG 3CÁC GIẢI PHÁP HOÀN THIỆN VIỆC ỨNG DỤNGPHẦN MỀM NGUỒN MỞ GREENSTONETẠI VIỆN THÔNG TIN KHOA HỌC XÃ HỘI

  • KẾT LUẬN

  • DANH MỤC TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan