Tăng cường ứng dụngCôngnghệ phầnmềm

Một phần của tài liệu Tăng cường ứng dụng công nghệ hiện đại tại Trung tâm Thông tin – Thư viện Trường Đại học Ngân hàng Thành phố Hồ Chí Minh (Trang 101)

8. Dự kiến kết quả nghiên cứu

3.2.2Tăng cường ứng dụngCôngnghệ phầnmềm

3.2.2.1Thư viện số:

Trong điều kiện về kinh phí, nhân lực và cơ sở hạ tầng nói chung của TTTT- TV trường ĐHNH Tp.HCM hiện nay thì việc đặt ra mục tiêu trước mắt để xây dựng

97

một TVS là chưa có tính khả thi. Nhưng với mục tiêu tiến dần tới TV số thì việc xây dựng các bộ sưu tập số tại TVcó thể thực hiện được. Công tác xây dựng các bộ sưu tập số trong thời gian này cần thực hiện các giải pháp sau:

- Lựa chọn tài liệu đầu vào để số hóa sao cho phù hợp với các tiêu chí:

Thứ nhất: Tiêu chí tình trạng bản quyền của tài liệu: Thực sự đang là rào cản làm nhụt chí những người có tâm huyết với công việc số hoá tài liệu TV. Sở dĩ như vậy là vì chúng ta chưa thực sự nắm vững những quy định cụ thể của Luật bản quyền (Luật sở hữu trí tuệ).Các cơ quan chức năng nhà nước cũng chưa có những văn bản dưới luật để hướng dẫn thi hành.

Theo Luật sở hữu trí tuệ của Việt nam ban hành năm 2005 thì tại điều 25 khoản (a) và (đ) có quy định: những trường hợp sử dụng tác phẩm đã công bố không phải xin phép, không phải trả tiền nhuận bút, thù lao: Cụ thể như sau:a) Tự sao chép một bản nhằm mục đích nghiên cứu khoa học, giảng dạy cá nhân;đ) Sao chép tác phẩm để lưu trữ trong TV với mục đích nghiên cứu;

Một khái niệm về phạm vi không gian khuôn viên TV hiện nay cũng cần phải xem xét lại: đối với một TV truyền thống thì phạm vi khuôn viên TV là một không gian nằm trong hàng rào của trụ sở TV. Nhưng với một TVS thì khuôn viên TV không phải như vậy mà là phạm vi những bạn đọc được TV cho phép truy cập sử dụng tài liệu dưới sự giám sát bằng một công cụ tin học cho dù người đó sử dụng từ bên ngoài TV. Với khái niệm này thì việc vận dụng Luật sở hữu trí tuệ vào số hoá tài liệu TV sẽ dễ dàng hơn.

Thứ hai: Theo tiêu chí nhóm người dùng mà TV xác định mức độ ưu tiên phục vụ: (Cán bộ lãnh đạo, quản lý; Giảng viên, cán bộ nghiên cứu; Sinh viên, học viên; Các đối tượng khác).

Thứ ba: Theo tiêu chí nội dung tài liệu: Trên cơ sở xác định nhóm người dùng mục tiêu mà TV lựa chọn các chủ đề tài liệu theo nội dung tài liệu phục vụ; tài liệu phục vụ phát triển giáo trình, bài giảng; tài liệu có tần suất sử dụng cao.

98

Thứ tư:Theo tiêu chí điều kiện bảo quản hiện tại: Tùy tình hình cụ thể của từng TV trong tình trạng điều kiện bảo quản kêt hợp với nội dung tài liệu mà quyết định lựa chọn tài liệu đưa vào. Ví dụ: ưu tiên cho các tài liệu in trên giấy ròn, dễ rách, có hóa chất bảo quản.

Thứ năm: Theo tiêu chí các loại tài liệu đặc biệt: Tài liệu độc bản, tài liệu quý hiếm, thời gian xuất bản (Luận án tiến sỹ, tài liệu cổ, tài liệu cẩm nang chuyên ngành,...)

- Công nghệ nhận dạng:

Mục đích của một dây chuyền số hóa là chuyển kho tài liệu bản in thành tài liệu số và nếu tài liệu số chỉ đơn thuần là các ảnh quét thì dây chuyền số hóa đó mới chỉ thực hiện được việc “file hóa” tài liệu. Việc số hóa được hiểu là một quá trình tự động chuyển đổi kho tài liệu giấy thành tài liệu điện tử ở dạng có thể biên tập lại, trích dẫn và tìm kiếm được. Với ý nghĩa của việc số hóa như vậy, phần mềm nhận dạng rõ ràng đóng một vai trò then chốt của dây chuyền số hóa.

Hiện nay một số công nghệ nhận dạng đang được ứng dụng:

Công nghệ nhận dạng chữ in OCR(Optical Character Recognition - OCR): là công nghệ cho phép chuyển đổi tài liệu dạng ảnh (các ảnh đầu ra của máy quét, máy ảnh, file PDF dạng ảnh…) thành tài liệu có thể biên tập được (file text, file Word,…).Với việc sử dụng phần mềm nhận dạng chữ in, bài toán tìm kiếm toàn văn, trích dẫn, biên soạn lại các tài liệu dạng ảnh sẽ được thực hiện rất đơn giản.

Công nghệ nhận dạng đánh dấu OMR (Optical Mark Recognition - OMR): thường được dùng để xử lý dữ liệu từ các phiếu điều tra hay các bài thi trắc nghiệm.

Công nghệ nhận dạng chữ viết tay hay còn gọi là công nghệ nhận dạng ký tự thông minh (Intelligent Character Recognition - ICR): là sự phát triển ở mức cao hơn của công nghệ nhận dạng chữ in. Đối tượng nhận dạng của công nghệ ICR không chỉ là chữ in mà còn bao gồm cả chữ viết tay.

99

Công nghệ nhận dạng văn bản ADRT(Adaptive Document Recognition Technology): là một bước tiến lớn trong công nghệ nhận dạng tài liệu; là một phần quan trọng trong công nghệ OCR được dùng để nhận dạng các cấu trúc logic, cách dàn trang cũng như các định dạng khác nhau trong tài liệu nhiều trang. Kết quả nhận dạng được lưu dưới dạng Microsoft Word, excel, pdf, pdf/a, html,... Trong đó, định dạng PDF/A – một loại định dạng PDF – là định dạng giữ nguyên ảnh quét gốc nên đảm bảo tuyệt đối tin cậy của TT cho người đọc, đồng thời vẫn cho phép người dùng biên tập và tìm kiếm toàn văn. Chính vì các lý do trên, PDF/A được coi là định dạng phù hợp nhất hiện nay cho công tác lưu trữ nói chung và ngành TV nói riêng.

Công nghệ này đang được nhiều TTTT-TV và các cơ quan thông tin quan tâm và ứng dụng trong quá trình xây dựng TVS. Trên thị trường Việt Nam có một số phần mềm nhận dạng chữ in (OCR) tiếng Việt cho giải pháp số hóa, ngoài ra còn có các dịch vụ nhận dạng được cung cấp miễn phí hoặc có phí trên mạng internet thông qua các phần mềm được cài đặt trên website của nhà cung cấp..

Tuy nhiên, các phần mềm này vẫncòn những hạn chế nhất định thì việc lựa chọn phần mềm nào để ứng dụng vào TVlà vấn đề cần được quan tâm nghiên cứu, nó phụ thuộc vào nhiều yếu tố trong đó có kho tài liệu số của TV, nguồn kinh phí, nguồn nhân lực, yêu cầu chất lượng của sản phẩm nhận dạng,... Nếu quyết định thực hiện nhận dạng thì việc tìm hiểu thông qua quá trình hoạt động của nhà cung cấp hay từ những TV đã ứng dụng và đạt được hiệu quả cao là hết sức cần thiết.

Theo TS. Nguyễn Huy Chương, Giám đốc TTTT-TV Đại học Quốc gia Hà Nội: “Sau khi kiểm nghiệm các sản phẩm cùng loại, chúng tôi đánh giá ABBYY Recognition Server vượt trội hơn cả. Với khả năng làm việc tự động, chất lượng nhận dạng cao, chấp nhận nhiều định dạng đầu vào và cho phép kết xuất kết quả nhận dạng ra nhiều định dạng lưu trữ khác nhau, phần mềm nhận dạng của ABBYY là giải pháp tốt nhất để giải quyết bài toán số hóa tại các TV hiện nay”.

100 - Phần mềm thư viện số:

Việc lựa chọn công nghệ để tiến hành thực hiện rất quan trọng bởi vì nó là công cụ đắc lực giúp ta thực hiện các công việc trong quy trình tạo lập và vận hành của bộ sưu tập số.Trong đó, phần mềm TVS là một trong những yếu tố quan trọng để đảm bảo các tài liệu số hóa được tạo lập, bảo quản, và phân phối một cách dễ dàng, thuận tiện; đáp ứng các yêu cầu về chuẩn nghiệp vụ thư viện – thông tin.

Hiện nay cũng có nhiều phần mềm, trong đó có phần mềm nguồn mở Greenstone (Hòn đã xanh), phần mềm Dspace và một số phần mềm quản lý TV tích hợp do các công ty và cá nhân xây dựng có phát triển phân hệ quản lý tài liệu số như LIBOL phiên bản 6.0 của Cty Tinh Vân, phân hệ Dilib trong Ilib của Công ty CMC, phần mềm TVS của Israel do Cty Thương mại và Thông tin Kỹ thuật (Ted) phân phối và chuyển giao, phân hệ quản lý tài liệu điện tử của PSCzLis 6.0 của Cty Kim tự tháp,…

Phần mềm quản lý tài liệu số phải đáp ứng các yêu cầu như:

 Tạo siêu dữ liệu: 3 dạng siêu dữ liệu gồm:Siêu dữ liệu mô tả (Mô tả các TT

về tài liệu), siêu dữ liệu cấu trúc (Mô tả các liên kết giữa các đối tượng TT liên quan của tài liệu như mục lục, chương, phần, trang sách, hình ảnh minh họa, phụ

lục,…giúp người dùng dễ dàng di chuyển đến các thành phần của tài liệu), siêu dữ (adsbygoogle = window.adsbygoogle || []).push({});

liệu quản trị (kích cỡ tập tin, định dạng tài liệu, đặc tính sử dụng và tình trạng của tài liệu,...).

 Cho phép bổ sung tài liệu vào sưu tập số dễ dàng, thuận tiện (dùng theo lô hoăc theo từng tài liệu riêng lẻ).

 Mô tả dữ liệu: (theo một trong các chuẩn siêu dữ liệu: MARC; Dublin core;

MODS; METS, ISO 2709 ) trong đó chuẩn Dublin Core là dùng tương đối phổ biến vì có khả năng tùy biến cho các tiêu chuẩn khác với 15 trường cơ bản.

 Vận hành liên kết: là tạo ra một giao diện tra cứu tích hợp cà nhất quán cho

người dùng trên nhiều bộ sưu tập cùng một lúc dựa trên các điểm truy cập nhất quán như: tác giả, nhan đề, từ khóa, chủ đề,...

101

 Quản lý truy cập:Phân cấp thẩm quyền truy cập vào tài liệu.

 Xuất - nhập dữ liệu:Theo các chuẩn (ISO 2709,Macr,MacrXML,...) và có các công cụ, chế độ sao lưu dữ liệu nhằm bảo đảm an toàn tài liệu.

Mặc dù hiện nay TTTT-TV trường ĐHNH Tp.HCM đã sử dụng PSCzLis 6.0 để quản lý nguồn tài liệu số của trung tâm nhưng mới chỉ dừng lại ở quản lý các bài trích báo – tạp chí mà chưa được ứng dụng cho các loại tài liệu khác. Trong thời gian tới TV cần tăng cường ứng dụng nhiều hơn nữa để quản lý toàn bộ nguồn tài liệu số nhằm tạo ra một CSDL tập trung tạo thuận lợi cho NDT khai thác. Ngoài ra TV cũng cần làm việc với nhà cung cấp để hoàn thiện phần mềm nhất là khả năng tạo lập các siêu dữ liệu (siêu dữ liệu cấu trúc, siêu dữ liệu quản trị), hệ thống quản lý phân quyền, phân cấp và hình thức phân phối (cho phép xem, in, tải với số lượng trang) theo các nhóm đối tượng giúp việc quản lý và khai thác tốt các bộ sưu tập tài liệu số của TV.Đặc biệt là hoàn thiện tính năng tra cứu toàn văn của tài liệu – Đây là yêu cầu cơ bản của một phần mềm TVS.

Greenstone ra đời là một bộ phần mềm dùng để xây dựng và phân phối các bộ sưu tập TVS.Nó cung cấp một phương pháp mới để tổ chức và xuất bản TT trên Internet hoặc trên CD-ROM; ngoài ra còn cung cấp phương tiện dễ dàng cho người sử dụng truy tìm toàn văn và lướt tìm dựa vào metadata. Greenstone là sản phẩm

của dự ánNew Zealand Digital Library của đại học Waikato, được phát triển và

phân phối với sự tham gia của UNESCO Human Info NGO. Đây là phần mềm

mã nguồn mở được cung cấp trên http://greenstone.org/ theo thoả thuận của GNU General Public License.

Các bộ sưu tập trên Greenstone được truy cập và phân phối tài nguyên qua một trình duyệt web chuẩn, có thể chạy trên các hệ điều hành khác nhau: Window và Unix, Linux. Hướng metadata: Chỉ mục lướt tìm được tạo nên từ metadata. Metadata có thể kết hợp với mỗi tài liệu hoặc một phần của tài liệu. Đa ngôn ngữ: Unicode được dùng để hỗ trợ việc chuyển đổi ngôn ngữ. Chỉ mục riêng biệt có thể tạo ra cho những ngôn ngữ khác nhau.Những bộ sưu tập chứa hàng triệu tài liệu,

102

nhiều gigabytes có thể được xây dựng, truy tìm nhanh chóng, có thể nén để giảm kích thước văn bản và chỉ mục. Tương thích Z39.50: Giao thức Z39.50 hỗ trợ việc truy cập máy chủ bên ngoài cũng như giới thiệu bộ sưu tập Greenstone cho người sử dụng bên ngoài. Truy tìm linh hoạt: Người sử dụng có thể truy tìm toàn văn tài liệu, lướt tìm danh mục tác giả, danh mục nhan đề, danh mục đề mục,… Bộ sưu tập có thể chứa hình ảnh, âm nhạc, đoạn băng ghi âm và hình,… có thể xuất ra CD- ROM tự khởi động.

Greenstone là phần mềm nguồn mở cho nên dễ dàng chỉnh sửa theo các đặc tính riêng biệt của lãnh thổ, cơ quan, khả năng vận dụng linh hoạt và chi phí thấp. Chuẩn biên mục mà Greenstone sử dụng dự trên 15 trường cơ bản của Dublin Core nên công tác biên mục được thực hiện nhanh chóng và có thể điều chỉnh theo yêu cầu của từng đơn vị.

Những bộ sưu tập TT được tạo ra bởi Greenston có thể chứa một số lượng lớn những tài liệu (hàng ngàn cho đến hàng triệu) với một giao diện đồng nhất.Bộ sưu tập bao gồm từ những bài báo cho đến chương trình âm nhạc.Hiện nay, Greenstone được dùng rộng rãi trong TV của các trường đại học trên thế giới để hình thành TVS.Phần mềm Greenstone trên CD-ROM được Liên Hiệp Quốc và những cơ quan nhân đạo khác xuất bản và phân phối cho các quốc gia đang phát triển. Greenstone được dịch sang hơn 20 ngôn ngữ. Phiên bản Greenstone Tiếng Việt đã được Công ty Integrated e-Solutions Ltd. phối hợp với TV Cao học Trường Đại học Khoa học Tự nhiên Tp.HCM Việt hoá hoàn toàn các thành phần giao diện đến các tài liệu hướng dẫn sử dụng, quản trị hệ thống và phương pháp xây dựng các bộ sưu tập số và cũng đã được phát hành và phổ biến trong hệ thống Greenstone trên thế giới.

Greenstone được sử dụng rộng rãi trong các TV Việt Nam như: TV ĐH Khoa học Tự nhiên, TV Đại học Công nghiệp, Trung tâm học liệu Đại học Đà Nẵng, Đại học Huế, Đại học Thái Nguyên, TV Tổng hợp tỉnh Phú Yên,…

103

Các bộ sưu tập có thể được phân phối thông qua các cổng thông tin TV hay mỗi bộ sưu tập được xuất bản lên CD-ROM đều có một giao diện Greenstone kèm theo. Nếu trên CD-ROM thì giao diện Greenstone có chứa sẳn một phần trình duyệt (web browser) Netscape để tải xuống (download) cho những máy cá nhân nào không sử dụng web. Như thế cho chúng ta thấy rằng mỗi khi một bộ sưu tập được xuất ra CD-ROM thì người sử dụng có thể dùng bất kỳ một máy tính với bất kỳ một hệ điều hành nào đều có thể đọc, truy tìm, lướt tìm, in ra những TT trên bộ sưu tập với giao diện thân thiện của Greenstone. Nếu chúng ta sử dụng và truy cập vào các bộ sưu tập của các quốc gia khác nhau khắp nơi trên thế giới thì chúng ta có thể sử dụng giao diện của nhiều ngôn ngữ, trong đó có cả giao diện Tiếng Việt.

Phần mềm mã nguồn mở Greenstone đem lại cho chúng ta một hướng đi mới, một giải pháp để xây dựng và phân phối các sưu tập số trong công tác TT-TV hiện nay. Trong điều kiện kinh tế đất nước còn khó khăn, kinh phí hoạt động dành cho TV còn hạn hẹp thì với ưu thế là một phầm mềm chiphí thấp, dễ sử dụng, dễ chuyển đổi, dễ chỉnh sửa, đa ngôn ngữ, có khả năng phát triển trên toàn cầu. Mặt khác, sử dụng phần mềm được chuẩn hóa cao như Greenstone sẽ giúp các TV nhanh chóng hội nhập quốc tế, nâng cao khả năng liên thông với các TV trong nước và trên toàn cầu.

TTTT-TV trường ĐHNH Tp.HCM cũng đã ứng dụng Greenstone để xây dựng các bộ sưu tập số như: Sưu tập luận văn, luận án, công trình nghiên cứu khoa học,...Nhưng các bộ sưu tập này đã được xây dựng từ năm 2010 đến naycác bộ sưu tập không được cập nhật thường xuyên bộ tài liệu số mới, chưa cài đặt trên web và liên kết với cổng thông tin, chỉ sử dụng ở dạng máy tính cục do một số nguyên nhân như thiếu cán bộ TV phụ trách trực tiếp, TV chưa có chính sách cụ thể để phổ biến và khai thác các bộ sưu tập này.

Chính vì vậy, trong thời gian tới TV cần đầu tư cả về thời gian, kinh phí, nhân lực để hoàn thiện các bộ sưu tập số trên phần mềm Greenstone và có kế hoạch cài đặt, kết nối với cổng thông tin của TV để phục vụ NDT. Ngoài ra, sử dụng công cụ tải dữ liệu mà Greenstone cung cấp để khai thác nguồn tài nguyên mở trên mạng

104

internet phù hợp với nhu cầu của TV. Đây được xem là một phương thức để xây dựng một bộ sưu tập TVS tuy chỉ bao gồm các siêu dữ liệu (metadata), nhưng thông qua từng siêu dữ liệu trong bộ sưu tập ta có thể truy cập đến nội dung của tài liệu ở khắp nơi – Đây là một hình thức Thư viện ảo. Thu thập các siêu dữ liệu thư tịch (bibliographic metadata) theo chuẩn OAI-PMH (Open Archives Initiative - Protocol for Metadata Harvesting) từ địa chỉ liên kết URL để xây dựng thành Bộ sưu tập số cho phép độc giả tìm kiếm trên siêu dữ liệu đã lấy về. Mỗi bộ sưu tập là tập hợp các biếu ghi OAI từ một hoặc nhiều địa chỉ liên kết URL. Thực hiện tốt việc thu thập nguồn tài liệu mở sẽ làm phong phú và đa dạng hơn nguồn TT số của TV đáp ứng tố hơn nhu cầu của NDT.

3.2.2.2 Công nghệ web

Khái niệm Thư viện 2.0 (Library 2.0) là sự tích hợp các công nghệ Web 2.0 vào các dịch vụ chạy trên nền web của TV.Thuật ngữ này được Michael Casey đưa ra năm 2006. Theo tác giả, Thư viện 2.0 là “ứng dụng của các công nghệ đa phương tiện dựa trên web, có khả năng tương tác và kết hợp với các bộ sưu tập và dịch vụ

(adsbygoogle = window.adsbygoogle || []).push({});

Một phần của tài liệu Tăng cường ứng dụng công nghệ hiện đại tại Trung tâm Thông tin – Thư viện Trường Đại học Ngân hàng Thành phố Hồ Chí Minh (Trang 101)