Tăng cường ứng dụng Công nghệ phần mềm

Một phần của tài liệu (LUẬN văn THẠC sĩ) tăng cường ứng dụng công nghệ hiện đại tại trung tâm thông tin thư viện trường đại học ngân hàng thành phố hồ chí minh (Trang 101 - 113)

8. Dự kiến kết quả nghiên cứu

3.2 Nhóm giải pháp về công nghệ

3.2.2 Tăng cường ứng dụng Công nghệ phần mềm

3.2.2.1 Thư viện số:

Trong điều kiện về kinh phí, nhân lực và cơ sở hạ tầng nói chung của TTTT- TV trường ĐHNH Tp.HCM hiện nay thì việc đặt ra mục tiêu trước mắt để xây dựng một TVS là chưa có tính khả thi. Nhưng với mục tiêu tiến dần tới TV số thì việc

xây dựng các bộ sưu tập số tại TV có thể thực hiện được. Công tác xây dựng các bộ sưu tập số trong thời gian này cần thực hiện các giải pháp sau:

- Lựa chọn tài liệu đầu vào để số hóa sao cho phù hợp với các tiêu chí:

Thứ nhất: Tiêu chí tình trạng bản quyền của tài liệu: Thực sự đang là rào cản

làm nhụt chí những người có tâm huyết với cơng việc số hố tài liệu TV. Sở dĩ như vậy là vì chúng ta chưa thực sự nắm vững những quy định cụ thể của Luật bản quyền (Luật sở hữu trí tuệ). Các cơ quan chức năng nhà nước cũng chưa có những văn bản dưới luật để hướng dẫn thi hành.

Theo Luật sở hữu trí tuệ của Việt nam ban hành năm 2005 thì tại điều 25

khoản (a) và (đ) có quy định: những trường hợp sử dụng tác phẩm đã công bố

không phải xin phép, không phải trả tiền nhuận bút, thù lao: Cụ thể như sau: a) Tự sao chép một bản nhằm mục đích nghiên cứu khoa học, giảng dạy cá nhân; đ) Sao chép tác phẩm để lưu trữ trong TV với mục đích nghiên cứu;

Một khái niệm về phạm vi không gian khuôn viên TV hiện nay cũng cần phải xem xét lại: đối với một TV truyền thống thì phạm vi khn viên TV là một

không gian nằm trong hàng rào của trụ sở TV. Nhưng với một TVS thì khn viên TV khơng phải như vậy mà là phạm vi những bạn đọc được TV cho phép truy cập sử dụng tài liệu dưới sự giám sát bằng một công cụ tin học cho dù người đó sử dụng từ bên ngồi TV. Với khái niệm này thì việc vận dụng Luật sở hữu trí tuệ vào số hố tài liệu TV sẽ dễ dàng hơn.

Thứ hai: Theo tiêu chí nhóm người dùng mà TV xác định mức độ ưu tiên

phục vụ: (Cán bộ lãnh đạo, quản lý; Giảng viên, cán bộ nghiên cứu; Sinh viên, học viên; Các đối tượng khác).

Thứ ba: Theo tiêu chí nội dung tài liệu: Trên cơ sở xác định nhóm người

dùng mục tiêu mà TV lựa chọn các chủ đề tài liệu theo nội dung tài liệu phục vụ; tài liệu phục vụ phát triển giáo trình, bài giảng; tài liệu có tần suất sử dụng cao.

từng TV trong tình trạng điều kiện bảo quản kêt hợp với nội dung tài liệu mà quyết

định lựa chọn tài liệu đưa vào. Ví dụ: ưu tiên cho các tài liệu in trên giấy rịn, dễ

rách, có hóa chất bảo quản.

Thứ năm: Theo tiêu chí các loại tài liệu đặc biệt: Tài liệu độc bản, tài liệu

quý hiếm, thời gian xuất bản (Luận án tiến sỹ, tài liệu cổ, tài liệu cẩm nang chuyên ngành,...)

- Cơng nghệ nhận dạng:

Mục đích của một dây chuyền số hóa là chuyển kho tài liệu bản in thành tài liệu số và nếu tài liệu số chỉ đơn thuần là các ảnh qt thì dây chuyền số hóa đó mới chỉ thực hiện được việc “file hóa” tài liệu. Việc số hóa được hiểu là một q trình tự

động chuyển đổi kho tài liệu giấy thành tài liệu điện tử ở dạng có thể biên tập lại,

trích dẫn và tìm kiếm được. Với ý nghĩa của việc số hóa như vậy, phần mềm nhận dạng rõ ràng đóng một vai trị then chốt của dây chuyền số hóa.

Hiện nay một số cơng nghệ nhận dạng đang được ứng dụng:

Công nghệ nhận dạng chữ in OCR (Optical Character Recognition - OCR):

là công nghệ cho phép chuyển đổi tài liệu dạng ảnh (các ảnh đầu ra của máy quét, máy ảnh, file PDF dạng ảnh…) thành tài liệu có thể biên tập được (file text, file

Word,…). Với việc sử dụng phần mềm nhận dạng chữ in, bài tốn tìm kiếm tồn văn, trích dẫn, biên soạn lại các tài liệu dạng ảnh sẽ được thực hiện rất đơn giản.

Công nghệ nhận dạng đánh dấu OMR (Optical Mark Recognition - OMR):

thường được dùng để xử lý dữ liệu từ các phiếu điều tra hay các bài thi trắc nghiệm.

Công nghệ nhận dạng chữ viết tay hay cịn gọi là cơng nghệ nhận dạng ký tự thông

minh (Intelligent Character Recognition - ICR): là sự phát triển ở mức cao hơn của công nghệ nhận dạng chữ in. Đối tượng nhận dạng của cơng nghệ ICR khơng chỉ là chữ in mà cịn bao gồm cả chữ viết tay.

Công nghệ nhận dạng văn bản ADRT (Adaptive Document Recognition

quan trọng trong công nghệ OCR được dùng để nhận dạng các cấu trúc logic, cách dàn trang cũng như các định dạng khác nhau trong tài liệu nhiều trang. Kết quả nhận dạng được lưu dưới dạng Microsoft Word, excel, pdf, pdf/a, html,... Trong đó,

định dạng PDF/A – một loại định dạng PDF – là định dạng giữ nguyên ảnh quét gốc

nên đảm bảo tuyệt đối tin cậy của TT cho người đọc, đồng thời vẫn cho phép người dùng biên tập và tìm kiếm tồn văn. Chính vì các lý do trên, PDF/A được coi là

định dạng phù hợp nhất hiện nay cho cơng tác lưu trữ nói chung và ngành TV nói

riêng.

Cơng nghệ này đang được nhiều TTTT-TV và các cơ quan thông tin quan

tâm và ứng dụng trong quá trình xây dựng TVS. Trên thị trường Việt Nam có một số phần mềm nhận dạng chữ in (OCR) tiếng Việt cho giải pháp số hóa, ngồi ra cịn có các dịch vụ nhận dạng được cung cấp miễn phí hoặc có phí trên mạng internet thông qua các phần mềm được cài đặt trên website của nhà cung cấp..

Tuy nhiên, các phần mềm này vẫn cịn những hạn chế nhất định thì việc lựa chọn phần mềm nào để ứng dụng vào TV là vấn đề cần được quan tâm nghiên cứu, nó phụ thuộc vào nhiều yếu tố trong đó có kho tài liệu số của TV, nguồn kinh phí, nguồn nhân lực, yêu cầu chất lượng của sản phẩm nhận dạng,... Nếu quyết định

thực hiện nhận dạng thì việc tìm hiểu thơng qua q trình hoạt động của nhà cung cấp hay từ những TV đã ứng dụng và đạt được hiệu quả cao là hết sức cần thiết.

Theo TS. Nguyễn Huy Chương, Giám đốc TTTT-TV Đại học Quốc gia Hà Nội: “Sau khi kiểm nghiệm các sản phẩm cùng loại, chúng tôi đánh giá ABBYY Recognition Server vượt trội hơn cả. Với khả năng làm việc tự động, chất lượng

nhận dạng cao, chấp nhận nhiều định dạng đầu vào và cho phép kết xuất kết quả

nhận dạng ra nhiều định dạng lưu trữ khác nhau, phần mềm nhận dạng của ABBYY là giải pháp tốt nhất để giải quyết bài tốn số hóa tại các TV hiện nay”.

- Phần mềm thư viện số:

Việc lựa chọn công nghệ để tiến hành thực hiện rất quan trọng bởi vì nó là cơng cụ đắc lực giúp ta thực hiện các công việc trong quy trình tạo lập và vận hành

của bộ sưu tập số. Trong đó, phần mềm TVS là một trong những yếu tố quan trọng

để đảm bảo các tài liệu số hóa được tạo lập, bảo quản, và phân phối một cách dễ

dàng, thuận tiện; đáp ứng các yêu cầu về chuẩn nghiệp vụ thư viện – thông tin. Hiện nay cũng có nhiều phần mềm, trong đó có phần mềm nguồn mở Greenstone (Hòn đã xanh), phần mềm Dspace và một số phần mềm quản lý TV tích hợp do các công ty và cá nhân xây dựng có phát triển phân hệ quản lý tài liệu số như LIBOL phiên bản 6.0 của Cty Tinh Vân, phân hệ Dilib trong Ilib của Công ty CMC, phần mềm TVS của Israel do Cty Thương mại và Thông tin Kỹ thuật (Ted) phân phối và chuyển giao, phân hệ quản lý tài liệu điện tử của PSCzLis 6.0 của Cty Kim tự tháp,…

Phần mềm quản lý tài liệu số phải đáp ứng các yêu cầu như:

+ Tạo siêu dữ liệu: 3 dạng siêu dữ liệu gồm: Siêu dữ liệu mô tả (Mô tả các TT về tài liệu), siêu dữ liệu cấu trúc (Mô tả các liên kết giữa các đối tượng TT liên

quan của tài liệu như mục lục, chương, phần, trang sách, hình ảnh minh họa, phụ lục,… giúp người dùng dễ dàng di chuyển đến các thành phần của tài liệu), siêu dữ

liệu quản trị (kích cỡ tập tin, định dạng tài liệu, đặc tính sử dụng và tình trạng của

tài liệu,...).

+ Cho phép bổ sung tài liệu vào sưu tập số dễ dàng, thuận tiện (dùng theo lô hoăc theo từng tài liệu riêng lẻ).

+ Mô tả dữ liệu: (theo một trong các chuẩn siêu dữ liệu: MARC; Dublin core; MODS; METS, ISO 2709 ) trong đó chuẩn Dublin Core là dùng tương đối phổ biến vì có khả năng tùy biến cho các tiêu chuẩn khác với 15 trường cơ bản.

+ Vận hành liên kết: là tạo ra một giao diện tra cứu tích hợp cà nhất quán cho người dùng trên nhiều bộ sưu tập cùng một lúc dựa trên các điểm truy cập nhất quán như: tác giả, nhan đề, từ khóa, chủ đề,...

+ Quản lý truy cập: Phân cấp thẩm quyền truy cập vào tài liệu.

+ Xuất - nhập dữ liệu: Theo các chuẩn (ISO 2709, Macr, MacrXML,...) và có các cơng cụ, chế độ sao lưu dữ liệu nhằm bảo đảm an toàn tài liệu.

Mặc dù hiện nay TTTT-TV trường ĐHNH Tp.HCM đã sử dụng PSCzLis 6.0

để quản lý nguồn tài liệu số của trung tâm nhưng mới chỉ dừng lại ở quản lý các bài

trích báo – tạp chí mà chưa được ứng dụng cho các loại tài liệu khác. Trong thời

gian tới TV cần tăng cường ứng dụng nhiều hơn nữa để quản lý toàn bộ nguồn tài liệu số nhằm tạo ra một CSDL tập trung tạo thuận lợi cho NDT khai thác. Ngoài ra TV cũng cần làm việc với nhà cung cấp để hoàn thiện phần mềm nhất là khả năng tạo lập các siêu dữ liệu (siêu dữ liệu cấu trúc, siêu dữ liệu quản trị), hệ thống quản lý phân quyền, phân cấp và hình thức phân phối (cho phép xem, in, tải với số lượng trang) theo các nhóm đối tượng giúp việc quản lý và khai thác tốt các bộ sưu tập tài liệu số của TV. Đặc biệt là hoàn thiện tính năng tra cứu tồn văn của tài liệu – Đây là yêu cầu cơ bản của một phần mềm TVS.

Greenstone ra đời là một bộ phần mềm dùng để xây dựng và phân phối các bộ sưu tập TVS. Nó cung cấp một phương pháp mới để tổ chức và xuất bản TT trên Internet hoặc trên CD-ROM; ngồi ra cịn cung cấp phương tiện dễ dàng cho người sử dụng truy tìm tồn văn và lướt tìm dựa vào metadata. Greenstone là sản phẩm của dự án New Zealand Digital Library của đại học Waikato, được phát triển và phân phối với sự tham gia của UNESCO và Human Info NGO. Đây là phần mềm mã nguồn mở được cung cấp trên http://greenstone.org/ theo thoả thuận của GNU

General Public License.

Các bộ sưu tập trên Greenstone được truy cập và phân phối tài nguyên qua một trình duyệt web chuẩn, có thể chạy trên các hệ điều hành khác nhau: Window

và Unix, Linux. Hướng metadata: Chỉ mục lướt tìm được tạo nên từ metadata. Metadata có thể kết hợp với mỗi tài liệu hoặc một phần của tài liệu. Đa ngôn ngữ: Unicode được dùng để hỗ trợ việc chuyển đổi ngôn ngữ. Chỉ mục riêng biệt có thể tạo ra cho những ngơn ngữ khác nhau. Những bộ sưu tập chứa hàng triệu tài liệu, nhiều gigabytes có thể được xây dựng, truy tìm nhanh chóng, có thể nén để giảm

kích thước văn bản và chỉ mục. Tương thích Z39.50: Giao thức Z39.50 hỗ trợ việc truy cập máy chủ bên ngoài cũng như giới thiệu bộ sưu tập Greenstone cho người sử dụng bên ngồi. Truy tìm linh hoạt: Người sử dụng có thể truy tìm tồn văn tài

liệu, lướt tìm danh mục tác giả, danh mục nhan đề, danh mục đề mục,… Bộ sưu tập có thể chứa hình ảnh, âm nhạc, đoạn băng ghi âm và hình,… có thể xuất ra CD-

ROM tự khởi động.

Greenstone là phần mềm nguồn mở cho nên dễ dàng chỉnh sửa theo các đặc tính riêng biệt của lãnh thổ, cơ quan, khả năng vận dụng linh hoạt và chi phí thấp. Chuẩn biên mục mà Greenstone sử dụng dự trên 15 trường cơ bản của Dublin Core nên công tác biên mục được thực hiện nhanh chóng và có thể điều chỉnh theo yêu cầu của từng đơn vị.

Những bộ sưu tập TT được tạo ra bởi Greenston có thể chứa một số lượng lớn những tài liệu (hàng ngàn cho đến hàng triệu) với một giao diện đồng nhất. Bộ sưu tập bao gồm từ những bài báo cho đến chương trình âm nhạc. Hiện nay, Greenstone được dùng rộng rãi trong TV của các trường đại học trên thế giới để

hình thành TVS. Phần mềm Greenstone trên CD-ROM được Liên Hiệp Quốc và những cơ quan nhân đạo khác xuất bản và phân phối cho các quốc gia đang phát triển. Greenstone được dịch sang hơn 20 ngôn ngữ. Phiên bản Greenstone Tiếng Việt đã được Công ty Integrated e-Solutions Ltd. phối hợp với TV Cao học Trường

Đại học Khoa học Tự nhiên Tp.HCM Việt hoá hoàn toàn các thành phần giao diện đến các tài liệu hướng dẫn sử dụng, quản trị hệ thống và phương pháp xây dựng các

bộ sưu tập số và cũng đã được phát hành và phổ biến trong hệ thống Greenstone

trên thế giới.

Greenstone được sử dụng rộng rãi trong các TV Việt Nam như: TV ĐH

Khoa học Tự nhiên, TV Đại học Công nghiệp, Trung tâm học liệu Đại học Đà

Nẵng, Đại học Huế, Đại học Thái Nguyên, TV Tổng hợp tỉnh Phú Yên,…

Các bộ sưu tập có thể được phân phối thông qua các cổng thông tin TV hay mỗi bộ sưu tập được xuất bản lên CD-ROM đều có một giao diện Greenstone kèm theo. Nếu trên CD-ROM thì giao diện Greenstone có chứa sẳn một phần trình duyệt (web browser) Netscape để tải xuống (download) cho những máy cá nhân nào không sử dụng web. Như thế cho chúng ta thấy rằng mỗi khi một bộ sưu tập được

xuất ra CD-ROM thì người sử dụng có thể dùng bất kỳ một máy tính với bất kỳ một hệ điều hành nào đều có thể đọc, truy tìm, lướt tìm, in ra những TT trên bộ sưu tập với giao diện thân thiện của Greenstone. Nếu chúng ta sử dụng và truy cập vào các bộ sưu tập của các quốc gia khác nhau khắp nơi trên thế giới thì chúng ta có thể sử dụng giao diện của nhiều ngơn ngữ, trong đó có cả giao diện Tiếng Việt.

Phần mềm mã nguồn mở Greenstone đem lại cho chúng ta một hướng đi

mới, một giải pháp để xây dựng và phân phối các sưu tập số trong công tác TT-TV hiện nay. Trong điều kiện kinh tế đất nước cịn khó khăn, kinh phí hoạt động dành cho TV cịn hạn hẹp thì với ưu thế là một phầm mềm chi phí thấp, dễ sử dụng, dễ

chuyển đổi, dễ chỉnh sửa, đa ngơn ngữ, có khả năng phát triển trên toàn cầu. Mặt

khác, sử dụng phần mềm được chuẩn hóa cao như Greenstone sẽ giúp các TV

nhanh chóng hội nhập quốc tế, nâng cao khả năng liên thông với các TV trong nước và trên toàn cầu.

TTTT-TV trường ĐHNH Tp.HCM cũng đã ứng dụng Greenstone để xây

dựng các bộ sưu tập số như: Sưu tập luận văn, luận án, cơng trình nghiên cứu khoa học,... Nhưng các bộ sưu tập này đã được xây dựng từ năm 2010 đến nay các bộ sưu tập không được cập nhật thường xuyên bộ tài liệu số mới, chưa cài đặt trên web và liên kết với cổng thông tin, chỉ sử dụng ở dạng máy tính cục do một số nguyên nhân như thiếu cán bộ TV phụ trách trực tiếp, TV chưa có chính sách cụ thể để phổ biến và khai thác các bộ sưu tập này.

Chính vì vậy, trong thời gian tới TV cần đầu tư cả về thời gian, kinh phí,

nhân lực để hồn thiện các bộ sưu tập số trên phần mềm Greenstone và có kế hoạch cài đặt, kết nối với cổng thơng tin của TV để phục vụ NDT. Ngồi ra, sử dụng công cụ tải dữ liệu mà Greenstone cung cấp để khai thác nguồn tài nguyên mở trên mạng

Một phần của tài liệu (LUẬN văn THẠC sĩ) tăng cường ứng dụng công nghệ hiện đại tại trung tâm thông tin thư viện trường đại học ngân hàng thành phố hồ chí minh (Trang 101 - 113)

Tải bản đầy đủ (PDF)

(137 trang)