Mua trang thiết bị

Một phần của tài liệu Tổ chức và khai thác tài liệu số tại thư viện Tạ Quang Bửu trường đại học Bách Khoa Hà Nội (Trang 87)

Hiện nay trang thiết bị dùng cho TV TQB khá đầy đủ và hiện đại nhưng để phát triển TLS thì cần có nguồn kinh phí lớn đầu tư trang thiết bị hiện đại đặc biệt mua máy scan hiện đại. Chỉ với 02 máy scanner HP hiện nay không thể đáp ứng cho công tác số hoá cũng như triển khai, phát triển mạnh các hoạt động này trong thời gian tới. Vì vậy, đầu tư mua các trang thiết bị mới, hiện đại phục vụ cho xây dựng phát triển TLS, TVS là việc làm quan trọng và cần thiết. Một số trang thiết bị cần đầu tư như: Máy scan tốc độ cao, phần mềm nhận dạng ký tự quang học OCR, máy tính cấu hình cao, ổ lưu trữ dữ liệu,...

Trên thị trường hiện nay có nhiều loại máy scan tốc độ cao, các loại máy được sử dụng nhiều là Kirtas BookScan APT, KABIS hoặc SkyView. Đặc biệt được sử dụng rộng rãi trong nhiều cơ quan TT-TV hiện nay là KIRTAS APT 1200, công nghệ này cùng với thiết bị BookScan APT 1200 có thể giúp các thư viện có thể số hóa nguồn tài liệu với số lượng lớn và đảm bảo chất lượng, thiết bị nhận dạng quang học OCR. Công nghệ KIRTAS APT 1200 có một phần mềm biên tập BookScan Editor cho phép tự động biên tập, tạo siêu dữ liệu theo yêu cầu; BookScan APT 1200 không làm hư hỏng tài liệu gốc.

Số hoá là công đoạn đòi hỏi đầu tư nhiều công sức, kinh phí nhưng lại là khâu dễ dàng thực hiện nhất. Bởi vì hiện nay công nghệ số hóa tài liệu đã tiến bộ rất nhiều. Nếu như trước đây, khi ta muốn số hóa một cuốn sách khoảng 2000 trang thì phải mất hàng mấy ngày để quét từng trang sách. Nhưng hiện nay cũng với cuốn sách đó chỉ mất vài giờ đồng hồ là cho ra một sản phẩm tài liệu số đảm bảo chất lượng tốt, sắc nét, hình ảnh đẹp, giống 100% bản gốc và đặc biệt còn cho phép tự động tạo các siêu dữ liệu mô tả và siêu dữ liệu cấu trúc của tài liệu ở định dạng

86

XML. Hiện nay công nghệ số hoá tài liệu có nhiều tiến bộ mới, có thể từ bản in giấy (kể cả bản đánh bằng máy chữ chất lượng xấu) sau khi số hoá có thể chuyển sang định dạng .doc hoặc .PDF có nhận dạng ký tự quang học OCR để tìm kiếm toàn văn với chất lượng tốt hình ảnh và chữ sắc nét, có thể phóng to đến 200% nhưng các font chữ vẫn không bị phá vỡ. Đặc biệt kết quả dữ liệu đầu ra chiếm một dung lượng rất nhỏ (3-4 Mb cho một tài liệu văn bản có độ dày ≤ 300 trang).

Trước khi số hoá TV TQB cần xác định trước các yêu cầu kỹ thuật (có thể do thư viện tự xây dựng hoặc tham khảo từ các thư viện khác). Ví dụ một số yêu cầu kỹ thuật do trường Đại học Nông Nghiệp Hà Nội xây dựng để các thư viện tham khảo như:

+ Phải đảm bảo quy trình số hoá không làm hư hỏng, biến dạng tài liệu gốc (không được tháo rời gáy tài liệu, đảm bảo giữ nguyên tình trạng tài liệu gốc đúng như trước khi số hoá)

+ Tệp dữ liệu gốc đầu ra (để lưu giữ, bảo quản) được lưu giữ dưới định dạng JPEG có độ phân giải tối thiểu là 300 dpi.

+ Tệp dữ liệu kết quả đầu ra (để sử dụng) phải được nhận dạng quang học ký tự tiếng Việt (OCR) với font chữ Unicode và chuyển đổi sang định dạng *.DOC và *.PDF đảm bảo nội dung chính xác 100% so với tài liệu gốc.

+ Dung lượng Tệp dữ liệu đầu ra (để sử dụng) không được lớn hơn 2Mb/100 trang A4

+ Dữ liệu kết quả đầu ra dưới dạng ảnh phải được hiển thị: chữ sắc nét, hình ảnh đẹp, loại bỏ các vết bẩn, ố vàng trên trang tài liệu.

+ Tệp dữ liệu kết quả đầu ra dưới định dạng PDF phải được tạo siêu dữ liệu mô tả Bookmark theo 3 cấp (chương; mục; phân mục. Dữ liệu mô tả được biên soạn theo font Unicode)

+...

Bên cạnh đầu tư thiết bị số hoá hiện đại TVTQ cần nâng cao chất lượng số hoá bằng đầu tư mua phần mềm nhận dạng chữ in tiếng Việt. Phần mềm nhận dạng chữ in tiếng Việt ABBYY ứng dụng trong xây dựng TVS. Với nhiều tính năng hiện

87

đại, phần mềm nhận dạng của ABBYY đang được nhiều trung tâm TT-TV đưa vào ứng dụng trong quá trình xây dựng TVS. Đây là giải pháp hoàn chỉnh giải quyết vấn đề số hóa nhận dạng. Mục đích của dây chuyền số hóa là chuyển kho tài liệu giấy thành TLS. Nếu TLS chỉ đơn thuần là các ảnh quét thì dây chuyền số hóa đó mới chỉ thực hiện được việc “file hóa” tài liệu, việc số hóa cần được hiểu là một quá trình tự động chuyển đổi kho tài liệu giấy thành tài liệu điện tử ở dạng có thể biên tập lại, trích dẫn và tìm kiếm được. Với ý nghĩa của việc số hóa như vậy, phần mềm nhận dạng rõ ràng đóng một vai trò then chốt của dây chuyền số hóa. TV TQB chưa sử dụng phần mềm nhận dạng, trong thời gian tới để nâng cao chất lượng số hoá cần nghiên cứu và mua phần mềm nhận dạng cho phù hợp.

Hiện nay, trên thị trường Việt Nam có một số phần mềm nhận dạng chữ in (OCR) tiếng Việt và giải pháp số hóa. Tuy nhiên, thực tế sử dụng các phần mềm này cho thấy chúng còn nhiều hạn chế như không đọc được ảnh màu (chỉ làm việc với ảnh đen trắng), dàn trang của tài liệu sau nhận dạng hay bị vỡ, công suất xử lý thấp, thao tác thủ công, chỉ làm việc với rất ít ngôn ngữ. Phần mềm nhận dạng phiên bản mới của ABBYY đang được đánh giá là giải pháp nhận dạng tiếng Việt chính xác và toàn diện nhất hiện nay. Các phần mềm nhận dạng của ABBYY có thể được dùng như một giải pháp số hóa tài liệu hoàn chỉnh hoặc tích hợp vào các hệ thống quản lý tài liệu hay hệ thống quản lý thông tin sẵn có khác. ABBYY có 2 dòng sản phẩm nhận dạng chính: ABBYY Recognition Server và ABBYY FlexiCapture. Phần mềm nhận dạng của ABBYY đã được nhiều cơ quan tổ chức đánh giá cao và đưa vào sử dụng như: Bộ Khoa học và Công nghệ (Cục Sở hữu trí tuệ), Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội, Văn phòng Trung Ương Đoàn Thanh niên Cộng sản Hồ Chí Minh, Công ty Cổ phần Chứng Khoán Vndirect,… Theo TS. Nguyễn Huy Chương, Giám đốc Trung tâm TT-TV Đại học Quốc gia Hà Nội: “Sau khi kiểm nghiệm các sản phẩm cùng loại, chúng tôi đánh giá ABBYY Recognition Server vượt trội hơn cả. Với khả năng làm việc tự động, chất lượng nhận dạng cao, chấp nhận nhiều định dạng đầu vào và cho phép kết xuất kết quả nhận dạng ra nhiều

88

định dạng lưu trữ khác nhau, phần mềm nhận dạng của ABBYY là giải pháp tốt nhất để giải quyết bài toán số hóa tại các thư viện hiện nay”.

Qua tham khảo một số máy scan tốc độ cao và phần mềm số hoá tài liệu có trên thị trường được nhiều cơ quan TT-TV sử dụng hiện nay TV TQB cần nghiên cứu và đầu tư mua máy Kirtas hiện đại và phần mềm số hoá tài liệu ABBYY để đẩy nhanh tốc độ số hóa tài liệu.

Bên cạnh, tạo lập và phát triển tài liệu số hoá cần quan tâm tới chất lượng của việc số hoá cũng như có các biện pháp sao lưu đầy đủ, kịp thời để tránh các rủi ro, tránh mất dữ liệu phải làm lại lãng phí nhiều tiền bạc, công sức, thời gian. Sau một thời gian dài sử dụng các TLS có thể bị hư hỏng, xuống cấp. Do vậy, các TLS được lưu trữ trên các vật mang tin như đĩa CD-ROM, DVD cần phải được đầu tư kinh phí dành cho bảo quản TLS. TV TQB cần nghiên cứu, đầu tư mua các ổ cứng dung lượng lớn hơn, có cơ chế sao lưu, phục hồi dữ liệu, chuyển dạng cho phù hợp, đảm bảo tuổi thọ, an ninh TLS. Tăng cường cơ sở vật chất, trang thiết bị bảo quản TLS cũng như mua các phần mềm diệt virut, nâng cấp đường truyền internet. Một số biện pháp bảo quản TLS TV TQB thực hiện chưa hiệu quả, chưa triển khai được với số lượng lớn. Trong thời gian tới cần đầu tư kinh phí cho các hoạt động như:

- Làm mới dữ liệu: Copy (sao chụp) lại dữ liệu sang hệ thống hoặc phương tiện mang tin mới hơn. Ví dụ: chuyển dữ liệu về chế tạo máy hàn từ một cuộn băng cũ sang một băng mới,… cần thực hiện điều này khi phần mềm hoặc phần cứng cần thiết cho việc đọc dữ liệu không còn được sử dụng hoặc chúng không có khả năng hiểu format của dữ liệu.

- Di chuyển dữ liệu là quá trình chuyển dời dữ liệu sang các môi trường có hệ điều hành mới hơn ví dụ: chuyển đổi các nguồn tài nguyên thông tin từ một format cũ sang loại format mới, hệ điều hành này sang hệ điều hành khác, từ một loại ngôn ngữ lập trình này sang ngôn ngữ lập trình khác. Tuy nhiên, khi tiến hành di chuyển dữ liệu các nguồn tài nguyên chuyển dịch hoạt động có nguy cơ bị mất một vài chức năng do format mới có thể không có khả năng thâu tóm được mọi chức năng của format gốc,...

89

- Đa phục chế dữ liệu - thiết lập nhiều bản sao ở các vị trí khác nhau vì dữ liệu chỉ có 1 bản và chỉ ở một điểm có nguy cơ bị tổn thương cao (do hỏng phần cứng, phần mềm, hoả hoạn,…). Cần sao dữ liệu làm nhiều bản và lưu ở nhiều địa chỉ khác nhau. Tuy nhiên, biện pháp này cũng gặp phải khó khăn là gây khó khăn cho các quy trình làm mới dữ liệu hay chuyển dời dữ liệu, tạo phiên bản mới và kiểm tra truy cập vì dữ liệu được đặt ở nhiều chỗ khác nhau.

- Dspace là một phần mềm miễn phí, mã nguồn mở nên còn một số hạn chế đặc biệt là tính bảo mật. Do vậy, trong tương lai TV TQB cần nghiên cứu và đề xuất với Nhà trường mua phần mềm quản trị TVS có bản quyền với nhiều tính năng để tổ chức và quản trị TVS hiệu quả hơn.

Một phần của tài liệu Tổ chức và khai thác tài liệu số tại thư viện Tạ Quang Bửu trường đại học Bách Khoa Hà Nội (Trang 87)