9. Bố cục của luận văn
2.1 Xây dựng tài liệu số
2.1.3 Số hóa tài liệu
2.1.3.1 Chính sách số hóa tài liệu
Hiện nay số hoá được coi là một mục tiêu chiến lược trong phát triển thư viện. Trước tiên số hoá sẽ tăng cường khả năng tiếp cận thông tin cho độc giả, tăng cường khả năng phân phối thông tin của các thư viện. Thứ hai, số hoá cũng là một chiến lược hữu hiệu để bảo quản vốn tư liệu hiện có. Số hoá các tài liệu quý hiếm, có giá trị và các tài liệu có tần suất sử dụng cao làm giảm khả năng hư hại do việc tiếp xúc trực tiếp với tài liệu của người sử dụng, từ đó tăng tuổi thọ của tài liệu gốc. Số hoá còn cho phép tạo ra các bản sao có chất lượng cao của các tài liệu cũ, bị ố mòn hoặc mờ, giúp người sử dụng có thể xem, đọc chúng dễ dàng. Hơn nữa, việc lưu bản số riêng biệt với tài liệu gốc cũng được coi là nguồn lưu giữ bổ sung, đề phòng sự cố xảy ra khiến tài liệu gốc bị huỷ hoại. Tuy vậy, số hoá là một quá trình tốn kém thời gian và đòi hỏi đầu tư về chi phí, nên cần có sự chuẩn bị kĩ lưỡng trước cũng như quản lý tốt trong quá trình thực hiện. Bảo quản tài liệu số, nhất là tài liệu có gốc số, cũng là một yếu tố cần phải tính đến.
Nhiều tư liệu có thể truy cập trên mạng Internet hoặc trong các thư viện số có thể hoàn toàn không được xuất bản dưới dạng in truyền thống. Các tài liệu được xuất bản dưới dạng số như sách điện tử, tạp chí điện tử, các CSDL thương mại… chiếm
tỷ lệ ngày càng tăng so với tài liệu in. Việc bổ sung các tài liệu số là một thách thức đối với thư viện hiện nay khi nguồn kinh phí bổ sung bị hạn chế. Đồng thời các vấn đề về tổ chức truy cập cho độc giả, bản quyền và trách nhiệm bảo quản tài nguyên số đang đòi hỏi thư viện phải được đảm bảo những điều kiện nhất định về trang thiết bị, nhân lực và tài lực...
- Số hoá một số kho tư liệu đặc biệt như: Sách, Tạp chí, Bản đồ, Sắc phong,
Tranh cổ...
- Số hoá có chọn lọc sách, tạp chí hệ Latin từ kho tư liệu của EFEO, đặc biệt các tài
liệu bị lão hoá, dòn gãy, có nguy cơ bị huỷ hoại.
- Xây dựng kho dữ liệu số về các tài liệu đã số hoá.
- Chuyển đổi các CSDL về tài liệu số hoá đã xây dựng trong giai đoạn trước sang
hệ thống công nghệ mới.
Trong những năm qua, Viện TTKHXH đã vạch rõ chiến lược phát triển nguồn tài liệu số. Thư viện đã nhận thức rõ rằng, đối với một thư viện giá trị cốt lõi, linh hồn của thư viện nằm ở nguồn tài liệu. Vì thế, Viện TTKHXH đang tập trung xây dựng TLS một cách bài bản trên một quy trình khoa học được áp dụng riêng cho từng dạng tài liệu có tình trạng vật lý khác nhau. Đặc biệt, chú trọng số hóa toàn văn nguồn tư liệu quý hiện đang lưu trữ tại thư viện do EFEO để lại. Trước mắt, các bộ sưu tập tài liệu cổ, viết tay, độc bản có giá trị nghiên cứu, đang có nguy cơ bị xuống cấp do đã có thời gian phục vụ độc giả được ưu tiên số hóa. Tính đến nay, TVKHXH ước tính có khoảng trên 900 ngàn trang tài liệu số các loại, các bộ sư tập số đã số hóa toàn văn bao gồm: Bộ sưu tập Hương ước, Bộ sưu tập Hương ước Nôm, Bộ sưu tập Thần tích thần sắc, Bộ sưu tập ảnh và bưu ảnh, Sách Hán Nôm, Sách Pháp, Sắc Phong,... Trong thời gian tới, thư viện đang nghiên cứu khả năng bổ sung tài liệu số là các bộ sưu tập được bao gói theo các chủ đề cung cấp trực tuyến, sách điện tử, tạp chí điện tử,... được cung cấp bởi các nhà xuất bản có uy tín.
2.1.3.2 Giải pháp số hóa tài liệu
Trong năm 2012, Viện TTKHXH đã đầu tư hệ thống số hóa tự động tiên tiến hàng đầu thế giới là hệ thống máy ScanRobot 2.0 MDS của Hãng Treventus phục vụ cho việc số hóa tài liệu đóng tập:
Hình 1.2: Hệ thống máy số hóa tự động Scanrobot
ScanRobot 2.0 MDS là hệ thống máy số hóa sách tự động sử dụng công nghệ quét quang qua lăng kính (Prism Technology) - là công nghệ tự động lật giở trang, quét ảnh, số hóa sách và tài liệu đóng tập tiên tiến nhất trên thế giới hiện nay, công nghệ đã được cấp bằng sáng chế độc quyền cho Treventus Mechatronics GmbH.
Với công nghệ quét lăng kính, ScanRobot 2.0 MDS có thể tạo ra chất lượng hình ảnh đồng đều tốt nhất với tốc độ quét cao nhất.
Hãng sản xuất: TREVENTUS MECHATRONICS GMBH - CỘNG HÒA ÁO
* Hoạt động
Tự động quét các bản sách và tài liệu dạng in sang dạng điện tử. Có thể vận hành trên hệ thống theo 3 chế độ:
- Tự động (automatic): tự động lật giở trang với tốc độ lên đến 2500 trang/giờ. Chế
độ tự động được dùng cho sách/ tài liệu có chất lượng giấy cao và đồng đều
- Bán tự động (semi-automatic): kết hợp quét tự động và lật giở bằng tay. Tốc độ
- Chế độ dùng tay (manual): lật giở trang và quét điều khiển bằng tay, sử dụng đối với tài liệu cần sự chăm sóc đặc biệt. Tốc độ lên đến 350 trang/giờ.
Có thể chọn cho hệ thống chạy trên chế độ thích hợp với loại tài liệu cần số hóa.
Hình 1.3: Hình ảnh đầu lăng trụ quét của hệ thống máy số hóa * Tốc độ quét
- Chế độ tự động: lên tới 2500 trang/giờ
- Chế độ bán tự động: lên tới 1000 trang/giờ
- Chế độ dùng tay: lên tới 350 trang/giờ
- Phần mềm xử lý hình ảnh tốc độ cao
* Công nghệ
- Sử dụng công nghệ quét lăng kính (Prism Technology), công nghệ quét quang
(line-scanner) sử dụng chip cảm biến CMOS để quét hình ảnh của các trang sách
- Sử dụng ống kính quét chuyên dụng nằm bên trong đầu lăng trụ
- Lật giở trang bằng khí (air-flow)
- Góc mở sách 600 (là góc mở tốt nhất để lấy hình ảnh bên trong mà không làm hại
đến gáy sách), góc mở có thể điều chỉnh lên tới 1000 cho các tài liệu đặc biệt.
- Không sử dụng thêm bất cứ chi tiết kẹp giữ trang nào như kính, kẹp trang (clamp)
- Không làm cong hay méo ảnh
- Độ phân giải 300 / 400 dpi (tuỳ chọn)
- Chỉ duy nhất 1 bộ phận lăng trụ đầu quét chuyển động trong quá trình quét, do đó giảm thiểu được các lỗi thường xảy ra so với các hệ thống sử dụng nhiều chi tiết cơ khí chuyển động.
a/ Thành phần hệ thống
ScanRobot 2.0 MDS là 1 hệ thống tích hợp toàn diện bao gồm:
- Thiết bị quét sách tự động ScanRobot
- Máy quét bìa sách, tờ rời khổ A3
- Máy tính điều khiển, phần mềm điều khiển hệ thống
- Màn hình làm việc
- Ống kính quét tích hợp bên trong đầu lăng trụ quét
- Phần mềm xử lý hình ảnh đầu ra và phần mềm quản lý quy trình số hóa
- Phần mềm nhận dạng ký tự quang học OCR
b/ Phần mềm xử lý hình ảnh ScanGate:
Hình 1.4: Giao diện phần mềm xử lý hình ảnh Scangate
- Xử lý các hình ảnh đầu ra của ScanRobot
- Trực giác và dễ sử dụng
- Kiểm tra đồng thời real-time chất lượng các ảnh đang được quét
- Đầy đủ các chức năng xử lý hình ảnh, các chức năng điều khiển chất lượng hình
ảnh nhanh và mạnh mẽ.
- Tích hợp ICC (Tiêu chuẩn quốc tế về sử dụng màu sắc-International Color Consortium)
- Cho phép nhập các siêu dữ liệu (metadata) trong quá trình xử lý
- Có thể sử dụng tích hợp với với các máy quét loại khác.
- Các chức năng xử lý ảnh như 1 phần mềm đồ họa chuyên nghiệp:
+ Cắt xén ảnh (croping)
+ Dựng thẳng ảnh (deskewing)
+ Thay đổi nền (làm đồng nhất hoặc loại bỏ nền)
+ Thay đổi kích thước ảnh
+ Loại bỏ nhiễu ảnh + Điều chỉnh sáng/tối + Điều chỉnh độ sắc nét, tương phản + Thay đổi định dạng ảnh + Gộp trang, tách trang + Xoay ảnh…
c/ Phần mềm quản lý quy trình số hóa tài liệu Scanflow:
- Quản lý toàn bộ quy trình số hóa từ 1 tài liệu đơn lẻ cho đến 1 dự án số hóa tài liệu quy mô lớn.
- Quản lý các quy trình khác nhau của các dự án số hóa khác nhau
- Quản lý từng bước cụ thể trong quy trình.
- Tổ chức và điều phối hiệu quả các nguồn tài liệu
- Giảm thiểu nhân sự vận hành (= giảm chi phí)
- Các chức năng quản lý chất lượng toàn diện
- Cải thiện năng suất và chất lượng công việc
- Giảm thiểu lỗi do con người tạo nên
- Tương tác với OCR
- Các tính năng nhập/xuất ảnh
- Tích hợp barcode để quản lý tài liệu.
- Cho phép tự thiết kế quy trình số hóa cho mỗi đơn vị, mỗi dự án số hóa tài liệu
- ScanFlow Local: áp dụng cho các trung tâm số hóa quy mô nhỏ và vừa. Tiêu
chuẩn kèm theo hệ thống.
d/ Phần mềm nhận dạng ký tự quang học (OCR):
- Sử dụng công nghệ nhận dạng tài liệu thích ứng (ADRT®: Adaptive Document Recognition Technology)
- Có khả năng xử lý nhận dạng ký tự quang học (OCR) nhận dạng tiếng Việt và
trên 180 ngôn ngữ khác nhau bao gồm Anh, Pháp, Nga, Đức, Trung, Nhật, Hàn… với độ chính xác đạt tới 99% tùy theo chất lượng in và chất lượng tài liệu
- Nhận dạng đa ngôn ngữ đồng thời. Có khả năng phát hiện tự động các ngôn ngữ
tài liệu
- Có khả năng kết xuất kết quả ra dạng file PDF đa lớp, bao gồm lớp ảnh gốc và
lớp văn bản đã được nhận dạng cho phép tìm kiếm, copy trên toàn nội dung văn bản
- Có khả năng làm việc tự động không cần giám sát
- Có cung cấp kèm theo các công cụ chỉnh sửa, tinh chỉnh hình ảnh
- Có khả năng tùy chọn cho dữ liệu đầu ra: DOC/DOCX/ODT/ XLS/XLSX/ PDF/
PDF/A/ HTML/ TXT/ CSV/ DjVu/FB2/EPUB
- Giữ lại cấu trúc của tài liệu nguồn, bao gồm định dạng, siêu liên kết, địa chỉ
email, đầu trang và chân trang, chú thích hình ảnh và bảng, số trang và ghi chú cuối trang
2.1.3.3 Kết hợp máy số hóa chuyên dụng với hệ thống số hóa tại Viện TTKHXH
Hình 1.7: Sơ đồ hoạt động Máy số hóa chuyên dụng với hệ thống số hóa tại Viện TTKHXH
- ScanRobot MDS 2.0 MDS (SCR1, SCR2): Thiết bị ScanRobot làm việc như 1
trạm quét tài liệu cho toàn hệ thống xử lý, có chức năng chuyển sách từ dạng in sang dạng điện tử. Bản thân mỗi hệ thống ScanRobot 2.0 MDS bao gồm các thành phần sau:
+ 01 thiết bị quét sách tự động ScanRobot
+ 01 máy quét bìa sách và quét tờ rời khổ A3
+ 01 máy tính và màn hình điều khiển hệ thống
+ 01 phần mềm điều khiển hệ thống và xử lý ảnh ScanGate
+ 01 phần mềm quản lý quy trình số hóa ScanFlow được tích hợp cùng phần mềm
ScanGate
- SFL1: Phần mềm ScanFlow là phần mềm quản lý quy trình số hóa tài liệu tích
hợp với hệ thống ScanRobot. Phần mềm có chức năng quản lý, điều khiển và tương tác với các thiết bị quét và máy tính trong hệ thống, phân luồng dữ liệu, xử lý tự động các công việc được định sẵn (chỉnh sửa ảnh, tạo backup, upload…). Đối với giải pháp ScanFlow của Viện TTKHXH sử dụng giải pháp ScanFlow Local.
- HF1, HF2: Hot Folder (thư mục chia sẻ chung). Hot folder có thể được đặt trên 1 máy tính riêng biệt, hoặc 1 thiết bị lưu trữ chuyên dụng, hoặc đặt chung trên 1 máy tính đã có sẵn trong hệ thống. Dữ liệu số sau khi được quét từ thiết bị quét sẽ được đổ vào HF1. Các máy trạm xử lý hình ảnh trong hệ thống (SG3,SG4,SG5,SG6) sẽ lấy dữ liệu từ hot folder 1 (HF1) để xử lý.
- SG3, SG4, SG5, SG6: các máy trạm có nhiệm vụ chính là xử lý hình ảnh được
lấy từ HF1. Phần mềm ScanGate được cài đặt trên các máy này sẽ giúp việc chỉnh sửa hình ảnh một cách tự động, bao gồm những thao tác như dựng thẳng ảnh, chỉnh nền, khử nhiễu, căn lề…
- QC1,2,3…QCn: Là các máy trạm kiểm soát chất lượng (sẽ được bố trí theo yêu
cầu và năng lực thực tế của đơn vị sử dụng). Các hình ảnh sau khi đã được xử lý sẽ chuyển vào hot folder 2 (HF2) để kiểm soát chất lượng. QC1…QCn có nhiệm vụ kiểm tra chất lượng xử lý hình ảnh đã được chuyển và HF2. Trong trường hợp phát hiện sai lỗi, hình ảnh sẽ được trả về bộ phận xử lý ảnh (SCR1, SCR2 hoặc SG3,SG4…) để xử lý lại.
- EXT1: Thiết bị scan khác (Trạm mở rộng) có thể bố trí thêm thiết bị quét tài liệu
khổ cỡ lớn hơn.
- EXT2: Đầu đọc mã vạch được tích hợp vào hoặc SCR1,2 hoặc các trạm xử lý
SG3,4,5,6. Cho phép người dùng quản lý và tìm kiếm nhanh các tài liệu đã scan. Đơn vị sử dụng có thể trang bị thêm các đầu đọc mã vạch theo yêu cầu thực tế sau này.
- OCR1, OCR2: Nếu tài liệu có yêu cầu nhận dạng ký tự quang học (OCR) thì
hình ảnh sẽ tiếp tục được chuyển sang máy tính xử lý OCR (OCR Server) để nhận dạng và chuyển từ dạng hình ảnh sang dạng ký tự.
- ST1: Thiết bị lưu trữ chuyên dụng, lưu kết quả đầu ra cuối cùng của tài liệu.