TỪ Ý TƯỞNG SỐ HÓA TỚI DỰ ÁN SỐ HÓA QUY MƠ LỚN ThS Lại Thế Trung * Tóm tắt: Những năm gần đây, Việt Nam, hoạt động số hóa phát triển tài liệu số lĩnh vực thông tin thư viện bước đạt thành tựu định Việc số hóa tài liệu giúp cho việc lưu trữ, truy xuất, chia sẻ, tìm kiếm thơng tin cách nhanh chóng dễ dàng Phát triển cơng tác số hóa phần phát triển tài liệu số cách toàn diện Bài viết tập trung vào việc phân tích ý tưởng số hóa tới giải pháp thực tiễn cơng tác số hóa tài liệu, đặc biệt phân tích dự án số hóa quy mơ lớn để bạn đọc hình dung rõ khác biệt số hóa dự án số hóa quy mơ lớn Từ đó, tác giả đưa giải pháp số hóa hồn chỉnh áp dụng cho đơn vị có nhu cầu số hóa tương lai Tại số hóa lại thực hiện? Có nhiều lý phân tích từ trước cơng trình nghiên cứu tài liệu số đơn vị khác Tuy nhiên viết tác giả phân tích riêng yếu tố tự nhiên người tạo Yếu tố khách quan, có thành tố khách quan từ tự nhiên ảnh hưởng trực tiếp tới tài liệu nước gây lũ lụt, ngập úng làm hư hỏng tài liệu; Lửa yếu tố nguy hiểm khắc phục cháy xảy tài liệu; Khơng khí ảnh hưởng tới tài liệu; Ngoài động đất yếu tố ảnh hưởng trực tiếp tới tài liệu, trơn vùi phần hay tồn tài liệu Yếu tố chủ quan, chiến tranh yếu tố mà người tác động trực tiếp tới tài liệu, việc hư hỏng, mát tài liệu, chiến tranh mang tới việc thay đổi cách tiếp cận hình thành nội dung tài liệu Tài liệu có khả bị trộm cắp: việc ảnh hưởng tới việc mát tài liệu độc bản, quý hay thất thoát tài liệu Bản thân tài liệu tự hư hỏng: mực có chứa sắt, giấy bị phá hủy axit… Như vậy, cần phải số hố tài liệu số hóa tăng cường khả tiếp cận thông tin cho độc giả, số hóa để tài liệu truy cập nghiên cứu Sau số hóa tài liệu truy cập, tìm kiếm hình ảnh, siêu liệu, tìm kiếm tồn văn tài liệu Số hố cho phép tạo có chất lượng cao tài liệu cũ, bị ố mòn mờ, giúp người sử dụng xem, đọc chúng dễ dàng Số hóa tài liệu thành dạng điện tử dễ dàng chia sẻ, tăng cường khả phân phối thơng tin tới độc giả Ngồi ra, số hóa tài liệu giúp cho việc tái sử dụng nguồn tài ngun, * Cơng ty TNHH Nam Hồng dùng để in lại, tái tài liệu nhà xuất khơng in Tuy vậy, số hố q trình tốn thời gian đòi hỏi đầu tư lớn chi phí, nên cần có chuẩn bị kĩ lưỡng trước quản lý tốt q trình thực Xu hướng số hóa tài liệu Việt Nam Tại nước phương Tây công tác số hóa phát triển từ năm 90 kỷ XX, có nhiều tổ chức tiến hành số hóa tài liệu để phục phụ nhu cầu đào tạo nghiên cứu trường đại học: dự án số hóa sách Google, Microsoft hay Proquest Central, Ebrary…Nhưng Việt Nam số hóa tài liệu thực quan tâm khoảng 10 năm trở lại Nhiều đơn vị chủ động số hóa tài liệu để phục vụ nhu cầu đơng đảo bạn đọc mà tài liệu truyền thống đáp ứng, phục vụ Trong đơn vị chủ động số hóa phải kể đến đơn vị đầu Trung tâm Thông tin Thư viện – Đại học Quốc gia Hà Nội, Trung tâm Học liệu – Đại học Thái Nguyên, Thư viện Quốc gia Việt Nam, Viện Thông tin Khoa học Xã hội hay Học viện Chính trị Hành Quốc gia Hồ Chí Minh…Từ đó, đơn vị ngày thu hút đông đảo bạn đọc tham gia không thư viện mà số lượng truy cập từ xa tăng lên cao Sự khác dự án số hóa nhỏ dự án số hóa quy mơ lớn 1.1 Số hóa tài liệu (digitization) Số hóa bao gồm việc quét tài liệu từ dạng vật lý sang dạng tài liệu điện tử đọc máy, gồm công đoạn quét tài liệu, xử lý ảnh, nhận dạng ký tự quang học thành tài liệu tìm kiếm nhập siêu liệu 1.2 Số hóa tài liệu quy mơ lớn (mass digitization) Với số hóa quy mơ lớn ngồi việc qt tài liệu dạng vật lý sang dạng tài liệu điện tử, xử lý ảnh, nhận dạng ký tự quang học nhập siêu liệu tạo quy trình làm việc thống nhất, cơng tác tổ chức cho q trình hay công tác chuẩn bị, công tác vận chuyển hay kết nối công việc, kết nối thiết bị phần mềm Sự khác biệt lớn số hóa số hóa quy mơ lớn ví dụ giải pháp cụ thể: với việc số hóa số lượng sách, 10 sách hay 100 sách cần người làm thời gian ngắn với khối lượng lưu trữ không lớn Trong việc số hóa số lượng lên tới hàng nghìn sách tương đương hàng triệu trang sách cần tới số lượng lớn người làm, việc lưu trữ lớn lên tới hàng trăm Terabyte, hạ tầng công nghệ thông tin quy mô lớn để lưu trữ cần nhiều thời gian để hoàn thiện dự án Cần quản lý khối lượng tài liệu, nhân tham gia, máy móc tham gia, phần mềm xử lý thời gian hồn thiện Như thấy từ “số hóa” tới “số hóa quy mô lớn” cách mạng công nghiệp số hóa Việc chia tồn cơng việc số hóa thành nhiệm vụ nhỏ tổ chức luồng cơng việc quy trình số hóa chuyên nghiệp Những ý tưởng số hóa 2.1 Một dự án số hóa quy mơ lớn bắt đầu nào? Đối với số hóa tài liệu nhiều quan điểm hiểu đơn việc quét tài liệu dạng vật lý sang tài liệu số, chí hiểu thư viện số Trong vấn đề số hóa tài liệu từ dạng vật lý sang tài liệu số, nội dung số, thư viện số trình phức tạp nhiều yếu tố tác động Các yếu tố kể đến vấn đề quét tài liệu, chọn máy số hóa tự động, bán tự động hay thủ cơng; Vấn đề quản lý chất lượng sau quét; Vấn đề đồng nhất, tài liệu không đồng khổ cỡ, không đồng chất liệu giấy, tuổi thọ giấy, màu giấy hay không đồng yêu cầu đầu ra; Vấn đề chuẩn bị số hóa, vận chuyển tài liệu, xếp phân loại tài liệu dự kiến số hóa; Vấn đề nhân tham gia số hóa, nhân giám sát q trình số hóa…; để thực việc số hóa cần phải có nhiều khâu quản lý chất lượng, vấn đề chuẩn bị, chuẩn đầu ra, yêu cầu nhận dạng ký tự quang học hay kết xuất file PDF, cần quan tâm tới giải pháp lưu trữ với hệ thống lưu trữ gốc, lưu trữ đưa vào sử dụng, tìm kiếm khai thác Ngồi ra, tồn quy trình số hóa thường xun xuất yếu tố “ngoại lệ” khác vấn đề nêu tác động ảnh hưởng tới q trình số hóa 2.2 Các u cầu số hóa quy mơ lớn theo quy trình số hóa hồn chỉnh Giải pháp tổng thể số hóa tài liệu cần vạch rõ nhiệm vụ số hóa, bước cơng việc số hóa kết đặt số hóa tài liệu cần chia bước cụ thể gồm: tiền số hóa; quét tài liệu; xử lý ảnh sau quét, kiểm tra chất lượng; nhận diện ký tự quang học; kiểm tra chất lượng lần cuối, lưu trữ đưa lên phần mềm quản lý, tìm kiếm, khai thác tài liệu số Tiền số hóa tài liệu: - Nhận sách theo danh mục số hóa; Kiểm tra chất lượng tài liệu - Phân loại tài liệu số hóa nhằm mục đích chuẩn bị trước cho cơng việc vệ sinh gia cố tài liệu - Phân loại theo tình trạng tài liệu để biết tài liệu không cần gia cố, tài liệu cần gia cố lại, gia cố mức độ Những tài liệu không cần gia cố để riêng để chuẩn bị cho việc đưa vào số hoá trước - Những tài liệu rách nát để riêng để gia cố lại trước đưa vào số hoá - Vệ sinh tài liệu gia cố tài liệu công đoạn quan trọng quy trình tiền xử lý tài liệu Nhằm mục đích chuẩn bị sẵn sàng cho tài liệu trước đưa vào số hoá Tuy nhiên gia cố tài liệu cần phải cân nhắc kỹ nhằm mục đích quét tài liệu cách dễ mà đảm bảo không gây hư hại cho tài liệu - Tạo phiên làm việc mới, in mã vạch chứa nội dung biên tập kẹp vào tài liệu xếp vị trí chuyển sang cơng đoạn Kết cơng việc bước tiền số hóa tạo phiên làm việc Quét tài liệu tự động qt tài liệu thủ cơng: Bước có phiên làm việc tạo từ bước tiền số hóa tài liệu Mở phiên làm việc tạo sẵn từ bước tiền số hóa, đưa tài liệu lên hệ thống số hóa tự động để quét, đưa tài liệu dạng sách khổ to, đồ, trang tờ rời lên máy số hóa tài liệu thủ cơng để qt, kiểm tra chất lượng q trình qt hồn thiện trình quét quét bổ sung thay tài liệu bị hỏng, thiếu Kết bước quét tài liệu phiên làm việc hình ảnh gốc quét Xử lý ảnh kiểm tra chất lượng sau quét: - Copy phiên làm việc từ máy quét máy trạm với để đảm bảo hoạt động theo quy trình, xử lý ảnh tách biệt với việc quét tài liệu, không làm ảnh hưởng tới tốc độ máy quét tài liệu - Kiểm tra chất lượng tài liệu sau quét: kiểm tra file ảnh tài liệu quét trước đưa vào xử lý ảnh; Kiểm tra số trang quét đủ so với cứng; Kiểm tra chất lượng ảnh - Chuyển đổi định dạng: tạo lưu, đổi sang định dạng file phù hợp với nhu cầu số hóa Tùy loại tài liệu mà ta chọn cách xử lý file ảnh tiff jpeg - Tính tốn viền trang (Cacute border): Tính tốn Borders nhằm mục đích tính tốn kích thước viền, độ nghiêng trang tài liệu sau quét - Cắt viền trang (Croping): Cắt loại viền đen ảnh, cắt từ viền trang từ viền chữ (tuỳ theo tài liệu) - Chỉnh nghiêng trang (Deskew): tự động chỉnh lại độ nghiêng chữ góc O độ - Tinh chỉnh độ nét trang tài liệu: làm trắng nền, tăng độ nét chữ ảnh - Mở rộng lề trang (Extrapolation): nhằm mục đích mở rộng khoảng trắng trang sách sau cắt hết viền đen - Tạo PDF (Create PDF): Tạo Watermark ảnh PDF (tạo quyền đơn vị sử dụng); Tạo PDF bước cuối để tạo file kết xuất sau trình xử lý ảnh Lựa chọn kết xuất PDF theo khổ A4 A5 theo kích thước ảnh gốc Kết bước xử lý ảnh kiểm tra chất lượng sau quét hình ảnh tài liệu gốc, phiên làm việc hình ảnh xử lý Nhận dạng ký tự quang học: - Thiết lập cấu hình đầu vào đầu sau nhận dạng Lựa chọn định dạng đầu phù hợp với nhu cầu (PDF/A, doc, txt, xml ) Thiết lập thư mục liệu vào nhận diện tự động (thư mục file đầu vào) chương trình tự động nhận diện file nằm thư mục Kết bước nhận dạng ký tự quang học phiên làm việc mới, hình ảnh tài liệu gốc, hình ảnh tài liệu xử lý, siêu liệu cập nhật kết nhận dạng ký tự quang học Kiểm tra chất lượng lần cuối Lưu trữ: Kiểm tra chất lượng lần cuối trình xử lý, tài liệu đưa vào lưu trữ hình ảnh gốc lưu trữ tài liệu xử lý Kết bước lưu trữ phiên làm việc mới, hình ảnh tài liệu gốc, tài liệu xử lý, siêu liệu bổ sung, tài liệu nhận dạng ký tự quang học Quản lý, khai thác tài liệu số: Thường để tìm tài liệu số, nội dung số mong muốn khó nhiều thời gian, ngồi việc tìm tài liệu số dạng âm thanh, hình ảnh thử thách Chính để tìm kiếm tài liệu số, nội dung số cần phải quản lý phần mềm tìm kiếm định dạng file âm thanh, hình ảnh, pdf, word, video…Bạn đọc truy cập từ nơi thiết bị có nối mạng internet trình duyệt - 2.3 Các yêu cầu kế hoạch ngân sách cho số hóa tài liệu Thực dự án số hóa cần cân đối chất lượng số hóa ngân sách cho dự án số hóa Yêu cầu chất lượng số hóa quy mơ lớn đồng nghĩa với việc cần có ngân sách lớn cho vấn đề số hóa Các bên yêu cầu số hóa cần cân đối ngân sách đầu tư thiết bị số hóa chuyên dụng tự động, thiết bị số hóa thủ cơng, phần mềm xử lý ảnh, phần mềm nhận dạng ký tự quang học giải pháp lưu trữ để đảm bảo kết cuối đưa vào chia sẻ, tổ chức khai thác cách hiệu Qua thấy việc chuyển đổi sang tài liệu số cần phải thay đổi nhiều sách khác quản lý thiết bị, quản lý tài nguyên, quản lý người, đào tạo chuyên mơn để đạt u cầu mơi trường làm việc Cần tìm giải pháp tồn diện số hóa tài liệu giải yêu cầu Giải pháp cụ thể số hóa tài liệu Một giải pháp tồn diện số hóa tài liệu từ hãng Treventus – Cộng hòa Áo tuân thủ đầy đủ yêu cầu trên: bên cạnh thiết bị số hóa có giải pháp phần mềm xử lý ảnh, quản lý luồng công việc quản lý tài nguyên số Hệ thống phần cứng ScanRobot: hệ thống máy số hóa chọn cho hệ thống chạy chế độ thích hợp với loại tài liệu cần số hóa, quét tài liệu tự động, quét tài liệu bán tự động hay quét tài liệu thủ công Giải pháp quét tài liệu tự động sử dụng cơng nghệ qt lăng kính, ống kính quét chuyên dụng nằm bên đầu lăng trụ mà khơng sử dụng camera chụp ảnh đóng mở kiểu cửa trập giúp độ bền lâu Hệ thống áp dụng cơng nghệ lật giở trang khí (air-flow) mà không sử dụng thêm chi tiết kẹp giữ trang kính (glass plate), kẹp trang (clamp) Sử dụng dòng khí để chia tách trang, lật giở trang tự động, sử dụng sóng siêu âm phát dính trang, có khả phát lật giở nhiều trang lúc Có hệ thống an tồn trang tự động dừng hoạt động gặp vật cản cố Các dòng khí, phát dính trang, hệ thống an tồn điều chỉnh phần mềm Thời gian đặt sách lên giá thay sách nhanh chóng, máy khơng cần đến hiệu chỉnh tiêu cự trình quét Các cố định, cố định có gắn nam châm dùng để giữ bìa sách cứng bìa sách mềm giá sách chữ V, góc mở 60 độ đến 100 độ gây hại tới sách Scan sách có độ dày lên tới 15cm mà không giới hạn trọng lượng sách Có thể triển khai kết hợp máy trạm xử lý ảnh hệ thống Scan tài liệu (tăng tiến độ số hoá cao) Phần mềm xử lý hình ảnh ScanGate: Phần mềm có đầy đủ chức xử lý hình ảnh, chỉnh sửa ảnh giống phần mềm xử lý đồ họa chuyên nghiệp, cho phép xử lý ảnh với tính xử lý ảnh mạnh mẽ Tốc độ xử lý hình ảnh nhanh Có thể nhập siêu liệu (metadata) q trình xử lý sử dụng tích hợp với với máy quét loại khác Các chức xử lý ảnh phần mềm đồ họa chuyên nghiệp: cắt xén ảnh (croping), xoay ảnh; dựng thẳng ảnh (deskewing); thay đổi (làm đồng loại bỏ nền); thay đổi kích thước ảnh; loại bỏ nhiễu ảnh; điều chỉnh sáng/tối; điều chỉnh độ sắc nét, tương phản; thay đổi định dạng ảnh; gộp trang, tách trang… Phần mềm quản lý quy trình số hóa tài liệu ScanFlow: Phần mềm hỗ trợ quản lý, thực quy trình xử lý tự động, đem lại hiệu cao công việc Phân luồng công việc cho cá nhân thực cơng tác số hóa, phân luồng thiết bị tham gia vào trình số hóa Tự động xử lý khép kín quy trình cơng việc số hóa cho tài liệu bao gồm: xử lý ảnh, lưu trữ, kiểm soát chất lượng, nhận dạng ký tự quang học, kết xuất file liệu Xử lý hình ảnh trình nhận dạng (có khả tương tác với phần mềm nhận dạng ký tự quang học) kết xuất tài liệu hoàn toàn tự động Phần mềm nhận dạng ký tự quang học OCR: Phần mềm xử lý nhận dạng ký tự quang học 190 ngôn ngữ khác bao gồm tiếng Việt với độ xác 90% tùy theo chất lượng tài liệu; có từ điển hỗ trợ trình nhận dạng (bao gồm tiếng việt); khả tùy chọn cho liệu đầu ra: DOC/DOCX/XLS/XLSX/ PDF/ PDF/A/ HTML/ TXT/ CSV…; tự động xử lý 24/7; cung cấp giao diện soát sửa lỗi văn sau nhận dạng… Phần mềm quản lý tài nguyên số Nainuwa: Phần mềm quản lý sưu tập số khổng lồ bao gồm định dạng: pdf, text, image, video, audio…; cung cấp quyền truy cập khai thác, xuất nguồn tài nguyên số mà quản lý (các sưu tập số); giải vấn đề liên quan đến quản lý tập trung sưu tập rời rạc Truy cập nơi, lúc thiết bị cá nhân, điện thoại thơng minh Cơ chế truy tìm linh hoạt có khả đáp ứng yêu cầu tìm kiếm đơn giản phức tạp: tìm kiếm theo chủ đề, từ khóa, tìm kiếm tồn văn tìm kiếm ngữ nghĩa; dễ dàng trao đổi chia sẻ; ghi nhận thói quen, lịch sử tìm kiếm người dùng tin để từ xây dựng thống kê, báo cáo: tần suất truy cập, loại tài liệu, chủ đề, từ khóa sử dụng người dùng tin làm sở cho nhà quản lý xây dựng sách phát triển, tạo lập kho tài nguyên số đáp ứng xác nhu cầu người dùng tin Phần mềm truy cập từ nhiều trình duyệt khác từ Internet Explorer, Firefox, Chrome, Safari, Bing…Phần mềm chia sẻ lên nhiều mạng xã hội từ Facebook, Twiter, Goolge Plus…hay hỗ trợ nhiều ngôn ngữ khác điều chỉnh giao diện theo đơn vị KẾT LUẬN Sự phát triển mạnh cơng nghệ số hố làm cho số lượng tài liệu số gia tăng mạnh mẽ Bên cạnh đó, phát triển thư viện điện tử, thư viện số xu tất yếu, diễn mạnh mẽ quan thông tin thư viện Các nước phát triển giới làm việc với công nghệ tiên tiến tới thời điểm Việt Nam tiếp cận sử dụng để tiến tới theo kịp với thời đại Số hóa tài liệu, vấn đề thời hoạt động thông tin thư viện nước quan tâm Việc triển khai hiệu công việc phụ thuộc nhiều vào lựa chọn giải pháp số hóa đặc biệt dự án số hóa quy mơ lớn TÀI LIỆU THAM KHẢO Cơng ty Nam Hồng, Thư viện Đại học Vinh (2011), Kỷ yếu hội thảo Ứng dụng nguồn học liệu tiên tiến tài liệu điện tử, thư viện số - Tầm nhìn tương lai, Thư viện Đại học Vinh, Vinh, ngày 14/05/2011 Cơng ty Nam Hồng, Liên chi hội thư viện đại học phía nam, Thư viện Trường Đại học Nha Trang (2015), Kỷ yếu hội thảo Giải pháp xây dựng, quản lý, khai thác xuất nguồn tài nguyên thông tin số - thực tiễn triển khai Việt Nam kinh nghiệm quốc tế, Thư viện Trường Đại học Nha Trang, Nha Trang, ngày 24-25/4/2015 Nguyễn Huy Chương (2009), Xây dựng thư viện điện tử phát triển nguồn tài nguyên số hệ thống thư viện đại học Việt Nam Kỷ yếu Hội thảo Khoa học Phát triển chia sẻ nguồn tài nguyên số thư viện đại học nghiên cứu 4 Nguyễn Hoàng Sơn (2011), Thư viện số: Hai thập kỷ phát triển giới học kinh nghiệm định hướng phát triển cho Việt Nam, Thông tin Tư liệu, số 2, tr 2-20 Lê Đức Thắng (2009), Quy trình tổ chức số hóa tài liệu thư viện, Tạp chí Thư viện, số 3, tr 24-30 http://www.treventus.com/index.html Giải pháp số hóa quy mơ lớn, Truy cập ngày 22/11/2016 ... khoảng 10 năm trở lại Nhiều đơn vị chủ động số hóa tài liệu để phục vụ nhu cầu đông đảo bạn đọc mà tài liệu truyền thống đáp ứng, phục vụ Trong đơn vị chủ động số hóa phải kể đến đơn vị đầu Trung. .. cứu 4 Nguyễn Hoàng Sơn (201 1), Thư viện số: Hai thập kỷ phát triển giới học kinh nghiệm định hướng phát triển cho Việt Nam, Thông tin Tư liệu, số 2, tr 2 -20 Lê Đức Thắng (200 9), Quy trình tổ chức... Thư viện Đại học Vinh (201 1), Kỷ yếu hội thảo Ứng dụng nguồn học liệu tiên tiến tài liệu điện tử, thư viện số - Tầm nhìn tương lai, Thư viện Đại học Vinh, Vinh, ngày 14/05 /201 1 Cơng ty Nam Hồng,