Nội dung của bài viết trình bày tổ chức số hóa nguồn tài liệu truyền thống bằng các thiết bị số hóa; mua tài liệu điện tử từ các nhà cung cấp, nhà xuất bản hay các cá nhân thông qua trao đổi; truy cập khai thác tài liệu từ việc liên kết đến các nguồn tài nguyên số có cùng chủ đề, nội dung trên Internet.
XÂY DựNG QUY TRìNH Số HOá TƯ LIệU TạI THƯ VIệN KHOA HọC Xã HộI Phùng Thị Bình(*) Cùng với phát triển ứng dụng rộng rãi công nghệ thông tin truyền thông, th viện kỹ thuật số phát triển mạnh mẽ mục tiêu hầu hết th viện giới Đây xu hớng tất yếu thời đại ngày mà nhu cầu mong muốn ngời dùng tin ngày cần nhanh xác mức độ cao hơn; vấn đề bảo quản, lu trữ gặp nhiều khó khăn đòi hỏi phải ứng dụng khoa học công nghệ; việc tìm kiếm th viện truyÒn thèng cã nhiÒu bÊt cËp, mÊt nhiÒu thêi gian cần đến hỗ trợ máy móc đại; áp lực từ dịch vụ thông tin bên môi trờng th viện gia tăng Th viện kỹ thuật số đời nh giải pháp tối u giải vấn đề khó khăn Một mặt, đợc xem nh trung tâm thu thập sản sinh nhiều tài nguyên thông tin khác nhau, mặt khác nơi tìm kiếm truy xuất thông tin, cung cấp dịch vụ thông tin chuyên biệt mức độ cao, không giới hạn thời gian không gian Hơn nữa, với khả lu trữ khối lợng lớn tài nguyên thông tin, chuyển giao tài nguyên nhiều phơng tiện khác nhau, th viện kỹ thuật số cần đợc trang bị hệ thống thiết bị, máy móc, phần mềm đại, chuyên nghiệp, hạ tầng mạng tốt; tích hợp tổ chức có hệ thống su tập số làm nguồn tài nguyên; đào tạo cán th viện ngời dùng tin để thích ứng với môi trờng làm việc, phục vụ kỹ thuật số.(*) Ngày nay, nhiều quốc gia giới bớc thay đổi phơng thức phục vụ bạn đọc th viện, phát triĨn th− viƯn kü tht sè Th− viƯn kü tht số đợc phát triển theo mạng lới tạo thành hệ thống có phân cấp mức độ quản lý nhằm mục đích chia sẻ nguồn lực thông tin, liên thông th viện Các su tập số đợc tích hợp mạng mở khả tiếp cận dễ dàng với ngời dùng Điển hình nh hệ thống thông tin th viện kỹ thuật số trờng đại học ë Trung Quèc (China Academic Digita Libraries & Information System - CADLIS) CADLIS đợc Chính phủ Trung Quốc đầu t hoạt động dới quản lý Bộ Giáo dơc Trung Qc CADLIS mang (*) ThS., ViƯn Th«ng tin Khoa học xã hội 40 sứ mệnh đẩy mạnh, trì cải tiến chia sẻ nguồn lực th viện th viện trờng đại học, quan thông tin sở đào tạo Trung Quốc CADLIS đợc nỗ lực xây dựng với nhiều hạ tầng mở phân tán Nguồn tài nguyên bao gồm sở liệu (CSDL) tạp chí điện tử, đề cơng luận án, sách điện tử, trích CSDL th mục Quốc gia Các dịch vụ CADLIS th viện thành viên mô hình th− viƯn kü tht sè lÜnh vùc gi¸o dơc dựa mua CSDL liên kết, th mục liên hợp, cho mợn liên th viện chia sẻ tài liệu Trong thời gian năm, năm 1996, CADLIS thành lập cấp quản lý gồm cổng quốc gia, trung tâm thông tin khu vực, 400 th viện thành viên Đồng thời, CADLIS thiết lập mạng lới nguồn lực thông tin kết hợp với nguồn lực tự xây dựng cách tốt để tạo sở cho th viện kỹ thuật số, phân bố tới hàng nghìn trờng đại học Với mục tiêu cung cấp dịch vụ cho giáo dục bậc cao, nghiên cứu khoa học, đặc biệt phục vụ ngành trọng điểm, CADLIS trọng đến xây dựng ứng dụng kỹ thuật tiên tiến vào th viện kỹ thuật số Trung Quốc Đến cuối năm 2005, nguồn tài nguyên số CADLIS bao gồm 30.000 tên tạp chí Trung Quốc phơng Tây, 20 triệu biểu ghi tạp chí, triệu liệu th− mơc, triƯu biĨu ghi tµi liƯu mơc lục liên hợp trực tuyến, triệu luận văn toàn văn, 30.000 đầu sách điện tử, có 600 th viện thành viên [1] Việt Nam, Th viện Quốc gia Việt Nam th viện đầu phát triển th viện kỹ thuật số, bớc đầu bạn đọc sử dụng th viện mạng Cho đến nay, Th viện Quốc gia tạo Thông tin Khoa học xã hội, số 7.2013 lập đợc hệ thống su tập số bao gồm: Sách đơn: 324.651 tên, Sách tập: 83.404 cuốn, Bài trích: 30.001 bài, Luận án: 19.615 bản, Sách bộ: 9.096 cuốn, Tạp chí: 6.401 cuốn, Nghiên cứu: 1.746 cuốn, Media: 1.538 đĩa, ảnh: 1.417 ảnh, Bản đồ: 929 bản, Báo: 778 sè,… [5] Mét sè bé s−u tËp sè cã thể tra cứu mạng, là: Sách Đông Dơng (http://dl.nlv.gov.vn/sachdongduong), Sách Hán Nôm (http://nom.nlv.gov.vn), Luận án Tiến sĩ (http://dl.nlv.gov.vn/luanan) Giải pháp xây dựng th viện kỹ thuật số Th viện Quốc gia trình xây dựng phát triển nhng phần chứng tỏ đợc tiện ích ngời dùng nh đọc tài liệu đâu thông qua mạng Internet, không giới hạn thời gian, tiết kiệm không gian, mở rộng đối tợng phục vụ bạn đọc, đa truy cập (cùng tài liệu, thời điểm phục vụ đợc nhiều ngời), tiếp cận tài liệu theo cấu trúc, tìm kiếm thông tin nhanh linh hoạt, đóng vai trò quan trọng bảo quản bảo tồn tài liệu Hiện tại, nguồn tài liệu số hóa toàn văn Th viện Quốc gia lớn có khả tiếp tục gia tăng mạnh mẽ thời gian tới với dự án số hóa lớn đợc triển khai, với liên kết hợp tác với nhà xuất Nếu th viện trun thèng phơc vơ ng−êi dïng tin dùa vµo vèn tài liệu truyền thống, th viện kỹ thuật số đáp ứng nhu cầu tin nguồn tài nguyên số thông qua giao diện Web Các su tập số đợc tích hợp, quản trị thông qua hệ thống phần mềm th viện đại đợc xây dựng theo cách sau: 41 Xây dựng quy trình số hóa Thø nhÊt, tỉ chøc sè hãa ngn tµi liƯu trun thống thiết bị số hóa Thứ hai, mua tài liệu điện tử từ nhà cung cấp/xuất hay cá nhân thông qua trao đổi Thứ ba, truy cập khai thác từ việc liên kết đến nguồn tài nguyên số có chủ đề, nội dung Internet [3, 150] Trong đó, cách thứ đợc th viện triển khai nhiều nhất, đồng thời cách xây dựng đợc su tập đầy đủ Bởi lẽ, th viện có su tập tài liệu thể sắc riêng, đặc thù riêng Nội dung su tập thể nét đặc sắc mang giá trị lịch sử, văn hóa, nhân văn quốc gia (các su tập cổ, quý hiếm, độc bản), mang giá trị nghiên cứu khoa học cao cần đợc chia sẻ rộng rãi Mặt khác, phần lớn tình trạng vật lý su tập ngày xuống cấp, chí có nguy phục chế, cần có biện pháp khắc phục Trong trình xây dựng su tập số, th viện tìm kiếm giải pháp công nghệ phù hợp trạng tài liệu nhằm mục đích đạt chất lợng cao Hiện nay, thiết bị số hóa tài liệu đợc nhiều nhà sản xuất nghiên cứu đa thị trờng, lựa chọn giải pháp nào, thiết bị phụ thuộc vào tình trạng vật lý su tập tài liệu gốc Vì vậy, phận số hóa th viện nên trang bị đa dạng thiết bị số hóa, từ thiết bị sử dụng thủ công nh máy ảnh, máy scan theo khổ cỡ khác đến thiết bị số hóa tự động nh Scanrobot, Kitar, dòng máy Bookeye, Các thiết bị số hóa tự động có phần mềm xử lý kèm nên sản phẩm đầu đồng chất lợng Đối với thiết bị số hóa thủ công, sau chụp ảnh scan tài liệu, th viện cần lựa chọn phần mềm thích hợp để xử lý thành tài liệu số Hiện nay, nhiều th viện thành lập phận số hóa tài liệu Công việc số hóa đợc tiến hành theo quy trình cụ thể Đầu vào quy trình tài liệu gốc, đầu tài liệu số quy trình áp dụng cho hệ thống số hóa đại nh thủ công (Hình 1) Đối với thiết bị số hóa đại, tự động, quy trình gần Đầu vào Tài liệu gốc nh đợc thực khép kín từ khâu đầu vào đến Quét/chụp khâu đầu Việc số hóa theo phơng pháp thủ Xử lý ảnh công tuân theo quy trình hình nhng có Chuyển dạng thể tách thành công đoạn Nhận dạng/ để cán làm tạo siêu việc theo chuyên liệu môn hóa cán Đầu đảm nhận Tài liệu số công đoạn quy trình Phơng pháp chuyên môn hóa cho kết nhanh chất lợng không thiết bị số hóa tự động Tuy nhiên, vấn đề thực quy trình số hóa lúc đầy đủ bớc nh sơ đồ hình Đối với nhiều tài liệu số hóa, công đoạn nhận dạng/tạo siêu Hình 1: Quy trình số hóa 42 liệu cho tài liệu không thực đợc tài liệu viết tay, tài liệu chữ tợng hình (chữ Hán, Nôm, Nhật, sắc phong,) cha có phần mềm hỗ trợ nhận dạng đợc tính phức tạp cấu tạo chữ viết Do vậy, tài liệu số hóa chuyển dạng ảnh tệp PDF thông thờng (chỉ có siêu liệu cấu trúc), liệu tìm kiếm biên mục có sẵn CSDL Đây vấn đề mà ngời làm công tác số hóa mong muốn tìm giải pháp khắc phục Hiện nay, tài liệu viết tay, tài liệu Hán cổ, Nhật cổ, Nôm, đồ, sắc phong, có số lợng lớn tài liệu cổ, có giá trị mặt văn hóa, lịch sử lại không nhiều (thậm chí có nhất) nên th viện cần có phơng án bảo vệ, bảo quản, lu giữ an toàn Sau số hóa cần đặc biệt quan tâm đến việc tạo siêu liệu cho tài liệu số, thông tin không để tìm kiếm mà khẳng định quyền quan lu trữ tài liệu, tài sản thuộc quốc gia Đây vấn đề mà th viện giải đợc Th viện Khoa học xã hội (Th viện KHXH) đợc kế thừa khối lợng tài liệu lớn từ Học viện Viễn Đông Bác cổ Pháp (EFEO) Đây nguồn tài liệu quý, có su tập độc Việt Nam Hiện Th viện KHXH có 160 tập thần tích, thần sắc khoảng 9.000 làng Việt (với khoảng 230.000 trang t liệu viết tay), 1.225 hơng ớc đợc viết chữ Hán, chữ Nôm, bút lông giấy dó, có khoảng 50 văn soạn vào kỷ XVIII-XIX Hơn 5.000 hơng ớc chữ Quốc ngữ, viết tay Hơn 3.000 kê chữ Hán, chữ Nôm dạng văn hóa làng xã nh thần sắc, Thông tin Khoa học xã hội, số 7.2013 văn bia, địa bạ, khoản lệ, Và kê địa danh làng xã năm 1923 hầu hết tỉnh, thành nớc Trong kho đồ lu giữ khoảng 1.900 tên đồ loại, có hàng ngàn đồ Việt Nam Đông Dơng Bản đồ Trung Quốc có 200 loại, có đồ đợc vẽ in sớm từ 1584 Có nhiều đồ đợc coi quý nh đồ Hà Nội năm 1831, 1873, đồ Sài Gòn 1902, đồ địa giới, lãnh hải, Tại Th viện KHXH, học giả EFEO su tầm đợc 400 sắc phong triều Nguyễn triều đại phong kiến thời trớc, cổ mà Th viện KHXH có đợc vào kỷ XVI Bên cạnh đó, Th viện KHXH lu giữ kho ảnh gồm khoảng 40.000 ảnh Việt Nam Đông Dơng Kho ảnh đợc hình thành chủ yếu từ công trình nghiên cứu nhà sử học, kiến trúc s, khảo cổ học, dân tộc học, ngời Pháp ngời Việt Nam Một phần khác ảnh công chức thuộc quan hành thuộc địa cung cấp Một số lợng lớn tài liệu sách báo chí ấn với gần 500.000 sách, 2.000 loại báo tạp chí tiếng Việt tiếng nớc Bộ su tập sách Nhật B¶n cỉ cã 11.000 b¶n, Trung Qc cỉ cã 31.000 bản, sách Latin cổ có 30.000 bản, sách cổ th viện có niên đại từ kû XIV [2, 7-9] HiƯn nay, t¹i Th− viƯn KHXH, tài liệu đa vào số hóa đợc cân nhắc lựa chọn từ su tập tài liệu cổ, có giá trị mặt nghiên cứu khoa học, văn hóa, lịch sử (chủ yếu su tập EFEO bàn giao lại) Những tài liệu chủ yếu có tuổi đời 60 năm Qua nhiều năm phục vụ độc giả chịu tác động yếu tố tự nhiên Xây dựng quy trình số hóa nên tài liệu bị xuống cấp nh bị gãy, giòn chí bị rách nát (đối với tài liệu in), nhiều bị nhòe chữ, chữ, bong gáy, mục (đối với tài liệu viết tay) Trớc thực tế đó, nghiên cứu quy trình thực số hóa đảm bảo chất lợng tài liệu số, an toàn cho tài liệu gốc, hạn chế đến mức thấp tác động trực tiếp đến tài liệu phơng án khả thi Bởi, chuyển thành dạng tài liệu số lúc phục vụ đợc nhiều độc giả, hạn chế tác động trực tiếp tíi tµi liƯu gèc vµ cã thĨ phơc chÕ, in lại trờng hợp cần thiết Từ năm 2008, chơng trình hợp tác Th viện Quốc gia Anh, Đại học Temple (Mỹ) Th viện KHXH, dự án nghiên cứu phơng pháp số hóa tài liệu cổ quý đợc đề xuất Đến năm 2009, dự án thức vào nghiên cứu thử nghiệm su tập Hán Nôm Nhóm số hóa Th viện đợc thành lập gồm thành viên, làm việc chuyên gia đến từ Đại học Temple suốt năm gặp nhiều khó khăn thời gian đầu Trớc hết nghiệp vụ cán bộ, hầu nh cha đợc đào tạo nghiệp vụ số hóa thực tế đơn vị khác Thứ hai, sách đa vào thử nghiệm đợc in giấy dó cổ xuống cấp nghiêm trọng, nên cần nghiên cứu phơng pháp an toàn cho tài liệu Thứ ba, phần mềm lựa chọn để xử lý Adobe Photoshop đợc lựa chọn để xử lý tài liệu khả xử lý ảnh đồng loạt (tiêu chí nhóm số hóa đặt trang sách mặt thẩm mỹ phải có kích thớc đợc trình bày giao diƯn Web) Thø t−, nhãm sè hãa ch−a t×m giải pháp tạo siêu liệu cho tài liệu số Hán 43 Nôm cha có phần mềm hỗ trợ Ngoài ra, nhóm gặp nhiều khó khăn khác Trong trình nghiên cứu thử nghiệm, nhóm số hóa Th viện KHXH bớc giải đợc vấn đề khó khăn gặp phải tiến hành xây dựng su tập số Hán Nôm nh sau: - Về chuẩn mô tả tài liệu số, nhóm sè hãa lùa chän Dublin Core gåm 15 tr−êng m« tả Đây chuẩn mô tả tài liệu số đợc nhiều chuyên gia đánh giá cao tính linh hoạt tiện lợi Hiện nay, Dublin Core đợc nhiỊu th− viƯn trªn thÕ giíi lùa chän - ThiÕt bị số hóa: lựa chọn máy ảnh Sony alpha 350 để chụp ảnh, sử dụng bàn chữ V tự thiết kế để kê kẹp sách Sử dụng máy ảnh giảm thiểu tác động trực tiếp lên sách, chất lợng ảnh cao, trung thực nh màu sách thực Sử dụng bàn chữ V có khe kẹp gáy sách để cố định không để sách dịch chuyển Kỹ thuật chụp ảnh đảm bảo hình ảnh đạt độ trung thực màu sắc độ nét cao Nhóm số hóa hớng đến mục tiêu ảnh số trang ảnh giữ nguyên tính lịch sử tài liệu gốc có tính chất bảo tồn - Phần mềm xử lý ảnh, nhóm số hóa nghiên cứu, tìm hiểu lựa chọn Adobe Photoshop Lightroom Đây phần mềm miễn phí giúp nhóm số hóa giải nhiều vấn đề khó khăn kỹ thuật số hóa: + Adobe Photoshop Lightroom cho phép cẩn siêu liệu vào ảnh, thông tin Metadata cho phép nhập đảm bảo khả tìm kiếm thông tin tiêu chí nh mã sách, tên sách, chủ đề, tình trạng tài liệu, ngời thực hiện, quan thực hiện, th«ng tin 44 Th«ng tin Khoa häc x· héi, sè 7.2013 quyền, logo th viện chìm, Các thông tin cẩn vào ảnh dừng lại mức độ thông tin biên mục nhng điều vô quan trọng Có lớp liệu files tài liệu dạng ảnh đợc chuyển thành files tài liệu số, tài liệu xuất đâu (không kèm trờng mô tả), ngời đọc biết đợc mã tài liệu, nhan đề, chủ đề, vị trí tài liệu thc vỊ th− viƯn nµo, qc gia nµo HiƯn nay, phần mềm nhận dạng cha tạo đợc siêu liệu cho tài liệu viết tay, tài liệu chữ tợng hình sử dụng chức Metadata Adobe Photoshop Lightroom giải pháp tốt Tuy siêu liệu tìm kiếm không đạt đợc đến mức tìm kiếm đến ký tự văn nh phần mềm nhận dạng nhng phần giải đợc khó khăn công tác số hóa Đây thành công quan trọng mà nhóm số hóa Th viện làm đợc (http://vietcenter.temple.edu/issi/issi_lib php) Các thông tin Dublin Core đợc kết nối đến trang sách đây, ngời dùng xem danh mục toàn CSDL theo sách Các chức tìm kiếm theo nhan đề, tác giả, chủ đề, từ khóa + Adobe Photoshop Lightroom có khả xử lý ảnh đồng loạt Các ảnh sau xử lý có kích thớc, độ phân giải, mang lại hiệu thẩm mỹ cao Qua trình xây dựng su tập Hán Nôm, nhóm số hóa hoàn thành CSDL số Hán Nôm với 2.056 cuốn, 245 số hóa toàn văn lại số hóa trang Tổng số trang tài liệu số xấp xỉ 50.000 trang, biên mục theo chuẩn Dublin Core 2.056 biểu ghi Trên biểu ghi trình bày với ngôn ngữ: tiếng Việt, tiếng Anh ngôn ngữ tài liệu sử dụng (Hán, Nôm, Nhật) Trong trình biên mục, số khó khăn nhập chữ Hán Nôm (do nhiều chữ cổ cha có font Unicode) đợc chuyên gia ngôn ngữ nghiên cứu Nôm học Đại học Temple (Mỹ) hỗ trợ Hiện nay, bạn đọc tra cứu su tập Hán Nôm địa chỉ: http://vietcenter.temple.edu/issi/issi_lib php + Adobe Photoshop Lightroom cho phép đặt tên trang ảnh nh đánh số trang cho sách Ngoài ra, nhóm số hóa sử dụng thêm phần mềm tự lập trình nh webresize.php webthumbs.php để giảm kích thớc dung lợng ảnh mà giữ đợc thông tin Metadata cẩn ảnh - Bộ su tập Hán Nôm đợc trình bày giao diện Web, trang sách đợc trình bày theo trình tự đọc sách Hán cổ, Nôm cổ Giao diện web CSDL số Hán Nôm 45 Xây dựng quy trình số hóa Phát triển th viện kỹ thuật số vấn đề tất yếu hầu hết th viện Để tránh tình trạng lạc hậu, th viện cần nhanh chóng chuẩn bị điều kiện cần thiết sở vật chất, kỹ thuật, nguồn tài nguyên thông tin số, ngời với đầy đủ kiến thức để hoạt động môi trờng kỹ thuật số Sau trình nghiên cứu thử nghiệm, cho công tác số hóa tài liệu th viện quan trọng Mỗi th viện cần có trung tâm số hóa Trung tâm không thực công tác số hóa mà có trách nhiệm lu trữ, bảo quản su tập số; nghiên cứu vấn đề khoa học hoạt động số hóa Bên cạnh đó, trung tâm số hóa có nhiệm vụ học hỏi thực tiễn hoạt động số hóa trung tâm khác (cả nớc) để nhanh chóng ứng dụng giải pháp vào hoạt động trung tâm Cán hoạt động trung tâm số hóa phải luôn cập nhật kiến thức công nghệ thông tin để không bị lạc hậu Đối với dạng tài liệu chất lợng tài liệu khác cần lựa chọn phơng pháp số hóa khác Mục tiêu cuối hoạt động số hóa đạt đến chất lợng sản phẩm số tốt đảm bảo an toàn cho tài liệu gốc mức cao Đối với tài liệu cổ, có giá trị cần đảm bảo an toàn không tình trạng vật lý mà đảm bảo chúng không bị đa số hóa Phơng pháp tạo siêu liệu chức phần mềm Adobe Photoshop Lightroom cách bảo vệ tài liệu trờng hợp bị mất, siêu liƯu nµy chÝnh lµ chøng cø chøng minh tµi liƯu thuộc quyền th viện TàI LIệU THAM KH¶O Feng Ying (2005), Buiding China Academic Digital, http://iadlc.nul.nagoyau.ac.jp/archiv es.html Hå SÜ Q (2011), “VỊ mét Th− viƯn Khoa häc x· héi tÇm cì khu vùc” Th− viÖn Khoa häc x· héi, Nxb Khoa häc x· héi, Hà Nội Trần Thị Quý (2011), Số hóa tài liệu - từ nhận thức đến triển khai đào tạo khoa Thông tin th viện, trờng Đại học Khoa học xã hội & Nhân văn, Hội nghị - hội thảo: Xây dựng chia sẻ nguồn lực thông tin địa phơng dạng số phục vụ bảo tồn di sản phát triển kinh tế - xã hội, Hà Nội http://www.calis.edu.cn http://www.nlv.gov.vn http://www.iadlc.nul.nagoya-u.ac.jp/ ... viƯn thành lập phận số hóa tài liệu Công việc số hóa đợc tiến hành theo quy trình cụ thể Đầu vào quy trình tài liệu gốc, đầu tài liệu số quy trình áp dụng cho hệ thống số hóa đại nh thủ công... chuyên liệu môn hóa cán Đầu đảm nhận Tài liệu số công đoạn quy trình Phơng pháp chuyên môn hóa cho kết nhanh chất lợng không thiết bị số hóa tự động Tuy nhiên, vấn đề thực quy trình số hóa lúc... Nôm đợc trình bày giao diện Web, trang sách đợc trình bày theo trình tự đọc sách Hán cổ, Nôm cổ Giao diện web CSDL số Hán Nôm 45 Xây dựng quy trình số hóa Phát triển th viện kỹ thuật số vấn đề