Tổng quan về kỹ thuật số hóa

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu triển khai số hóa tài liệu lưu trữ đang bảo quản tại cục lưu trữ quốc gia lào (Trang 35)

CHƢƠNG 1 : TỔNG QUAN VỀ SỐ HÓA TÀI LIỆU LƢU TRỮ

1.4 Tổng quan về kỹ thuật số hóa

Kỹ thuật số hóa là việc áp dụng những tri thức, các phương pháp, phương tiện, thiết bị điện tử phù hợp để chuyển đổi thông tin dạng tương tự (analog) sang dạng số (digital). Mục đích của phần này, chúng tôi TIEU LUAN MOI download : skknchat@gmail.com

38

muốn tập hợp một số vấn đề kỹ thuật cơ bản trong việc số hóa tài liệu lưu trữ trên vật mang tin bằng giấy, chủ yếu tập trung trong việc áp dụng máy quét phẳng (Flatbed Scanner) để số hóa tài liệu lưu trữ. Vì máy này có khả năng áp dụng vào việc số hóa tài liệu lưu trữ đang bảo quản tại Cục Lưu trữ Quốc gia Lào mà luận văn sẽ hướng tới.

Về cơ bản trước khi chuyển đổi thông tin từ tài liệu lưu trữ dạng truyền thống sang dạng số, chúng ta cần tìm hiểu, lưu ý về một số vấn đề kỹ thuật như: các loại máy quét/ máy chụp ảnh số, kỹ thuật quét tài liệu lưu trữ, xác định độ phân giải đầu vào, đầu ra cần thiết của tài liệu… được áp dụng trong lĩnh vực lưu trữ. Những vấn đề này sẽ được khái quát lần lượt dưới đây.

1.4.1 Một số loại máy quét và máy chụp ảnh số

Hiện nay, để số hóa tài liệu ở dạng truyền thống sang dạng số có thể được thực hiện một cách dễ dàng với nhiều thiết bị như: máy quét, máy chụp ảnh (camera số) và các thiết bị điện tử khác gắn tính năng chụp ảnh. Trong lĩnh vực lưu trữ, thư viện và bảo tàng thì máy quét và máy chụp ảnh số vẫn là hai thiết bị chính được áp dụng để số hóa tài liệu. Do sự phát triển, cải tiến thiết bị cho phù hợp với các đối tượng sử dụng khác nhau đã tạo nên nhiều loại máy quét và máy chụp ảnh số khác nhau với các tính năng ưu điểm và hạn chế riêng.

+ Đối với máy quét (scanner) có một số loại chủ yếu được sử dụng trong lĩnh vực lưu trữ như:

- Máy quét phẳng (Flatbed Scanner), còn được gọi là máy quét để bàn, là loại máy đa năng và được sử dụng phổ biến nhất, phù hợp với tài liệu có kích thước khơng lớn, giá thành thấp, chất lượng tương đối cao. Tuy nhiên, không phù hợp với tài liệu có tình trạng vật lý kém, dễ bị rách hoặc hư hỏng nặng vì có khả năng làm hư hỏng thêm với tài liệu trong quá trình quét, vận hành bằng tay.

39

Hình 1.6: Máy quét phẳng –Flatbed Scanner

- Máy quét Overhead Flatbed Scanner, được sử dụng rộng rãi để quét quyển sách, tài liệu có tình trạng hư hỏng như: giấy dễ bị rách, uốn cong…

Hình 1.7:Máy quét Overhead Flatbed Scanner

+ Đối với máy ảnh số (Digital Camera) được sử dụng trong ngành lưu trữ là loại máy được thiết kế với sự kết hợp giữa máy quét và máy ảnh số. Chúng có hình dáng giống như máy quét overhead scanner nhưng chúng khác nhau về phương pháp, nguyên lý thu ảnh. Bộ phận của máy ảnh số có thể dịch chuyển được để thu hình tài liệu cho phù hợp với khổ giấy và có nguồn cung cấp ánh sáng. Do đó máy ảnh số có thể chụp ảnh tài liệu với bất kỳ cỡ giấy. Chúng được sử dụng với tài liệu có kích thước lớn hoặc tài liệu dễ bị rách. Tuy nhiên, để đạt chất lượng ảnh cao đòi hỏi kinh nghiệm, tay nghề cao và cần nguồn ánh sáng nhiều. Đôi khi nguồn ánh sáng nhiều như vậy có thể gây hư hỏng tài liệu do tác động của quang học vào bề mặt tài liệu, mực dẫn đến tài liệu bị giịn, phai mực... Vì vậy, trước khi sử dụng phương tiện này cần lựa chọn tài liệu phù hợp để giảm thiểu sự hư hỏng đối với tài liệu.

40

Hình 1.8:Máy ảnh số - Digital camara

Như đã nêu, có nhiều loại máy quét và máy ảnh số được sử dụng trong ngành lưu trữ. Mỗi loại máy đều có ưu điểm, hạn chế khác nhau về tính năng, giá thành… phù hợp với từng đối tượng tài liệu nhất định, mục tiêu đã đề ra. Do đó, ngồi việc am hiểu về tính năng, đặc điểm của các loại máy khác nhau thì việc hiểu biết sâu sắc về thuộc tính, tình trạng vật lý của tài liệu sẽ số hóa là một trong những yêu cầu bắt buộc để đảm bảo chất lượng sản phẩm số và bảo vệ an tồn tài liệu gốc. Vì vậy, việc lựa chọn thiết bị phù hợp với đối tượng tài liệu, mục tiêu và khả năng của mình đóng vai trị quan trọng đảm bảo sự thành cơng trong việc triển khai số hóa tài liệu lưu trữ.

1.4.2 Thuộc tính của tài liệu

Thuộc tính của tài liệu là một bộ phận quan trọng cần xác định trước để đưa ra các biện pháp số hóa phù hợp, vì mỗi thuộc tính khác nhau của tài liệu yêu cầu cách thức xử lý phù hợp để đảm bảo chất lượng sản phẩm ảnh số. Về cơ bản tất cả các tài liệu hiện nay được chia thành 4 loại như sau:

+ Bản văn/ dịng (Text/line art): gồm những hình ảnh đồng màu có

ranh giới rõ ràng, thường đơn sắc, có thể được tạo ra bằng tay, máy chữ hoặc máy in, bao gồm: bản văn, bản viết tay, đồ thị, bản khắc gỗ, văn bản được đánh máy hay in laser, bản thiết kế, bản đồ và bản chép nhạc. Tài liệu lưu trữ đang bảo quản tại Cục Lưu trữ Quốc gia Lào phần lớn thuộc loại tài liệu này.

41

+ Tông màu chuyển tiếp (continuous tone): những tài liệu gồm các

gam chuyển tiếp nhau, có thể đơn sắc hoặc đa sắc, bao gồm ảnh chụp, một số loại tranh như bản phác họa bằng chì, tranh màu nước) và các tác phẩm đồ họa có các thuộc tính gam chuyển tiếp như: bản khắc đồng, in đá, in chụp.

+ Nửa tơng hoặc kiểu nửa tơng (Halftone or halftone-like): những

hình ảnh tạo thành từ các điểm hoặc đường nằm cách đều, có thể đơn hoặc đa sắc, bao gồm những ảnh đồ họa được tạo thành từ các nét hoặc đường kẻ song song sít nhau nằm cách đều.

+ Hỗn hợp (Mixed): tổng hợp cả 3 loại tài liệu trên, đơn hoặc đa sắc, bao gồm báo, tạp chí sách có tranh minh họa.

1.4.3 Kỹ thuật quét tài liệu

Để quét các loại tài liệu có thuộc tính khác nhau và phù hợp với u cầu đầu ra thì có ba kỹ thuật qt tài liệu được sử dụng, đó là kỹ thuật quét đen trắng, kỹ thuật quét dải xám và kỹ thuật qt màu. Mỗi kỹ thuật qt đều có tính đặc trưng riêng, phù hợp với thuộc tính tài liệu nhất định. Có thể khái quát dưới đây:

+ Kỹ thuật quét đen trắng (Bitonal)

Một pixel gồm 1 số nhị phân thể hiện màu trắng hoặc đen, thích hợp với các loại bản văn/ dòng và một số loại nửa tông.

+ Kỹ thuật quét dải xám (Grayscale)

Một pixel gồm nhiều số nhị phân thể hiện các gam màu xám khác nhau, thích hợp với các văn bản gam chuyển tiếp đen trắng, nửa tông, hỗn hợp và một số bản viết tay.

+ Kỹ thuật quét màu (Color)

Một pixel gồm nhiều số nhị phân thể hiện các màu sắc khác nhau, thích hợp với tất cả các loại văn bản trong đó màu sắc giữ vai trò quan trọng.

42

1.4.4 Những yếu tố tác động đến chất lượng ảnh số

Chất lượng của ảnh số phụ thuộc vào 6 yếu tố cơ bản đó là: + Tình trạng của tài liệu (Condition of records)

+ Độ phân giải, độ ngưỡng và độ sâu màu (Resolution, Threshold and Bit depth)

+ Hiệu chỉnh ảnh (Image Enhancement)

+ Quá trình nén và định dạng file (Compression and File Format) + Thiết bị sử dụng và hiệu suất của thiết bị đó (System Performance) + Quyết định của người vận hành (Operator Judgement)

Những ảnh hưởng của các yếu tố này đối với chất lượng ảnh số sẽ được trình bày lần lượt dưới đây:

1.4.4.1 Tình trạng của tài liệu

Tình trạng của tài liệu được chia thành 2 bộ phận: tình trạng về vật lý và tình trạng về nội dung thơng tin của tài liệu. Cả 2 bộ phận này đều tác động đến chất lượng của ảnh, phương pháp xử lý và các vấn đề khác. Đối với tình trạng vật lý của tài liệu, phần lớn là vật mang tin trên giấy bị rách, thủng, mốc, ố vàng, giòn, gỉ… những yếu tố này làm cho giấy bẩn khiến cho độ tương phản của giấy bị giảm xuống, giảm khả năng phản quang của giấy đối với máy quét… tác động đến chất lượng của ảnh quét.

Hình 1.9:Tình trạng vật lý của tài liệu

43

Đối với tình trạng nội dung thông tin của tài liệu, phần lớn là chữ mờ, mực bị phai do chất lượng bảo quản không đảm bảo, chất lượng bản thân mực, tác động của sự hư hỏng, xuống cấp của vật mang tin… đã khiến cho nội dung thông tin bị mờ nhạt hoặc mất đi một phần hoặc tất cả. Đối với tài liệu hư hỏng nặng cả về tình trạng vật lý lẫn nội dung thơng tin thì dù quét tài liệu với độ phân giải cao, kỹ thuật hiệu chỉnh ảnh… thì cũng rất khó có thể làm cho chất lượng nó tốt hơn, thậm chí khơng thể áp dụng phương pháp quét ảnh.

Thông qua những vấn đề đã nêu trên, có thể nói rằng tình trạng của tài liệu là một trong những yếu tố hàng đầu tác động trực tiếp, đầu tiên đến chất lượng ảnh quét. Vì vậy, trước khi lựa chọn tài liệu để số hóa, chúng ta phải tiến hành khảo sát, đánh giá tình trạng tài liệu một cách khách quan để đề ra biện pháp xử lý phù hợp trong từng trường hợp cụ thể.

1.4.4.2 Độ phân giải, độ ngưỡng và độ sâu màu

Trong một văn bản, nội dung thông tin là yếu tố quan trọng nhất. Khi số hóa, chúng ta phải đảm bảo rằng tất cả những nội dung trong bản văn phải được thể hiện đầy đủ nhất, kể cả những nét chữ nhỏ nhất, có ý nghĩa đối với bản văn đó. Do đó, việc xác định độ phân giải bao nhiêu là phù hợp để đảm bảo ảnh đầu ra có chất lượng tối ưu đã được đặt ra cuối thế kỳ XX. Độ phân giải được đo bằng tổng số điểm ảnh được thể hiện trên mỗi inch vuông – DPI (Dots per inch). Tức là nếu tổng số điểm ảnh trên mỗi inch lớn bao nhiêu thì độ sắc nét của các chi tiết nhỏ trên bề mặt của tài liệu càng được biểu hiện rõ nét bấy nhiều.

Ví dụ: hình dưới đây, các ký tự được qt với độ phân giải khác nhau sẽ cho độ nét, chi tiết thơng tin ít nhiều khác nhau. Chúng ta sẽ thấy rằng ký tự được quét với độ phân giải 600 dpi cho chi tiết ảnh sắc nét, đầy đủ hơn các ký tự được quét với độ phân giải thấp. Tuy nhiên, việc tăng độ

44

phân giải cao đến mức độ nhất định thì chi tiết của ảnh số cũng khơng cải thiện được bao nhiêu, thậm chí chỉ tăng dung lượng của file ảnh số đó.

Ngồi độ phân giải thì độ ngưỡng7

và độ sâu màu8 vẫn là 2 yếu tố ảnh hưởng đến chất lượng ảnh. Đối với ảnh đen trắng, độ phân giải và độ ngưỡng là hai yếu tố ảnh hưởng đến chất lượng ảnh. Đối với ảnh xám và màu, độ phân giải và độ sâu màu là hai yếu tố ảnh hưởng đến chất lượng ảnh. Việc đặt chuẩn độ phân giải, độ ngưỡng và độ sâu màu phù hợp sẽ giúp chúng ta rất nhiều trong việc cân bằng giữa chất lượng và năng suất đầu ra của ảnh số theo mục tiêu đã đặt ra; ước tính được nguồn kinh phí đầu tư như: phương tiện thiết bị để quét, lưu trữ, hiển thị, chuyển dữ liệu…; nguồn nhân lực; thời gian tiến hành và nhiều thứ khác liên quan đến quá trình thực hiện của chuỗi số hóa. Vì vậy, việc lựa chọn kỹ thuật phù hợp để quét tài liệu lưu trữ chủ yếu phụ thuộc vào mục tiêu đặt ra đối với chất lượng sản phẩm số, khả năng về tài chính, nguồn nhân lực và thời gian.

1.4.4.3 Hiệu chỉnh ảnh

Đây là quá trình cải thiện chất lượng ảnh quét. Đối với những tài liệu có tình trạng vật lý và nội dung thơng tin kém một phần hoặc tất cả như: giấy bị rách, vết ố vàng, vết gỉ, bụi bẩn, độ tương phản của giấy với

7

Độ ngưỡng (Threshold) là thuật ngữ được dùng trong kỹ thuật quét đen trắng để chỉ một điểm trên thước đo mà tại đó các giá trị thể hiện màu xám được dịch thành các điểm ảnh trắng hoặc đen.

8 Độ sâu màu (Bit depth) được xác định bằng số lượng chữ số nhị phân được sử dụng để thể hiện mỗi điểm ảnh.

Dpi cần thiết Độ phân giải Chất lƣợng ảnh số

Khi độ phân giải tăng đến mức độ nhất định thì chất lƣợng ảnh vẫn khơng đổi

Hình 1.10: Tác động của độ phân giải với độ nét của chữ và độ phân giải cần thiết khi quét

45

nội dung thơng tin thấp (hình ảnh quá tối khiến cho khó đọc…), chữ mờ… khiến cho chất lượng sau khi quét thấp. Để giải quyết vấn đề này các phần mềm kèm theo máy quét và phần mềm hỗ trợ về đồ họa (Adobe Photoshop, MS Photo Editor…) đã cho phép nhà chun mơn có thể tiến hành hiệu chỉnh hình ảnh với khả năng khơng hạn chế trong thế giới ảnh số. Tùy theo mức độ tình trạng tài liệu sẽ địi hỏi cách thức hiệu chỉnh ảnh ít nhiều, đơn giản hoặc phức tạp khác nhau để nâng cao chất lượng ảnh phù hợp theo yêu cầu. Tuy nhiên, khi áp dụng những phần mềm để hiệu chỉnh ảnh đối với tài liệu lưu trữ cần phải rất thận trọng về chi tiết, nội dung thông tin chứa trong nguyên bản. Việc hiệu chỉnh ảnh không được làm thay đổi đi nội dung ban đầu của tài liệu, chỉ cho phép nâng cao chất lượng hiển thị của nó tốt hơn như: tăng độ nét, đậm của chữ, điều chỉnh độ sáng, độ tương phản, độ ngưỡng để giảm vết ố vàng, vết bẩn… và một số kỹ thuật hiệu chỉnh khác. Đối với ảnh quét tài liệu lưu trữ, phổ biến được tạo thành 3 bản: bản master, bản phát sinh và bản hiển thị trên trang web (thumbnail image). Mỗi bản sẽ có yêu cầu về mức độ hiệu chỉnh khác nhau như:

+ Bản master: được tạo ra nhằm mục đích để bảo quản, bảo hiểm

dự phòng đối với nguyên bản gốc và in với yêu cầu chất lượng cao, đồng thời là cơ sở để tạo bản phát sinh và bản hiển thị trên trang web. Do đó bản master là bản có chất lượng ảnh cao nhất được quét với độ phân giải cao (kích thước ảnh lớn) và lưu với định dạng file ổn định (TIFF), không nén (Non-compression) để lưu chi tiết hình ảnh đầy đủ nhất. Cho nên, yêu cầu hiệu chỉnh đối với bản này là ít hơn so với hai bản kia, phần lớn chỉ tăng độ sáng tối vì phải đảm bảo độ trung thực nhất có thể đối với nguyên bản gốc.

+ Bản phát sinh: Bản phát sinh là bản được tạo trên cơ sở bản

master bởi phần mềm chuyên dụng để phù hợp yêu cầu sử dụng với chất lượng chấp nhận được. Thông thường bản này được hiệu chỉnh nhiều hơn các điểm khuyết tật, hạn chế, cả hình thức lẫn nội dung để phù hợp với yêu TIEU LUAN MOI download : skknchat@gmail.com

46

cầu sử dụng khác nhau như: tẩy xóa những vết bẩn, ố vàng, tăng giảm độ sáng, độ tương phản, độ ngưỡng, màu sắc… nhưng vẫn đảm bảo về độ trung thực của thông tin. Phần lớn các bản phát sinh được lưu với nhiều định dạng file khác nhau như: JPEG, PDF/A… nén mất hoặc không mất ở những mức độ nhất định theo yêu cầu đặt ra. Phiên bản này được đưa vào tổ chức khai thác sử dụng cho độc giả.

+ Bản hiển thị: được tạo ra trên cơ sở của bản phát sinh nhằm mục

đích hiển thị, quảng cáo tài liệu trên trang web vì kích thước nhỏ, giúp cho việc tải thơng tin, hình ảnh trên trang web nhanh chóng hơn. Yêu cầu hiệu chỉnh đối với bản này không nhiều, phần lớn là thay đổi định dạng file ảnh trên cơ sở của bản phát sinh thành định dạng file như: GIF, JPG với độ phân giải là 72 ppi và nén.

Cần lưu ý rằng tất cả những công việc, chi tiết về hiệu chỉnh ở mỗi

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu triển khai số hóa tài liệu lưu trữ đang bảo quản tại cục lưu trữ quốc gia lào (Trang 35)

Tải bản đầy đủ (PDF)

(120 trang)