GIÁO TRÌNH KỸ THUẬT SỐ HÓA TÀI LIỆU doc

283 610 3
GIÁO TRÌNH KỸ THUẬT SỐ HÓA TÀI LIỆU doc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

GIÁO TRÌNH KỸ THUẬT SỐ HÓA TÀI LIỆU Mục lục Kỹ thuật số hoá Chương 1: Khái quát lý thuyết Chương 2: Khái quát kỹ thuật Chương 3: Nghiên cứu trường hợp Chương 4: Tạo siêu dữ liệu: từ các ảnh số đến cơ sở dữ liệu của các tư li ệu Chương 5: Sử dụng các dịch vụ ảnh Chương 6: Quét ảnh chụp Chương 7: Quét phim Chương 8: Giải pháp kết hợp Chương 9: Duy trì khai thác và tiếp tục bổ sung kiến thức Chương này sẽ trình bày về những khái niệm và thuật ngữ cơ bản; ảnh hưởng của độ phân giải, số bit và độ nén đến chất lượng ảnh; các đặc tính của văn bản và những yếu tố khác ảnh hưởng đến quá trình chuyển đổi chất lượng và lựa chọn cho quá trình số hoá. Định nghĩa Ảnh số là các "ảnh điện tử" được quét từ các tài liệu gốc. Một ảnh số có thể thể hiện chính xác nội dung, bố cục và cách trình bày của văn bản gốc bao gồm kiểu chữ, chú thích và ảnh minh hoạ. Quá trình quét Một ảnh số được lấy mẫu và vẽ dưới dạng một hệ thống các điểm hay các nguyên tố ảnh được gọi là các pixel. Mỗi pixel thể hiện một đơn vị màu (đen, trắng hoặc các gam màu khác) và về mặt số được biểu diễn dưới dạng các mã nhị phân (mã chỉ gồm các số 0 và/ hoặc 1). Các chữ số nhị phân (bit) trong mỗi pixel được ghi theo một trình tự nhất định trong máy tính, hoặc được rút gọn thành một công thức toán học. Các số nhị phân này sẽ được máy tính dịch và đọc để tạo ra một hình ảnh analog hiện trên màn hình hoặc bản in. Các ảnh số khác với các dạng tệp điện tử khác. Mặc dù cũng được gọi là "ảnh mành" ("raster image") hoặc "ảnh nhị phân" ("bitmapped image") song ảnh số khác với các ảnh vectơ ở chỗ đồ hoạ của chúng không được thể hiện dưới dạng các đường thẳng và đường cong toán học xác định mà được thể hiện dưới dạng hệ thống các điểm. Ảnh vectơ nhìn chung là có thể được tạo ra với kích cỡ và độ chính xác bất kỳ, còn chất lượng của ảnh số lại phụ thuộc vào độ phân giải được ấn định từ trước khi quét. Khác với các tệp văn bản chữ - số như ASCII, các ảnh số là những tệp "câm" bởi vì thông tin chứa trong đó không thể duyệt hoặc điều chỉnh được. Tuy nhiên, chúng lại có thể được sử dụng làm tệp nguồn để tạo ra các tệp văn bản có thể đọc được thông qua các chương trình nhận dạng chữ quang học (ORC). Độ chính xác của những chương trình như vậy vô cùng khác nhau, tuỳ thuộc vào thuộc tính của nguyên bản và các ảnh số được quét. Tổng hợp các khả năng kỹ thuật Mặc dù kỹ thuật ảnh số đã được biết đến từ khá lâu nhưng nó mới bắt đầu được sử dụng rộng rãi từ thập niên 1990, khi những tiến bộ kỹ thuật cho ra đời những hình ảnh rõ nét hơn, chi phí thấp hơn và khả năng truy cập cao hơn. Các nhân tố đã tạo ra những điều kiện thuận lợi đó là: - Sự phát triển kỳ diệu của máy tính cá nhân - Các hệ thống mạng rộng lớn có tốc độ cao trở nên phổ biến - Chi phí kỹ thuật giảm, đặc biệt là trong việc lưu trữ - Sự ra đời của các máy quét có độ phân giải cao - Sự xuất hiện của kiến trúc phục vụ khách hàng và mạng quốc tế (World Wide Web) Lợi ích của ảnh số Ảnh số mang những đặc điểm ưu việt hơn hẳn ảnh analog về mặt độ nét, độ chính xác, độ trung thực so với nguyên bản, chi phí bộ nhớ và khai thác Trong lưu trữ + trung thực so với nguyên bản - tương đương với kỹ thuật ánh sáng thấu kính - thay đổi được kích cỡ ảnh - có thể chỉnh sửa ảnh + trung thực trong sao chép - sản phẩm phong phú và có chất lượng - truy cập thông tin liên tục mà không phải bảo quản phương tiện Trong khai thác - có thể nối mạng - có thể truy cập nhiều ảnh cùng một lúc - có thể tạo ra nhiều ảnh phái sinh - có thể thao tác và sử dụng ảnh - ít tốn kém - tiết kiệm không gian Những mặt hạn chế của ảnh số Mặc dù ảnh số là một kỹ thuật mới đầy hứa hẹn, nhưng vẫn còn có rất nhiều điều bất lợi làm hạn chế khả năng được sử dụng của nó trong công tác thư viện và văn thư hiện nay, bao gồm: - cơ sở kỹ thuật thay đổi nhanh chóng - đang ở giai đoạn giao thời nên phải chấp nhận cả những cái truyền thống và những cái mới - chịu nhiều sức ép về mặt pháp luật, trong đó có luật bản quyền - chưa có các tiêu chuẩn cụ thể - chất lượng và khả năng của các phần cứng, phần mềm rất không đồng nhất - có những yêu cầu cao về sao chép, lưu trữ và di nhập - nhu cầu và khả năng của các cơ sở lưu trữ chưa cao - thiếu tính ổn định và sự hỗ trợ của các hãng dịch vụ Khi nào vượt qua được những trở ngại này, kỹ thuật ảnh số sẽ bước vào giai đoạn thực nghiệm tại các cơ sở văn hoá. Tuy nhiên, các cơ sở này hiện nay đã có cơ hội để tạo điều kiện phát triển cho kỹ thuật mới này theo hướng đáp ứng được những nhu cầu cụ thể của họ. Sự tăng số lượng thư viện và cơ sở lưu trữ hiện đang giúp kỹ thuật ảnh số tiến đến gần những mục đích hiện nay và trong tương lai. Song vì tiềm lực của các cơ sở còn hạn chế, các dự án đều phải được xây dựng một cách cẩn thận nhằm đảm bảo cho khả năng thành công cao nhất và hạn chế thất bại. Điều này đòi hỏi các cơ sở phải đặt ra những mục tiêu không quá tham vọng, dựa trên cơ sở đã hiểu biết đầy đủ về những thuộc tính của các văn bản sẽ được quét, các thao tác phức tạp của quá trình quét và mọi mặt hữu dụng của ảnh số. Quét ảnh: chuyển từ analog sang số Các thuộc tính của tư liệu Khi quét ảnh số phải tính toán đến các quy trình kỹ thuật liên quan đến việc chuyển từ ảnh analog sang ảnh số cũng như các thuộc tính của chính các văn bản gốc như: kích thước, mức độ chi tiết, thang màu. Các văn bản có thể được định tính bằng các quy trình kỹ thuật được sử dụng để tạo ra nó, bao gồm các phương pháp bằng tay, bằng máy, chụp ảnh hay mới nhất là điện tử. Hoặc toàn bộ các văn bản bằng giấy hoặc bằng phim có thể được chia thành 4 loại sau: + Bản văn/Dòng (Text/line art): Gồm những hình ảnh đồng màu có ranh giới rõ ràng, thường đơn sắc, có thể được tạo ra bằng tay, máy chữ hoặc máy in, bao gồm: bản văn, bản viết tay, đồ thị, bản khắc gỗ, văn bản được đánh máy hay in laser, bản thiết kế, bản đồ và bản chép nhạc. + Tông màu chuyển tiếp (Continuous tone): Những văn bản gồm các gam chuyển tiếp nhau, có thể đơn sắc hoặc đa sắc, bao gồm ảnh chụp, một số loại tranh (như bản phác hoạ bằng chì, tranh màu nước) và các tác phẩm đồ hoạ có các thuộc tính gam chuyển tiếp như bản khắc đồng, in đá, in chụp. + Nửa tông hoặc kiểu nửa tông (Halftone or halftone-like): Những hình ảnh tạo thành từ các điểm hoặc đường nằm cách đều, có thể đơn hoặc đa sắc, bao gồm những ảnh đồ hoạ được tạo thành từ các nét hoặc đường kẻ song song sít nhau nằm cách đều, ví dụ bản chạm khắc hoặc khắc axit. + Hỗn hợp (Mixed): Tổng hợp cả 3 loại văn bản trên, đơn hoặc đa sắc, bao gồm báo, tạp chí, sách có tranh minh hoạ. Ba loại kỹ thuật quét + "đen trắng" ("bitonal"): một pixel gồm một số nhị phân thể hiện màu trắng hoặc đen, thích hợp với các loại bản văn và một số loại nửa tông. + "dải xám" ("grayscale"): một pixel gồm nhiều số nhị phân thể hiện các gam màu xám khác nhau, thích hợp với các văn bản gam chuyển tiếp đen trắng, nửa tông, hỗn hợp và một số bản viết tay. + "màu" ("color"): một pixel gồm nhiều số nhị phân thể hiện các màu sắc khác nhau, thích hợp với tất cả các loại văn bản trong đó màu sắc giữ vai trò quan trọng. Chất lượng ảnh số được quét chịu ảnh hưởng của: + độ phân giải và ngưỡng + kỹ thuật chỉnh sửa ảnh + quá trình nén + thiết bị sử dụng và hiệu suất của thiết bị đó + vận hành hợp lý, cẩn thận Độ phân giải (Resolution) được xác định bằng số lượng pixel tạo ra ảnh theo đơn vị dpi (số điểm trên 1 insơ). Số lượng pixel càng lớn thì độ phân giải càng cao và khả năng thể hiện các chi tiết của ảnh càng cao. Tuy nhiên, đến một mức độ nào đó, độ phân giải cao hơn cũng không cải thiện đáng kể chất lượng ảnh mà chỉ làm tăng kích thước của tệp. Vấn đề mấu chốt khi quét ảnh là phải xác định được độ phân giải vừa đủ để thể hiện được tất cả những chi tiết quan trọng của nguyên bản. Ngưỡng (threshold) là thuật ngữ được dùng trong kỹ thuật quét đen trắng để chỉ một điểm trên thước đo mà tại đó các giá trị thể hiện màu xám được dịch thành các pixel trắng hoặc đen. Điểm này thường nằm trong khoảng từ 0 đến 255. Dưới đây là ví dụ về ảnh hưởng của các ngưỡng khác nhau lên bản đánh máy được quét ở cùng một độ phân giải. Trong kỹ thuật quét đen trắng, độ phân giải và ngưỡng là mấu chốt của chất lượng ảnh. Kỹ thuật này phù hợp nhất với các văn bản có độ tương phản cao như bản văn, đồ hoạ. Những văn bản gam chuyển tiếp hoặc có độ tương phản thấp như ảnh chụp cần đến kỹ thuật quét dải xám hoặc nhiều màu. Trong 2 loại kỹ thuật quét này, độ phân giải và số bit là 2 yếu tố cấu thành nên chất lượng ảnh. Số bit (bit depth) được xác định bằng số lượng chữ số nhị phân được sử dụng để thể hiện mỗi pixel. Số bit càng lớn thì càng nhiều sắc màu được thể hiện. Dải biến động (dynamic range) là thuật ngữ chỉ toàn bộ mức biến đổi các gam màu - được đo bằng mật độ kế- từ vùng sáng nhất đến vùng tối nhất của văn bản. Các vật liệu trong suốt có dải biến động rộng hơn, do đó thể hiện được nhiều gam màu hơn các vật liệu phản quang. Khả năng bắt được tất cả các sắc màu của máy quét, bao gồm những chi tiết trong vùng sáng và vùng tối, phụ thuộc vào dải biến động của máy và số bit. Máy quét drum thường bắt màu tốt nhất và máy quét flatbed thường bắt màu kém nhất (Xem chương 2 và chương 6). Số bit tăng lên sẽ ảnh hưởng đến độ phân giải cần thiết, kích thước tệp và phương pháp nén. Chỉnh sửa ảnh (Image enhancement) là quá trình cải thiện chất lượng ảnh. Tuy nhiên, việc chỉnh sửa rất có thể sẽ ảnh hưởng đến độ trung thực của ảnh. Chỉnh sửa còn làm tăng chi phí quét ảnh. Các đặc điểm [...]... một số kỹ thuật nén hay thiên về loại bỏ các thông tin màu Loại kỹ thuật nén này được gọi là "nén mất" vì ảnh đã được nén không còn giống hệt ảnh gốc nữa Nén mất được sử dụng trong quét xám và màu, đặc biệt với những ảnh phức tạp đến mức việc rút gọn thông tin gần như không có ý nghĩa trong việc thu nhỏ tệp Đối với các tệp số chủ, tốt nhất là nên sử dụng kỹ thuật nén không mất, sau đó sử dụng các kỹ thuật. .. với một cặp dòng, nghĩa là số điểm trên 1mm phải được chia đôi thì mới tương ứng với số cặp dòng trên 1mm Đến đây chúng ta đã nắm được 3 bước trong việc áp dụng QI cổ điển để xác định QI số trong kỹ thuật quét đen trắng Nhớ lại rằng trong kỹ thuật vi phim, QI = p x h Tương ứng ta có: Từ đó ta có công thức tính độ phân giải dpi=2QI/0,0039 4 Điều chỉnh sự đọc lệch trong kỹ thuật quét đen trắng Trong... lượng ảnh Có rất nhiều kỹ thuật nén Một số chỉ được sử dụng với những loại ảnh nhất định (ví dụ: chỉ với ảnh 1 bit), hoặc với những loại ảnh nhất định (ví dụ: chỉ với đĩa compact ảnh của Kodak) Có rất nhiều kỹ thuật nén có thể sử dụng với các ảnh đen trắng, ảnh xám và ảnh màu Về tính đặc hiệu của các kỹ thuật nén được sử dụng rộng rãi ngày nay, các bạn có thể tham khảo tài liệu Encyclopedia of Graphics... x" Trong kỹ thuật vi phim, QI được tính bằng tích số của cao x (kí hiệu là h) với p - số cặp dòng loại nhỏ nhất trên bảng kiểm tra kỹ thuật chuẩn được máy quay phân giải (Xem hình 1) Chỉ số chất lượng được sử dụng để dự báo mức chất lượng của hình ảnh, gồm các mức: thấp (3,6); trung bình (5,0) và cao (8,0) Công thức 4: Chỉ số chất lượng cổ điển: QI = h x p p = QI/h Sử dụng QI trong lĩnh vực số hoá Trong... màu thì kỹ thuật quét dải xám và nhiều màu phù hợp hơn Như đã nói từ đầu chương, trong quá trình quét, các gam màu được đại diện bằng số lượng chữ số nhị phân được sử dụng để thể hiện mỗi pixel, gọi là số bit (bit depth) Số bit càng lớn thì dải biến động của thông tin màu càng lớn Ảnh đen trắng (bitonal image) được thể hiện bằng những pixel chỉ gồm 1 bit, chỉ mang 2 giá trị, hay 2 mức độ (chữ số 0 thể... thể bị ảnh hưởng bởi kỹ thuật nén và mức độ nén Thiết bị sử dụng và hiệu suất của nó qua thời gian sẽ ảnh hưởng đến chất lượng hình ảnh Những công nghệ quét khác nhau có ảnh hưởng rõ rệt đến sản phẩm và độ chính xác của kỹ thuật xác định chuẩn chất lượng sẽ được trình bày ở phần sau Vì vậy, những đòi hỏi của các nhà sản xuất về các khả năng của hệ thống (độ phân giải, số bit, các kỹ thuật chỉnh sửa, sản... vanRyper (O'Reilly & Associates, 1994) Nhìn chung, tất cả các kỹ thuật nén đều dựa vào các thuật toán phức tạp, chuyên biệt để rút gọn các chuỗi mã số nhị phân của một ảnh chưa nén thành hiệu toán học Có thể chia thành 2 loại kỹ thuật nén chính: 1 Nén không mất (lossless compression): Một số hệ thống nén có các thông tin được lặp dưới dạng một thuật toán để có thể được đọc ngược (hay "giải nén" - "decompressed")... 2002 hay 40 000 điểm/ in2 Chú ý: Cấp số nhân tăng nhanh hơn cấp số cộng Số lượng điểm được sử dụng ở độ phân giải 200 dpi gấp 4 lần số lượng điểm được sử dụng ở độ phân giải 100 dpi Quan hệ giữa độ phân giải và kích thước tệp Tổng số điểm được sử dụng trên bề mặt ảnh được xác định bằng cách nhân chiều cao ảnh với chiều rộng và dpi2 Trong kỹ thuật quét đen trắng, 1 số nhị phân (bit) thể hiện 1 pixel... chọn kỹ thuật nén, bạn cũng nên cân nhắc đến các thuộc tính của nguyên bản Một số kỹ thuật như ITU Group 4 được thiết kế cho nén bản văn, trong khi một số loại khác như JPEG và ảnh Pac lại được thiết kế để nén dưới dạng tranh "thiên nhiên" Đối với các văn bản hỗn hợp (ví dụ ảnh chụp có thuyết minh), thì cần phải cân nhắc (Xem các ảnh hưởng của JPEG lên bản văn trong các ví dụ trang 25.) Các kỹ thuật. .. của độ nén lên chất lượng ảnh - tính độ phân giải cần thiết khi quét 8-bit - chuỗi số hoá - nghiên cứu tại Thư viện của Quốc hội và Cornell Các công thức tính chỉ số chất lượng số trong kỹ thuật quét đen trắng có thể được áp dụng vào kỹ thuật quét xám (và màu), nhưng cần phải điều chỉnh rất nhiều Với mỗi pixel gồm nhiều số nhị phân, quét xám dường như dịch các tự cũng như những chi tiết khác của văn . GIÁO TRÌNH KỸ THUẬT SỐ HÓA TÀI LIỆU Mục lục Kỹ thuật số hoá Chương 1: Khái quát lý thuyết Chương 2: Khái quát kỹ thuật Chương. đến quá trình chuyển đổi chất lượng và lựa chọn cho quá trình số hoá. Định nghĩa Ảnh số là các "ảnh điện tử" được quét từ các tài liệu gốc.

Ngày đăng: 19/03/2014, 22:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan