.Chuyển ảnh xám

2.3 .Trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu

2.3.1 .Chuyển ảnh xám

Thông thường việc lưu trữ các tài liệu văn bản dạng chữ thông qua các máy ảnh hoặc máy quét, ảnh được thu nhận thường là ảnh màu. Để dễ dàng hơn trong việc xử lý, những ảnh màu thường được chuyển về những ảnh đơn giản hơn như là ảnh xám, rồi sau đó chuyển thành ảnh nhị phân.

Công thức để chuyển ảnh màu về ảnh xám được tính như sau:

Gray = Red* 0.298 + 0.588* Green + 0.114*Blue (2.3.1)

2.3.2. Ảnh nhị phân, nhị phân hóa với ngưỡng động

Trong thực tế, ảnh văn bản mà chúng ta nhận vào ban đầu để xử lý là ảnh màu. Vì vậy để có thể thực hiện được quá trình phân tích và nhận dạng, chúng ta cần phải chuyển chúng thành ảnh nhị phân trong đó mỗi điểm ảnh (pixel) được biểu diễn bởi một trong 2 giá trị là 0 hoặc 255. Đầu tiên, ảnh màu nhận vào sẽ được chuyển thành ảnh xám với các mức xám có giá trị từ 0 đến 255 dựa trên ba giá trị RED, GREEN, BLUE của ảnh đầu vào. Từ ảnh xám này, chúng ta sẽ so sánh mức xám của từng điểm với một ngưỡng cho trước để quyết định điểm đó sẽ là 0 hoặc 255.

Nhị phân hóa là quá trình biến một ảnh xám thành ảnh nhị phân. Ảnh nhị phân chỉ chứa hai giá trị 0 hoặc 1 (hoặc 0 và 255 tùy theo quy định của cấu trúc ảnh). Theo đó, giá trị 0 sẽ là giá trị ứng với những điểm đen trên ảnh và giá trị 1 (hoặc 255) sẽ là giá trị ứng với những điểm trắng. Công thức để nhị phân ảnh là đặt tất cả các giá trị của ảnh xám về 0 nếu chúng bé hơn một ngưỡng T cho trước và về 255 nếu chúng lớn hơn ngưỡng T đó. Vấn để ở đây là với ngưỡng T như thế nào thì cho ta được tấm ảnh nhị phân như ý muốn, nghĩa là những điểm ảnh của từ ( Foreground Pixel) mà tạo thành các vùng đối tượng và điểm ảnh nền ( Background Pixel). Việc xác định giá trị ngưỡng T là rất khó vì chúng phụ thuộc vào từng điều kiện chiếu sáng khác nhau của môi trường. Với môi trường này giá trị ngưỡng T nhận một giá trị, môi trường khác lại một giá trị khác.

Với một dải màu xám trong ảnh xám, chúng ta phải chọn ra một giá trị ngưỡng T để tách những điểm ảnh trong ảnh xám thành hai nhóm điểm ảnh của từ ( Foreground Pixel) và điểm ảnh nền ( Background Pixel). Có thể hiểu đơn giản, với một giá trị ngưỡng T được chọn, chúng ta đưa tất cả những điểm ảnh có giá trị màu lớn hơn hoặc bằng T đặt trong nhóm những điểm ảnh của từ ( Foreground Pixel ) và những điểm ảnh có giá trị ngưỡng nhỏ hơn T thì đặt trong nhóm ảnh nền (Background Pixel).

Việc chọn một ngưỡng đơn giản là dùng biểu đồ mức xám ( histogram ) của ảnh xám. Histogram của một ảnh là một biểu đồ nói lên mối quan hệ giữa các giá trị của điểm ảnh và tần suất xuất hiện của chúng. Nhìn vào biểu đồ histogram ta có thể đoán được một ảnh sáng tối như thế nào. Nếu một ảnh có histogram lệch về phía

phải biểu đồ, ta nói ảnh đó thừa sáng. Nếu lệch về phía trái thì ảnh đó thiếu sáng. Đối với ảnh màu, ta có thể tính toán histogram cho từng kênh màu một.

Hình 2.6 Biểu đồ mức xám của ảnh

Có nhiều phương pháp khác nhau để tìm ngưỡng tự động, trong luận văn này sẽ sử dụng một phương pháp hiệu quả và được dùng phổ biến đó là sử dụng phương pháp tự động phân ngưỡng Otsu được tác giả Nobuyuki Otsu giới thiệu năm 1979 [3]. Phương pháp này chọn ngưỡng sao cho giá trị nhỏ nhất về sự thay đổi giá trị bên trong một lớp của hai nhóm điểm ảnh được phân ra bởi ngưỡng này. Nếu như histogram chia thành hai lớp thì vấn đề tìm ngưỡng của histogram là xác định một ngưỡng T tốt nhất mà chia rõ ràng hai lớp của histogram. Ngưỡng T xác định một phương sai cho các giá trị trong nhóm nhỏ hơn ngưỡng T và một phương sai cho các giá trị trong nhóm lớn hơn ngưỡng T. Ngưỡng tốt nhất là một ngưỡng mà tổng trọng số của các phương sai bên trong một nhóm nhỏ nhất.

Cho w2 là tổng trọng số của các phương sai bên trong nhóm, cho b2t là phương sai cho nhóm có giá trị nhỏ hơn hoặc bằng ngưỡng t và 2ft là phương sai cho nhóm có giá trị lớn hơn t. Gọi Wb(t) là xác suất của nhóm với giá trị nhỏ hơn hoặc bằng ngưỡng t và Wf (t) là xác suất cho nhóm có giá trị lớn hơn ngưỡng t. Khi đó độ biến thiên bên trong một lớp sẽ được tính như sau:

(2.3.2)

Ta xét một ví dụ cụ thể như sau, muốn tìm ngưỡng của ảnh xám sau bằng phương pháp Otsu, phương pháp này sẽ được chứng minh bằng cách sử dụng ảnh 6×6 dưới đây. Các biểu đồ cho ảnh được hiển thị bên cạnh nó. Ảnh này có 6 giá trị

2 2 2

w w tb( ). b w tf ( ). f

Hình 2.7 Ví dụ về Histogram và ma trận ảnh xám [3]

Việc tính toán để tìm ra phương sai cho hai nhóm điểm ảnh của từ (Foreground Pixel) và điểm ảnh nền (Background Pixel) cho một giá trị ngưỡng nào đó, trong trường hợp này giá trị ngưỡng tốt nhất là t=3 và được tính như sau:

Hình 2.8 biểu đồ histogram và công thức tính cho những giá trị màu nhỏ hơn hoặc bằng ngưỡng t=3 [3]

Hình 2.9 Biểu đồ histogram và công thức tính cho những giá trị màu lớn hơn hoặc bằng ngưỡng t=3 [3]

Cần phải thực hiện cho tất cả các mức xám của ảnh, ở ví dụ này là từ 0 đến 5 mức xám. Các kết quả bên dưới tương ứng với từng giá trị mức xám cụ thể trong ảnh.

Hình 2.10 Tính toán giá trị phương sai trong một lớp ứng với từng giá trị mức xám [3]

Ta thấy ví dụ trên ngưỡng được chọn là t=3. Vì vậy ảnh nhị phân có thể có được từ ảnh xám. Những điểm ảnh nào có giá trị nhỏ hơn hoặc bằng 3 sẽ chuyển thành nhóm điểm ảnh nền ( Background Pixel) và những điểm ảnh nào có giá trị lớn hơn 3 sẽ được cho vào nhóm điểm ảnh của từ (Foreground Pixel).

Hình 2.11 Kết quả thu được sau khi sử dụng phương pháp Otsu [3]

Bài toán nhận dạng từ trong ảnh tài liệu sau khi có được ảnh xám của từ  ảnh màu, thông thường ảnh hay chứa những nhiễu nhỏ. Bằng phương pháp chọn ngưỡng tự động sử dụng phương pháp Otsu, các nhiễu này đa phần được loại bỏ để phục vụ cho các bước sau được xử lý dễ dàng hơn.

Hình 2.13 Ảnh đã được bỏ nhiễu và chuyển sang ảnh nhị phân nhờ phương pháp Otsu

Phân ngưỡng ảnh theo phương pháp Otsu chỉ đạt kết quả tối ưu khi ảnh có sự phân biệt rõ ràng giữa màu ký tự và màu nền, khi ký tự trên ảnh tài liệu bị tác động như bị sáng hoặc bị tối che một phần ký tự làm cho màu ký tự và màu nền không có sự khác biệt nhiều, dẫn đến ảnh sau khi phân ngưỡng không đạt kết quả như mong muốn.

Sau khi tách ngưỡng ta có được ảnh nhị phân, bước tiếp theo chúng ta cần tách các thành phần có trong ảnh tài liệu và đếm xem có bao nhiêu từ có trong ảnh tài liệu đó. Công đoạn này phải thao tác trên ảnh nhị phân để tìm các thành phần liên thông (CCL-Connected Components Labeling ) và thuật toán tìm thành phần liên thông.

.Ngôn ngữ trong tài liệu

.4 Hiệu chỉnh độ nghiêng của văn bản