.4 Hiệu chỉnh độ nghiêng của văn bản

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Trang 36)

2.2.Các phương pháp trích chọn đặc trưng cơ bản cho ảnh tài liệu

Trích chọn đặc trưng là bài toán thu thập thông tin từ dữ liệu thô, trích chọn những thông tin hữu ích từ hình ảnh tài liệu. Bộ nhớ được giảm tải chỉ cần lưu giữ thông tin cần thiết, tạo cho hệ thống trở nên nhanh hơn và tìm kiếm tài liệu hiệu quả hơn. Khi một hoặc nhiều đặc trưng được trích chọn sẽ được lưu trong cơ sở dữ liệu để sử dụng cho công việc sau này. Số lượng thông tin hữu ích mà một máy tính lấy ra từ hình ảnh là yếu tố rất quan trọng quyết định tính thông minh, cũng như hiệu quả của hệ thống truy tìm hình ảnh. Nhiều đặc trưng khác nhau đã được sử dụng trong xử lý ảnh và nhận dạng mẫu (đại diện hình ảnh tài liệu). Trong trường hợp đơn giản nhất, ảnh đa cấp xám hoặc ảnh nhị phân được sử dụng cho việc nhận dạng. Tuy nhiên, trong hầu hết các hệ nhận dạng, để giảm độ phức tạp và tăng độ chính xác của các thuật toán phân lớp thì đòi hỏi các đặc trưng được trích chọn phải rút gọn lại càng nhỏ càng tốt nhưng vẫn phải đảm bảo được thông tin của ký tự. Với mục tiêu này, một tập các đặc trưng được trích chọn cho mỗi lớp sao cho có thể phân biệt được với các lớp khác.

Có hàng trăm phương pháp trích chọn đặc trưng cho ảnh văn bản, nhưng chung quy lại, các phương pháp này được gom lại thành ba nhóm chính sau:

a) Biến đổi toàn cục và khai triển chuỗi

Một tín hiệu liên tục thường chứa nhiều thông tin và chúng có thể sử dụng làm các đặc trưng cho mục đích phân lớp. Các đặc trưng được trích chọn cũng có thể đúng đối với việc xấp xỉ các tín hiệu liên tục thành các tín hiệu rời rạc. Một cách để biểu diễn một tín hiệu là sử dụng một tổ hợp tuyến tính của một dãy các hàm đơn giản hơn. Một số biến dạng khác như các phép dịch chuyển và phép quay là bất biến dưới các phép biến đổi toàn cục và khai triển chuỗi. Sau đây là một số phương pháp biến đổi và khai triển chuỗi thường được áp dụng trong lĩnh vực nhận dạng chữ:

Biến đổi Fourier: Một trong những tính chất nổi bật nhất của phép biến đổi Fourier là khả năng nhận dạng các ký tự có sự thay đổi về các tư thế khác nhau, các phép biến đổi này đã được áp dụng để nhận dạng ký tự theo nhiều cách khác nhau.

Biến đổi Wavelet: Phép biến đổi này là một dãy các kỹ thuật khai triển cho phép mô tả đặc trưng của ảnh ở các mức độ khác nhau. Các công đoạn tách chữ thành các ký tự hoặc từ được mô tả bằng các hệ số wavelet theo các mức độ khác nhau đối với từng giải pháp. Sau đó các hệ số wavelet được chuyển qua một máy phân lớp để phục vụ cho việc nhận dạng.

Phương pháp mô men: Theo phương pháp này, ảnh gốc sẽ được thay thế bằng một tập các đặc trưng vừa đủ của để nhận dạng các đối tượng bất biến đối với các phép thay đổi tỷ lệ, tịnh tiến hoặc quay. Các mô men được xét như các dãy khai triển đặc trưng vì ảnh gốc có thể xây dựng lại một cách đầy đủ từ các hệ số mô men.

Khai triển Karhunent-Loeve: Việc khai triển này nhằm phân tích các véc tơ riêng để rút gọn số chiều của tập đặc trưng bằng cách tạo ra các đặc trưng mới là tổ hợp tuyến tính của các đặc trưng gốc. Đây chỉ là một phép biến đổi tối ưu trong một số giới hạn nào đó của việc nén thông tin. Tuy nhiên, để tăng tốc độ tính toán cho các máy phân lớp, các đặc trưng này trở nên thiết thực hơn cho các hệ nhận dạng chữ trong những năm gần đây.

b) Đặc trưng thống kê

dáng của chữ. Mặc dù các kiểu đặc trưng này không thể xây dựng lại ảnh gốc, nhưng nó được sử dụng để thu nhỏ số chiều của tập đặc trưng nhằm tăng tốc độ và giảm thiểu độ phức tạp tính toán. Sau đây là một số đặc trưng thống kê thường dùng để biểu diễn ảnh ký tự:

Phân vùng (zoning): Khung chứa ký tự được chia thành một vài vùng chồng nhau hoặc không chồng nhau. Mật độ của các điểm ảnh trong các vùng khác nhau được phân tích và tạo thành các đặc trưng.

Các giao điểm và khoảng cách: Một đặc trưng thống kê phổ biến là số giao điểm giữa chu tuyến của chữ với một đường thẳng theo một hướng đặc biệt nào đó. Khung chứa ký tự được phân chia thành một tập các vùng theo các hướng khác nhau và sau đó các dãy đen trong mỗi vùng được mã hóa bởi các số lũy thừa của 2. Tương tự như vậy, khoảng cách từ biên của khung chứa ảnh tới điểm đen đầu tiên của chu tuyến chữ trên cùng một dòng quét cũng được sử dụng như những đặc trưng thống kê.

Các phép chiếu: Các ký tự có thể được biểu diễn bằng cách chiếu các giá trị mức xám của từng điểm lên trên các dòng theo các hướng khác nhau. Các đặc trưng này tạo ra dãy tín hiệu một chiều từ ảnh hai chiều.

Đặc trưng hướng: Các ký tự bao gồm các nét chữ, các nét này là các đoạn thẳng có hướng, các cung hoặc các đường cong. Hướng của các nét đóng vai trò quan trọng trong việc so sánh sự khác nhau giữa các ký tự. Các ký tự được mô tả như các véc tơ mà các phần tử của nó là các giá trị thống kê về hướng. Để trích chọn các đặc trưng này, góc định hướng của nét chữ phải được phân chia thành một số vùng cố định và số các đoạn của nét chữ trong mỗi vùng góc được chọn như một giá trị đặc trưng. Vì vậy, tập các số lượng của các đoạn định hướng sẽ tạo thành một biểu đồ được gọi là biểu đồ hướng và các đặc trưng về biểu đồ hướng có thể gọi chung là đặc trưng hướng. Các ảnh ký tự được phân rã thành các mặt phẳng định hướng và một độ đo khoảng cách được tính giữa các mặt phẳng đó với mẫu của mỗi lớp. Hướng nét chữ cục bộ của một ký tự có thể được xác định bằng nhiều cách khác nhau: hướng của xương, phân đoạn nét chữ, mã hóa chu tuyến, hướng đạo hàm.

Hiện nay, các đặc trưng mã hóa chu tuyến và hướng đạo hàm được áp dụng rộng rãi vì chúng dễ cài đặt và xấp xỉ bất biến với sự biến đổi đa dạng của các chữ.

c) Đặc trưng hình học và hình thái

Các tính chất cục bộ và toàn cục khác nhau của các ký tự có thể được biểu diễn bằng các đặc trưng hình học và hình thái. Các kiểu đặc trưng này cũng có thể giải mã một số tri thức về cấu trúc của đối tượng ảnh hoặc có thể cung cấp một số tri thức như sắp xếp các thành phần để tạo ra đối tượng. Các loại đặc trưng này có thể phân thành các nhóm sau:

Trích chọn và đếm các cấu trúc hình thái: trong nhóm đặc trưng này, một cấu trúc đã xác định được tìm kiếm trong một ký tự hoặc một từ. Số lượng vị trí hoặc quan hệ vị trí của các cấu trúc trong ký tự này tạo thành các đặc trưng biểu diễn ký tự. Thông thường, các cấu trúc nguyên thủy (các đoạn thẳng, các cung) là các nét tạo ra ký tự. Các ký tự và các từ có thể được mô tả bằng cách trích chọn và đếm nhiều loại đặc trưng về hình thái như các điểm cực đại và cực tiểu, các điểm chóp trên và chóp dưới của một ngưỡng nào đó, mở rộng cho các điểm trái, phải, trên, dưới và các giao điểm, các điểm nhánh, điểm cuối đoạn thẳng, hướng của một nét từ một điểm đặc biệt, các điểm cô lập... đã tạo nên các ký tự .

Đo và xấp xỉ các tính chất hình học: các ký tự được biểu diễn bằng độ đo của các đại lượng hình học như tỷ số giữa chiều rộng và chiều cao của hộp chứa ký tự, quan hệ khoảng cách giữa hai điểm, so sánh độ dài giữa hai nét, độ rộng của một nét, khối lượng chữ hoa và chữ thường của các từ, độ dài từ. Một độ đo tiêu biểu rất quan trọng nữa là độ cong hoặc thay đổi độ cong. Các đại lượng hình học đo được có thể xấp xỉ bởi một tập các đặc trưng hình học vừa đủ và thuận tiện hơn Đồ thị và cây: Đầu tiên, các từ hoặc các ký tự được phân chia thành một tập các đối tượng nguyên thủy như các nét, các điểm chạc... Sau đó, các thành phần nguyên thủy được thay thế bằng các thuộc tính hoặc các đồ thị liên quan. Có hai loại đặc trưng ảnh được mô tả bằng đồ thị: Loại thứ nhất sử dụng các tọa độ của hình dáng ký tự. Loại thứ hai là một đặc trưng trừu tượng, các nút của đồ thị tương ứng với các nét chữ và các cạnh của đồ thị tương ứng với các mối quan hệ giữa các nét chữ. Cây cũng có thể dùng để biểu diễn các từ và các ký tự với một tập các đặc trưng theo một quan hệ

phân cấp.

Trích chọn đặc trưng hầu hết được thực hiện trên ảnh nhị phân. Tuy nhiên, việc nhị phân hóa ảnh đa cấp xám có thể xóa đi một số thông tin quan trọng của các ký tự. Trong trường hợp này, để trích chọn các đặc trưng trực tiếp từ các ảnh đa cấp xám. Cuối cùng, mục đích chính của việc trích chọn đặc trưng là lựa chọn một tập đặc trưng phục vụ cho việc phân lớp sao cho hệ thống nhận dạng đạt độ chính xác cao nhất với số lượng phần tử được trích chọn ít nhất.

2.3.Trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu

Những đặc trưng phổ biển được sử dụng là những đặc trưng hình học, đặc trưng về hình dạng, đặc trưng về mật độ điểm ảnh ở mỗi vùng. Tập hợp những đặc trưng đó tạo nên vectơ đặc trưng cho một từ. Đầu vào của ảnh tài liệu đa số là ảnh màu, để giảm bớt các đặc trưng có thể tác động lên kết quả tìm kiếm thì ảnh đầu vào cần chuyển đổi thành ảnh nhị phân, quá trình chuyển ảnh đầu vào sang ảnh nhị phân được thực hiện gián tiếp sang ảnh xám.

2.3.1.Chuyển ảnh xám

Thông thường việc lưu trữ các tài liệu văn bản dạng chữ thông qua các máy ảnh hoặc máy quét, ảnh được thu nhận thường là ảnh màu. Để dễ dàng hơn trong việc xử lý, những ảnh màu thường được chuyển về những ảnh đơn giản hơn như là ảnh xám, rồi sau đó chuyển thành ảnh nhị phân.

Công thức để chuyển ảnh màu về ảnh xám được tính như sau:

Gray = Red* 0.298 + 0.588* Green + 0.114*Blue (2.3.1)

2.3.2. Ảnh nhị phân, nhị phân hóa với ngưỡng động

Trong thực tế, ảnh văn bản mà chúng ta nhận vào ban đầu để xử lý là ảnh màu. Vì vậy để có thể thực hiện được quá trình phân tích và nhận dạng, chúng ta cần phải chuyển chúng thành ảnh nhị phân trong đó mỗi điểm ảnh (pixel) được biểu diễn bởi một trong 2 giá trị là 0 hoặc 255. Đầu tiên, ảnh màu nhận vào sẽ được chuyển thành ảnh xám với các mức xám có giá trị từ 0 đến 255 dựa trên ba giá trị RED, GREEN, BLUE của ảnh đầu vào. Từ ảnh xám này, chúng ta sẽ so sánh mức xám của từng điểm với một ngưỡng cho trước để quyết định điểm đó sẽ là 0 hoặc 255.

Nhị phân hóa là quá trình biến một ảnh xám thành ảnh nhị phân. Ảnh nhị phân chỉ chứa hai giá trị 0 hoặc 1 (hoặc 0 và 255 tùy theo quy định của cấu trúc ảnh). Theo đó, giá trị 0 sẽ là giá trị ứng với những điểm đen trên ảnh và giá trị 1 (hoặc 255) sẽ là giá trị ứng với những điểm trắng. Công thức để nhị phân ảnh là đặt tất cả các giá trị của ảnh xám về 0 nếu chúng bé hơn một ngưỡng T cho trước và về 255 nếu chúng lớn hơn ngưỡng T đó. Vấn để ở đây là với ngưỡng T như thế nào thì cho ta được tấm ảnh nhị phân như ý muốn, nghĩa là những điểm ảnh của từ ( Foreground Pixel) mà tạo thành các vùng đối tượng và điểm ảnh nền ( Background Pixel). Việc xác định giá trị ngưỡng T là rất khó vì chúng phụ thuộc vào từng điều kiện chiếu sáng khác nhau của môi trường. Với môi trường này giá trị ngưỡng T nhận một giá trị, môi trường khác lại một giá trị khác.

Với một dải màu xám trong ảnh xám, chúng ta phải chọn ra một giá trị ngưỡng T để tách những điểm ảnh trong ảnh xám thành hai nhóm điểm ảnh của từ ( Foreground Pixel) và điểm ảnh nền ( Background Pixel). Có thể hiểu đơn giản, với một giá trị ngưỡng T được chọn, chúng ta đưa tất cả những điểm ảnh có giá trị màu lớn hơn hoặc bằng T đặt trong nhóm những điểm ảnh của từ ( Foreground Pixel ) và những điểm ảnh có giá trị ngưỡng nhỏ hơn T thì đặt trong nhóm ảnh nền (Background Pixel).

Việc chọn một ngưỡng đơn giản là dùng biểu đồ mức xám ( histogram ) của ảnh xám. Histogram của một ảnh là một biểu đồ nói lên mối quan hệ giữa các giá trị của điểm ảnh và tần suất xuất hiện của chúng. Nhìn vào biểu đồ histogram ta có thể đoán được một ảnh sáng tối như thế nào. Nếu một ảnh có histogram lệch về phía

phải biểu đồ, ta nói ảnh đó thừa sáng. Nếu lệch về phía trái thì ảnh đó thiếu sáng. Đối với ảnh màu, ta có thể tính toán histogram cho từng kênh màu một.

Hình 2.6 Biểu đồ mức xám của ảnh

Có nhiều phương pháp khác nhau để tìm ngưỡng tự động, trong luận văn này sẽ sử dụng một phương pháp hiệu quả và được dùng phổ biến đó là sử dụng phương pháp tự động phân ngưỡng Otsu được tác giả Nobuyuki Otsu giới thiệu năm 1979 [3]. Phương pháp này chọn ngưỡng sao cho giá trị nhỏ nhất về sự thay đổi giá trị bên trong một lớp của hai nhóm điểm ảnh được phân ra bởi ngưỡng này. Nếu như histogram chia thành hai lớp thì vấn đề tìm ngưỡng của histogram là xác định một ngưỡng T tốt nhất mà chia rõ ràng hai lớp của histogram. Ngưỡng T xác định một phương sai cho các giá trị trong nhóm nhỏ hơn ngưỡng T và một phương sai cho các giá trị trong nhóm lớn hơn ngưỡng T. Ngưỡng tốt nhất là một ngưỡng mà tổng trọng số của các phương sai bên trong một nhóm nhỏ nhất.

Cho w2 là tổng trọng số của các phương sai bên trong nhóm, cho b2t là phương sai cho nhóm có giá trị nhỏ hơn hoặc bằng ngưỡng t và 2ft là phương sai cho nhóm có giá trị lớn hơn t. Gọi Wb(t) là xác suất của nhóm với giá trị nhỏ hơn hoặc bằng ngưỡng t và Wf (t) là xác suất cho nhóm có giá trị lớn hơn ngưỡng t. Khi đó độ biến thiên bên trong một lớp sẽ được tính như sau:

(2.3.2)

Ta xét một ví dụ cụ thể như sau, muốn tìm ngưỡng của ảnh xám sau bằng phương pháp Otsu, phương pháp này sẽ được chứng minh bằng cách sử dụng ảnh 6×6 dưới đây. Các biểu đồ cho ảnh được hiển thị bên cạnh nó. Ảnh này có 6 giá trị

2 2 2

w w tb( ). b w tf ( ). f

Hình 2.7 Ví dụ về Histogram và ma trận ảnh xám [3]

Việc tính toán để tìm ra phương sai cho hai nhóm điểm ảnh của từ (Foreground Pixel) và điểm ảnh nền (Background Pixel) cho một giá trị ngưỡng nào đó, trong trường hợp này giá trị ngưỡng tốt nhất là t=3 và được tính như sau:

Hình 2.8 biểu đồ histogram và công thức tính cho những giá trị màu nhỏ hơn hoặc bằng ngưỡng t=3 [3]

Hình 2.9 Biểu đồ histogram và công thức tính cho những giá trị màu lớn hơn hoặc bằng ngưỡng t=3 [3]

Cần phải thực hiện cho tất cả các mức xám của ảnh, ở ví dụ này là từ 0 đến 5

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Trang 36)

Tải bản đầy đủ (PDF)

(82 trang)