văn bản
Thu và lu giữ ảnh
• Thu nhập ảnh: Bao gồm một số phơng pháp: bàn số hoá; máy quét
(scanner), Camera;
• Biểu diễn ảnh. Các ảnh nhận đợc là một tập các giá trị điểm ảnh. Để
nâng cao chất lợng ảnh đòi hỏi một lợng lớn các điểm ảnh. Việc này chi phối thời gian xử lý và biểu diễn ảnh. Có hai nguyên tắc biểu diễn ảnh:
+ Biểu diễn ảnh dới dạng véc tơ. Phơng pháp này sử dụng hớng của các
véc tơ giữa các điểm ảnh lân cận để mã hoá hình ảnh. Để tái tạo lại hình ảnh ban đầu ta dựa vào tọa độ của điểm ảnh xuất phát và hớng của các véc tơ để dần dần khôi phục lại ảnh gốc.
+ Biểu diễn ảnh dới dạng bitmap. Đây là phơng pháp khá phổ biến, dễ thực hiện và có thể biểu diễn đợc một ảnh bất kỳ. Theo phơng pháp này, hình ảnh có thể biểu diễn dới dạng một ma trận hai chiều. Giá trị của mỗi điểm ảnh đợc thể hiện bằng một phần tử ma trận tại dòng và cột tơng ứng. Các chi tiết ảnh đợc thể hiện thông qua giá trị từng phần tử, do đó chất lợng ảnh phụ thuộc hoàn toàn vào độ phân giải của các thiết bị hiện ảnh. Mặt khác, do phải thể hiện ảnh theo từng điểm nên khối lợng bộ nhớ để lu trữ cũng nh thời gian thể hiện ảnh rất lớn.
Hình 3.3 Hệ thống nhận dạng văn bản
• Cách định dạng tệp ảnh. Tuỳ thuộc vào thiết bị số hoá ảnh, các tệp ảnh
có cấu trúc khác nhau. Căn cứ vào nhu cầu, chúng ta có thể lựa chọn các tệp ảnh theo yêu cầu đó.
Máy quét Tệp nén
Tệp làm việc Tiền xử lí
Tách từng chữ ra khỏi tài liệu
Học kiểu phông Nhận dạng chữ Tệp văn bản ASCH của máy
Trong phơng pháp này chỉ dùng tệp PCX là loại tệp sử dụng phơng pháp mã loại dài để nén dữ liệu ảnh. Quá trình nén và giải nén đợc thực hiện trên từng dòng ảnh. Tệp gồm hai phần: phần đầu là 128 byte chứa các thông tin về ảnh; phần dữ liệu đợc nén theo phơng pháp trên. Các tệp PCX lu giữ ảnh đơn giản việc nén và giải nén nhanh. Tuy vậy, nó có hạn chế là khối lợng lu giữ lớn.
Giai đoạn tiền xử lý
a. Tăng cờng ảnh. ảnh sau khi đợc thu thập và số hoá có thể bị nhiễu do chất lợng các thiết bị thu thập do những yếu tố ngẫu nhiên khác. Do đó, trớc khi nhận dạng phải khử nhiễu và khôi phục lại ảnh gốc ban đầu.
b. Tách hình. Trong văn bản có thể có các hình ảnh minh hoạ. Chính vì vậy, các hình này phải đợc tách ra khỏi văn bản trớc khi nhân dạng. Tuy nhiên, trong văn bản không chỉ có ảnh mà còn có các vùng ký tự với các kiểu phông, kích cỡ và các kiểu định hớng ngang dọc khác nhau. Vì vậy, để nâng cao độ chính xác trong nhận dạng cần phải tách từng vùng ra để xử lý riêng. Thủ tục này là một yếu tố đánh giá mức độ toàn vẹn đa năng của hệ thống.
c. Quá trình đợc bắt đầu bởi giai đoạn kết nối các vùng liên thông ở gần nhau. ảnh đợc duyệt trên từng dòng quét. Tại mỗi dòng, nếu có hai điểm đen nằm cách nhau một khoảng nhỏ hơn ngỡng đã định trớc thì hai điểm đó sẽ đợc nối với nhau. Kết quả các ký tự trong một từ, các từ trong một dòng đợc nối thành một vùng liên thông. Để giảm bớt các thành phần liên thông của ảnh, ảnh đợc duyệt theo từng cột, nếu tồn tại hai điểm đen cách nhau một khoảng nhỏ hơn ngỡng thì hai thành phần ứng với hai điểm đen đó đợc hoàn thành một phần duy nhất. Kết quả các dòng trong từng vùng ảnh sẽ đợc hoà nhập thành một vùng liên thông duy nhất đại diện cho vùng ảnh đó.
d. Để tìm một hình chữ nhật bao quanh các vùng liên thông đợc tạo ra có thể sử dụng các phơng pháp phân đoạn ảnh nh: tạo ngỡng độ rộng, gán nhãn thành phần, tiếp cận biên cơ sở, tiếp vùng biên cơ sở... Phơng pháp đợc sử dụng trong trờng hợp văn bản có các vùng lồng nhau (ví dụ nh các viền ở bên ngoài vùng ký tự) là gán nhãn các thành phần liên thông.
e. Ngoài ra còn có một phơng pháp khác đó là lần theo biên.
f. Làm trơn biên: nhằm phục hồi các đờng biên của ký tự do nhiễu làm xuất hiện những răng ca giả tạo trên biên ký tự.
g. Làm đầy chữ, áp dụng cho các ký tự bị nén đứt một cách ngẫu nhiên, gây khó khăn cho thủ tục tách chữ (ví dụ nh chữ m có thể bị thành hai thành phần liên thông r và n).
h. Xoá văn bản. Khi đa văn bản vào máy quét, do không cẩn thận, hoặc do sự cố in ấn mà các hàng bị lệch với lề một góc α nào đó, gây khó khăn cho thủ tục tách chữ, trong trờng hợp đó phải tính toán lại tọa độ cho các điểm ảnh.
i. Làm mảnh ký tự:
Khi quét văn bản có chế độ 300 dpi, các ký tự nén không còn là đờng mảnh. Thủ tục này nhằm : loại bỏ các điểm cực biên và giữu lại phần cấu trúc
của một chữ; bỏ đi các điểm bên phải, bên dới, bên trên, hoặc bên phải ký tự. Nói chung, thủ tục này làm dễ dàng cho việc tìm kiếm các dấu hiệu đặc trng. Tuy nhiên, nó cũng tạo ra các hiệu ứng phụ và mất khá nhiều thời gian.
Hình 3.5 Nén tệp ảnh PCX
Giai đoạn tách ký tự
Là giai đoạn cô lập một ký tự đơn ra khỏi tổng thể văn bản để đi tới nhận đạng chữ đó. Quá trình tách chữ bao gồm các việc tách vùng ký tự ra khỏi văn bản thành từng dòng, tách từng chữ ra khỏi dòng, và tách từng ký tự ra khỏi chữ. Tách ký tự bằng lợc đồ sáng. Sử dụng tách ký tự chữ đánh máy. Các dòng chữ thờng cách nhau một hay nhiều dòng trắng. Tơng tự, các từ cũng cách nhau một ký tự trắng. Có thể phân biệt cột trắng giữa hai từ và cột trắng giữa các ký tự trong một từ vì khoảng cách giữa hai từ thờng xấp xỉ bằng độ rộng của một ký tự lớn hơn rất nhiều khoảng cách giữa các ký tự trong một từ.
Quá trình tách ảnh là việc duyệt từ trên xuống dới, đầu tiên một dòng đợc tách ra từ ảnh, trên dòng các từ đợc tách ra từ từ đầu cho tới từ cuối, sau đó dòng tiếp theo đợc tách... Đầu tiên ảnh đợc duyệt từng dòng để kiểm tra dòng đó trắng hay đen (chứa ký tự). Nếu dòng đen thì việc tách từ đợc thực hiện. Nếu tách từ đợc thực hiện nhờ việc duyệt theo cột để tìm các cột đen đầu tiên và cột đen kết thúc các từ (các từ cách nhau một ngỡng cho trớc nào đó). Nh vậy, ta đã tìm đợc vị trí chính xác của các từ trong ảnh.
Giai đoạn tiếp theo là tách từng ký tự ra khỏi từ. Các ký tự trong một từ tuy có cách nhau một khoảng cách nhng rất bé, nhiều lý do khiến cho nó có thể bị nhoè... Do vậy, dùng lợc đồ sáng để tách ký tự ra khỏi từ là khó khăn. Có thể cải tiến phơng pháp này bằng việc tìm kiếm hai cột liên tiếp trên đó không tồn tại điểm đen nào thoả mãn các điều kiện:
Phơng pháp tổng quát dùng để tách các vùng liên thông với nhau là phơng pháp gán thành phần. Điều kiện các ký tự có thể trùm lên nhau nhng không đợc dính vào nhau do nhiễu và một ký tự không đợc cắt thành nhiều phần. Từ đợc duyệt từ dòng trên xuống dòng dới, gặp một điểm đen thì kiểm tra các điểm lân cận nó P1, P2, P3 , P4. Các trờng hợp có thể xảy ra:
+ Cả bốn nhãn đều bằng không ---> Điểm nền. Khi đó Nhãn hiện tại = Nhãn hiện tại+1.
Nhãn P = Nhãn hiện tại.
+ Trong bốn lân cận của P, tồn tại một điểm có nhãn bằng L và 3, điểm còn lại có nhãn = 0 hoặc L khi đó nhãn P = L.
Nếu tồn tại hai láng giềng có nhãn là L1 và L2, sao cho L1 khác L2 và khác 0. Khi đó hai vùng liên thông có nhãn L1, L2 đ ợc hoà nhập tại P. Điểm P có nhãn L1 trong vùng đệm của từ. Những điểm nào có nhãn L2 sẽ đợc thay nhãn mới là L1. Cần chú ý kiểm tra nếu một thành phần liên thông nào nằm gọn trong vùng khác (theo nghĩa cột bắt đầu và cột kết thúc) thì đó là hai thành phần của ký tự i hoặc j.
Kết thúc giai đoạn này sẽ thu đợc một vùng đệm chứa ảnh riêng của một ký tự - phục vụ cho các giai đoạn nhận dạng ký tự.
Giai đoạn nhận dạng ký tự
Đây là giai đoạn quyết định của hệ thống, trình bày chi tiết ở mục sau.
Giai đoạn phục hiện lại nội dung văn bản
Đây là công đoạn cuối cùng của hệ thống nhận dạng. Nó bao gồm: bỏ qua, sửa đổi các ký tự mà mô đun đã nhận dạng sai... Cuối cùng là đa về một văn bản hoàn chỉnh. Quá trình này gồm một số thao tác nh: soát chính tả, lu trữ...
B. Các phơng pháp nhận dạng từng Ký tự
Đây là giai đoạn nhận dạng riêng từng ký tự đã đợc cô lập khỏi văn bản. Có thể nêu vài phơng pháp kinh điển.
1. Măt nạ đối sánh
Đây là phơng pháp đợc phát triển từ những năm 60. Nội dung chủ yếu của phơng pháp này là mẫu cần nhận dạng đợc chia nhỏ thành nxm vùng khác nhau. Tại mỗi vùng tổng số điểm đen đợc tính toán. Nếu giá trị của chúng lớn hơn một ngỡng nào đó thì vùng đó đợc gọi là vùng đen; ngợc lại đây là vùng trắng. Quá trình nhận dạng đợc thực hiện nhờ một cây quyết định. Tại đó, mỗi nút là một câu hỏi “vùng tơng ứng có phải là vùng đen không”.
0 1 1 0 1 0
1 0 0 1 0 1
Phơng pháp này khá đơn giản. Tuy nhiên, nếu số lợng vùng khá lớn độ phức tạp sẽ tăng nhiều và kém hiệu quả khi thay đổi kiểu chữ...
2. Đối sánh từng điểm xuất phát từ trọng tâm
Sau khi cô lập chữ khỏi văn bản, trọng tâm chữ đợc tính toán và đợc xác định toạ độ. Tiếp đó, chữ mới và chữ chuẩn đợc đối sánh nhau từng pixel một theo chiều từ trọng tâm ra ngoài biên. Các hình vành khăn lồng nhau có trọng tâm tạo thành các lớp pixel có cùng trọng số. Phơng pháp này thực hiện khá nhanh nhng khi chất lợng của máy quét hơi tồi, các điểm của chữ mất t- ơng đối nhiều, làm lệch trọng tâm dẫn tới kết quả nhận dạng rất kém .
3. Đối sánh với điểm cắt dọc và ngang
Phơng pháp này là cải tiến của phơng pháp trên. Trong phơng pháp này ngời ta tính xem trên từng hàng, mỗi hàng cắt chữ tại bao nhiêu điểm, các giá trị này đợc lu vào một véc tơ và loại bỏ các giá tri 0 ở đầu và cuối. Đối với các cột cũng vậy. Sau đó vec tơ này đợc đem so sánh với véc tơ tơng ứng đợc xây dựng từ một mẫu chuẩn. Một nhận dạng đợc coi là mẫu chuẩn nếu véc tơ đó là tập con
của vectơ chuẩn và ngợc lại. Phơng pháp này đơn giản, cho tốc độ cao. Kết quả không bị ảnh hởng bởi mất các điểm ở biên chữ. Song nó đòi hỏi một phông chữ chuẩn.
4. Phơng pháp thống kê giao điểm
Phơng pháp này gần giống nh đối sánh với các điểm cắt dọc và cắt ngang. ở đây, ngời ta xây dựng 4 véc tơ. Ngoài 2 véc tơ thẳng đứng và nằm ngang còn có 2 véc tơ chéo 45o và 135o. Trên mỗi hớng chỉ cần xét những đ- ờng quét cắt kí tự từ 1 đến 4 điểm. Cuối cùng, ta thu đợc véc tơ đặc trng chứa tham số cho cả 4 vec tơ trớc. Quá trình nhận dạng dựa vào một tập quyết định.
5. Phơng pháp biểu diễn chữ qua văn phạm và nhận dạng cấu trúc chữ Cơ sở của nó dựa trên lý thuyết ngôn ngữ và hình thức lý thuyết nhận dạng cú pháp để có thể nhận dạng các biểu diễn đợc đặc trng với các hình thức khác nhau của một tập ký tự bất kỳ. Phơng pháp này bớc đầu đặt vấn đề giải quyết bài toán nhận dạng chữ tổng quát. Tuy vậy, cho đến nay vẫn còn rất nhiều vấn đề liên quan tới hệ nhận dạng cú pháp cha đợc giải quyết và cha xây dựng đợc những thuật toán phổ dụng...
6. Phơng pháp nhận dạng cấu trúc chữ
Nội dung: phân hoạch bảng ký tự, trích chọn các thuộc tính đặc trng của ký tự.
+ Phân hoạch bảng ký tự: căn cứ vào tiêu chuẩn cấu trúc của các ký tự, nh số thành liên thông, số chu trình, số và vị trí các trạc ba... chúng ta lập bảng phân hoạch. Ví dụ, căn cứ vào thành phần liên thông ta có thể phân hoạch thành tập các ký tự 1, 2, 3 thành phần liên thông, sau đó có thể phân hoạch tiếp thành các tập có 1, 2 chu trình. Tiếp tục phân hoạch thành tập có 1, 2, điểm kết thúc. Tóm lại, sẽ có một bảng phân hoạch đầy đủ cho tất cả các ký tự. Căn cứ vào các đặc điểm cấu trúc này để nhận dạng. Tuy nhiên, với các tập
phân hoạch trên cha thực hiện đợc mục tiêu đặt ra là làm các tập nhỏ nhất. Giải pháp tạo ra các tập mịn hơn là dựa vào một số đặc trng khác nh điểm cắt dọc, điểm cắt ngang, khoảng cách của hai lớp cắt dọc và cắt ngang, cắt dọc... + Trích chọn các đặc trng
Các đặc trng của ký tự cần trích chọn bao gồm các điểm kết thúc, các trạc ba. Điểm kết thúc chỉ có duy nhất một trong các 8 láng giềng. Điểm trạc ba thoả mãn các điều kiện c, d, e
C
h ú
ý:
các ký tự cần nhận dạng cần đợc làm mảnh, chơng trình duyệt theo từng dòng để tìm kiếm một cột đen nào đó trên ảnh, sau đó quá trình duyệt lại đợc bắt đầu từ điểm vừa tìm ra bằng cách lần theo cạnh.
Để tăng độ chính xác, ngời ta còn kết hợp phơng pháp này với phơng pháp thống kê giao điểm, đặc biệt là khi nhận dạng chữ có dấu.
C. Phơng pháp Mạng nơ ron BAM học phông chữ và nhận dạng
1 Đặt vấn đề. Hiện nay có nhiều phơng pháp nhận dạng ký tự. Nhìn
chung, các phơng pháp này phức tạp và kết quả cha thật ổn định, do đó việc tìm một tiếp cận mới cho quá trình nhận dạng là một việc cần thiết và có ý nghĩa thực tế.
2 Khả năng phân lớp của BAM. Trớc hết chúng ta tiến hành việc khai thác
khả năng nhớ mẫu và nhận dạng của BAM. Giai đoạn học của BAM là xây dựng một ma trận nhớ từ tập các cặp mẫu chuẩn. Giả sử {xk, yk} là một tập các cặp mẫu chuẩn. Ma trận tự liên kết chính là ma trận nhớ mẫu là :
W = Σsk ( xk )T yk với k=1,...,s
Giả sử đa một mẫu x1 là một mẫu chuẩn vào mạng, mạng sẽ tạo các véc tơ y: y =a (x1 W) y = a[x1W ks(xk)Tyk] = a[x1(x1)Ty1 + W k≠1sx1(xk)Tyk] = a[x1(x1)Ty1 +η] với k=1,...,s
Điều mong đợi là y=y1 tức là W
k≠1sx1(xk)Tyk = 0 với mọi k≠1. Nếu {xk} là tập véc tơ trực giao tức x1(xk)T= 0 với mọi k≠1 thì điều kiện đợc thoả mãn. Thực tế, không cho phép vì tập mẫu cần nhận dạng thờng là bất kỳ, ngẫu nhiên nên nhiễu (nhiễu trong) đơng nhiên xuất hiện.
3. Giải pháp loại nhiễu
Với m, n là số chiều của y, x; khả năng nhớ mẫu của BAM là: s <= min (n,m)
ở đây, mẫu và đích phải có số chiều lớn hơn s2. Tuy vậy, với số lợng mẫu cần nhận dạng lớn, giải pháp này không chấp nhận dợc vì m, n quá lớn, dẫn đến việc tính toán rất phức tạp. Nh vậy, thờng vẫn phải chấp nhận nhiễu trong. Tuy không thu đợc giá trị mong muốn nhng ta vẫn có thể dựa vào khoảng cách giữa véc tơ y và các véc tơ yk để phân lớp , nếu khoảng cách Hamming đảm bảo tiêu chuẩn sau: