Hình 9. Sẽ không dễ dàng gì để phân tách và nhận dạng hai số 4,2 có các nét nối liền nhau như trên
Do đó quá trình nhận dạng sẽ càng trở nên khó khăn hơn khi các ký tự liền kề trong một chuỗi nối liền nét (Hình 9). Các ký tự nối liền nét là điều rất bình thường và mang ý nghĩa gắn kết (như ký tự gạch nối), khi nối một ký tự số với một ký tự chữ cái viết hoa trong một từ viết tắt thì sẽ rất khó nhận dạng.
1.6.1. Phương pháp
Thuật toán OCR thường có hai phần chính: trích chọn đặc trưng và phân loại. Một cách cơ bản, quá trình OCR gán một ảnh ký tự vào một lớp bằng cách sử dụng thuật toán phân loại dựa trên những đặc trưng được trích chọn và mối liên hệ giữa các đặc trưng đó. Độ đo tương tự là cơ sở để xác định một đối tượng có thuộc một lớp ký tự hay không. Thông thường sẽ có một thành phần thứ ba đó là quá trình xử lý dựa trên
ngữ cảnh để sửa lại những lỗi của OCR. Dưới đây sẽ trình bày ngắn gọn ba thành phần
của OCR.
1.6.1.1. Trích chọn đặc trƣng
Trích chọn đặc trưng liên quan đến việc trích ra những thuộc tính của đối tượng dưới dạng các độ đo. Để biểu diễn một lớp ký tự phải xây dựng một mô hình nguyên mẫu chung cho các lớp ký tự. Và do đó quá trình trích chọn đặc trưng sẽ cố gắng tìm ra các thuộc tính dựa trên nguyên mẫu đã xây dựng cho các lớp. Các đặc trưng chung như, số lượng các lỗ hổng trong ký tự, mặt lõm của đường viền bên ngoài, sự nhô ra của điểm cao nhất và các đặc trưng nội tại, các điểm cắt ngang, các điểm kết thúc, các góc .v.v.. sẽ được sử dụng. Mỗi ảnh ký tự sẽ trích ra các đặc trưng trên và phân loại chúng vào lớp tương ứng.
1.6.1.2. Phân loại
Trong phương pháp phân loại dựa trên thống kê, những mẫu ảnh ký tự được biểu diễn bằng các điểm trong không gian đặc trưng đa chiều. Mỗi một thành phần trong không gian đa chiều biểu diễn cho một độ đo đặc trưng. Quá trình phân loại sẽ chia không gian đa chiều thành các vùng tương ứng với các lớp ký tự và chúng được gán nhãn tương ứng.
Một thí dụ về không gian đặc trưng được sử dụng để phân loại 50 ký tự vào 5 lớp khác nhau {C, E, T, X, Y} được chỉ ra trên Hình 10. Không gian đặc trưng dựa trên hai thuộc tính, phần trăm của các điểm ảnh màu đen nằm trên nét dọc (SV) và nét ngang (SH) của ký tự. Nét bút của ký tự được tách ra thành các nét ngang và nét dọc. Một điểm ảnh có thể thuộc một hoặc cả hai nét trên, do đó SV + SH có thể lớn hơn 100%. Ký tự E và T có thể coi là có giá trị SV và SH lớn nhất; ký tự C có giá trị SV và
SH xấp xỉ 50%; ký tự X và Y có giá trị SH được coi như là nhỏ nhất. Khi đó phân loại các ảnh ký tự sẽ dựa vào độ đo khoảng cách từ nó đến các lớp đã được huấn luyện.
Hình 10. Các cấu trúc đặc trưng nét, tính lõm, lỗ hổng, các điểm cắt ngang và kết thúc có thể được sử dụng làm các chiều của không gian đặc trưng để phân loại ký tự.
Đối sánh với giá trị tập huấn luyện là một phương pháp thuần tuý dùng để phân
loại và nó cũng được coi là một phương pháp phổ biến nhất. Các điểm ảnh riêng rẽ sẽ được sử dụng trực tiếp như là những đặc trưng. Độ đo tương tự sẽ được thay thế cho độ đo khoảng cách. Độ đo sẽ được tính dựa trên việc đếm số lượng điểm ảnh thoả mãn một tính chất nào đó (số lượng điểm ảnh đen và trắng của ảnh dữ liệu trùng với số lượng điểm ảnh đen và trắng tương ứng nằm trên tập huấn luyện). Phương pháp đối sánh với giá trị tập huấn luyện còn có cách gọi khác là cực đại hoá sự tương quan. Tương tự như vậy, chúng ta cũng đếm số điểm ảnh không thoả mãn (số lượng điểm ảnh đen của ảnh dữ liệu trùng với số lượng điểm ảnh trắng nằm trên tập huấn luyện và ngược lại). Lớp với số lượng điểm ảnh không thoả mãn là ít nhất sẽ được chọn làm lớp cho đối tượng kiểm tra. Phương pháp như vậy gọi là cực tiểu hoá độ lệch. Số lượng
điểm ảnh thoả mãn và không thoả mãn có thể quy đổi được và từ đó tính ra được độ tương tự của đối tượng so với tập huấn luyện. Đối sánh với tập huấn luyện là một phương pháp hiệu quả khi mà sự thay đổi trong một lớp đối tượng là do các điểm nhiễu thêm vào.