Mỗi đặc trưng được dùng trong quá trình nhận dạng là một phần chia
nhỏ từ một đoạn thẳng trên đa giác xấp xỉ đường biên của kí tự. Khác với đặc trưng được dùng trong quá trình huấn luyện, tất cả các đặc trưng được trích
chọn từ một đối tượng đầu vào cần nhận dạng đều có cùng chiều dài nên để
thể hiện mỗi đặc trưng chỉ cần sử dụng ba tham số: {X, Y, }, trong đóX và Y
là tọa độ điểm trọng tâm của đặc trưng; là góc của đặc trưng.
Hình 2.2 (a) thể hiện tập các đặc trưng nhận dạng trích chọn được từ ảnh đầu vào của mẫu kí tự “â ”. Trong đó các đoạn nhỏ, đậm được sử dụng như các đặc trưng để nhận dạng. Tất cả các đặc trưng này đều có cùng chiều dài
(được xác định bằng một hằng số FEATLEN). Tọa độ điểm trọng tâmX, Y của các đặc trưng dùng trong quá trình huấn luyện và các đặc trưng dùng trong
quá trình nhận dạng cần phải được chuẩn hóa theo hệ tọa độ được sử dụng
trong quá trìnhđối sánh. Hệ tọa độ này thường được lựa chọn sao cho tất cả
các kí tự trong đó sẽ được chuẩn hóa về cùng một kích thước. Điều này giúp cho quá trình phân lớp kí tự không bị ảnh hưởng bởi sự thay đổi kích thước
của các kí tự. Ở đâyLuận văn sử dụng kỹ thuật chuẩn hóa theo dòng, trongđó
tất cả các kí tự trên một dòng sẽ được chuẩn hóa với cùng một hệ số theo cả hai hướng X và Y. Hệ số chuẩn hóa được lựa chọn sao cho chiều cao X-Height
Hình 2.2: Trích chọn các đặc trưng để nhận dạng
Chiều cao của một dòng được xác định là khoảng cách từ đường
Baseline đến đường Mean Line (xem Hình 2.3). Đường Baseline của một
dòng sau đó cũng được chuyển đổi sao cho vị trí của đường baseline đối với
tất cả các kí tự trên một dòng là một hằng số.
Hình 2.3: Đặc trưng của một dòngảnh
Độ dài của một đặc trưng nhận dạng FEATLEN ở đây được chọn bằng
1/10 giá trị của chiều cao X-Height (theo kinh nghiệm thực tế). Với mỗi ảnh đầu vào cần nhận dạng thường có từ 50 đến 125 đặc trưng.