2.5.Thuật toán làm mảnh
Để cắt các ký tự khỏi từ, ta chuyển các nét bút thành ma trận nhị phân, ma trận nhị phân này sẽ được làm mảnh để độ dày chỉ còn lại 1 pixel. [10]
Thuật toán sử dụng các cửa sổ 3 x 3 áp vào các điểm ảnh của ma trận nhị phân. Nếu các điểm ảnh của ma trận nhị phân trùng với cửa số, điểm ảnh được chỉ định trong ma trận cửa số sẽ bị xóa.
Để tránh trường hợp xóa điểm ảnh sẽ tách vùng điểm đen liên tục thành hai vùng. Trước khi xóa thuật toán sẽ kiểm tra xem điểm ảnh cần xóa có nằm trong ma trận khôi phục hay không. Nếu có thì điểm ảnh đó sẽ không bị xóa.
Các bước của thuật toán được trình bày như sau:
Bƣớc 1: Tạo một bảng tìm kiếm gồm các ma trận 3 * 3 như sau: Số điểm đen trong ma trận 3*3 Quy tắc loại bỏ 0 Không có 1 Không có 2 Không có 3 4 5
6
7
8 Không có
\Bƣớc 2. Tính chỉ số cho mỗi cửa sổ 3*3. Việc tính chỉ số này sẽ giúp cho thuật toán thực hiện nhanh hơn. Chỉ số của mỗi cửa sổ được tính theo công thức:
3 2 1 4 0 5 6 7 Chỉ số = a0 * 20
+ a1*21 + a2*22 + a3*23 + a4*24 + a5*25 + a6*26 + a7*27
Bƣớc 3: Sử dụng các chỉ số được tính ở bước 2 và kiểm tra xem có điểm nào có thể loại bỏ được hay không. Nếu không có, chuyển sang bước 5.
Bước 4: Kiểm tra chiều ngang của ma trận có điểm có khả năng loại bỏ. Nếu chiều rộng của nó nhỏ hơn 2 pixel, thì xóa điểm đó. Ngược lại kiểm tra xem điểu có khả năng loại bỏ được có nằm trong ma trận khôi phục hay không. Ma trận khôi phục gồm 7 ma trận như sau:
Bước 5: Lặp lại bước 2 đến bước 4 cho đến khi không còn pixel nào bị loại bỏ.
2.6.Chuẩn hóa kích thƣớc
Trong quá trình trích chọn đặt trưng của một ký tự, ta phải chuẩn hóa kích thước ký tự đó, kích thước được chuẩn hóa thường có dạng n * n ( 16 *16, 32 * 32, 64 *64) nếu kích thước chuẩn hóa lớn thì bộ nhớ lưu trữ tập dữ liệu mẫu sẽ lớn. Nếu kích thước chuẩn chuẩn hóa nhỏ thì khi chuẩn hóa kích thước của ký tự sẽ làm mất đi một số đặt trưng của ký tự đó.
Giả sử ký tự ban đầu có kích thước m1 * n1, ta sẽ đưa kích thước của ký tự đó về dạng n * n. Mỗi điểm ảnh của ảnh kết quả sẽ lấy giá trị tại ảnh gốc theo công thức: