Đối sánh nhị phân

Một phần của tài liệu Nhận dạng chữ viết tay tiếng Việt trên các thiết bị cầm tay (Trang 65)

Phương pháp này sử dụng các đặt trưng của ký tự để đối sánh như số nét bút tạo thành ký tự, ký tự có nét bút trễ hay không hoặc chuyển ký tự về dạng biểu diễn như ảnh nhị phân để so sánh.

Một số ký tự chỉ có một nét bút là “C,e,L,v.v..” trong khi đó một số ký tự khác có thể gồm 2 nét bút như “X,Tv.v..”, các ký tự có thể gồm 3 nét bút là “H,K”.

Tọa độ các điểm (x,y) thu được từ thiết bị số hóa

Chuẩn hóa kích thước và căn giữa Chuyển thành ma trận nhị phân Phân vùng và trích chọn đặc trưng Đối sánh mẫu

64

Chuẩn hóa kích thước và căn giữa đảm bảo ký tự có cùng kích thước giống nhau. Tất cả các ký tự đều đưa về kích thước n x n.

Khi chuyển các nét bút về dạng nhị phân, ta sẽ thu được một ma trận nhị phân M[n,n] trong đó:

Giá trị n thường là bội số của hai n có thể bằng 16,32,64,128,256. Nếu n càng lớn, mẫu biểu diễn các ký tự sẽ có giá trị khác nhau càng lớn nhưng sẽ tăng kích thước bộ nhớ lưu trữ mẫu.

Ma trận nhị phân sẽ được chia thành các khối, mỗi khối sẽ có kích thước 2x2 hoặc 4x4 tùy vào kích thước của n. Với mỗi khối, ta đếm tổng số điểm đen trên khối đó. Nếu khối đó có số điểm đen  2 thì giá trị của khối đó là 1. Ngược lại giá trị của khối đó có giá trị bằng 0.

Lấy giá trị của tất cả các khối theo thứ tư từ trái qua phải và từ trên xuống dưới ta được một dãy nhị phân. Dãy nhị phân này sẽ được so sánh với các dãy nhị phân được gán nhãn có trong cơ sở dữ liệu mẫu. Nếu mẫu nào trùng với với chuỗi nhị phân cần nhận dạng hoặc có sai lệch it nhất thì nhãn cua nó chính là kết quả nhận dạng.

Phương pháp nhận dạng này dễ cài đặt và tuy nhiên độ chính xác không cao nhất là khi kích thước n chọn nhỏ và số lượng mẫu yêu cầu cho mỗi ký tự là nhiều.

65

Một phần của tài liệu Nhận dạng chữ viết tay tiếng Việt trên các thiết bị cầm tay (Trang 65)