Có rất nhiều phương pháp trích chọn đặc trưng được áp dụng cho nhận dạng ký tự nói chung và chữ tượng hình nói riêng, mỗi phương pháp có những ưu và nhược điểm khác nhau, phù hợp với từng tập dữ liệu và yêu cầu thực tế [13]. Có một số thuật toán ý tưởng khá đơn giản nhưng kết quả nhận dạng cao, trọng số vùng (Zoning) là một trong những phương pháp như vậy.
Một số thuật toán trên ý tưởng trọng số vùng cũng đã đạt được nhiều thành tựu trong nhận dạng chữ tượng hình Trung Quốc và Nhật như phương pháp phân bố xác suất điểm đen (Probability Distribution of Black Pixels – DP). Kết quả nghiên cứu đã khẳng định khả năng phân tách dữ liệu của DP, thực nghiệm đã cho thấy DPcó khả năng phân biệt rất tốt 30.000 ký tự in Trung Quốc. Việt ứng dụngDPcho chữ viết tay chữ tượng hình cũng mang lại nhiều kết quả khả quan [14].
Thuật toán trích chọn đặc trưng trọng số vùng (Zoning)
B1. Tính n = tổng số pixel đen trên ảnh nhị phân
B2. Chia vùng không gian ký tự thành các vùng bằng lưới có kích thước u.v, tính số pixel
trong mỗi ô của lưới = ni với i = 1..m, m = u.v
B3. Tính phân bố xác suất điểm ản các vùng tạo ra bởi lưới ở B2 theo công thức:
Pi = ni/n (i = 1,2,…m)
Khi đó đặc trưng của ảnh được xác định bới vector đặc trưng: v = (pi,p2,… pm)
Hình 4.1. Giải thuật trích chọn đặc trưng trọng số vùng (Zoning)
Ví dụ: cho ảnh nhị phân của mộ ký tự với n = 4.935.
Hình 4.2. Ảnh nhị phân của một ký tự tiếng Trung Quốc
Ta dùng lưới với kích thước 3x3, và tính số pixel tại mỗi ô của lưới ta thu được kết quả:
Hình 4.3. Số điểm đen theo lưới 3x3
Thực hiện tính phân bố xác suất điểm ảnh ta có kết quả như sau:
Hình 4.4. Mật độ số điểm đen theo lưới 3x3
Vậy vector đặc trưng của ảnh trên:
v = (0.1445, 0.1207, 0.0608, 0.1597, 0.1621, 0.0826, 0.1207, 0.0826, 0.0547)
Trong phương pháp trọng số vùng, tham số ảnh hưởng đến vector đặc trưng v là kích thước của lưới.