Tách ký tự khỏi từ

Tách các ký tự ra khỏi từ là một vấn đề khá phức tạp. Mức độ chính xác của việc tách ảnh hƣởng quyết định đến kết quả nhận dạng. Mặc dù chữ in dễ tách hơn chữ viết tay nhƣng việc xác định điểm tách đúng vẫn là một vấn đề khá nan giải.

Về lý thuyết, việc tách có thể thực hiện bằng phƣơng pháp cắt theo miền liên thông hoặc cắt tại các vị trí có mật độ thấp trên biểu đồ tần suất theo chiều thẳng đứng của chữ. Tuy nhiên các ký tự dính nhau thì luôn liên thông với nhau

và ngay trong một chữ cái thì cũng có nhiều vị trí có mật độ thấp (ví dụ “v”, “w”, “u”, “m”, “L”, “H”). Do đó nếu hai ký tự không tách đƣợc khỏi nhau thì ngƣời ta không tách mà huấn luyện và nhận dạng cả cụm ký tự. Nhƣng khi đó khối lƣợng mẫu cần huấn luyện sẽ rất lớn và khó đầy đủ. Bài toán càng trở nên phức tạp khi phải tách một số ngày càng nhiều font với kích thƣớc khác nhau.

Một số phƣơng pháp tách khác dựa vào độ rộng trung bình của ký tự. Tuy nhiên các ký tự có độ rộng biến động rất lớn: có các ký tự rất rộng nhƣ “m”, “w”, có các ký tự rất hẹp nhƣ “l”, “i”. Độ rộng ký tự cũng thay đổi theo loại font.

Việc vận dụng phƣơng pháp cắt nhƣ đối với chữ viết tay là cắt làm nhiều mảnh và kết hợp nhận dạng phần hình chữ nhật là kết hợp của các mảnh đó cũng gặp khó khăn ở chỗ có ký tự rất giống một phần ký tự khác (chữ “c” giống với nửa chữ “o”, chữ “I” giống một nửa chữ “L”, …) và xác định sai vị trí cắt một ký tự dẫn đến tất cả các ký tự còn lại cũng bị xác định sai nên phƣơng pháp này cũng không khả thi.

Để giải quyết bài toán này, hệ thống đề xuất phƣơng pháp xác định các thành phần liên thông để tìm phần thân ký tự, bắt đầu từ điểm ảnh tại hàng x- height. Phần mũ và dấu đƣợc xác định từ các vị trí ascend, x-height, base line, descend tính đƣợc khi tách dòng. Việc tách ký tự gắn liền với việc nhận dạng. Sau khi tách, nếu kích thƣớc hình chữ nhật chứa ký tự quá lớn hoặc không nhận dạng đƣợc thì kết luận các ký tự bị dính nhau và chuyển sang thuật toán tách các ký tự dính.

Hình 3.6. Các ký tự tiếng Việt dính ở phần đầu và chân

Các ký tự tiếng Việt in bị dính khá phức tạp: một số dính hẳn vào nhau nhƣng tách đƣợc bằng đƣờng thẳng (ví dụ “ng”, “am”), một số không dính vào nhau nhƣng không tách đƣợc bằng đƣờng thẳng (ví dụ “Vĩ”, “hĩ”), một số dính hẳn vào nhau và không tách đƣợc bằng đƣờng thẳng (ví dụ “fi”, “fr”). Do đó cách tiếp cận tốt nhất là tách riêng phần thân ký tự và phần mũ, dấu, sau đó ghép lại. Phần mũ, dấu luôn nằm phía trên hoặc phía dƣới ở chính giữa ký tự.

Từ quan sát các ký tự tiếng Việt in chỉ dính nhau ở phần chân (base line) hoặc phần đầu (x-height) hoặc cả hai nên ta có nhận xét là nếu cắt phần chân hoặc phần đầu hoặc cả hai phần thì sẽ tách đƣợc các ký tự. Sử dụng phƣơng pháp này kết hợp với một số luật khác thì ta sẽ tách đƣợc ký tự.

Biến đổi tổng thể và mở rộng chuỗ

Đánh giá về mạng Hamming