mẫu cơ bản nhờ sử dụng các quy tắc, các dấu hiệu như:
l: Số chu trình (loops)
j: Sốđiểm khớp (junction points) e: Sốđiểm ngoặt (turning points) f: Sốđiểm kết thúc (end points) t: Hướng (trên, dưới, trái, phải)
Để biểu diễn các ký tự, từ đó tìm ra điểm cắt phù hợp, chẳng hạn các
điểm cắt thường được giới hạn bởi trước và sau chu tuyến trong của
đối tượng (Hình 6.16).
a) Cụm chữ dính b) Các cặp điểm thắt tìm được
c) Các cặp điểm cắt sau khi tính tới vị trí tương hỗ của
chu tuyến trong
Hình 6.16. Thực hiện VerifyCutPoint có tính đến vị trí tương hỗ của chu tuyến trong
6.3.3.2. Thuật toán CutCHARACTER cắt chữ in dính dựa vào chu tuyến chu tuyến
Ban đầu các chu tuyến và các tính chất tương ứng của chu tuyến sẽ được phát hiện. Bước tiếp theo là dựa vào nửa chu tuyến ngoài trên và nửa chu tuyến ngoài dưới của cụm chữ dính để tìm ra các cặp điểm thắt theo
điều kiện về các cặp điểm thắt. Các cặp điểm thắt sẽ được chính xác hóa nhờ các thông tin vềđiểm cùng hoành độ, mật độ cắt, độ rộng của chữ v.v.. và cuối cùng là quyết định cặp điểm thắt là cặp điểm cắt nhờ sử dụng các quy tắc, dấu hiệu như: Số chu trình (loops), số điểm khớp (junction points), số điểm ngoặt (turning points), số điểm kết thúc (end points), hướng (trên, dưới, trái, phải) và vị trí tương hỗ của chu tuyến trong.
Thuật toán CutCHARACTER tìm cặp điểm cắt dựa vào chu tuyến (theo tính liên thông) nên sẽ khắc phục được các lỗi cắt chữ bị chèn (overlap) của thuật toán cắt chữ VPP hay VH.
Do các cặp điểm thắt được tìm nằm ở nửa trên và nửa dưới của chu tuyến ngoài của cụm từ, chữ dính cần tách, nên thuật toán
CutCHARACTER có khả năng cắt được các chữ dính không theo chiều thẳng đứng (cắt xiên) và do đó mở ra khả năng ứng dụng cho việc cắt chữ
viết taỵ
Chúng tôi đã áp dụng kỹ thuật cắt chữ dính nhờ việc sử dụng tính chất của chu tuyến và vị trí tương hỗ giữa chúng đối với lớp các ký tự mà phần mềm VnDOCR 2.0 sau khi sử dụng phương pháp Vertical Project Profile (VPP) hay Vertical Histogram (VH) là phương pháp khá phổ biến được áp dụng trong các hệ OCR (Optical Character Recognition).
Trong số gần 90 cụm từ mà VnDOCR không cắt được, chúng tôi đã cho áp dụng kỹ thuật cắt chữ này và đã cắt được hơn 80 cụm chữ dính.
Điều đó mở ra khả năng tích hợp của kỹ thuật với các phương pháp VPP
và VH
truyền thống.
Các cụm chữ dính mà thuật toán cắt được tương ứng với các dạng phông chữ kiểu không chân và có chân Arial, Avant, Times, Courier,... với kích thước của các ký tự từ 8 đến 72 điểm và các thuộc tính như bình thường, đậm, nghiêng, hay kết hợp đậm-nghiêng.