mẫu cơ bản nhờ sử dụng cỏc quy tắc, cỏc dấu hiệu như:
l: Số chu trỡnh (loops)
j: Số điểm khớp (junction points) e: Số điểm ngoặt (turning points) f: Số điểm kết thỳc (end points) t: Hướng (trờn, dưới, trỏi, phải)
Để biểu diễn cỏc ký tự, từ đú tỡm ra điểm cắt phự hợp, chẳng hạn cỏc điểm cắt thường được giới hạn bởi trước và sau chu tuyến trong của đối tượng (Hỡnh 6.16).
a) Cụm chữ dớnh b) Cỏc cặp điểm thắt
tỡm được c) Cỏc cặp điểm cắt sau khi tớnh tới vị trớ tương hỗ của chu tuyến trong
Hỡnh 6.16. Thực hiện VerifyCutPoint cú tớnh đến vị trớ tương hỗ của chu tuyến trong
6.3.3.2. Thuật toỏn CutCHARACTER cắt chữ in dớnh dựa vào chu tuyến chu tuyến
Ban đầu cỏc chu tuyến và cỏc tớnh chất tương ứng của chu tuyến sẽ được phỏt hiện. Bước tiếp theo là dựa vào nửa chu tuyến ngoài trờn và nửa chu tuyến ngoài dưới của cụm chữ dớnh để tỡm ra cỏc cặp điểm thắt theo điều kiện về cỏc cặp điểm thắt. Cỏc cặp điểm thắt sẽ được chớnh xỏc húa nhờ cỏc thụng tin về điểm cựng hoành độ, mật độ cắt, độ rộng của chữ v.v.. và cuối cựng là quyết định cặp điểm thắt là cặp điểm cắt nhờ sử dụng cỏc quy tắc, dấu hiệu như: Số chu trỡnh (loops), số điểm khớp (junction points), số điểm ngoặt (turning points), số điểm kết thỳc (end points), hướng (trờn, dưới, trỏi, phải) và vị trớ tương hỗ của chu tuyến trong.
Thuật toỏn CutCHARACTER tỡm cặp điểm cắt dựa vào chu tuyến (theo tớnh liờn thụng) nờn sẽ khắc phục được cỏc lỗi cắt chữ bị chốn (overlap) của thuật toỏn cắt chữ VPP hay VH.
Do cỏc cặp điểm thắt được tỡm nằm ở nửa trờn và nửa dưới của chu tuyến ngoài của cụm từ, chữ dớnh cần tỏch, nờn thuật toỏn
CutCHARACTER cú khả năng cắt được cỏc chữ dớnh khụng theo chiều thẳng đứng (cắt xiờn) và do đú mở ra khả năng ứng dụng cho việc cắt chữ viết tay.
Chỳng tụi đó ỏp dụng kỹ thuật cắt chữ dớnh nhờ việc sử dụng tớnh chất của chu tuyến và vị trớ tương hỗ giữa chỳng đối với lớp cỏc ký tự mà phần mềm VnDOCR 2.0 sau khi sử dụng phương phỏp Vertical Project Profile (VPP) hay Vertical Histogram (VH) là phương phỏp khỏ phổ biến được ỏp dụng trong cỏc hệ OCR (Optical Character Recognition).
Trong số gần 90 cụm từ mà VnDOCR khụng cắt được, chỳng tụi đó cho ỏp dụng kỹ thuật cắt chữ này và đó cắt được hơn 80 cụm chữ dớnh. Điều đú mở ra khả năng tớch hợp của kỹ thuật với cỏc phương phỏp VPP
và VH
truyền thống.
Cỏc cụm chữ dớnh mà thuật toỏn cắt được tương ứng với cỏc dạng phụng chữ kiểu khụng chõn và cú chõn Arial, Avant, Times, Courier,... với kớch thước của cỏc ký tự từ 8 đến 72 điểm và cỏc thuộc tớnh như bỡnh thường, đậm, nghiờng, hay kết hợp đậm-nghiờng.