Thuật toán CutCHARACTER cắt chữ in dính dựa vào

Một phần của tài liệu GIÁO TRÌNH MÔN HỌC XỬ LÝ ẢNH (Trang 107)

mẫu cơ bản nhờ sử dụng các quy tắc, các dấu hiệu như:

l: Số chu trình (loops)

j: Sốđiểm khớp (junction points) e: Sốđiểm ngoặt (turning points) f: Sốđiểm kết thúc (end points) t: Hướng (trên, dưới, trái, phải)

Để biểu diễn các ký tự, từ đó tìm ra điểm cắt phù hợp, chẳng hạn các

điểm cắt thường được giới hạn bởi trước và sau chu tuyến trong của

đối tượng (Hình 6.16).

a) Cụm chữ dính b) Các cặp điểm thắt tìm được

c) Các cặp điểm cắt sau khi tính tới vị trí tương hỗ của

chu tuyến trong

Hình 6.16. Thực hiện VerifyCutPoint có tính đến vị trí tương hỗ của chu tuyến trong

6.3.3.2. Thuật toán CutCHARACTER cắt chữ in dính dựa vào chu tuyến chu tuyến

Ban đầu các chu tuyến và các tính chất tương ứng của chu tuyến sẽ được phát hiện. Bước tiếp theo là dựa vào nửa chu tuyến ngoài trên và nửa chu tuyến ngoài dưới của cụm chữ dính để tìm ra các cặp điểm thắt theo

điều kiện về các cặp điểm thắt. Các cặp điểm thắt sẽ được chính xác hóa nhờ các thông tin vềđiểm cùng hoành độ, mật độ cắt, độ rộng của chữ v.v.. và cuối cùng là quyết định cặp điểm thắt là cặp điểm cắt nhờ sử dụng các quy tắc, dấu hiệu như: Số chu trình (loops), số điểm khớp (junction points), số điểm ngoặt (turning points), số điểm kết thúc (end points), hướng (trên, dưới, trái, phải) và vị trí tương hỗ của chu tuyến trong.

Thuật toán CutCHARACTER tìm cặp điểm cắt dựa vào chu tuyến (theo tính liên thông) nên sẽ khắc phục được các lỗi cắt chữ bị chèn (overlap) của thuật toán cắt chữ VPP hay VH.

Do các cặp điểm thắt được tìm nằm ở nửa trên và nửa dưới của chu tuyến ngoài của cụm từ, chữ dính cần tách, nên thuật toán

CutCHARACTER có khả năng cắt được các chữ dính không theo chiều thẳng đứng (cắt xiên) và do đó mở ra khả năng ứng dụng cho việc cắt chữ

viết taỵ

Chúng tôi đã áp dụng kỹ thuật cắt chữ dính nhờ việc sử dụng tính chất của chu tuyến và vị trí tương hỗ giữa chúng đối với lớp các ký tự mà phần mềm VnDOCR 2.0 sau khi sử dụng phương pháp Vertical Project Profile (VPP) hay Vertical Histogram (VH) là phương pháp khá phổ biến được áp dụng trong các hệ OCR (Optical Character Recognition).

Trong số gần 90 cụm từ mà VnDOCR không cắt được, chúng tôi đã cho áp dụng kỹ thuật cắt chữ này và đã cắt được hơn 80 cụm chữ dính.

Điều đó mở ra khả năng tích hợp của kỹ thuật với các phương pháp VPP

và VH

truyền thống.

Các cụm chữ dính mà thuật toán cắt được tương ứng với các dạng phông chữ kiểu không chân và có chân Arial, Avant, Times, Courier,... với kích thước của các ký tự từ 8 đến 72 điểm và các thuộc tính như bình thường, đậm, nghiêng, hay kết hợp đậm-nghiêng.

Một phần của tài liệu GIÁO TRÌNH MÔN HỌC XỬ LÝ ẢNH (Trang 107)