Thuật toán CutCHARACTER cắt chữ in dính dựa vào

Một phần của tài liệu Giáo trình xử lý ảnh số ĐH Thái Nguyên (Trang 106 - 107)

mẫu cơ bản nhờ sử dụng các quy tắc, các dấu hiệu như:

l: Số chu trình (loops)

j: Số điểm khớp (junction points) e: Số điểm ngoặt (turning points) f: Số điểm kết thúc (end points) t: Hướng (trên, dưới, trái, phải)

Để biểu diễn các ký tự, từ đó tìm ra điểm cắt phù hợp, chẳng hạn các điểm cắt thường được giới hạn bởi trước và sau chu tuyến trong của đối tượng (Hình 6.16).

a) Cụm chữ dính b) Các cặp điểm thắt

tìm được c) Các cặp điểm cắt sau khitính tới vị trí tương hỗ của chu tuyến trong

Hình 6.16. Thực hiện VerifyCutPoint có tính đến vị trí tương hỗ của chu tuyến trong

6.3.3.2. Thuật toán CutCHARACTER cắt chữ in dính dựa vào chu tuyến chu tuyến

Ban đầu các chu tuyến và các tính chất tương ứng của chu tuyến sẽ được phát hiện. Bước tiếp theo là dựa vào nửa chu tuyến ngoài trên và nửa chu tuyến ngoài dưới của cụm chữ dính để tìm ra các cặp điểm thắt theo điều kiện về các cặp điểm thắt. Các cặp điểm thắt sẽ được chính xác hóa nhờ các thông tin về điểm cùng hoành độ, mật độ cắt, độ rộng của chữ v.v.. và cuối cùng là quyết định cặp điểm thắt là cặp điểm cắt nhờ sử dụng các quy tắc, dấu hiệu như: Số chu trình (loops), số điểm khớp (junction points), số điểm ngoặt (turning points), số điểm kết thúc (end points), hướng (trên, dưới, trái, phải) và vị trí tương hỗ của chu tuyến trong.

Thuật toán CutCHARACTER tìm cặp điểm cắt dựa vào chu tuyến (theo tính liên thông) nên sẽ khắc phục được các lỗi cắt chữ bị chèn (overlap) của thuật toán cắt chữ VPP hay VH.

Do các cặp điểm thắt được tìm nằm ở nửa trên và nửa dưới của chu tuyến ngoài của cụm từ, chữ dính cần tách, nên thuật toán

CutCHARACTER có khả năng cắt được các chữ dính không theo chiều thẳng đứng (cắt xiên) và do đó mở ra khả năng ứng dụng cho việc cắt chữ viết tay.

Chúng tôi đã áp dụng kỹ thuật cắt chữ dính nhờ việc sử dụng tính chất của chu tuyến và vị trí tương hỗ giữa chúng đối với lớp các ký tự mà phần mềm VnDOCR 2.0 sau khi sử dụng phương pháp Vertical Project Profile (VPP) hay Vertical Histogram (VH) là phương pháp khá phổ biến được áp dụng trong các hệ OCR (Optical Character Recognition).

Trong số gần 90 cụm từ mà VnDOCR không cắt được, chúng tôi đã cho áp dụng kỹ thuật cắt chữ này và đã cắt được hơn 80 cụm chữ dính. Điều đó mở ra khả năng tích hợp của kỹ thuật với các phương pháp VPP

và VH

truyền thống.

Các cụm chữ dính mà thuật toán cắt được tương ứng với các dạng phông chữ kiểu không chân và có chân Arial, Avant, Times, Courier,... với kích thước của các ký tự từ 8 đến 72 điểm và các thuộc tính như bình thường, đậm, nghiêng, hay kết hợp đậm-nghiêng.

Một phần của tài liệu Giáo trình xử lý ảnh số ĐH Thái Nguyên (Trang 106 - 107)

Tải bản đầy đủ (DOC)

(158 trang)
w