Tách chữ viết tay ra khỏi khung điền

Một phần của tài liệu Nhận dạng các biểu mẫu tài liệu (Trang 71)

Theo các thuật toán cơ bản đƣợc trình bày ở phần trƣớc, chúng ta có các phƣơng pháp tách khác nhau:

a) Phân tách bằng thuật toán gán nhãn:

Một thuật toán đệ quy được sử dụng để tính các thành phần liên thông đen trong biểu mẫu. Từ đó số lượng điểm đen trong mỗi thành phần liên thông được xác định. Để thu được chữ viết tay mà không còn khung, ta xét các thành phần liên thông : Nếu số điểm đen trong thành phần liên thông bé hơn một ngưỡng cho trước thì toàn bộ thành phần liên thông sẽ bị xoá. Ta biết rằng số lượng điểm đen trong thành phần liên thông của các chấm nhỏ là nhỏ hơn rất nhiều so với số lượng các điểm đen trong thành phần liên thông của chữ viết tay. Do đó qua phép toán này, chúng ta sẽ thu được các chữ viết tay không còn khung điền.

Ngƣợc lại, để thu đƣợc khung điền thông tin mà đã loại bỏ đƣợc chữ viết tay, chúng ta cũng thực hiện tƣơng tự, chỉ khác ở chỗ thành phần liên thông nào có số lƣợng điểm đen lớn hơn ngƣỡng cho trƣớc thì sẽ bị xoá hoàn toàn.

b) Phân tách bằng các thuật toán hình thái học:

Morphology đƣợc sử dụng ở đây gồm có phép cophép dãn

Phép co : Nếu một điểm đen đƣợc tìm thấy, chúng ta sẽ xem xét các 4-hàng xóm hoặc 8-hàng xóm của nó và nó sẽ bị biến đổi thành điểm trắng nếu có ít nhất một hàng xóm của nó là điểm trắng.

Phép dãn : Nếu một điểm đen đƣợc tìm thấy thì các 4-hàng xóm hoặc 8- hàng xóm của nó sẽ đƣợc chuyển thành các điểm đen.

Đầu tiên, trang biểu mẫu sẽ đƣợc thực hiện nhiều lần phép co cho đến khi các khung điền thông tin bị biến mất. Lúc này trên ảnh chỉ cón lại các chữ viết tay, chúng ta sẽ thực hiện phép dãn để phục hồi lại các chữ viết tay. Phép co thực hiện bao nhiêu lần thì phép dãn cũng sẽ được thực hiện bấy nhiêu lần.

74

Để thu đƣợc chữ viết tay thông qua các biến đổi này, thì độ dày của các chữ viết tay phải dày hơn độ dày của các chấm nhỏ. Bởi vì nếu không có điều kiện này thì chữ viết tay cũng sẽ bị biến mất cùng khung điền thông tin sau một số bƣớc thực hiện phép co. Ngoài ra, sau khi thực hiện phép co, thì các chữ viết tay sẽ bị biến dạng bào mòn, đứt nét. Để khôi phục lại chúng, chúng ta sẽ sử dụng phép dãn. Tuy nhiên thƣờng là các chữ viết tay thu đƣợc sau khi thực hiện phép dãn sẽ dày hơn kích thƣớc thật của nó.

Phân tách sử dụng kết hợp phép gán nhãn và hình thái học

Chúng ta có một nhận xét rằng tốc độ của phép toán gán nhãn phụ thuộc vào số lƣợng điểm đen trong biểu mẫu. Dựa vào nhận xét này, chúng ta có thể tiến hành phân tách nhƣ sau :

Bƣớc 1 :Sử dụng phép toán co (contraction) để giảm bớt số lƣợng điểm đen. Bƣớc 2 : Áp dụng thuật toán gán nhãn để loại bỏ các vệt đen nhỏ.

Hình 3.12 : Khung trước khi tách

Hình 3.13 : Khung sau khi đã tách chữ viết tay

75

Một phần của tài liệu Nhận dạng các biểu mẫu tài liệu (Trang 71)