L ỜI CẢM ƠN
1.2.5.1. Thuật toán L Najman
Một số thuật toán xác định góc nghiêng sử dụng các phép toán hình thái. Ý tưởng chủ đạo của phương pháp này xuất phát từ một đặc điểm của phép đóng ảnh là có khả năng gắn các đối tượng cạnh nhau. Các thuật toán này thường dùng phép đóng nhiều lần với mục đích nối các dòng văn bản với nhau. Giai đoạn tiếp theo sẽ dùng các vector chỉ phương của các dòng xác định góc nghiêng cho văn bản tương tự như trong phương pháp phân tích láng giềng.
Theo hướng tiếp cận này gồm các thuật toán của các tác giả: L. Najman [16], nhóm S. Chen và R.M. Haralick và nhóm A.K. Das và B.Chada. Thuật toán của L. Najman có thể được xem là cải tiến nhất trong số các thuật toán
dùng phép toán hình thái xác định góc nghiêng văn bản. Chúng ta sẽ lựa chọn thuật toán của L. Najman để trình bày đại diện cho phương pháp này.
Trước hết, ta định nghĩa các phép toán hình thái cơ bản phục vụ cho thuật toán L. Najman.
* Định nghĩa 1: Phép giãn nở (Dilation)
Giả sử có ảnh I và một mẫu B. Ta định nghĩa phép giãn của I theo cấu trúc B là tập tất cả các điểm x I sao cho Bx chạm tới I. Với Bx là dịch
chuyển của B tới vị trí x của ảnh I.
I B={ x | Bx ∩ I ≠ Ø }
* Định nghĩa 2: Phép co (Erossion)
Phép co của ảnh I theo cấu trúc B là tập tất cả các điểm x I sao cho Bx nằm trong I. Với Bx là dịch chuyển của B tới vị trí x của ảnh I.
I Θ B={ x | Bx I }
* Định nghĩa 3: Toán tử đóng mở. Giả sử có ảnh I và mẫu T. Khi đó
Toán tử mở được định nghĩa: OPEN(I,T)=(IΘT)T Toán tử đóng được định nghĩa: CLOSE(I,T)=(IT)ΘT
Các phép toán hình thái có một số đặc điểm thú vị sau: Phép giãn nở cho phép nối các nét đứt trong các đối tượng. Phép co có thể xóa nhiễu trong ảnh, với ảnh văn bản có thể dùng phép co để tách chữ. Đặc biệt, phép đóng có khả năng gắn các đối tượng cạnh nhau trong ảnh. Nếu ảnh là văn bản gồm các ký tự thì dùng phép đóng sẽ trộn được các ký tự thành một từ và trộn các từ thành dòng văn bản trong trường hợp văn bản không bị lệch góc.
Dựa vào đặc điểm trên đây của phép đóng, ý tưởng chính của thuật toán này là sử dụng phép toán đóng gắn các dòng văn bản để phát hiện góc (7)
(8)
(9)
nghiêng cho văn bản. Tuy nhiên công thức phép đóng trên đây chỉ có thể gắn các dòng trong văn bản không nghiêng.
Vì vậy, trong thuật toán này, L. Najman dùng phép đóng với các mẫu nghiêng các góc khác nhau theo công thức: RLC(I)= I ξ T Θ ξ T
Với cấu trúc mẫu bây giờ là ξT. Trong đó, ξ là giá trị cho biết độ dài của mẫu, tức là mẫu có ξ phần tử theo chiều ngang và là góc nghiêng của mẫu T.
Góc nghiêng của văn bản được xác định bằng cách cho thay đổi các giá trị trong phép đóng, ứng với mỗi góc , tính số histogram tức số điểm ảnh
đen trong ảnh kết quả, góc ứng với trường hợp histogram cực đại sẽ tương ứng là góc lệch của văn bản.
1.2.5.2. Nhận xét
Do phải áp dụng các phép toán hình thái nhiều lần mới có thể đưa ra kết luận về góc nghiêng, nên nhận xét đầu tiên về thuật toán là vấn đề chi phí tính toán. Trong trường hợp ảnh có kích thước lớn, chỉ một lần duyệt hết tất cả các điểm ảnh có thể mất rất nhiều thời gian chưa nói phải thực hiện nhiều lần duyệt và đồng thời thực hiện phép đóng như trong cách làm của L. Najman.