1.2. Tổng quan về bài toán phát hiện góc nghiêng văn bản
1.2.5.1. Thuật toán L Najman
Một số thuật toán xác định góc nghiêng sử dụng các phép tốn hình thái. Ý tưởng chủ đạo của phương pháp này xuất phát từ một đặc điểm của phép đóng ảnh là có khả năng gắn các đối tượng cạnh nhau. Các thuật tốn này thường dùng phép đóng nhiều lần với mục đích nối các dịng văn bản với nhau. Giai đoạn tiếp theo sẽ dùng các vector chỉ phương của các dịng xác định góc nghiêng cho văn bản tương tự như trong phương pháp phân tích láng giềng.
Theo hướng tiếp cận này gồm các thuật toán của các tác giả: L. Najman [16], nhóm S. Chen và R.M. Haralick và nhóm A.K. Das và B.Chada. Thuật tốn của L. Najman có thể được xem là cải tiến nhất trong số các thuật toán
dùng phép tốn hình thái xác định góc nghiêng văn bản. Chúng ta sẽ lựa chọn thuật tốn của L. Najman để trình bày đại diện cho phương pháp này.
Trước hết, ta định nghĩa các phép tốn hình thái cơ bản phục vụ cho thuật toán L. Najman.
* Định nghĩa 1: Phép giãn nở (Dilation)
Giả sử có ảnh I và một mẫu B. Ta định nghĩa phép giãn của I theo cấu trúc B là tập tất cả các điểm x I sao cho Bx chạm tới I. Với Bx là dịch
chuyển của B tới vị trí x của ảnh I.
I B={ x | Bx ∩ I ≠ Ø }
* Định nghĩa 2: Phép co (Erossion)
Phép co của ảnh I theo cấu trúc B là tập tất cả các điểm x I sao cho Bx nằm trong I. Với Bx là dịch chuyển của B tới vị trí x của ảnh I.
I Θ B={ x | Bx I }
* Định nghĩa 3: Tốn tử đóng mở. Giả sử có ảnh I và mẫu T. Khi đó
Tốn tử mở được định nghĩa: OPEN(I,T)=(IΘT)T Tốn tử đóng được định nghĩa: CLOSE(I,T)=(IT)ΘT
Các phép tốn hình thái có một số đặc điểm thú vị sau: Phép giãn nở cho phép nối các nét đứt trong các đối tượng. Phép co có thể xóa nhiễu trong ảnh, với ảnh văn bản có thể dùng phép co để tách chữ. Đặc biệt, phép đóng có khả năng gắn các đối tượng cạnh nhau trong ảnh. Nếu ảnh là văn bản gồm các ký tự thì dùng phép đóng sẽ trộn được các ký tự thành một từ và trộn các từ thành dòng văn bản trong trường hợp văn bản không bị lệch góc.
Dựa vào đặc điểm trên đây của phép đóng, ý tưởng chính của thuật tốn này là sử dụng phép tốn đóng gắn các dòng văn bản để phát hiện góc (7)
(8)
(9)
nghiêng cho văn bản. Tuy nhiên công thức phép đóng trên đây chỉ có thể gắn các dịng trong văn bản khơng nghiêng.
Vì vậy, trong thuật tốn này, L. Najman dùng phép đóng với các mẫu nghiêng các góc khác nhau theo cơng thức: RLC(I)= I ξ T Θ ξ T
Với cấu trúc mẫu bây giờ là ξT. Trong đó, ξ là giá trị cho biết độ dài của mẫu, tức là mẫu có ξ phần tử theo chiều ngang và là góc nghiêng của mẫu T.
Góc nghiêng của văn bản được xác định bằng cách cho thay đổi các giá trị trong phép đóng, ứng với mỗi góc , tính số histogram tức số điểm ảnh
đen trong ảnh kết quả, góc ứng với trường hợp histogram cực đại sẽ tương ứng là góc lệch của văn bản.