nghiêng văn bản
Dựa vào tính chất mỗi đối tƣợng ảnh có duy nhất một chu tuyến ngoài và quan niệm con ngƣời nhận ra độ nghiêng của văn bản dựa vào cỡ chữ chiếm chủ đạo trong văn bản. Việc xác định góc nghiêng văn bản sẽ đƣợc xác định nhờ phép biến đổi Hough cho những điểm giữa đáy của hình chữ nhật nhỏ nhất bao quanh đối tƣợng ảnh cho các đối tƣợng ảnh có kích thƣớc chủ đạo. Nhƣ vậy, công việc đầu tiên cần thực hiện là xác định đƣợc các hình chữ nhật ngoại tiếp các đối tƣợng hay nói cách khác là xác định biên các đối tƣợng. Ta dùng các thuật toán dò biên để xác định biên cho các đối tƣợng trong ảnh văn bản. Hình chữ nhật ngoại tiếp đối tƣợng sẽ đƣợc xác định ngay sau khi dò đƣợc biên cho đối tƣợng đó.
Hình 2.11: Các hình chữ nhật ngoại tiếp đối tƣợng ảnh
Thuật toán dò biên nhƣ sau:
Duyệt ảnh từ trên xuống, từ trái sang phải:
Bƣớc 1: Xác định cặp điểm nền-vùng xuất phát, điểm nền là điểm trắng còn điểm vùng là điểm đen, đây là cặp điểm lân cận nhau.
Bƣớc 2: Xác định cặp điểm nền-vùng tiếp theo dựa vào toán tử dò biên
Bƣớc 4: Nếu gặp lại cặp xuất phát thì thu đƣợc 1 chu tuyến của 1 đối tƣợng, thực hiện lại bƣớc 1; nếu không quay lại bƣớc 2.
Toán tử dò biên: từ 1 cặp điểm nền-vùng, thực hiện dò 8 hƣớng lân cận của điểm vùng theo chiều kim đồng hồ, xuất phát từ vị trí điểm nền. Nếu dò đƣợc điểm đen thì xác định đƣợc cặp điểm nền-vùng tiếp theo.
Biến đổi Hough đƣợc áp dụng sau khi đã loại bớt đi một số đối tƣợng bằng các ngƣỡng kích thƣớc. Mục đích của việc dùng ngƣỡng là dựa vào thƣớc đo kích thƣớc để phân loại đối tƣợng. Nói cách khác, dùng ngƣỡng phân loại ta có thể phân biệt đƣợc một cách tƣơng đối những đối tƣợng là ký tự và đối tƣợng phi ký tự. Nhờ biết phân biệt đối tƣợng, ta sẽ chỉ làm việc với các đối tƣợng có kích thƣớc chủ đạo trong ảnh do đó độ chính xác của thuật toán đƣợc cải thiện đáng kể. Ta sẽ dùng kỹ thuật lập biểu đồ tần xuất kích thƣớc để ƣớc lƣợng một ký tự có tần số xuất hiện nhiều nhất trong văn bản mà ta gọi là đối tƣợng chuẩn. Với mỗi một ảnh đầu vào, ta sẽ xác định một đối tƣợng chuẩn riêng và tự động trong chƣơng trình. Sau đó, lấy đối tƣợng này làm chuẩn và so sánh các đối tƣợng còn lại với nó. Những đối tƣợng có kích thƣớc xấp xỉ bằng kích thƣớc của đối tƣợng này sẽ đƣợc chọn để áp dụng biến đổi Hough. Một đối tƣợng đƣợc xem là xấp xỉ bằng kích thƣớc của đối tƣợng khác nếu chênh lệch kích thƣớc giữa chúng bé hơn một ngƣỡng đƣợc định nghĩa trƣớc
Ý tƣởng của việc áp dụng biến đổi Hough trong phát hiện góc nghiêng văn bản là dùng một mảng tích luỹ để đếm số điểm ảnh nằm trên một đƣờng thẳng trong không gian ảnh. Mảng tích luỹ là một mảng hai chiều với chỉ số hàng của mảng cho biết góc lệch ϕ của một đƣờng thẳng và chỉ số cột chính là giá trị r khoảng cách từ gốc toạ độ tới đƣờng thẳng đó. Sau đó tính tổng số điểm ảnh nằm trên những đƣờng thẳng song song nhau theo các góc lệch thay đổi. Góc nghiêng văn bản tƣơng ứng với góc có tổng giá trị mảng tích luỹ cực đại.
Theo biến đổi Hough, mỗi một đƣờng thẳng trong mặt phẳng tƣơng ứng đƣợc biểu diễn bởi một cặp (r,ϕ). Giả sử ta có một điểm ảnh (x,y) trong mặt phẳng, vì qua điểm ảnh này có vô số đƣờng thẳng, mỗi đƣờng thẳng lại cho một cặp (r,ϕ) nên với mỗi điểm ảnh ta sẽ xác định đƣợc một số cặp (r,ϕ) thoả mãn phƣơng trình Hough.
Hình 2.12: Áp dụng biến đổi Hough phát hiện góc
Hình vẽ trên minh hoạ cách dùng biến đổi Hough để phát hiện góc nghiêng văn bản. Giả sử ta có một số điểm ảnh, đây là những điểm giữa đáy các hình chữ nhật ngoại tiếp các đối tƣợng đã đƣợc lựa chọn từ các bƣớc trƣớc. Ở đây, ta thấy trên mặt phẳng có hai đƣờng thẳng song song nhau. Đƣờng thẳng thứ nhất có ba điểm ảnh nên giá trị mảng tích luỹ bằng 3, đƣờng thẳng thứ hai có gia trị mảng tích luỹ bằng 4. Do đó, tổng giá trị mảng tích luỹ cho cùng góc ϕ trƣờng hợp này bằng 7.
Gọi Hough[360][Max] là mảng tích lũy, giả sử M và N tƣơng ứng là chiều rộng và chiều cao của ảnh, ta có các bƣớc chính trong quá trình áp dụng biến đổi Hough phát hiện góc nghiêng văn bản nhƣ sau:
+ Bƣớc 1: Khai báo mảng chỉ số Hough[ϕ][r] với 0 ≤ ϕ ≤ 3600 và .
+ Bƣớc 2: Gán giá trị khởi tạo bằng 0 cho các phần tử của mảng.
+ Bƣớc 3: Với mỗi cặp (x,y) là điểm giữa đáy của hình chữ nhật ngoại tiếp một đối tƣợng.
- Với mỗi ϕi từ 0 đến 360 tính giá trị ri theo công thức ri= x.cosϕi+y.sinϕi
- Làm tròn giá trị ri thành số nguyên gần nhất là r0
- Tăng giá trị của phần tử mảng Hough[ϕi][r0] lên một đơn vị.
+ Bƣớc 4: Trong mảng Hough[ϕ][r] tính tổng giá trị các phần tử theo từng dòng và xác định dòng có tổng giá trị lớn nhất.
Do số phần tử của một phần tử mảng Hough[ϕ0][r0] chính là số điểm ảnh thuộc đƣờng thẳng x.cosϕ0+y.sinϕ0= r0 vì vậy tổng số phần tử của một hàng chính
là tổng số điểm ảnh thuộc các đƣờng thẳng tƣơng ứng đƣợc biểu diễn bởi góc ϕ của hàng đó. Do đó, góc nghiêng của toán văn bản chính là hàng có tổng giá trị các phần tử mảng lớn nhất.