Thuật toán dùng biến đổi Hough thƣờng xác định một số điểm đen và dùng biến đổi Hough tác động lên các điểm đó.
Biến đổi Hough ánh sạ một đƣờng thẳng trong mặt phẳng thành các cặp (r,φ) trong không gian Hough với r là khoảng cách từ gốc tạo độ tới đƣờng thẳng đó và φ là góc nghiêng của đƣờng thẳng đó so với trục hoành. Góc nghiêng văn bản tƣơng ứng là góc có tổng số điểm nằm trên những đƣờng thẳng cùng lệch góc lớn nhất. Thông thƣờng để đếm các điểm đen này các thuật toán dùng một mảng tích lũy Histogram. Số các điểm đen này đƣợc áp dụng biến đổi Hough tùy thuộc vào từng thuật toán, có thể là tất cả các điểm đen hoặc có thể chỉ là những điểm thỏa mãn một số ràng buộc nào đó hoặc chỉ là đáy của các đối tƣợng ảnh.
Phƣơng pháp của Srihari và Govidaraju là áp dụng biến đổi Hough cho tất cả các điểm đen của ảnh. Tất nhiên, việc áp dụng không có loại trừ một điểm nào dẫn đến chi phí tính toán rất lớn và ảnh hƣởng tới độ chính xác của thuật toán. Để giảm thời gian chạy và tăng một phần độ chính xác của thuật toán, Hinds chỉ áp dụng biến đổi Hough cho một sô ít điểm hơn bằng phân tích chạy dài theo chiều dọc. Mục đích của nén chạy dài theo chiều dọc trong thuật toán này là lấy ra các điểm đáy của các dòng văn bản, loại bỏ đi những điểm đen khác kể cả chúng thuộc vào một ký tự dùng biến đổi Hough lên các điểm đen đó. Tuy nhiên, chi phí tính toán của thuật toán này vẫn còn lớn và việc áp dụng biến đổi Hough cho tất cả các điểm đen ở đáy có thể dẫn đến
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
những kết quả sai trong trƣờng hợp ảnh đầu vào còn nhiều đối tƣợng phi ký tự, nhiễu, bảng biểu hay ảnh.
Biến đổi Hough đƣợc sử dụng rộng rãi trong phân tích ảnh, tầm nhìn máy tính và xử lý hình ảnh kỹ thuật số. Nó là một kỹ thuật sử dụng để tìm các hình ảnh trong một hình ảnh kỹ thuật số nhị phân. Các tiếp cận này đƣợc ƣa thích khi mục tiêu là để tìm đƣờng hoặc đƣờng cong trong một hình ảnh. Nó đƣợc xác định bởi các đại diện tham số đƣợc sử dụng để mô tả các đƣờng trong mặt phẳng ảnh. Nó đƣợc giới thiệu bởi Paul Hough vào năm 1962 và bằng sáng chế của IBM. Các biến đổi biểu diễn bằng tham số mô tả về một đặc trƣng tại vị trí bất kỳ đƣợc đƣa ra trong một không gian ảnh gốc. Ý tƣởng cơ bản là “mỗi đƣờng thẳng trong một hình ảnh có thể đƣợc mô tả bởi một phƣơng trình và mỗi điểm trắng nếu xem xét trong sự cô lập có thể nằm trên vô số đƣờng thẳng”. Trong biến đổi Hough mỗi phiếu điểm cho mỗi dòng nó có thể đƣợc ủng hộ. Các dòng có số phiếu cao nhất giành chiến thắng.
Phép biến đổi Hough ánh xạ mỗi điểm trong mặt phẳng (x,y) lên mặt phẳng Hough với bộ tham số (r,), ở đây các đƣờng thẳng có thể đi qua (x,y) với góc nghiêng và cách gốc toạ đô một khoảng r. Thời gian thực hiện phép biến đổi Hough cho từng điểm riêng biệt là rất lớn, nhƣng có nhiều phƣơng pháp tăng tốc độ cho phép biến đổi này, chẳng hạn có thể sử dụng độ dốc của đoạn thẳng. Đối với các trang tài liệu, cách tăng tốc độ là tính các ảnh “ngắt đoạn” (burst image) để giảm số phép biến đổi điểm sang không gian Hough. Những đoạn ngắt ngang và dọc là tập các điểm liên tiếp nằm trên cùng một hàng hoặc một cột. Các ảnh đoạn này đƣợc mã hoá bởi số điểm trên một ngắt đoạn (độ dài đoạn ngắt). Do vậy độ dài của các ngắt đoạn có giá trị gần với các cạnh phải và đáy của các ký tự (đối với các trang tài liệu có các góc nghiêng nhỏ), do đó tổng số điểm cần biến đổi sang không gian Hough giảm xuống đáng kể. Ở đây mỗi giá trị “burst” đƣợc lƣu trữ trong các “hộp” (bin)
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
tại mọi giá trị (r,) tham số hoá các đƣờng thẳng qua vị trí (x,y) trong ảnh ngắt đoạn đƣợc lƣu trữ trong các hộp trong không gian Hough, đỉnh hộp
cho góc mà tại đó có nhiều đƣờng thẳng đi qua các điểm ban đầu nhất, đây là góc nghiêng. Đối với phƣơng pháp này có hạn chế là góc nghiêng của văn bản nhỏ hơn 15o. Ngoài ra, nếu văn bản có cấu trúc rời rạc, thì khó có thể chọn đƣợc đúng các đỉnh trong không gian Hough. Trong trƣờng hợp này mặc dù có cải tiến dùng các ảnh ngắt đoạn nhƣng phép biến đổi Hough thƣờng là chậm hơn các phƣơng pháp chiếu nghiêng đƣợc mô tả ở trên, nhƣng bù lại là độ chính xác của góc lệch đƣợc phát hiện ra cao hơn.