Các thuật toán phân tích trang có thể đƣợc phân chia thành bốn loại chính nhƣ sau :
Các kỹ thuật phân vùng ký tự : các thuật toán này phân tích trang văn bản nhằm mục đích trích chọn và phân vùng các ký tự. Các vùng ký tự đƣợc lại đƣợc phân chia thành các cột, đọan, dòng, các từ...với mục đích phát hiện ra lƣợc đồ cấu trúc của văn bản. Các kỹ thuật này sử dụng cho các văn bản chỉ chứa các thông tin ký tự, hoặc là các ký tự kết hợp với một số phần tử không
29
là ký tự. Trong trƣờng hợp này, các vùng không chứa các ký tự dễ dàng bỏ qua đƣợc.
Các kỹ thuật phân vùng trang : Các thuật toán này tập trung vào việc phân chia trang văn bản thành các vùng đồng nhất. Chúng đƣợc phân chia vào trong các phân lớp phụ thuộc vào kỹ thuật chúng sử dụng :
o Kỹ thuật làm nhoè (smearing) o Phân tích phổ phép chiếu
o Dựa vào kết cấu hoặc là phân tích địa phƣơng. o Phân tích cấu trúc nền đen.
Các kỹ thuật kết hợp phân vùng/phân lớp : dành cho một số thuật toán không cần thiết phải phân chia giữa bƣớc phân vùng và bƣớc phân lớp. Các thuật toán này dựa vào :
o Phân tích các thành phần kết nối o Làm nhoè
o Phân tích cấu trúc hoặc cục bộ
Các kỹ thuật phân lớp khối : Các thuật toán này gán nhãn các vùng nhỏ trƣớc khi phân vùng thành các khối. Phần quan trọng nhất của kỹ thuật là dựa vào các đặc tính phân vùng và đặc tính phân loại số tuyến tính. Ngoài ra vẫn còn có các kỹ thuật khác cũng đƣợc thể hiện.