Thông thường, việc tiến hành phân tích định dạng trang thường được tiến hành sau khi ảnh được xác định góc nghiêng và quay về góc 0.
Phân tích định dạng trang có thể thực hiện từ dưới lên hay từ trên xuống. Với phân tích từ trên xuống, một trang được chia từ những phần lớn thành các phần con nhỏ hơn, ví dụ nó có thể được chia thành một số cột văn bản. Sau đó mỗi cột có thể được chia thành các đoạn, mỗi đoạn lại được chia thành các dòng văn bản... Tiếp cận theo hướng này có các phương pháp: Sử dụng các phép chiếu nghiêng, gán nhãn chức năng, phân tích khoảng trống trắng v.v.. Ưu điểm lớn nhất của các phương pháp phân tích từ trên xuống là nó dùng cấu trúc toàn bộ trang để giúp cho phân tích định dạng được nhanh chóng. Đây là cách tiếp cận hiệu quả cho hầu hết các dạng trang. Tuy nhiên, với các trang không có các biên tuyến tính và có sơ đồ lẫn cả bên trong và quanh văn bản, các phương pháp này có thể không thích hợp. Ví dụ, nhiều tạp chí tạo văn bản quanh quanh một sơ đồ ở giữa, vì thế văn bản đi theo những đường cong của đối tượng trong sơ đồ chứ không theo đường thẳng.
Phân tích định dạng từ dưới lên bắt đầu với những phần nhỏ và nhóm chúng vào những phần lớn hơn kế tiếp tới khi mọi khối trên trang được xác định. Tuy nhiên không có một phương pháp tổng quát nào điển hình cho mọi kỹ thuật phân tích dưới lên. Trong [1] các tác giả đã đề xuất thuật toán phân tích trang văn bản hỗn hợp thành các thành phần pageANALYSIS theo tiếp cận dưới lên nhờ việc sử dụng khoảng cách Hausdorff giữa các đối tượng ảnh thông qua quan hệ Qθ. Ban đầu các đối tượng ảnh sẽ được cô lập bởi chu tuyến ngoài (đường biên kín nhỏ nhất chứa mọi điểm ảnh của đối tượng ảnh). Các đối tượng có kích thước hình chữ nhật phủ nhỏ hơn một ngưỡng θ nào đó sẽ được nhóm với nhau theo lân cận gần nhất dựa vào việc sử dụng khoảng cách Hausdorff để tạo ra các khối, các đối tượng ảnh còn lại sẽ được tiếp tục phân tích như là đối với một trang văn bản. Trong đó, ngưỡng θ thường được xác định theo kinh nghiệm người sử dụng. Trong phần dưới đây chúng tôi đề xuất việc lựa chọn ngưỡng một cách tự động dựa vào biểu đồ tần xuất (histogram).
fv
Hình 6.8: Ảnh văn bản và biểu đồ tần xuất khoảng cách Hausdorff giữa các đối tượng ảnh
Do thuật toán phân tích trang văn bản pageANALYSIS [1] dựa khoảng cách Hausdorff bởi quan hệ Qθ là quá trình duyệt tìm các lớp tương đương theo khoảng cách θ. Các đối tượng ảnh trong cùng một khối văn bản có những đặc trưng tương đối giống nhau về kích thước và khoảng cách giữa chúng với các đối tượng lân cận. Hơn nữa, một trang văn bản lại thường có một vài dạng đối tượng chỉ đạo. Do đó, ta có thể lựa chọn ngưỡng θ ban đầu thông qua việc đánh giá biểu đồ tần xuất khoảng cách Hausdorff giữa các đối tượng ảnh (hình 5.8).
Từ biểu đồ tần xuất khoảng cách Hausdorff giữa các đối tượng ảnh của ảnh văn bản cần phân tích. Ngưỡng θ được lựa chọn trong các giá trị hθ tương ứng là các đỉnh trong biểu đồ tần xuất đó chính là các giá trị ứng
với nhiều phần tử cùng loại nhất. Với ngưỡng θ đã chọn ta tiến hành phân vùng theo tiếp cận dưới lên nhờ việc sử dụng khoảng cách Hausdorff giữa các đối tượng ảnh thông quan quan hệ Qθ. Kết quả thu được và tập hợp các hình chữ nhật rời nhau thể hiện các vùng trong ảnh.
Việc lựa chọn ngưỡng θ phù hợp nhất sẽ được tiến hành thông qua việc đánh giá sự sai lệch của văn bản so với mẫu. Với mỗi ngưỡng θ, ta sẽ tìm được mẫu tương ứng có độ lệch nhỏ nhất. Ngưỡng θ và văn bản mẫu tương ứng với độ sai lệch nhỏ nhất trong số các độ lệch sẽ được lựa chọn. Nếu sai số nhỏ nhất chấp nhận được (nhỏ hơn một ngưỡng cho trước nào đó) thì số vùng của văn bản sẽ được xác định tương ứng với số vùng của văn bản mẫu được lựa chọn. Khi đó, văn bản sẽ được phân tích trang dựa theo các thuộc tính của văn bản mẫu. Trong trường hợp ngược lại có thể xem văn bản không thuộc tập văn bản mẫu và do vậy có thể tiến hành bổ sung văn bản đang xét vào tập mẫu.