Phân tích trang văn bản nhờ khoảng cách Hausdorff bởi quan

Một phần của tài liệu GIÁO TRÌNH MÔN HỌC XỬ LÝ ẢNH (Trang 95)

Thông thường, việc tiến hành phân tích định dạng trang thường được tiến hành sau khi ảnh được xác định góc nghiêng và quay về góc 0.

Phân tích định dạng trang có thể thực hiện từ dưới lên hay từ trên xuống. Với phân tích từ trên xuống, một trang được chia từ những phần lớn thành các phần con nhỏ hơn, ví dụ nó có thể được chia thành một số

cột văn bản. Sau đó mỗi cột có thể được chia thành các đoạn, mỗi đoạn lại

được chia thành các dòng văn bản... Tiếp cận theo hướng này có các phương pháp: Sử dụng các phép chiếu nghiêng, gán nhãn chức năng, phân tích khoảng trống trắng v.v.. Ưu điểm lớn nhất của các phương pháp phân tích từ trên xuống là nó dùng cấu trúc toàn bộ trang để giúp cho phân tích

định dạng được nhanh chóng. Đây là cách tiếp cận hiệu quả cho hầu hết

không thích hợp. Ví dụ, nhiều tạp chí tạo văn bản quanh quanh một sơ đồ ở giữa, vì thế văn bản đi theo những đường cong của đối tượng trong sơ đồ

chứ không theo đường thẳng.

Phân tích định dạng từ dưới lên bắt đầu với những phần nhỏ và nhóm chúng vào những phần lớn hơn kế tiếp tới khi mọi khối trên trang được xác

định. Tuy nhiên không có một phương pháp tổng quát nào điển hình cho mọi kỹ thuật phân tích dưới lên. Trong [1] các tác giả đã đề xuất thuật toán phân tích trang văn bản hỗn hợp thành các thành phần pageANALYSIS theo tiếp cận dưới lên nhờ việc sử dụng khoảng cách Hausdorff giữa các

đối tượng ảnh thông qua quan hệ Qθ. Ban đầu các đối tượng ảnh sẽ được cô lập bởi chu tuyến ngoài (đường biên kín nhỏ nhất chứa mọi điểm ảnh của đối tượng ảnh). Các đối tượng có kích thước hình chữ nhật phủ nhỏ

hơn một ngưỡng θ nào đó sẽ được nhóm với nhau theo lân cận gần nhất dựa vào việc sử dụng khoảng cách Hausdorff để tạo ra các khối, các đối tượng ảnh còn lại sẽ được tiếp tục phân tích như là đối với một trang văn bản. Trong đó, ngưỡng θ thường được xác định theo kinh nghiệm người sử

dụng. Trong phần dưới đây chúng tôi đề xuất việc lựa chọn ngưỡng một cách tự động dựa vào biểu đồ tần xuất (histogram).

fv

Hình 6.8: Ảnh văn bản và biểu đồ tần xuất khoảng cách Hausdorff giữa các đối tượng ảnh

Do thuật toán phân tích trang văn bản pageANALYSIS [1] dựa khoảng cách Hausdorff bởi quan hệ Qθ là quá trình duyệt tìm các lớp tương

đương theo khoảng cách θ. Các đối tượng ảnh trong cùng một khối văn bản có những đặc trưng tương đối giống nhau về kích thước và khoảng cách giữa chúng với các đối tượng lân cận. Hơn nữa, một trang văn bản lại thường có một vài dạng đối tượng chỉ đạọ Do đó, ta có thể lựa chọn

ngưỡng θ ban đầu thông qua việc đánh giá biểu đồ tần xuất khoảng cách Hausdorff giữa các đối tượng ảnh (hình 5.8).

Từ biểu đồ tần xuất khoảng cách Hausdorff giữa các đối tượng ảnh của ảnh văn bản cần phân tích. Ngưỡng θ được lựa chọn trong các giá trị

hθ tương ứng là các đỉnh trong biểu đồ tần xuất đó chính là các giá trị ứng với nhiều phần tử cùng loại nhất. Với ngưỡng θ đã chọn ta tiến hành phân vùng theo tiếp cận dưới lên nhờ việc sử dụng khoảng cách Hausdorff giữa các đối tượng ảnh thông quan quan hệ Qθ. Kết quả thu được và tập hợp các hình chữ nhật rời nhau thể hiện các vùng trong ảnh.

Việc lựa chọn ngưỡng θ phù hợp nhất sẽ được tiến hành thông qua việc đánh giá sự sai lệch của văn bản so với mẫụ Với mỗi ngưỡng θ, ta sẽ

tìm được mẫu tương ứng có độ lệch nhỏ nhất. Ngưỡng θ và văn bản mẫu tương ứng với độ sai lệch nhỏ nhất trong số các độ lệch sẽ được lựa chọn. Nếu sai số nhỏ nhất chấp nhận được (nhỏ hơn một ngưỡng cho trước nào

đó) thì số vùng của văn bản sẽ được xác định tương ứng với số vùng của văn bản mẫu được lựa chọn. Khi đó, văn bản sẽ được phân tích trang dựa theo các thuộc tính của văn bản mẫụ Trong trường hợp ngược lại có thể

xem văn bản không thuộc tập văn bản mẫu và do vậy có thể tiến hành bổ

sung văn bản đang xét vào tập mẫụ

Một phần của tài liệu GIÁO TRÌNH MÔN HỌC XỬ LÝ ẢNH (Trang 95)