Phõn tớch trang văn bản nhờ khoảng cỏch Hausdorff bởi quan

Một phần của tài liệu Giáo trình môn xử lý ảnh ppt (Trang 94 - 96)

Thụng thường, việc tiến hành phõn tớch định dạng trang thường được tiến hành sau khi ảnh được xỏc định gúc nghiờng và quay về gúc 0.

Phõn tớch định dạng trang cú thể thực hiện từ dưới lờn hay từ trờn xuống. Với phõn tớch từ trờn xuống, một trang được chia từ những phần lớn thành cỏc phần con nhỏ hơn, vớ dụ nú cú thể được chia thành một số cột văn bản. Sau đú mỗi cột cú thể được chia thành cỏc đoạn, mỗi đoạn lại được chia thành cỏc dũng văn bản... Tiếp cận theo hướng này cú cỏc phương phỏp: Sử dụng cỏc phộp chiếu nghiờng, gỏn nhón chức năng, phõn tớch khoảng trống trắng v.v.. Ưu điểm lớn nhất của cỏc phương phỏp phõn tớch từ trờn xuống là nú dựng cấu trỳc toàn bộ trang để giỳp cho phõn tớch định dạng được nhanh chúng. Đõy là cỏch tiếp cận hiệu quả cho hầu hết cỏc dạng trang. Tuy nhiờn, với cỏc trang khụng cú cỏc biờn tuyến tớnh và cú sơ đồ lẫn cả bờn trong và quanh văn bản, cỏc phương phỏp này cú thể khụng thớch hợp. Vớ dụ, nhiều tạp chớ tạo văn bản quanh quanh một sơ đồ ở giữa, vỡ thế văn bản đi theo những đường cong của đối tượng trong sơ đồ chứ khụng theo đường thẳng.

Phõn tớch định dạng từ dưới lờn bắt đầu với những phần nhỏ và nhúm chỳng vào những phần lớn hơn kế tiếp tới khi mọi khối trờn trang được xỏc định. Tuy nhiờn khụng cú một phương phỏp tổng quỏt nào điển hỡnh cho mọi kỹ thuật phõn tớch dưới lờn. Trong [1] cỏc tỏc giả đó đề xuất thuật toỏn phõn tớch trang văn bản hỗn hợp thành cỏc thành phần pageANALYSIS theo tiếp cận dưới lờn nhờ việc sử dụng khoảng cỏch Hausdorff giữa cỏc đối tượng ảnh thụng qua quan hệ Qθ. Ban đầu cỏc đối tượng ảnh sẽ được cụ lập bởi chu tuyến ngoài (đường biờn kớn nhỏ nhất chứa mọi điểm ảnh của đối tượng ảnh). Cỏc đối tượng cú kớch thước hỡnh chữ nhật phủ nhỏ hơn một ngưỡng θ nào đú sẽ được nhúm với nhau theo lõn cận gần nhất dựa vào việc sử dụng khoảng cỏch Hausdorff để tạo ra cỏc khối, cỏc đối tượng ảnh cũn lại sẽ được tiếp tục phõn tớch như là đối với một trang văn bản. Trong đú, ngưỡng θ thường được xỏc định theo kinh nghiệm người sử dụng. Trong phần dưới đõy chỳng tụi đề xuất việc lựa chọn ngưỡng một cỏch tự động dựa vào biểu đồ tần xuất (histogram).

fv

Hỡnh 6.8: Ảnh văn bản và biểu đồ tần xuất khoảng cỏch Hausdorff giữa cỏc đối tượng ảnh

Do thuật toỏn phõn tớch trang văn bản pageANALYSIS [1] dựa khoảng cỏch Hausdorff bởi quan hệ Qθ là quỏ trỡnh duyệt tỡm cỏc lớp tương đương theo khoảng cỏch θ. Cỏc đối tượng ảnh trong cựng một khối văn bản cú những đặc trưng tương đối giống nhau về kớch thước và khoảng cỏch giữa chỳng với cỏc đối tượng lõn cận. Hơn nữa, một trang văn bản lại thường cú một vài dạng đối tượng chỉ đạo. Do đú, ta cú thể lựa chọn ngưỡng θ ban đầu thụng qua việc đỏnh giỏ biểu đồ tần xuất khoảng cỏch Hausdorff giữa cỏc đối tượng ảnh (hỡnh 5.8).

Từ biểu đồ tần xuất khoảng cỏch Hausdorff giữa cỏc đối tượng ảnh của ảnh văn bản cần phõn tớch. Ngưỡng θ được lựa chọn trong cỏc giỏ trị hθ tương ứng là cỏc đỉnh trong biểu đồ tần xuất đú chớnh là cỏc giỏ trị ứng

với nhiều phần tử cựng loại nhất. Với ngưỡng θ đó chọn ta tiến hành phõn vựng theo tiếp cận dưới lờn nhờ việc sử dụng khoảng cỏch Hausdorff giữa cỏc đối tượng ảnh thụng quan quan hệ Qθ. Kết quả thu được và tập hợp cỏc hỡnh chữ nhật rời nhau thể hiện cỏc vựng trong ảnh.

Việc lựa chọn ngưỡng θ phự hợp nhất sẽ được tiến hành thụng qua việc đỏnh giỏ sự sai lệch của văn bản so với mẫu. Với mỗi ngưỡng θ, ta sẽ tỡm được mẫu tương ứng cú độ lệch nhỏ nhất. Ngưỡng θ và văn bản mẫu tương ứng với độ sai lệch nhỏ nhất trong số cỏc độ lệch sẽ được lựa chọn. Nếu sai số nhỏ nhất chấp nhận được (nhỏ hơn một ngưỡng cho trước nào đú) thỡ số vựng của văn bản sẽ được xỏc định tương ứng với số vựng của văn bản mẫu được lựa chọn. Khi đú, văn bản sẽ được phõn tớch trang dựa theo cỏc thuộc tớnh của văn bản mẫu. Trong trường hợp ngược lại cú thể xem văn bản khụng thuộc tập văn bản mẫu và do vậy cú thể tiến hành bổ sung văn bản đang xột vào tập mẫu.

Một phần của tài liệu Giáo trình môn xử lý ảnh ppt (Trang 94 - 96)