Phân tích cấu trúc văn bản thông qua phát hiện TAB-STOP

Một phần của tài liệu Phát hiện cấu trúc bảng trong nhận dạng văn bản (Trang 28 - 30)

Phƣơng pháp phân tích bố cục Tesseract là một bổ sung gần đây các hệ thống nguồn mở OCR [13]. Phƣơng pháp này dựa trên ý tƣởng của việc phát triển các tab-stop trong các tài liệu hình ảnh.

Tab-stop là đƣờng ranh giới giữa các khối văn bản trong trang (đƣờng căn lề trái/phải của khối, cột,...).

Khi thiết lập một kiểu tài liệu, các tab-stop sẽ là các vị trí điểm mà văn bản đƣợc căn chỉnh (trái, phải, trung tâm,...). Do đó, tab-stop có thể đƣợc sử dụng nhƣ một chỉ dẫn đáng tin cậy của việc bắt đầu hoặc kết thúc một khối văn bản. Việc tìm các bố trí của trang thông qua tab-stop đƣợc minh họa nhƣ trong hình 2.1.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

30

Trƣớc tiên, một bƣớc tiền xử lý các ảnh tài liệu đƣợc thực hiện để xác định các đƣờng ngang và dọc để xác định các vùng trung gian hoặc vùng ảnh trong tài liệu. Sau đó, một sự phân tích các thành phần liên thông đƣợc thực hiện để xác định thành phần ứng cử viên cho văn bản dựa trên kích thƣớc và dải đậm đặc của nó.

Các thành phần văn bản đƣợc lọc sẽ đƣợc đánh giá nhƣ là các ứng cử viên cho việc nằm trên vị trí của tab-stop. Những ứng cử viên này đƣợc nhóm lại thành các đƣờng thẳng đứng để tìm vị trí của tab-stop mà chúng đƣợc xếp thẳng hàng. Bƣớc cuối cùng, cặp của các đƣờng liên thông các tab đƣợc điều chỉnh sao cho chúng kết thúc tại cùng một tung độ y (xem hình 2.1 (a)). Tại giai đoạn này, các dòng tab dọc sẽ đánh dấu sự bắt đầu và kết thúc của các vùng văn bản.

Dựa trên các dòng tab, các cột của trang gồm các thành phần đƣợc rút ra và kết nối sẽ đƣợc nhóm lại thành các phân vùng cột. Một phân vùng cột là một chuỗi của các thành phần liên thông mà nó không chạy qua bất kỳ dòng tab và chúng có cùng một kiểu (văn bản, hình ảnh,...). Các phân vùng cột có thể đƣợc coi là những ứng cử viên ban đầu cho các dòng văn bản (Xem hình 2.1 (b)).

(a)Các dòng Tab-stop (b)Bố trí cột (b)Các khối văn bản đƣợc

phân đoạn

Hình 2.1 Kết quả đầu ra của các bước khác nhau của các mô-đun phân tích bố trí trong tài liệu ảnh

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

31

Bƣớc cuối cùng sẽ tạo ra các dòng chảy của các phân vùng cột thỏa mãn các phân vùng cột kề nhau có cùng một kiểu sẽ đƣợc nhóm thành cùng một khối (hình 2.1 (c)). Các phân vùng cột văn bản có sự khác nhau của kích thƣớc chữ và khoảng cách dòng sẽ đƣợc nhóm vào các khối khác nhau. Tiếp đó, thứ tự đọc của các khối đƣợc xác định. Ranh giới của các khối đƣợc biểu diễn nhƣ là một đa giác isothetic (đa giác có tất cả các cạnh song song với các trục).

Một phần của tài liệu Phát hiện cấu trúc bảng trong nhận dạng văn bản (Trang 28 - 30)