Phƣơng pháp phát hiện bảng Tesseract

Một phần của tài liệu Phát hiện cấu trúc bảng trong nhận dạng văn bản (Trang 30 - 31)

Thuật toán phát hiện bảng đƣợc xây dựng với hai thành phần của mô đun phân tích cấu trúc sau:

- Phần cột

- Bố trí cột

Các phần cột tạo ra cho chúng ta các thành phần liên thông mà chúng đã đƣợc nhóm lại theo kiểu của nó sao cho không chạy qua các dòng tab- stop. Vì vậy các phần cột sẽ xấp xỉ các dòng văn bản trong tài liệu. Các vùng trung gian và các đƣờng đen ngang đƣợc xem nhƣ là các phân tách cột của ảnh và kiểu đường ngang. Bên cạnh các phân vùng cột, sự bố trí các cột sẽ cho chúng ta biết thông tin có hay không một phân vùng cột nằm hoàn toàn trong một cột hoặc đang trải qua nhiều cột. Nhƣ chỉ ra trong hình 2.2, cả hai phần cột và sự bố trí cột có đƣa ra kết quả sai sót trong sự xuất hiện của các vùng bảng.

Một sự phân tích thêm nữa trong việc có mặt của các vùng bảng chỉ ra hai vấn đề chính sau đây.

- Trong trƣờng hợp thứ nhất, các cột bảng đƣợc thông báo nhƣ các cột trang vì vậy sẽ phá hủy các cấu trúc cột của các trang. Nó xuất hiện trong trƣờng hợp tất cả các ô của bảng đƣợc căn chỉnh rất thẳng hàng. Các sự căn chỉnh này sẽ gây ra một lƣợng lớn các tab-stop cho việc phát hiện và vì vậy

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

32

các dòng tab là đủ mạnh để thông báo sự xuất hiện của một cột. Mỗi ô trong bảng vì vậy đƣợc thông báo nhƣ các phân tách cột đơn.

- Trong trƣờng hợp thứ hai, các cột bảng sẽ đƣợc bỏ qua bởi vì các cột là không đƣợc căn chỉnh thẳng hàng. Nhƣ vậy, cấu trúc cột của trang đƣợc xác định chính xác. Các phân tách cột trong trƣờng hợp đó trải ngang qua các cột khác nhau của bảng. Cả hai vấn đề trên đƣợc miêu tả trong hình 2.2.

Dựa trên phân tích trên, thuật toán sẽ đƣợc xây dựng và trình bày trong các phần tiếp theo.

Một phần của tài liệu Phát hiện cấu trúc bảng trong nhận dạng văn bản (Trang 30 - 31)