Trƣờng hợp thuật toán nhận dạng sai cột

Một phần của tài liệu Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh (Trang 50 - 51)

7 bước trong thuật toán phân đoạn khối phía trên về cơ bản nhận dạng được các khối riêng rẽ nhưng cũng chưa đủ tốt để nhận dạng được tất cả các loại khối phân tách. Hình 4.2 mô phỏng một thí dụ về trường hợp thuật toán phân tách thành hai khối khác nhau nhưng về logíc hai khối trên thực chất là một khối.

Hình 4.3 Trường hợp thuật toán nhận dạng sai cột

Khi phân tích các bước của thuật toán trên ta thấy có một hạn chế, đó là khi một từ Wj mới được xem xét có thêm vào khối đang duyệt Bi hay không thì thuật toán chỉ quan tâm xem Wj có nằm chồng lên từ Wx (là từ ở dòng trước hay dòng sau của Wj) mà không xem xét Wj có nằm chồng lên bất kỳ từ nào thuộc khối Bi hay không.

Nhìn trên Hình 4.3, nếu thực hiện lần lượt các bước từ 1 đến 7 thì ta thấy các từ trên được chia thành hai khối riêng rẽ, nhưng ta thấy hai từ Thành

vọng tuy nằm chồng lên nhau nhưng lại thuộc hai khối khác nhau bởi vì khi thuật toán đi đến từ nó sẽ xem xét hai từ là kỳvọng trong đó chỉ có mỗi từ kỳ là nằm chồng lên nó còn từ vọng không nằm chồng lên từ

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 4.4 Trường hợp giữa các dòng của một cột trong bảng có ô trắng

Hình 4.4 chỉ ra một thí dụ mà thuật toán do G. Kieninger có thể nhận dạng được các cột trong bảng. Trong 7 bước mà G. Kieninger đề xuất, khi thực hiện xuất phát từ một hình bao chữ nhật của một từ thuật toán chỉ tìm các từ có nằm chồng lên nó trong dòng trước và dòng kế tiếp. Vì vậy trong trường hợp một cột trong bảng mà có nhiều dòng để trống (chẳng hạn khi một ô của bảng kéo dài trên nhiều dòng) thì khi thực hiện tìm các từ ở dòng kế tiếp và dòng trước sẽ không tìm được từ nào thuộc cột đó. Do đó để tìm được chính xác các từ thuộc một cột của bảng thì xuất phát từ một từ phải tìm trên tất cả các dòng của đoạn văn bản.

Dưới đây sẽ trình bày những cải tiến các bước của thuật toán phân đoạn trên.

Một phần của tài liệu Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh (Trang 50 - 51)

Tải bản đầy đủ (PDF)

(74 trang)