Lỗi phát hiện khối bị rời rạc

Một phần của tài liệu Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ (Trang 47 - 48)

Thủ tục thể hiện bảy bước của thuật toán do tác giả Thomas Kieninger sẽ phát hiện được các khối văn bản rời rạc. Nhưng khi diện tích vùng bao quanh của các từ trong cùng một đoạn ngắn nào đó có sự khác nhau quá lớn về kích thước, kết hợp với đoạn văn bản được canh chỉnh hoặc những nguyên nhân khác làm cho khoảng cách giữa các từ trên các dòng trở nên rộng hẹp khác nhau, thì có thể thuật toán sẽ phát hiện thành nhiều khối khác nhau theo tính chất vùng bao quanh lân cận trong khi đó về mặt lô-gíc khối vật lý (ở đây chưa tính đến về mặt ngữ nghĩa) thì các khối này thật chất chỉ là một khối. Vì thuật toán chưa chú trọng xét đến việc liệu

rằng vùng bao quanh của từ Wj có giao nhau với vùng bao quanh của những từ khác ngoài từ Wx hay không trước khi quyết định việc đưa từ Wj vào khối đang xét Bi. Ngoài ra, các bước của thuật toán do Thomas Kieninger đề xuất làm việc hiệu quả đối với những khối văn bản được bố trí liên tục trên các dòng, còn khi gặp những khối văn bản mà có nhiều dòng trống rồi lại xuất hiện dòng có văn bản thì sẽ gặp khó khăn khi phải nhận dạng phần văn bản phía dưới các dòng trống đó là thuộc cùng một khối với những dòng trên. Như vậy nên chăng chúng ta phải tiến hành tìm trên mọi dòng của đoạn văn bản.

Thí dụ việc phát hiện khối chưa tuyệt đối được cụ thể hóa như trong hình 3.3. Khi thực hiện các bước của thuật toán thì kết quả ta có được hai khối độc lập, khối thứ nhất có ba từ “Miễn”, “sẽ”, “hạnh”; khối thứ hai có ba từ “cưỡng”, “không” và “phúc”. Trong khi đó từ “Miễn” và từ “phúc” về mặt lô-gíc là hai vùng bao quanh của chúng có gối chồng lên nhau. Sở dĩ có trường hợp này xảy ra là do khi thuật toán đệ quy đến từ “sẽ” thì xét từ “hạnh” và từ “phúc” nhưng chỉ có từ “hạnh” có vùng bao quanh là bảo đảm điều kiện của thuật toán.

Một phần của tài liệu Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ (Trang 47 - 48)