Nhóm các từ bị phân tách

Khi thuật toán thực hiện và duyệt qua toàn bộ ảnh tài liệu thì sẽ có một số được phát hiện và tách thành từng khối riêng biệt, mỗi từ được phân định vào một khối không mong muốn. Vì vậy chúng ta phải tìm cách nhóm các từ bị chia tách không đúng này thành một khối. Ðiển hình cho các từ bị chia tách này là những từ được bố trí trên một dòng tách rời với các dòng khác, thí dụ như một dòng tiêu đề hoặc những từ được phân bố phía dưới cùng của khối mà chưa được canh đều, hay những từ thể hiện các nội dung của một ô trong bảng,v.v…Ðể khắc phục vấn đề này chúng ta sẽ xem xét rằng mỗi từ thuộc những khối độc lập này có tương ứng với từng ô của bảng và có thực sự thuộc một môi trường bảng nào đó hay không. Cụ thể chúng ta sẽ tính toán độ cao vùng bao quanh của khối tạo nên một từ rồi so sánh giá trị này với các cột có thể có của bảng. Ta duyệt qua từng khối, nếu phát hiện các khối liền kề nhau theo chiều ngang thì ta tạo đường canh lề cho từng khối đó. Ðộ dài của đoạn thẳng canh lề này là một giá trị cho trước. Các đường canh lề được tạo ra này sẽ cho biết độ cao của các khối này cũng như cho chúng ta thông tin về ranh giới phía trái, ranh giới phía phải của tất cả các khối nằm kề nhau. Ðộ dài của đường canh lề sẽ tăng thêm khi ta phát hiện ra một hoặc nhiều điểm tạo nên những đường canh lề mới (các điểm này có tọa độ không thuộc phạm vi giá trị của các điểm tạo nên đoạn thẳng canh lề cho truớc). Những điểm tạo nên đường canh lề mới này cũng cho biết rằng chúng có bị chặn bởi các đường biên của khối bên trái hay khối bên phải hay không. Các đường canh lề sẽ được khởi đầu và kết thúc

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

trong phạm vi tọa độ chiều rộng và chiều cao của ảnh tài liệu. Nếu đoạn thẳng canh lề bên trái và lề bên phải của một khối không đạt được một giá trị tham số cho trước thì khối này sẽ được trộn vào khối liền kề phía bên trái hoặc bên phải tương ứng của nó (Hình 2.14).

Hình 2.14: Trộn các từ bị tách nhờ vào các đoạn thẳng canh lề. Nguồn: Kieninger.

Nhận dạng ký tự quang học (OCR)

Nhận dạng ký tự dựa trên ngữ cảnh