Phân tách các cột bị trộn vào một khối

Một phần của tài liệu phương pháp phát hiện bảng trong tài liệu tổng hợp (Trang 59 - 62)

Trong quá trình phát hiện khối, có một số khối độc lập bị nhập vào thành một khối do sự phân bổ đặc thù liên thông của các từ trong văn bản của chúng làm cho thuật toán không thể phát hiện được. Trường hợp hay gặp phải nhất đó là một số ô của hàng đầu tiên được trộn lại để viết tên trường (field name), theo đó các cột tương ứng bên dưới sử dụng chung tên trường này. Ví dụ để trình bày về giới tính trong bảng danh sách tên nhân viên, nguời ta thường trộn hai ô đầu tiên

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

của hai cột kề nhau và viết cụm từ “Giới tính”, những ô còn lại của hai cột này dùng để ghi từ “Nam” hoặc từ “Nữ”, và trong quá trình nhận dạng sẽ chỉ phát hiện khối văn bản gồm hai cột này chỉ là một khối. Lúc này, để phân định lại hai cột này ta áp dụng quy tắc về việc phân lớp của khối văn bản là khối loại một hoặc khối loại hai như đã trình bày trong phần 2.3. Ðể áp dụng đặc điểm của khối loại một, ta xét một khối bất kỳ đã được thuật toán phát hiện được trong bước khởi tạo phân khối, nếu trong khối này có xuất hiện những từ được sắp xếp theo quy tắc: phía trên chỉ có một từ liên thông và phía dưới cũng có duy nhất một từ liên thông theo nghĩa là vùng bao quanh bành trướng theo hai hướng trên và dưới giao nhau, thì những từ này tạo thành khối loại một. Do đó ta sẽ phân những từ này thành một khối nhỏ thuộc khối lớn vừa xét. Ðối với các khối loại hai nếu có tồn tại khối nhỏ trong khối lớn thì ta có thể áp dụng kết hợp với việc phát hiện các đường kẻ dọc như kỹ thuật của tác giả Kasturi để phát hiện những khối con loại hai này. Khi gặp những khối được bố trí trong môi trường bảng một cách thuần túy và đơn giản, không có những ngoại lệ thì kết quả của việc tách thành các khối nhỏ thuộc khối lớn ban đầu được thể hiện rất rõ ràng, được minh họa trong hình 2.13a, nhưng vì kỹ thuật phát hiện các cột nhỏ này được áp dụng cho mọi khối tìm được trong ảnh tài liệu. Vì vậy khi kỹ thuật quét qua các cột thuộc khối loại hai thì nó cũng sẽ nhận ra một số từ bảo đảm được điều kiện là sắp xếp đúng theo quy tắc phía trên chỉ có một từ liên thông và phía dưới cũng có duy nhất một từ liên thông. Nhưng những từ này vốn dĩ không tạo thành một cột nhỏ riêng biệt.

Như vậy, sau khi quét qua các khối để phát hiện các cột nhỏ bên trong các khối nếu có, thì ta tiếp tục áp dụng kỹ thuật tìm kiếm để trộn lại những khối bị tách không theo mong muốn. Sau khi áp dụng kỹ thuật tách để duyệt qua các khối lớn đã được phát hiện, một khối lớn K có thể sẽ được phân tách thành các khối nhỏ từ K1 đến Kc nào đó. Với mỗi khối Ka bất kỳ thuộc một trong

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

những khối từ K1 đến Kc , dựa vào hệ trục đề-cac vuông góc, ta đánh chỉ số cho khối Ka này như sau: (Xa-min,Ya-min), (Xa-max,Ya-max), với (Xa-min,Ya-min) là giá trị tọa độ của điểm được tạo bởi góc dưới cùng bên trái và (Xa-max,Ya-max) là giá trị tọa độ của điểm được tạo bởi góc trên cùng bên phải của khối. Theo đó, ta tiến hành duyệt qua các khối từ 1 đến c, nếu tồn tại hai khối a và b sao cho các giá trị tọa độ thỏa cả hai điều kiện sau:

Xb-min ≤ Xa-min < Xa-max ≤ Xb-max Yb-min ≤ Ya-min < Ya-max ≤ Yb-max

thì khối nhỏ a nhằm trong khối nhỏ b. Do vậy ta có thể trộn khối a vào trong khối b. Cứ tiếp tục thực hiện như vậy cho đến khi không còn hai khối nào thỏa điều kiện trên (Hình 2.13b). Ngoài ra, để phát hiện và trộn các khối không bảo đảm tạo thành cột riêng một cách đầy đủ, ta còn phải kết hợp thêm các điều kiện ràng buộc khác như xét số lượng các khối là láng giềng của khối nhỏ, độ rộng của đường khoảng trắng phân cách phía trái và phía phải của các cột nhỏ, độ cao trung bình của các cột nhỏ trong cột lớn. Cũng không ngoại trừ trường hợp phải xét điều kiện độ rộng của ĐKTPC (Đường khoảng trắng phân cách) với độ lớn trung bình của các khoảng trắng giữa các từ trong khối như đã được trình bày trong phần 2.3.1

Y khối a nhỏ (a)

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Ya-min 0

Xa-min Xa-max (b)

Hình 2.13: (a): Tách các cột nhỏ trong cột lớn; (b): Trộn các khối nhỏ vào khối lớn; Nguồn: Kieninger (1998) và xử lý của tác giả (7/2014)

Một phần của tài liệu phương pháp phát hiện bảng trong tài liệu tổng hợp (Trang 59 - 62)

Tải bản đầy đủ (PDF)

(75 trang)