Phân tích khối

Một phần của tài liệu phương pháp phát hiện bảng trong tài liệu tổng hợp (Trang 63 - 64)

Như đã có trình bày trong mục 2.2 của bài luận này, rằng bảng được cấu thành từ những cột, dòng và ô (cell). Vì vậy, sau khi phát hiện được các khối đại diện cho các cột, chúng ta tiếp tục phân tích các khối này để hình thành những cấu trúc phức tạp hơn của bảng. Ðối với các khối loại một thì ta phân tích mỗi hàng của khối này thành một ô của bảng (Hình 2.15a). Ðối với các khối loại hai thông thường chứa cấu trúc của một đoạn văn bản nhưng cũng có thể chứa các dòng văn bản trong cùng một ô. Có rất nhiều truờng hợp để phân tích thành các ô cho các khối loại hai. Ở đây chúng ta chọn một loại cấu trúc điển hình là: Khối loại hai nằm liền kề với khối loại một và ta tiến hành phân tích khối loại hai này thành các ô tương ứng song song với các ô của khối loại một. Ðể thực hiện việc phân tích này ta phối hợp với kỹ thuật phát hiện đường kẻ của Kasturi, theo đó ta phân đoạn những dòng của khối loại một và trên cơ sở đó ta kẻ những đường kẻ ngang kéo dài nơi ranh giới của những dòng này thì cũng sẽ phân tích được các ô của khối loại hai. Hình 2.15b đưa ra một ví dụ trong đó hai cột phía bên trái là hai khối loại một, cột còn lại phía bên phải là khối loại hai. Trong đó các ô trong cột của khối phía bên phải được phân tích nhờ vào việc kéo dài các đoạn thẳng phân định các ô của hai cột bên trái.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

(a) (b)

Hình 2.15:(a) Phân tích khối loại hai thành cấu trúc các ô của bảng

(b) Ô thuộc khối loại 2 được phân tích nhờ vào ô thuộc khối loại một

Nguồn: Kieninger (1998)

Trong trường hợp những khối loại hai là láng giềng với khối loại một và ta cũng cần tách khối loại hai thành các ô của bảng, do đó ta chỉ cần phân đoạn các dòng cho khối loại một thì đồng thời ta cũng tách được các ô cho khối loại hai.

Hình 2.16 mô tả một ví dụ về việc tách các ô trong bảng với hai cột Pos và Nmb là cột thuộc khối loại một, cột Description là khối loại hai.

Hình 2.16: Tách các khối loại hai thành các hàng trong bảng. Nguồn: Kieninger (1998).

Đầu tiên chúng ta sẽ phân đoạn khối loại một để tách ra các hàng trong bảng. Các hàng của bảng được phân cách với nhau bằng các đường kẻ (hình 2.16 bên trái). Các đường kẻ này đồng thời cũng chia thành các hàng cho khối loại hai.

Một phần của tài liệu phương pháp phát hiện bảng trong tài liệu tổng hợp (Trang 63 - 64)