Phƣơng pháp phát hiện bảng T-Recs trong trang ảnh tài liệu

Một phần của tài liệu Phát hiện cấu trúc bảng trong nhận dạng văn bản (Trang 26 - 28)

2.1.1.Giới thiệu

Vấn đề chuyển đổi tự động tài liệu giấy thành tài liệu văn bản điện tử đƣợc trình bày dựa vào kỹ thuật nhận biết ký tự bằng quang học OCR. Hệ thống OCR bao gồm 3 bƣớc cơ bản:

- Thứ nhất, pha phân tích cách bố trí nội dung đƣợc thực hiện để xác định vị trí các dòng văn bản trong tài liệu và để xác định thứ tự đọc của chúng.

- Thứ hai, một công cụ nhận dạng kí tự xử lý các hình ảnh dòng văn bản và phát sinh một chuỗi văn bản bằng cách nhận biết các kí tự rời rạc trong dòng văn bản đó đƣợc sử dụng.

- Thứ ba, một ngôn ngữ mô hình hóa sẽ thực hiện sự sửa chữa trong chuỗi văn bản nhận ra ở bƣớc hai bằng cách sử dụng một từ điển hay một mô hình ngôn ngữ.

Một trong những nhiệm vụ khó khăn ở đây là vấn đề xác định các vùng chứa bảng. Vấn đề khác hiện bảng là một vấn đề khó vì sự phức tạp trong các loại bảng xuất hiện trong các văn bản tài liệu khác nhau. Các hệ thống nhận biết kí tự bằng quang học OCR hiện có thiếu khả năng phát hiện bảng biểu và các mô đun phân tích thƣờng phá vỡ sự hiện diện đúng của các vùng bảng. Một sự phân biệt cần đƣợc thực hiện tại công đoạn giữa việc phát hiện bảng và nhận dạng bảng. Trong nhận dạng bảng, chúng ta nên tập trung vào việc phân tích một bảng đã đƣợc phát hiện bằng cách tìm ra các cột và hàng của nó và cố gắng để trích ra cấu trúc bảng. Mục tiêu của phần này là tập trung vào các thuật toán phát hiện bảng.

Một trong những nghiên cứu tiên phong trong việc phát hiện và nhận biết bảng đƣợc thực hiện bởi Kieninger và các đồng sự đƣợc giới thiệu trong

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

28

[10, 9, 11]. Các tác giả đã phát triển một hệ thống định dạng và xác định cấu trúc bảng gọi là T-Recs. Hệ thống này dựa trên các hộp biên để bao các từ nhƣ là đầu vào. Các hộp này đƣợc phân cụm bằng phƣơng pháp “bottom-up” thành các vùng bằng cách xây dựng một “đồ thị phân tách”. Các vùng này sau đó đƣợc thiết kế nhƣ các ứng cử viên của các vùng bảng nếu chúng thỏa mãn một số tiêu chuẩn nào đó. Một trong những hạn chế của phƣơng pháp này là với việc dựa trên duy nhất các hộp bảng, các bảng với nhiều cột có thể không đƣợc xác định chính xác. Vì vậy phƣơng pháp này làm việc tốt chỉ cho các trang có các bảng với một cột.

Trong [14], Wang và các tác giả sử dụng một phƣơng pháp học thông kê cho vấn đề phát hiện bảng. Cho một tập các dòng văn bản cần xem xét, các dòng ứng viên cho bảng sẽ đƣợc xác định dựa trên các khoảng trống giữa các từ. Tiếp đó, những dòng liền kề theo chiều thẳng đứng với những khoảng trống lớn và các từ liền kề theo chiều ngang đƣợc nhóm lại với nhau làm thành các ứng viên cho các bảng. Cuối cùng, một thuật toán dựa trên thống kê đƣợc sử dụng để để tinh chỉnh các bảng ứng viên và giảm những những sai xót. Họ đã giả định rằng số lƣợng tối đa của các cột là 2 và thiết kế 3 mẫu bố trí trang (cột đơn, cột đôi, cột hỗn hợp). Họ áp dụng một thuật toán phân loại theo cột để tìm ra cách bố trí cột của trang và sử dụng thông tin này cho việc đánh dấu vùng bảng. Cách tiếp cận này có thể chỉ có thể điều khiển duy nhất các kiểu bố trí mà nó đã đƣợc huấn luyện. Bên cạnh đó, thuật toán huấn luyện các mẫu đòi hỏi phải có một số lƣợng lớn các dữ liệu đƣợc dán nhãn.

Hu et al [8] đã trình bày một hệ thống để phát hiện bảng từ các trang hình ảnh đƣợc quét bằng máy SCAN. Hệ thống của họ giả sử rằng một trang dữ liệu đầu vào với một cột đơn có thể dễ dàng phân tách thành những dòng văn bản riêng lẻ (thí dụ bằng cách chiếu ngang). Vấn đề phát hiện bảng sau đó đƣợc đặt ra nhƣ là bài toán tối ƣu hoá nơi mà sự bắt đầu và kết thúc các dòng văn bản thuộc vào một bảng đƣợc xác định bằng cách tối ƣu hoá bằng

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

29

một số hàm chất lƣợng. Giống nhƣ các cách tiếp cận trƣớc đây, kỹ thuật này không thể áp dụng đƣợc với các văn bản nhiều cột.

Tóm lại, các phƣơng pháp phát hiện bảng đã đƣợc nghiên cứu và giới thiệu vẫn tồn tại nhiều nhƣợc điểm. Các phƣơng pháp này không làm việc tốt với những hình ảnh tài liệu có các bảng nhiều cột. Điều này có lẽ là do thực tế hầu hết các phƣơng pháp đã tập trung vào nhận dạng bảng để trích ra cấu trúc (các dòng, các cột, các ô) của các bảng và do đó làm đơn giản hóa vấn đề phát hiện bảng. Cách tiếp cận này chỉ hoạt động tốt với hình ảnh tài liệu có bố trí đơn giản. Tuy nhiên, việc nghiên cứu các thuật toán phát hiện bảng hiệu quả để việc với các dạng bảng phức tạp hơn là rất cần thiết và đây cũng là mục tiêu nghiên cứu của đề tài. Hƣớng nghiên cứu của luận văn là nhận ra chính xác các vùng bảng trong các tài liệu phức tạp (báo cáo công ty, các bài viết chuyên ngành, báo, tạp chí,...). Một khi các vùng bảng đƣợc phát hiện thì một trong các kỹ thuật nhận dạng bảng sẽ đƣợc sử dụng để trích xuất ra các cấu trúc của các bảng.

Một phần của tài liệu Phát hiện cấu trúc bảng trong nhận dạng văn bản (Trang 26 - 28)