Mô tả bài toán

Một phần của tài liệu phương pháp phát hiện bảng trong tài liệu tổng hợp (Trang 34 - 75)

Phát hiện, phân tích và nhận dạng bảng trong các trang ảnh tài liệu – (document images) là một trong số các vấn đề chính của phân tích và nhận dạng tài liệu. Phát hiện bảng là bài toán phát hiện ra các cột, các hàng, các ô có trong bảng. Vấn đề này đã được nghiên cứu trong nhiều năm và đã có hàng trăm bài báo khoa học được công bố, đặc biệt trong những năm gần đây được nhiều nhà khoa học quan tâm tập trung nghiên cứu. Năm 2013, hội nghị quốc tế hàng đầu về phân tích và nhận dạng tài liệu (ICDAR‟13) đã khởi xướng và tổ chức cuộc thi nhận dạng bảng trong tài liệu [2]. Bài toán nhận biết bảng được chia thành các bài thành các nhiệm vụ như sau (theo từng bước/mức độ hiểu biết khác nhau về bảng):

+ Định vị bảng (table location) hay còn gọi là phát hiện bảng (table detection): xác định các vùng trong tài liệu có chứa nội dung là bảng.

+ Nhận dạng cấu trúc bảng (table structure recognition) hay còn gọi là phân đoạn/phân tích bảng (table segmentation/analysis): xây dựng lại cấu trúc các thành phần của bảng (các hàng, các cột, các ô – rows, columns, cells).

+ Diễn giải bảng (table interpretation): giải thích ý nghĩa của cấu trúc bảng, bao gồm:

- Phân tích chức năng (functional analysis): xác định chức năng của các ô và quan hệ logic trừu tượng giữa chúng (xác định đâu là phần tiêu đề, đâu là phần nội dung,…).

- Giải thích ngữ nghĩa (semantic interpretation): hiểu ngữ nghĩa của bảng dựa vào các thực thể trong bảng, các thuộc tính với các giá trị tương ứng và mối quan hệ giữa các thực thể trong bảng (xác định xem bảng mô tả về nội dung gì, cột/hàng chứa nội dung dạng gì,…).

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Trong đó, phát hiện và phân tích cấu trúc bảng là quan trọng nhưng cũng khó khăn hơn cả, mang tính tổng quát hơn, được tập trung nghiên cứu nhiều hơn. Những khó khăn trong nhận dạng bảng là do bản chất bảng là một cấu trúc phức tạp và khi đặt trong ngữ cảnh của tài liệu thì dễ gây nhầm lẫn với các đối tượng khác trong tài liệu (Hình 1.13).

Hình 1.13: Một số nhầm lẫn giữa bảng và đối tượng khác

Ngoài ra chúng ta cũng thấy sự đa dạng của các thành phần của bảng, bao gồm các hàng và các cột tạo thành các ô, trong các ô có hoặc không có đường bao của ô (đường phân tách các hàng và các cột), một ô có thể bị bỏ trống thông tin hoặc gộp (merge) với các ô khác,…

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Hình 1.14. Khái niệm các thành phần trong bảng [3]

Các ứng dụng chủ yếu của phát hiện, nhận dạng bảng là được sử dụng trong các hệ thống nhận dạng ký tự quang học (OCR) như FineReader của ABBYY hay VnDOCR của Viện Công nghệ thông tin… Một số khác được ứng dụng trong các hệ thống nhập liệu tự động (kết hợp với kỹ thuật nhận dạng biểu mẫu).

1.2.2. Một số hƣớng tiếp cận

Có rất nhiều hướng tiếp cận khác nhau trong phát hiện và phân tích cấu trúc bảng. Hướng tiếp cận thường được nghĩ ngay đến là tìm các đường kẻ có thể có của bảng (các đường phân tách hàng/cột của bảng, có thể là đường liền nét hoặc đứt nét), sau đó tìm các điểm giao của các đường kẻ ngang và dọc để xây dựng lại cấu trúc bảng dưới dạng lưới (grid), cuối cùng phân tích sự hợp nhất của các ô (merge cell) dựa trên một số luật [5], [7] mô tả một số bước trong thuật toán. Với hướng tiếp cận này thì việc phát hiện đường kẻ là quan trọng nhất, chỉ cần một lỗi nhỏ trong phát hiện đường kẻ thì cũng làm sai toàn bộ thuật toán. Có nhiều kỹ thuật để phát hiện đường kẻ như dựa vào biến đổi Hough… Tuy nhiên

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

các kỹ thuật thường rất nhạy cảm với độ nghiêng của trang, nên cần các thao tác tiền xử lý để căn chỉnh độ nghiêng của tài liệu. Hạn chế của hướng tiếp cận này là chỉ có thể phát hiện được các bảng được tạo bởi các đường kẻ, với những bảng không có đường kẻ thì thuật toán sẽ không phát hiện được bảng. Để khắc phục nhược điểm này, một số tác giả bổ sung thêm một số kỹ thuật phát hiện các khoảng trắng (white space) phân tách hàng/cột. Tuy nhiên việc này là rất khó khăn, nhất là đối với các loại tài liệu có nhiều cột, vì rất dễ nhầm lẫn giữa khoảng trắng phân tách cột của bảng với khoảng trắng phân tách cột của trang.

Hướng tiếp cận khác, phổ biến hơn, phát hiện bảng trong quá trình phân tích trang. Khác với hướng tiếp cận trên, việc phát hiện và phân tích cấu trúc bảng độc lập với phân tích trang, hướng tiếp cận này sẽ đặt phát hiện bảng trong mối quan hệ với phân tích trang ảnh tài liệu. Trong quá trình phân tích trang, sau khi phát hiện được các cột (column) bằng các kỹ thuật như T-Recs, Whitespace, Tab-stop,…[6], [9], [12], [13]sẽ quyết định xem trong các cột đó, đâu là cột của trang đâu là cột của bảng dựa vào một số đặc trưng thống kê như mật độ, tính chất của các từ (word), các dòng (text-line) trong cột. Nếu là cột của bảng thì gom/nhóm các cột liền nhau thành bảng và loại các cột đứng một mình. Nếu là các cột của trang thì tiến hành phân tách cột thành các đoạn (paragraph). Hướng tiếp cận này không những giúp phát hiện được vùng bảng mà còn nâng cao chất lượng phân tích trang. Tuy nhiên, lại rất hay gặp phải các lỗi như phát hiện nhầm hay gộp hai bảng ở hai cột của trang lại với nhau.

1.3. Kết luận chƣơng

Trong chương này đã mô tả các thành phần chung của một hệ phân tích tài liêụ ảnh đặc biệt là đã đề cập một số công đoạn chính trong xuyên suốt quá trình kể từ lúc thu quét ảnh tài liệu đầu vào, đến lúc có thể phát hiện và trích chọn được những tính năng quan trọng do người dùng đặt ra ban đầu. Bên cạnh một số kỹ thuật truyền thống, kết hợp với việc tham khảo các tài liệu trong

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

nước và thế giới đã có đề cập đến một số cải tiến, một số phương pháp cũng như ý tưởng mới của một số tác giả từng có nhiều cống hiến và thành công trong lĩnh vực nghiên cứu xử lý ảnh.

Mặc dù đã được nghiên cứu trong nhiều năm nhưng bài toán phát hiện, nhận dạng bảng vẫn là một thách thức lớn. Trong nghiên cứu của ICDAR‟13 trên tập dữ liệu là các tài liệu kỹ thuật số (các file PDF) [2] cho thấy hầu hết các phương pháp đều cho kết quả không tốt, chỉ một số sản phẩm thương mại cho kết quả tốt hơn. Mặt khác độ chính xác của các thuật toán trong kiểu bảng có đường kẻ và không có đường kẻ là khác nhau, điều này cho thấy các thuật toán chỉ làm việc tốt trên một số kiểu bảng nhất định. Có nhiều hướng tiếp cận để phát hiện, nhận dạng bảng nhưng về cơ bản trước tiên cần phân tích, đánh giá các phương pháp nhận dạng bảng tiên tiến hiện nay. Cài đặt, thử nghiệm và phân tích kết quả các thuật toán phân tích trang và phát hiện vùng bảng như T-Recs, Whitespace, Tab- Stop đồng thời áp dụng các kỹ thuật tiền xử lý ảnh để nâng cao chất lượng ảnh đầu vào như các kỹ thuật xóa nhiễu, căn chỉnh độ nghiêng trang,…Với ảnh đầu vào chưa phải là ảnh đen/trắng (black and white), áp dụng các kỹ thuật nhị phân ảnh với ngưỡng thích ứng để giảm nhiễu, tăng cường chất lượng ảnh. Sau đó tiến hành xóa nhiễu trong ảnh, với nhiễu muối và hạt tiêu thì có thể sử dụng các phép biến đổi hình thái, với nhiễu biên/lề (marge) áp dụng các phép chiếu (ngang/dọc) để loại bỏ,… Tiếp theo là căn chỉnh độ nghiêng của trang ảnh, sử dụng phép chiếu và thống kê điểm ảnh để xác định góc nghiêng, vừa có tốc độ xử lý nhanh và độ chính xác cao. Sử dụng các đặc trưng nét chữ để xác định hướng của trang (trang bị xoay 900

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

CHƢƠNG 2: PHÂN TÍCH BẢNG DỰA TRÊN T-RECS

2.1. Phƣơng pháp phát hiện bảng trong tài liệu ảnh

Vấn đề chuyển đổi tự động tài liệu giấy thành tài liệu văn bản điện tử được trình bày dựa vào kỹ thuật nhận biết ký tự bằng quang học OCR. Hệ thống OCR bao gồm ba bước cơ bản:

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

- Thứ nhất, phải phân tích cách bố trí nội dung được thực hiện để xác định vị trí các dòng văn bản trong tài liệu và để xác định thứ tự đọc của chúng.

- Thứ hai, một công cụ nhận dạng kí tự xử lý các hình ảnh dòng văn bản và phát sinh một chuỗi văn bản bằng cách nhận biết các kí tự rời rạc trong dòng văn bản đó được sử dụng.

- Thứ ba, một ngôn ngữ mô hình hóa sẽ thực hiện sự sửa chữa trong chuỗi văn bản nhận ra ở bước hai bằng cách sử dụng một từ điển hay một mô hình ngôn ngữ.

Một trong những nhiệm vụ khó khăn ở đây là vấn đề xác định các vùng chứa bảng. Vấn đề khác, phát hiện bảng là một vấn đề khó vì sự phức tạp trong các loại bảng xuất hiện trong các văn bản tài liệu khác nhau. Các hệ thống nhận biết kí tự bằng quang học OCR hiện có thiếu khả năng phát hiện bảng biểu và các mô đun phân tích thường phá vỡ sự hiện diện đúng của các vùng bảng. Một sự phân biệt cần được thực hiện tại công đoạn giữa việc phát hiện bảng và nhận dạng bảng. Trong nhận dạng bảng, chúng ta nên tập trung vào việc phân tích một bảng đã được phát hiện bằng cách tìm ra các cột và hàng của nó và cố gắng để trích ra cấu trúc bảng. Mục tiêu của phần này là tập trung vào các thuật toán phát hiện bảng.

Khi đề cập đến vấn đề nhận dạng cấu trúc trong các tài liệu có chứa dữ liệu bảng biểu sẽ có hai hướng tiếp cận khác nhau: cách tiếp cận thứ nhất đó là xác định chính xác cấu trúc của bảng, bao gồm các ô trong bảng, cách này thường được gọi là phân đoạn hay nhận dạng cấu trúc. Cách thứ hai là dựa vào hình dạng bất kỳ của khối đã được sắp xếp và đưa tập các đối tượng trong các khối về một cấu trúc bậc cao hơn. Quá trình này được gọi tên là gán nhãn logic, phân tích cấu trúc hay phân tích bố cục trình bày trang.

Tìm hiểu những phương pháp nhận dạng cấu trúc bảng đã có trước đây đều cho thấy một điểm giống nhau, đó là các phương pháp này đều nhận dạng ra cấu

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

trúc bảng bằng xác đinh ra các dấu hiệu phân cách, có thể là các khoảng trắng, các đường kẻ. Chẳng hạn như Rus và Summers [10] mô tả một hệ nhận dạng cấu trúc bảng có khả năng xác đinh được bảng mà các cột cách nhau một khoảng hẹp sử dụng WDG (White-space Density Graphs). Trong khi đó một số phương pháp khác lại dựa vào độ rộng thích hợp của khoảng trắng giữa hai cột để nhận dạng [15].

Một số phương pháp khác xác định cấu trúc của bảng bằng quy tắc các đường kẻ. Một trong số đó là mô tả của Green và Krishnamoorthy [11], các tác giả đã áp dụng phân tích vị trí của các đường kẻ để đưa ra cấu trúc bảng.

Một trong những nghiên cứu tiên phong trong việc phát hiện và nhận biết bảng được thực hiện bởi Kieninger và các đồng sự được giới thiệu trong [6]. Các tác giả đã phát triển một hệ thống định dạng và xác định cấu trúc bảng gọi là T- Recs. Đây là một phương pháp phát hiện bảng đơn giản không dựa trên một dấu hiệu phân cách nào mà tư tưởng cốt lõi là tìm ra các từ trong cùng một khối logic (một cột của bảng)

Trong [14], Wang và các tác giả sử dụng một phương pháp học thống kê cho vấn đề phát hiện bảng. Cho một tập các dòng văn bản cần xem xét, các dòng ứng viên cho bảng sẽ được xác định dựa trên các khoảng trống giữa các từ. Tiếp đó, những dòng liền kề theo chiều thẳng đứng với những khoảng trống lớn và các từ liền kề theo chiều ngang được nhóm lại với nhau làm thành các ứng viên cho các bảng. Cuối cùng, một thuật toán dựa trên thống kê được sử dụng để tinh chỉnh các bảng ứng viên và giảm những sai sót. Họ đã giả định rằng số lượng tối đa của các cột là 2 và thiết kế 3 mẫu bố trí trang (cột đơn, cột đôi, cột hỗn hợp). Họ áp dụng một thuật toán phân loại theo cột để tìm ra cách bố trí cột của trang và sử dụng thông tin này cho việc đánh dấu vùng bảng. Cách tiếp cận này có thể chỉ có thể điều khiển duy nhất các kiểu bố trí mà nó đã được huấn luyện. Bên

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

cạnh đó, thuật toán huấn luyện các mẫu đòi hỏi phải có một số lượng lớn các dữ liệu được dán nhãn.

J.Hu [8] đã trình bày một hệ thống để phát hiện bảng từ các trang hình ảnh được quét bằng máy SCAN. Hệ thống của họ giả sử rằng một trang dữ liệu đầu vào với một cột đơn có thể dễ dàng phân tách thành những dòng văn bản riêng lẻ (thí dụ bằng cách chiếu ngang). Vấn đề phát hiện bảng sau đó được đặt ra như là bài toán tối ưu hoá nơi mà sự bắt đầu và kết thúc các dòng văn bản thuộc vào một bảng được xác định bằng cách tối ưu hoá bằng một số hàm chất lượng. Giống như các cách tiếp cận trước đây, kỹ thuật này không thể áp dụng được với các văn bản nhiều cột. Một số lỗi phổ biến của các thuật toán phát hiện cấu trúc bảng được thể hiện ở hình 2.1.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Tóm lại, các phương pháp phát hiện bảng đã được nghiên cứu và giới (a) Phát hiện không đầy đủ (b) Cấu trúc bị chia cắt

(a) Phát hiện không đầy đủ (b) Cấu trúc bị chia cắt

Hình 2.1 Một số lỗi phổ biến của các thuật toán phát hiện cấu trúc bảng [8]

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Tóm lại các phương pháp tìm kiếm bảng đã được giới thiệu đều có những ưu điểm và vẫn tồn tại nhiều nhược điểm. Các phương pháp này không làm việc tốt với những hình ảnh tài liệu có các bảng nhiều cột. Các hướng tiếp cận công việc được sử dụng trong việc phát hiện, nhận dạng bảng như tiền xử lý ảnh: Với ảnh đầu vào chưa phải là ảnh đen/trắng (black and white), áp dụng các kỹ thuật nhị phân ảnh với ngưỡng thích ứng để giảm nhiễu, tăng cường chất lượng ảnh. Sau đó tiến hành xóa nhiễu trong ảnh, với nhiễu muối và hạt tiêu thì có thể sử dụng các phép biến đổi hình thái, với nhiễu biên/lề (marge) áp dụng các phép chiếu (ngang/dọc) để loại bỏ,… Sau khi thực hiện xong bước tiền xử lý ảnh sẽ phải xác định bảng. Bảng được định vị trong ngữ cảnh của trang tài liệu với nhiều thành phần và cấu trúc phức tạp, do đó việc phát hiện bảng phải được tiến hành cùng với quá trình phân tích trang. Trước khi phân tích trang cần áp dụng các kỹ thuật xử lý ảnh để tìm các đối tượng hình ảnh (halftone), các đường kẻ vì các đối tượng này có thể chồng lấn lên nhau và lên các đối tượng khác, làm ảnh hưởng tới việc xác định các khối trong trang. Để phân tích trang hiệu quả cần sử dụng triệt để các thông tin có trong trang như khoảng trắng giữa các đối tượng, tính chất gióng hàng của văn bản, các đặc trưng riêng của mỗi vùng,… Hướng tiếp cận là kết hợp các kỹ thuật tìm khoảng trắng (Whitespace), Tab-stop, kỹ thuật T- Recs để xác định các cột của trang và bảng đồng thời sử dụng các kỹ thuật tối ưu để tăng tốc độ thực thi của thuật toán. Hình 2.2 minh họa thuật toán phát hiện bảng dựa Tab-stop.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Hình 2.2. Thuật toán phát hiện bảng dựa Tab-stop: (a) Các phần ứng cử của bảng, (b) Các cột ứng cử của bảng, (c) Vùng bảng phát hiện được [7]

Trong phạm vi nghiên cứu của luận văn sẽ đi sâu tìm hiểu, phân tích về thuật

Một phần của tài liệu phương pháp phát hiện bảng trong tài liệu tổng hợp (Trang 34 - 75)

Tải bản đầy đủ (PDF)

(75 trang)