Phƣơng pháp phân tích bảng T-Recs

2.2.1. Giới thiệu

Khi đề cập đến vấn đề nhận dạng cấu trúc trong các tài liệu có chứa dữ liệu bảng biểu sẽ có hai hƣớng tiếp cận khác nhau: cách tiếp cận thứ nhất đó là xác định chính xác cấu trúc của bảng, bao gồm các ô trong bảng, cách này thƣờng đƣợc gọi là phân đoạn hay nhận dạng cấu trúc. Cách thứ hai là dựa

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

vào hình dạng bất kỳ của khối đã đƣợc sắp xếp và đƣa tập các đối tƣợng trong các khối về một cấu trúc bậc cao hơn. Quá trình này đƣợc gọi tên là gán nhãn logic, phân tích cấu trúc hay phân tích bố cục trình bày trang.

Tìm hiểu những phƣơng pháp nhận dạng cấu trúc bảng đã có trƣớc đây đều cho thấy một điểm giống nhau, đó là các phƣơng pháp này đều nhận dạng ra cấu trúc bảng bằng xác định ra các dấu hiệu phân cách, có thể là các khoảng trắng, các đƣờng kẻ. Chẳng hạn nhƣ Rus và Summers [4] mô tả một hệ nhận dạng cấu trúc bảng có khả năng xác định đƣợc bảng mà các cột cách nhau một khoảng hẹp sử dụng WDG (White-space Density Graphs). Trong khi đó một số phƣơng pháp khác lại dựa vào độ rộng thích hợp của khoảng trắng giữa hai cột để nhận dạng [6].

Một số phƣơng pháp khác xác định cấu trúc của bảng bằng quy tắc các đƣờng kẻ. Một trong số đó là mô tả của Green và Krishnamoorthy [16], các tác giả đã áp dụng phân tích vị trí của các đƣờng kẻ để đƣa ra cấu trúc bảng.

Trong phƣơng pháp sẽ trình bày dƣới đây với tƣ tƣởng là không xem xét đến bất cứ một loại đƣờng phân cách nào để xác định bảng mà sẽ đi vào nhận biết các từ trong cùng một khối logic ( chẳng hạn các từ trong cùng một cột dữ liệu sẽ đƣợc cho vào trong cùng một khối). Chúng ta sẽ không đi tìm những đặc trƣng để tìm ra các từ trong cùng một khối logic và từ đó xây dựng cấu trúc riêng theo phƣơng pháp tiếp cận dƣới lên (bottom – up). Một điều dễ nhận thấy ngay từ phƣơng pháp này đó là chúng ta sẽ không phụ thuộc vào kiểu của đƣờng thẳng đƣợc vẽ trong bảng nếu có hay là các khoảng trắng đủ rộng giữa các khối để nhận dạng cấu trúc của bảng.

Đầu vào của thuật toán là tập hợp các hình bao chữ nhật của các từ trong một đoạn văn bản. Đầu ra là các cột, các dòng, các ô của bảng nếu tồn tại môi trƣờng bảng trong đoạn văn bản. Thuật toán sẽ cần các bƣớc tiền xử lý nhƣ nhận dạng các dòng văn bản của trang tài liệu, hình bao chữ nhật các từ trên từng dòng văn bản và nhận dạng các đoạn văn bản khác nhau. Từ đó có nhận dạng môi trƣờng bảng trên từng đoạn văn bản của trang tài liệu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Toàn bộ chức năng của thuật toán T-Recs mà phần cốt yếu là thuật toán phân đoạn khởi tạo sẽ đƣợc trình bày trong chƣơng này. Đầu tiên luận văn sẽ trình bày thuật toán phân đoạn khởi tạo do Thomas G.Kieninger [7] đề xuất.

2.2.2. Thuật toán phân đoạn khởi tạo

Phân đoạn khởi tạo ta có thể hiểu nhƣ là quá trình phận cụm các từ. Trong khi các phƣơng pháp tiếp cận dƣới – lên khác thƣờng xác định các đƣờng kẻ từ các từ liền kề theo chiều ngang và các khối từ các đƣờng kẻ liền kề theo chiều dọc, hệ thống sẽ trực tiếp đánh giá các cấu trúc khối văn bản từ việc phân đoạn các từ.

Tƣ tƣởng của thuật toán: lấy một từ bất kỳ làm nhân để xây dựng một khối mới. Nhìn trên Hình 2.4 (b), ta vẽ một vùng mờ ảo bao quanh hình chữ nhật bao của từ (consist). Vùng mở ảo này có độ rộng bằng với độ rộng của hình bao của từ và chiều dọc mở rộng đến các dòng liền kề với từ đó. Tất cả các từ mà có hình bao gối lên vùng mờ ảo của từ làm nhân sẽ nằm trong cùng một khối với từ đó. Do đó một khối bao gồm tất cả các từ đƣợc liên kết với nhau hình 2.4 (c)

Thủ tục trên sẽ đƣợc mở rộng bằng cách thực hiện đệ quy cho tất cả các từ cho đến khi không tìm thấy có từ nào mới mà không nằm trong một khối nào đó. Đầu vào của thủ tục là hình bao chữ nhật của các từ, đầu ra là các khối logic và các từ thuộc từng khối logic.

Thủ tục xây dựng thuật toán khởi tạo:

Hình 2.4 Ví dụ minh họa tư tưởng của thuật toán khởi tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

1. Tìm một từ bất kỳ nào đó Wx mà chƣa đƣợc đánh dấu là mở rộng 2. Tạo một khối mới Bi

3. Đánh dấu Wx là đã mở rộng và thêm Wx vào Bi

4. Tìm tất cả các từ Wj theo chiều ngang ở dòng trƣớc và dòng kế tiếp, sao cho Wj nằm chồng lên Wx (có nghĩa là Wj gối lên vùng mở ảo của Wx).

5. Thực hiện đệ quy các bƣớc 3, 4, và 5 cho các từ Wj vừa tìm đƣợc

6. Nếu không tìm đƣợc từ nào mà chƣa đánh dấu và không nằm chồng

lên nhau (theo ý nghĩa của bƣớc 4) thì tăng i lên một và quay trở lại bƣớc 1.

7. Dừng thủ tục lại nếu không tìm thấy từ nào chƣa đƣợc đánh dấu trong tài liệu

Hình 2.5 Mô tả kết quả thuật toán sau khi mở rộng tất cả các từ trong khối

Trong chƣơng này luận văn đã trình bày sơ lƣợc về các phƣơng pháp phát hiện bảng, trình bày chi tiết các bƣớc của thuật toán phát hiện cấu trúc bảng. Tìm hiểu về thuật toán T-Recs do Thomas G.Kieninger [7] đề xuất.

Thuật toán phát hiện cấu trúc bảng sẽ đƣợc cài đặt, thử nghiệm ở chƣơng 3.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

CHƢƠNG 3

CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ

Trong chƣơng này của luận văn sẽ mô tả một cách chi tiết quá trình cài đặt thử nghiệm thuật toán, cũng nhƣ đánh giá các kết quả đạt đƣợc trên bộ dữ liệu mà tác giả thu thập đƣợc.

3.1. Môi trƣờng cài đặt và dữ liệu kiểm thử

Thuật toán thử nghiệm đƣợc cài đặt bằng ngôn ngữ lập trình C/C++ (Microsoft Visual Studio 2008) và đƣợc thử nghiệm trên máy PC, tốc độ 3,4GHz, bộ nhớ RAM 1,0 GB.

Dữ liệu gồm 56 ảnh tài liệu với 27 bảng (một số ảnh tài liệu không có bảng, một số có nhiều hơn một bảng) đƣợc thu thập từ các nguồn khác nhau, nhƣ: sách, báo, tạp chí, bài báo khoa học,… và đƣợc quét với độ phân giải 300 dpi. Cấu trúc bảng đa dạng: có đƣờng kẻ liền nét, đứt nét và không có đƣờng kẻ, các ô đƣợc gộp lại,…

3.2. Trình tự thực hiện của thuật toán

Thuật toán phát hiện bảng dựa trên hai thành phần trong phân tích bố cục:

+ Các phần của cột (Column partitions -CPs)

+ Bố cục cột (Column layout)

Từ các phần của cột sẽ lọc ra các phần của bảng. Từ bố cục cột sẽ xác định các cột của bảng.

Cuối cùng là gom nhóm thành vùng bảng và loại bỏ các trƣờng hợp bị lỗi.

3.3. Kết quả thực nghiệm

Các tài liệu báo cáo khác nhau đã đƣợc thuật toán phát hiện bảng thử nghiệm. Những phạm vi từ độ chính xác đơn giản và dựa trên các biện pháp [8,9] với các biện pháp tinh vi hơn cho các điểm chuẩn của thuật toán phát hiện đầy đủ cấu trúc bảng [19]. Trong đề tài này, kể từ khi trung vào đánh

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

dấu các vùng bảng, đề tài sử dụng các biện pháp chuẩn cho các phân vùng tài liệu ảnh.

Do đó theo [15, 17, 18, 14] đề tài sử dụng một số biện pháp để đánh giá các khía cạnh khác nhau của thuật toán đánh dấu các vùng bảng. Cả bảng giá trị đúng và bảng đƣợc phát hiện bởi thuật toán của tác giả đƣợc diễn tả bởi một khung giới hạn. Đặt Gi diễn tả khung giới hạn cho bảng đúng i và Dj diễn tả khung giới hạn cho bảng đƣợc phát hiện j trong một tài liệu. Số lƣợng giao nhau của Gi và Dj đƣợc định nghĩa nhƣ sau:

  j i j i j i D G D G D G A    2 , (1)

Trong đó Gi ∩ Dj diễn tả vùng giao giữa hai vùng, Gi ∩ Dj diễn tả vùng riêng của bảng đúng và bảng phát hiện bởi thuật toán đƣa ra. Giá trị A sẽ nhận giá trị từ 0 đến 1 phụ thuộc vào phần giao của Gi và Dj. Nếu hai bảng không giao nhau, A=0 và ngƣợc lại nếu hai bảng là giống nhau tuyệt đối thì A = 1.

+Phát hiện đúng (Correct Detections): Số cột của bảng đúng có phần giao nhau lớn (A≥0.9) với một trong số các bảng phát hiện.

+Phát hiện một phần (Partial Detections): Đây là số lƣợng cột của bảng đúng có sự tƣơng ứng một một với một bảng đƣợc phát hiện, tuy nhiên số điểm giao nhau là không đủ lớn (0.1<A<0.9) đƣợc phân loại nhƣ là một phát hiện chính xác (xem hình 3.1)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

+Chia nhỏ bảng (Over-Segmented Tables): Đây là số lƣợng cột của các bảng chuẩn cơ sở có sự giao nhau lớn (0,1 <A<0,9) hơn so với một trong số các bảng đƣợc phát hiện.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

+Gộp bảng (Under-Segmented Tables): Đây là số lƣợng cột của các bảng chuẩn cơ sở có sự giao nhau lớn (0,1 <A<0,9) hơn so với một bảng đƣợc phát hiện, bảng tƣơng ứng đƣợc phát hiện có vùng giao nhau lớn hơn bảng chuẩn cơ sở là tốt. Điều này cho thấy rằng có nhiều hơn một bảng (có

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

thể liền kề) đã đƣợc trộn bởi thuật toán phát hiện bảng và đƣợc thông báo nhƣ là một bảng duy nhất (hình 3.3)

+ Mất bảng (Missed Tables): đây là số lƣợng của bảng chuẩn cơ sở mà không có sự giao nhau lớn với bất kỳ các bảng đƣợc phát hiện (A≤1). Các bảng này thuật toán sẽ đƣợc coi là bị mất.

+Phát hiện sai (False Positive Detections): đây là số cột của các bảng đƣợc phát hiện không có sự giao nhau với bảng chuẩn cơ sở (A≤0.1). Các

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

bảng này đƣợc thuật toán coi là phát hiện sai khi mà hệ thống nhầm một số khu vực phi bảng nhƣ một bảng (hình 3.4)

Kết quả thực nghiệm đƣợc mô tả trong bảng 1 Bảng 1: Kết quả nhận dạng cấu trúc bảng

Số lƣợng

Phát hiện đúng 14

Phát hiện một phần 5

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 45 Chia nhỏ bảng 0 Gộp bảng 3 Mất bảng 5 Phát hiện sai 8 3.4. Đánh giá

Với lƣợng mẫu thu thập đƣợc ít, thử nghiệm trên các văn bản Tiếng Việt nên tập dữ liệu thuật phát hiện đúng ~50% (14/27) tổng số bảng có trong các ảnh tài liệu.

Thuật toán chạy tốt với văn bản tiếng Anh, với văn bản Tiếng Việt chƣa đƣợc tốt.

Với các bảng có đƣờng kẻ thì tỷ lệ phát hiện đúng cao hơn so với các bảng không có đƣờng kẻ. Chỉ phát hiện đƣợc một phần hoặc không phát hiện đƣợc cấu trúc bảng trong trƣờng hợp bảng không có đƣờng kẻ. Trong một số trƣờng hợp, gộp vùng bảng với phần chú thích bảng hoặc dòng văn bản gần sát với bảng. Đặc biệt thuật toán có tỷ lệ phát hiện sai khác cao, do phát hiện tab-stop sai dẫn đến khối văn bản bị chia nhỏ hoặc có nhiều “cột” Column Partitions xếp liền nhau. Phát hiện đƣợc các ảnh tài liệu bị nghiêng.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hình 3.5 Kết quả thực nghiệm 1

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hình 3.6 Kết quả thực nghiệm 2

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hình 3.7 Kết quả thực nghiệm 3

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hình 3.8 Kết quả thực nghiệm 4

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hình 3.9 Kết quả thực nghiệm 5

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

KẾT LUẬN

Đề tài đã trình bày một thuật toán phát hiện bảng nhƣ là một phần của hệ thống mã nguồn mở Tesseract OCR đã trình bày thuật toán sử dụng các thành phần của mô-đun phân tích bố trí Tesseract để xác định vị trí các bảng trong tài liệu có bố trí khác nhau.

Chƣơng trình đã phát hiện đƣợc các bảng trên các tài liệu đa dạng có bố trí khác nhau nhƣ các báo cáo công ty, các bài báo, các trang tạp trí…Chƣơng trình có thể phát hiện đƣợc các ảnh tài liệu bị nghiêng do quá trình quét ngƣời sử dụng đặt lệch giấy. Với những bảng có đƣờng kẻ thì phát hiện chính xác hơn bảng không có đƣờng kẻ.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

TÀI LIỆU THAM KHẢO Tiếng Việt

[1] Đỗ Năng Toàn, Phạm Việt Bình, “Giáo trình Xử lý ảnh”, Đại học Thái Nguyên, Nxb Khoa học và Kỹ thuật, 2008.

[2] Lƣơng Mạnh Bá, Nguyễn Thanh Thuỷ, “Nhập môn xử lý ảnh số”, Nxb KH&KT, 1999.

[3] Ngô Quốc Tạo, “Bài giảng môn Xử lý ảnh, dành cho lớp Cao học Công nghệ Thông tin”

Tiếng Anh

[4] D. Rus and K. Summers, “Using White Space for Automated Document Structuring”, Technical Report TR 94-1452, Department of Computer Science, Cornell University, 1994

[5] Kasturi, OGorman, Govindaraju: “Document image analysis: A primer”, 2002.

[6] M. A. Rahgozar, Z. Fan, and E. V. Rainero, “Tabular document recognition”, in Proc.

Of the SPIE Conference on Document recognition, 1994.

[7] Thomas G.Kieninger, “Table Structure Recognition Based On Robust Block Segmentation”, 1998.

[8] J. Hu, R. Kashi, D. Lopresti, and G. Wilfong.Medium-independent table detection. In Proc. SPIE Document Recognition and Retrieval VII, pages 291–302, San Jose, CA, USA, Jan. 2000.

[9] T. Kieninger and A. Dengel. A paper-to-HTML table converting system. In Proc. Document Analysis Systems, pages 356–365, Nagano, Japan, Nov. 1998.

[10] T. Kieninger and A. Dengel. Table recognition and labeling using intrinsic layout features. In Proc. Int. Conf. on Advances in Pattern Recognition,

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Plymouth, UK, Nov. 1998.

[11] T. Kieninger and A. Dengel. Applying the T-RECS table recognition system to the business letter domain. In Proc. Int. Conf. on Document Analysis and Recognition, pages 518–522, Seattle, WA, USA, Sep. 2001.

[12] F. Shafait, J. van Beusekom, D. Keysers, and T. M. Breuel. Document cleanup using page frame detection. Int. Jour. on Document Analysis and Recognition, 11(2):81–96, 2008.

[13] R. Smith. Hybrid page layout analysis via tab-stop detection. In Proc. Int. Conf. on Document Analysis and Recognition, pages 241–245, Barcelona, Spain, July 2009.

[14] Y. Wang, R. Haralick, and I. T. Phillips. Automatic table ground truth generation and a background-analysis-based table structure extraction method. In Proc. Int. Conf. on Document Analysis and Recognition, pages 528–532, Seattle, WA, USA, Sep. 2001.

[15] T. Kieninger and A. Dengel. An approach towards benchmarking of table structure recognition results. In Proc. 8th Int. Conf. on Document Analysis and Recognition, pages 1232–1236, Seoul, Korea, Aug. 2005.

[16] E. Green and M. Krishnamoorthy, “Recognition of table using table grammars”, in Proc. of the 4-th Symposium on Document Analysis and Information Retrieval – SDAIR95, Las Vegas, Nevada, 1995.

[17] S. Mandal, S. Chowdhury, A. Das, and B. Chanda. A simple and e_ective table detection system from document images. Int. Jour. on Document Analysis and Recognition, 8(2-3):172-182, 2006.

[18] F. Shafait, D. Keysers, and T. M. Breuel. Performance evaluation and benchmarking of six page segmentation algorithms. IEEE Trans. on Pattern

Phƣơng pháp phát hiện bảng Tesseract

Thuật toán phân đoạn khởi tạo