Kết quả thực nghiệm

Các tài liệu báo cáo khác nhau đã đƣợc thuật toán phát hiện bảng thử nghiệm. Những phạm vi từ độ chính xác đơn giản và dựa trên các biện pháp [8,9] với các biện pháp tinh vi hơn cho các điểm chuẩn của thuật toán phát hiện đầy đủ cấu trúc bảng [19]. Trong đề tài này, kể từ khi trung vào đánh

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

dấu các vùng bảng, đề tài sử dụng các biện pháp chuẩn cho các phân vùng tài liệu ảnh.

Do đó theo [15, 17, 18, 14] đề tài sử dụng một số biện pháp để đánh giá các khía cạnh khác nhau của thuật toán đánh dấu các vùng bảng. Cả bảng giá trị đúng và bảng đƣợc phát hiện bởi thuật toán của tác giả đƣợc diễn tả bởi một khung giới hạn. Đặt Gi diễn tả khung giới hạn cho bảng đúng i và Dj diễn tả khung giới hạn cho bảng đƣợc phát hiện j trong một tài liệu. Số lƣợng giao nhau của Gi và Dj đƣợc định nghĩa nhƣ sau:

  j i j i j i D G D G D G A    2 , (1)

Trong đó Gi ∩ Dj diễn tả vùng giao giữa hai vùng, Gi ∩ Dj diễn tả vùng riêng của bảng đúng và bảng phát hiện bởi thuật toán đƣa ra. Giá trị A sẽ nhận giá trị từ 0 đến 1 phụ thuộc vào phần giao của Gi và Dj. Nếu hai bảng không giao nhau, A=0 và ngƣợc lại nếu hai bảng là giống nhau tuyệt đối thì A = 1.

+Phát hiện đúng (Correct Detections): Số cột của bảng đúng có phần giao nhau lớn (A≥0.9) với một trong số các bảng phát hiện.

+Phát hiện một phần (Partial Detections): Đây là số lƣợng cột của bảng đúng có sự tƣơng ứng một một với một bảng đƣợc phát hiện, tuy nhiên số điểm giao nhau là không đủ lớn (0.1<A<0.9) đƣợc phân loại nhƣ là một phát hiện chính xác (xem hình 3.1)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

+Chia nhỏ bảng (Over-Segmented Tables): Đây là số lƣợng cột của các bảng chuẩn cơ sở có sự giao nhau lớn (0,1 <A<0,9) hơn so với một trong số các bảng đƣợc phát hiện.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

+Gộp bảng (Under-Segmented Tables): Đây là số lƣợng cột của các bảng chuẩn cơ sở có sự giao nhau lớn (0,1 <A<0,9) hơn so với một bảng đƣợc phát hiện, bảng tƣơng ứng đƣợc phát hiện có vùng giao nhau lớn hơn bảng chuẩn cơ sở là tốt. Điều này cho thấy rằng có nhiều hơn một bảng (có

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

thể liền kề) đã đƣợc trộn bởi thuật toán phát hiện bảng và đƣợc thông báo nhƣ là một bảng duy nhất (hình 3.3)

+ Mất bảng (Missed Tables): đây là số lƣợng của bảng chuẩn cơ sở mà không có sự giao nhau lớn với bất kỳ các bảng đƣợc phát hiện (A≤1). Các bảng này thuật toán sẽ đƣợc coi là bị mất.

+Phát hiện sai (False Positive Detections): đây là số cột của các bảng đƣợc phát hiện không có sự giao nhau với bảng chuẩn cơ sở (A≤0.1). Các

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

bảng này đƣợc thuật toán coi là phát hiện sai khi mà hệ thống nhầm một số khu vực phi bảng nhƣ một bảng (hình 3.4)

Kết quả thực nghiệm đƣợc mô tả trong bảng 1 Bảng 1: Kết quả nhận dạng cấu trúc bảng

Số lƣợng

Phát hiện đúng 14

Phát hiện một phần 5

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 45 Chia nhỏ bảng 0 Gộp bảng 3 Mất bảng 5 Phát hiện sai 8 3.4. Đánh giá

Với lƣợng mẫu thu thập đƣợc ít, thử nghiệm trên các văn bản Tiếng Việt nên tập dữ liệu thuật phát hiện đúng ~50% (14/27) tổng số bảng có trong các ảnh tài liệu.

Thuật toán chạy tốt với văn bản tiếng Anh, với văn bản Tiếng Việt chƣa đƣợc tốt.

Với các bảng có đƣờng kẻ thì tỷ lệ phát hiện đúng cao hơn so với các bảng không có đƣờng kẻ. Chỉ phát hiện đƣợc một phần hoặc không phát hiện đƣợc cấu trúc bảng trong trƣờng hợp bảng không có đƣờng kẻ. Trong một số trƣờng hợp, gộp vùng bảng với phần chú thích bảng hoặc dòng văn bản gần sát với bảng. Đặc biệt thuật toán có tỷ lệ phát hiện sai khác cao, do phát hiện tab-stop sai dẫn đến khối văn bản bị chia nhỏ hoặc có nhiều “cột” Column Partitions xếp liền nhau. Phát hiện đƣợc các ảnh tài liệu bị nghiêng.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hình 3.5 Kết quả thực nghiệm 1

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hình 3.6 Kết quả thực nghiệm 2

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hình 3.7 Kết quả thực nghiệm 3

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hình 3.8 Kết quả thực nghiệm 4

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hình 3.9 Kết quả thực nghiệm 5

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

KẾT LUẬN

Đề tài đã trình bày một thuật toán phát hiện bảng nhƣ là một phần của hệ thống mã nguồn mở Tesseract OCR đã trình bày thuật toán sử dụng các thành phần của mô-đun phân tích bố trí Tesseract để xác định vị trí các bảng trong tài liệu có bố trí khác nhau.

Chƣơng trình đã phát hiện đƣợc các bảng trên các tài liệu đa dạng có bố trí khác nhau nhƣ các báo cáo công ty, các bài báo, các trang tạp trí…Chƣơng trình có thể phát hiện đƣợc các ảnh tài liệu bị nghiêng do quá trình quét ngƣời sử dụng đặt lệch giấy. Với những bảng có đƣờng kẻ thì phát hiện chính xác hơn bảng không có đƣờng kẻ.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

TÀI LIỆU THAM KHẢO Tiếng Việt

[1] Đỗ Năng Toàn, Phạm Việt Bình, “Giáo trình Xử lý ảnh”, Đại học Thái Nguyên, Nxb Khoa học và Kỹ thuật, 2008.

[2] Lƣơng Mạnh Bá, Nguyễn Thanh Thuỷ, “Nhập môn xử lý ảnh số”, Nxb KH&KT, 1999.

[3] Ngô Quốc Tạo, “Bài giảng môn Xử lý ảnh, dành cho lớp Cao học Công nghệ Thông tin”

Tiếng Anh

[4] D. Rus and K. Summers, “Using White Space for Automated Document Structuring”, Technical Report TR 94-1452, Department of Computer Science, Cornell University, 1994

[5] Kasturi, OGorman, Govindaraju: “Document image analysis: A primer”, 2002.

[6] M. A. Rahgozar, Z. Fan, and E. V. Rainero, “Tabular document recognition”, in Proc.

Of the SPIE Conference on Document recognition, 1994.

[7] Thomas G.Kieninger, “Table Structure Recognition Based On Robust Block Segmentation”, 1998.

[8] J. Hu, R. Kashi, D. Lopresti, and G. Wilfong.Medium-independent table detection. In Proc. SPIE Document Recognition and Retrieval VII, pages 291–302, San Jose, CA, USA, Jan. 2000.

[9] T. Kieninger and A. Dengel. A paper-to-HTML table converting system. In Proc. Document Analysis Systems, pages 356–365, Nagano, Japan, Nov. 1998.

[10] T. Kieninger and A. Dengel. Table recognition and labeling using intrinsic layout features. In Proc. Int. Conf. on Advances in Pattern Recognition,

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Plymouth, UK, Nov. 1998.

[11] T. Kieninger and A. Dengel. Applying the T-RECS table recognition system to the business letter domain. In Proc. Int. Conf. on Document Analysis and Recognition, pages 518–522, Seattle, WA, USA, Sep. 2001.

[12] F. Shafait, J. van Beusekom, D. Keysers, and T. M. Breuel. Document cleanup using page frame detection. Int. Jour. on Document Analysis and Recognition, 11(2):81–96, 2008.

[13] R. Smith. Hybrid page layout analysis via tab-stop detection. In Proc. Int. Conf. on Document Analysis and Recognition, pages 241–245, Barcelona, Spain, July 2009.

[14] Y. Wang, R. Haralick, and I. T. Phillips. Automatic table ground truth generation and a background-analysis-based table structure extraction method. In Proc. Int. Conf. on Document Analysis and Recognition, pages 528–532, Seattle, WA, USA, Sep. 2001.

[15] T. Kieninger and A. Dengel. An approach towards benchmarking of table structure recognition results. In Proc. 8th Int. Conf. on Document Analysis and Recognition, pages 1232–1236, Seoul, Korea, Aug. 2005.

[16] E. Green and M. Krishnamoorthy, “Recognition of table using table grammars”, in Proc. of the 4-th Symposium on Document Analysis and Information Retrieval – SDAIR95, Las Vegas, Nevada, 1995.

[17] S. Mandal, S. Chowdhury, A. Das, and B. Chanda. A simple and e_ective table detection system from document images. Int. Jour. on Document Analysis and Recognition, 8(2-3):172-182, 2006.

[18] F. Shafait, D. Keysers, and T. M. Breuel. Performance evaluation and benchmarking of six page segmentation algorithms. IEEE Trans. on Pattern Analysis and Machine Intelligence, 30(6):941-954, 2008.

[19] J. Hu, R. S. Kashi, D. Lopresti, and G. Wilfong. Evaluating the performance of table processing algorithms. Int. Jour. on Document Analysis and Recognition, 4(3):140-153, 2002.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Phƣơng pháp phát hiện bảng Tesseract

Phƣơng pháp phân tích bảng T-Recs