KẾT LUẬN
Phân tích tài liệu ảnh là một lĩnh vực đã được đề xuất và phát triển trong một thời gian khá lâu, một số sản phẩm thương mại về hệ Phân tích tài liệu ảnh cũng đã xuất hiện trên thị trường. Tuy nhiên ngành nhận dạng đã và đang rất phát triển bởi những thách thức đặt ra đối với những vấn đề mới và đòi hỏi những cải tiến để nâng cao tính chính xác và hiệu quả của các hệ Phân tích tài liệu ảnh. Yêu cầu đối với một hệ Phân tích tài liệu không chỉ đơn giản là chuyển đổi nội dung của tài liệu ảnh sang định dạng tài liệu có thể soạn thảo được mà còn phải nhận dạng ra cấu trúc nội dung lưu trữ trong từng trang tài liệu. Nhận dạng bảng, nhận dạng biểu mẫu và nhận dạng đối tượng ảnh là những bài toán điển hình về nhận dạng cấu trúc và các đối tượng đặc biệt trong tài liệu ảnh. Trong khuôn khổ của mình, luận văn đã đi vào nghiên cứu hai thuật toán để nhận dạng bảng và các đối tượng ảnh trong tài liệu ảnh kỹ thuật.
Bài toán nhận dạng đối tượng ảnh nhằm phân tách riêng rẽ hai thành phần văn bản và ảnh trong tài liệu. Có rất nhiều hướng nghiên cứu khác nhau đề phân tách văn bản và ảnh, một trong những hướng nghiên cứu đưa ra nhiều phương pháp phân tách hiệu quả nhất đó là phân tách hai đối tượng văn bản và ảnh dựa vào phân tích thành phần liên thông (CCs). Thuật toán nhận dạng đối tượng ảnh được đề cập trong luận văn cũng dựa vào phân tích thành phần liên thông. Năm bước phân tách mà thuật toán đưa ra đã được kiểm chứng qua thực nghiệm và cho kết quả với độ chính xác tương đối tốt. Tư tưởng cốt lõi của thuật toán là tại mỗi bước của thuật toán cố gắng nhận dạng càng nhiều càng tốt các đối tượng ảnh. Dựa trên khái niệm thành phần liên thông (CCs), thuật toán còn đưa ra khái niệm thành phần liên thông mới (NCCs) và tại bước cuối cùng thuật toán sẽ phân tích NCCs. Tuy nhiên để nhận dạng chính xác hoàn toàn các đối tượng ảnh thì vẫn là một thách thức lớn, do đó thuật toán cần phải cải tiến trong mô hình tính giá trị các tham số hay như thêm một số bước tiền xử lý ảnh như loại bỏ các điểm nhiễu của ảnh. Với kết quả thực nghiệm ở trên, thuật toán nhận dạng đối tượng ảnh cho kết quả chính xác từ 90% đến 95% với các tài liệu có các đối tượng ảnh là các bản vẽ kỹ thuật. Đặc biệt với trang tài liệu là các hình vẽ cở bản, sơ đồ trình bày cho kết quả đạt từ 95% đến 97%. Trường hợp trang tài liệu gồm các hình vẽ về động vật, con người .v.v… kết quả nhận dạng có độ chính xác không cao. Thông thường với những đối tượng ảnh này phương pháp nhận dạng được áp dụng là tách cạnh để tìm ra
biên của đối tượng. Do đó có thể thấy thuật toán tách các đối tượng văn bản - ảnh đã trình bày trong luận văn áp dụng hiệu quả cho các tải liệu chứa các đối tượng ảnh là các bản vẽ kỹ thuật.
Thuật toán nhận dạng bảng được đề cập trong luận văn dựa trên thuật toán T-Recs do G. Kieninger đề xuất, tuy nhiên các bước thực hiện mà Kieninger đưa ra còn nhiều hạn chế. Luận văn đã đưa ra những cải tiến các bước thực hiện của thuật toán, đặt tên là T-Recs++. Một số thuật toán nhận dạng bảng trước đây dựa trên dấu hiện phân cách các ô trong bảng, chẳng hạn như là các đường kẻ, khoảng trắng .v.v.. Tuy nhiên T- Recs++ là phương pháp nhận dạng bảng không dựa trên một dấu hiệu phân cách nào, kể cả trong trường hợp khoảng cách giữa hai cột trong bảng cách nhau một khoảng cách hẹp. Đó chính là một ưu điểm nổi bật của thuật toán. Trong một khối văn bản thuật toán nhận dạng khá chính xác các cột dữ liệu nếu có của bảng. Một vấn đề còn tồn tại của thuật toán đó là khả năng nhận dạng các dòng của bảng, trong thuật toán này việc nhận dạng ra dòng của bảng phụ thuộc vào khối loại một. Trong trường hợp bảng chỉ bao gồm khối loại hai phương pháp tách các dòng của bảng nhận dạng phải dựa vào dấu hiệu phân tách nào đó. Kết quả thực nghiệm ở trên cho thấy thuật toán T- Recs++ có khả năng nhận dạng chính xác gần như hoàn toàn các cột có của bảng, kể cả trong trường hợp khoảng cách giữa các cột của bảng hẹp. Một số lỗi nhận dạng có thể xuất hiện là trường hợp trùng lặp ký tự cách tại cùng một vị trí trên các dòng văn bản, một số từ nằm ở các vị trí bất thường của đoạn văn bản cũng tạo thành cột hay trường hợp các dòng đơn .v.v..
Các kết quả thực nghiệm ở trên tuy chỉ áp dụng với ảnh nhị phân, tuy nhiên với tư tưởng và các bước thực hiện của hai thuật toán nhận dạng bảng và nhận dạng đối tượng ảnh đã trình bày ở trên có thể áp dụng đối với ảnh đa cấp xám và ảnh màu.
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Tô Văn Khánh & Ngô Quốc Tạo: “Áp dụng phương pháp T–Recs vào nhận dạng bảng”. Hội nghị khoa học Viện CNTT, 12-2006.
Tiếng Anh
[2] O‟Gorman & Kasturi: “Document image analysis”, 1997
[3] Kasturi, O‟Gorman, Govindaraju: “Document image analysis: A primer”, 2002
[4] Arcelli C, Sanniti di Baja G 1985: “A width-independent fast thinning algorithm”. IEEE Trans. Pattern Anal. Machine Intell. PAMI-7: 463–474.
[5] Arcelli C, Sanniti di Baja G 1993 “Euclidean skeleton via center-of-maximal-disc extraction”. Image Vision Comput. 11: 163–173
[6] Fukunaga K, Hostetler L D 1975 “K-nearest-neighbour Bayes-risk estimation”. IEEE Trans. Inf. Theor. 21: 285-293
[7] Murthy B K, Deshpande W R 1998 “Optical character recognition (OCR) for Indian languages”. Proc. Int. Conf. on Computervision, Graphics, Vision, Image Process. ICVGIP, New Delhi
[8] G S Lehal1, Renu Dhir: “A Range Free Skew Detection Technique for Digitized
Gurmukhi Script Document”
[9] Pavlidis T, Zhou J 1991 “Page segmentation by white streams”. Proc. 1st Int. Conf. on Document Analysis and Recognition ICDAR), St. Malo, France, pp 945–953
[10] O‟Gorman L 1993 “The document spectrum for structural page layout analysis”. IEEE Trans. Pattern Anal. Machine Intelli. AMI-15: 1162–73
[11] Nartker T A, Rice S V, Kanai J 1994 “OCR Accuracy”. UNLV‟s Second Annual Test. Technical Journal INFORM, University of Nevada, Las Vegas
[12] Sawaki M, Hagita K 1998 “Text-line extraction and character recognition of document headlines with graphical design using omplimentary similarity measure”. IEEE Trans. Pattern Anal. Machine Intell. PAMI-20: 1103–1109
[13] Wilson C L, Geist J, Garris M D, Chellapa R 1996 “Design, integration, and evaluation of form-based handprint and OCR ystems”. Technical Report, NISTIR5932, National Institute of Standards & Technology, US; download from http://www.itl.nist.gov/iad/894.03/pubs.html
[14] Fletcher A, Kasturi R 1988 “A robust algorithm for text string separation from mixed text /graphics images”. IEEE Trans. Pattern nal. Machine Intell. PAMI-10: 910–918 [15] Thomas G.Kieninger, “Table Structure Recognition Based On Robust Block
Segmentation”. In Proc. of the fifth SPIE Conference on Document Recognition, San Rose, California, Jan 1998.
[16] Thomas G.Kieninger and Andreas Dengel, “A paper to html table converting system”, German Research Center for Atificial Intelligence (DFKI)
[17] Thomas G.Kieninger and Andreas Dengel, “Applying The T-Recs Table Recognition System To The Business Letter Domain”. In Proceeding of the Sixth International Conference On Document Analysis and Recognition -ICDAR‟01, 2001
[18] T. Hu, “New Methods for Robust and Efficient Recognition of the Logical Structures in Documents”. PHD thesis, Institure of Informatics of the University of Fribourg, Switzerland, 1994.
[19] A. S. Condit, “Autotag: A tool for creating, structured document collection from printed materials,” Master‟s thesis, Dept. of Computers Science, University of Nevada, Las Vegas, 1995.
[20] A. Dengel, “About the logical partitioning of document images”, in Proc. Of Int‟t Symposium on Document Analysis and Information Retrieval, Las Vegas, Nevada, Apr. 1994
[21] S, Baumann, M. Malburg, H.-G. Hein, R. Hoch, T. Kieninger, and N. Kuhn, “Document analysis at DFKI, part 2: Information extraction,” DFKI Research Report RR-95-03, German Research Center for Artificial Interligence (DFKI), Kaiserlautern, March 1995. [22] D. Rus and K. Summers, “Using White Space for Automated Document Structuring”,
Technical Report TR 94-1452, Department of Computer Science, Cornell University, 1994.
[23] M. A. Rahgozar, Z. Fan, and E. V. Rainero, “Tabular document recognition”, in Proc. Of the SPIE Conference on Document Recognition, 1994.
[24] E. Green and M. Krishnamoorthy, “Recognition of table using table grammars”, in Proc. of the 4-th Symposium on Document Analysis and Information Retrieval – SDAIR95, Las Vegas, Nevada, 1995
[25] K. Itonori, “Table structure recognition based on textblock arrangement and ruled line position”, in Proc. of International Conference on Document Analysis and Recognition – ICDAR 93, 1993.
[26] Y. Hirayama, “A method for table structure analysis using dp matching,” in Proc. of International Conference on Document Analysis and Recognition – ICDAR 95, Montreal Canada, 1995.
[27] K. Kise, A. Sato, and K. Masumoto, “Document image segmentation as selection of voronoi edges”, in Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition CVPR 97, June 1997.
[28] Z. Lu, “Detection of Text Regions from Digital Engineering Drawings”, IEEE Transactions on PAMI, 20(4):431:439, April 1998.
[29] H. Yamada et al., “MAP: Multi-Angled Parallelism for Feature Extraction From Topographical Maps,” Pattern Recognition, vol. 24, no. 6, pp. 479-488, 1991.
[30] F.M. Wahl et al., “Block Segmentation and Text Extraction in Mixed Text/Image Documents,” CVGIP, vol. 20, pp. 375-390, 1982.
[31] C.P. Lai and R. Kasturi, “Detection of Dimension Sets in Engineering Drawings,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 16, no. 8, pp. 848-855, 1994. [32] D. Dori and Y. Velkovitz, “Separation of Text From Graphics I: Engineering
Drawings,” Preproceedings Int‟l Workshop on Graphics Recognition, Pennsylvania State Univ., Aug. 1995.
[33] D.B. Lysak and R. Kasturi, “Interpretation of Engineerings of Polyhedral and Non- Polyhedral Objects,” Proc. ICDAR, 1991.
[34] D.N. Ying, E.J. Wang, L. Ye, W. Li, and Y. Wang, “A Study on Automatic Input and
Recognition of Engineering Drawing,” Proc. CAD/GRAPHICS, pp. 478-481, Hangzhou,
China, 23-26 Sept. 1991.
[35] Karl Tombre, Salvatore Tabbone, Loic Pelissier, Bart Lamitory, and Philippe Dosch, “Text/Graphics Separation Revisited”.
[36] K. Y. Wong, R. G. Casey, and F. M. Wahl. “Document Analysis System”. IBM Journal of Research and Development, 26(6):647_656, 1982.
[37] D. X. Le, G. R. Thoma, and H.Wechsler. “Classification of binary document images into textual or nontextual data blocks using neural network models”. Machine Vision and Applications, 8:289_304, 1995.
[38] T. Pavlidis and J. Zhou. “Page Segmentation and Classification”. CVGIP: Graphical Models and Image Processing, 54(6):484_496, November 1992.
[39] E. Appiani, F. Cesarini, A. M. Colla, M. Diligenti, M. Gori, S. Marinai, and G. Soda. “Automatic document classification and indexing in high-volume applications”. International Journal on Document Analysis and Recognition, 4(2):69_83, December 2001.
[40] G. Nagy and S. Seth. “Hierarchical Representation of Optically Scanned Documents”. In Proceedings of 7th International Conference on Pattern Recognition, Montréal (Canada), pages 347_349, 1984.
[41] H. Luo and I. Dinstein. “Using Directional Mathematical Morphology for Separation of Character Strings from Text/Graphics Image”. In Shape, Structure and Pattern Recognition (Post-proceedings of IAPR Workshop on Syntactic and Structural Pattern Recognition, Nahariya, Israel), pages 372_381. World Scientific, 1994.
[42] Huizhu Luo and Rangachar Kasturi. “Improved Directional Morphological Operations for Separation of Characters from Maps/Graphics”. In K. Tombre and A. K. Chhabra, editors, Graphics Recognition_Algorithms and Systems, volume 1389 of Lecture Notes in Computer Science, pages 35_47. Springer-Verlag, April 1998.
[43] T. Kaneko. “Line Structure Extraction from Line-Drawing Images”. Pattern Recognition, 25(9):963_973, 1992.
[44] D. Dori and L. Wenyin. “Vector-Based Segmentation of Text Connected to Graphics in Engineering Drawings”. In P. Perner, P. Wang, and A. Rosenfeld, editors, Advances in Structural and Syntactial Pattern Recognition (Proceedings of 6th International SSPR Workshop, Leipzig, Germany), volume 1121 of Lecture Notes in Computer Science, pages 322_331. Springer-Verlag, August 1996.
[45] Q. Yuan, C. L. Tan: “Text Extraction from Gray Scale Document Images Using Edge Information”. In Proceedings of the Sixth International Conference on Document Analysis and Recognition (ICDAR‟01) 2001, IEEE.
[46] R. Cao and C. L. Tan: “Seperation of Overlapping Text from Graphics”. In Proceedings of 6th International Conference on Document Analysis and Recognition, Seatle (USA), pages 44-48, Septemper 2001.
[47] R. Cao and C. L. Tan: “Text and Graphics Separation in Maps”. Proceedings of 4th IAPR International Workshop on Graphics Recognition, Kingston, Ontario (Canada), pages 245-254, Septemper 2001.
[48] “Digital Image Processing” PIKS Inside, Third Edition. William K. Pratt Copyright © 2001 John Wiley & Sons, Inc. ISBNs: 0-471-37407-5 (Hardback); 0-471-22132-5 (Electronic).
[49] Sing-Tze Bow: “Pattern Recognition and Image Preprocessing”. Second Edition, Revised and Expanded. Copyright @ 2002 by Marcel Dekker, Inc.
[50] “Image Processing: The Fundamentals”. Maria Petrou and Panagiota Bosdogianni Copyright @ 1999 John Wiley & Sons Ltd Print ISBN 0-471-99883-4 Electronic ISBN 0-470-84190-7.