3.4 Thực nghiệm
3.4.2 Thực nghiệm đối với các thuật toán cơ bản trên biểu mẫu động
3.4.2.1.Thực nghiệm tách chữ viết tay khỏi khung điền.
3.2.1.1 Sử dụng phép toán gán nhãn
150dpi 200dpi 250dpi 300dpi 600dpi
Thời gian (s) 0.1 0.15 0.21 0.35 1.5 Tỉ lệ đúng (%) 95% 97% 98% 100% 100%
Bảng 3.3: Kết quả thực nghiệm tách chữ ra khỏi khung điền bằng phép toán gán nhãn
3.2.1.2 Sử dụng các phép toán hình thái
92
150dpi 200dpi 250dpi 300dpi 600dpi
Thời gian (s) 0.09 0.14 0.18 0.31 1.2 Tỉ lệ đúng (%) 20% 31% 50% 58% 70%
Bảng 3.4: Kết quả thực nghiệm tách chữ ra khỏi khung điền bằng các phép toán hình thái
Nhận xét : Thông qua quá trình thực nghiệm, việc tách chữ viết tay ra khỏi khung điền thông tin cho kết quả tốt nhất khi thực hiện phép toán gán nhãn. Các phép toán hình thái chỉ cho kết quả tốt khi ảnh quét vào có độ phân giải lớn hơn 250 dpi và nét chữ viết tay lớn hơn nhiều so với độ lớn của từng điểm trong cấu trúc điểm nhỏ. Bởi vậy, chúng tôi chọn phép toán gán nhãn cho việc tách chữ viết tay ra khỏi khung điền.
3.4.2.2.Thực nghiệm xác định vị trí các khung điền thông tin
150dpi 200dpi 250dpi 300dpi 600dpi
Thời gian (s) 0.07 0.09 0.12 0.26 0.8 Tỉ lệ đúng (%) 100% 100% 100% 100% 100%
Bảng3.5: Kết quả thực nghiệm xác định vị trí các khung điền
Nhận xét: Sau khi chỉnh nghiêng chính xác thì việc xác định vị trí của các khung điền qua phép chiếu là rất chính xác thông qua phép chiếu.
93
3.4.2.3.Thực nghiệm xác định cấu trúc điểm nhỏ trong từng khung
150dpi 200dpi 250dpi 300dpi 600dpi
Tỉ lệ đúng (%) 30% 70% 82% 96% 99%
Bảng 3.6: Kết quả thực nghiệm xác định cấu trúc điểm nhỏ
Nhận xét:
- Thời gian nhận dạng là không đáng kể.
- Nếu ảnh chỉnh nghiêng không tốt sẽ ảnh hƣởng nhiều đến kết quả nhận dạng cấu trúc điểm nhỏ.
- Đối với các biểu mẫu đƣợc nhân bản thông qua máy photocopy, thì các điểm ảnh có thể bị nhòe, gây ảnh hƣởng đến kết quả nhận dạng. Bởi vậy chúng tôi khuyến cáo ngƣời sử dụng nên sử dụng các mẫu biểu mẫu đƣợc in trực tiếp.
3.4.3 Thực nghiệm đối với các thuật toán khác
3.4.3.1.Xác định góc nghiêng của ảnh theo phƣơng pháp chiếu
Thực nghiệm về xác định góc nghiêng của ảnh đƣợc cài đặt theo phƣơng pháp phép chiếu trên 60 ảnh, với 300 góc nghiêng khác nhau cho mỗi một ảnh đƣợc nêu trong mục 4.2, tổng số ảnh thử nghiệm là 800 ảnh.
94
Góc thực Kết quả trên ảnh 150 DPI (0
) Kết quả trên ảnh 300 DPI (0
) 5.1 5.1 5.1 5.2 5.2 5.2 5.3 5.2 5.3 5.4 5.4 5.4 5.5 5.5 5.5 5.6 5.6 5.6 5.7 5.7 5.7 5.8 5.8 5.8 5.9 5.9 5.9 6 6 6
Bảng 3.7. Kết quả thực nghiệm xác định góc nghiêng với một số góc tiêu biểu
Qua kết quả thực nghiệm trên ta thấy với những ảnh bé, góc nghiêng xác định đƣợc chỉ có thể đạt đƣợc độ chính xác là ±0.30
đến ±0.20. Với những ảnh lớn thì độ chính xác cao hơn rất nhiều. Ảnh càng lớn thì các đƣờng này càng chuẩn hơn và càng cho kết quả chính xác hơn. Kiểm thử hiệu năng với ảnh 100 DPI, 150 DPI, 200 DPI, 300 DPI, kết quả thu đƣợc trong bảng 3.8 :
DPI Phƣơng pháp phép chiếu (ms)
Phƣơng pháp phép chiếu đã tối ƣu các tham số (ms)
100 225.36 90.33
150 503.60 120.42
200 895.61 200.67
300 2003.2 350.73
95
3.4.3.2.Thực nghiệm nhận dạng đƣờng thẳng dày
Với đƣờng thẳng dày có độ dài 15 cm, độ dày 4 pt, ngƣỡng xác định độ dài là 9/10 độ dài thực tế, ngƣỡng nghiêng là 20, ta có kết quả thực nghiệm:
- Thời gian nhận dạng: 0.03 s
96
Kết luận
Bài toán nhập liệu tự động từ biểu mẫu tài liệu sẽ gồm các vấn đề: quản trị biểu mẫu, nhận dạng các vùng dữ liệu (bài toán phát hiện và phân vùng dữ liệu), nhận dạng chữ viết tay trên các vùng dữ liệu, xử lý từ vựng và ghi nhận vào cơ sở dữ liệu. Trong khuôn khổ của mình, luận văn đã đi vào nghiên cứu quá trình tiền xử lý ảnh, phân vùng ảnh.
Trong quá trình nghiên cứu rất nhiều dạng biểu mẫu văn bản khác nhau, bao gồm cả các văn bản tiếng Việt và tiếng Anh và việc nghiên cứu nhiều thuật toán khác nhau, chúng tôi đã lựa chọn, cải tiến và đƣa ra đƣợc một giải pháp : đó là sử dụng hệ thống biểu mẫu động. Trên hệ thống biểu mẫu động, chúng tôi đã cài đặt thành công các thuật toán nhƣ là xác định các khung điền thông tin, tách chữ viết tay ra khỏi khung điền, mã hóa thông tin vào khung điền, giải mã các thông tin từ khung điền dựa vào cấu trúc các điểm nhỏ :
Thuật toán xác định các khung điền thông tin đƣợc tiến hành dựa trên phép chiếu và cho kết quả rất cao, 99,99%.
Kỹ thuật tách chữ viết tay ra khỏi khung điền và ngƣợc lại : chúng tôi đã tiến hành thử nghiệm với hai thuật toán khác nhau là gán nhãn (labeling) và morphology. Kết quả thử nghiệm cho thấy thuật toán gán nhãn cho kết quả rất tốt, ngay cả trong trƣờng hợp chữ viết tay đè lên khung. Thuật toán morphology chỉ cho kết quả tốt đối với ảnh đƣợc quét vào với độ phân giải cao (250 dpi trở lên) và trong trƣờng hợp chữ viết tay khá đậm nét. Bởi vậy chúng tôi đã lựa chọn thuật toán gán nhãn cho quá trình phân tách chữ viết tay ra khỏi khung điền.
Mã hóa thông tin vào cấu trúc điểm nhỏ: để thuận tiện cho quá trình nhận dạng, chúng tôi đã xử dụng cấu trúc điểm nhỏ bao gồm một chấm nhỏ và một chấm hình chữ nhật để mã hóa thông tin theo mã hóa nhị
97
phân. Cấu trúc này đã đảm bảo mã hóa đầy đủ đƣợc các thông tin cần thiết trong một biểu mẫu động.
Việc giải mã thông tin từ các cấu trúc điểm nhỏ trên các khung điền đƣợc tiến hành dựa trên phép chiếu. Kết quả nhận đƣợc là rất tốt, đối với những ảnh có độ phân giải từ 100 dpi đến 150 pdi thì nhận đƣợc 95% nhƣng đối với ảnh có độ phân giải từ 200 dpi trở lên thì cho kết quả 100%.
Ngoài các thuật toán cơ bản trên, chúng tôi đã tiến hành thực nghiệm thêm một số thuật toán để nâng cao độ chính xác: thuật toán bóc biên, các thuật toán chỉnh độ nghiêng, thuật toán xác đinh khung điền thông tin dựa vào cấu trúc các đƣờng thẳng. Kết quả thực nghiệm cho thấy các thuật toán này hoạt động tốt và nâng cao rất nhiều vào kết quả nhận dạng của biểu mẫu động.
Nhƣ vậy chúng tôi đã phát triển, thiết kế và làm mẫu phƣơng pháp nhúng thông tin vào đầu vào các khung, phân tách chữ viết tay từ các khung, giải mã thông tin và xử lý biểu mẫu theo thông tin thông tin giải mã, kết quả nhận đƣợc là khả quan. Tuy nhiên vẫn còn một số vấn đề cần tiếp tục giải quyết, đó là:
- Các phƣơng pháp loại nhiễu mà không ảnh hƣởng đến thông tin đƣợc mã hóa trong cấu trúc các điểm nhỏ.
- Nhúng thêm đƣợc nhiều thông tin hơn trong cấu trúc các điểm nhỏ
Chúng tôi hi vọng rằng sau khi kết hợp với modul nhận dạng chữ viết tay tiếng Việt, chúng tôi sẽ có một hệ thống nhập dữ liệu tự động hoạt động tốt và đáp ứng đƣợc yêu cầu của thực tế.
98
oTÀI LIỆU THAM KHẢO Tài liệu tiếng Việt Tài liệu tiếng Việt
STT
[1] Phan Văn Thuận & Ngô Quốc Tạo:“ Kết hợp một số kỹ thuật xử lý ảnh nâng cao cho xử lý biểu mẫu động và ứng dụng”, Hội thảo khoa học quốc gia lần thứ 3-Nghiên cứu cở bản và ứng dụng công nghệ thông tin, 10-2007
[2] Phan Văn Thuận & Đào Thanh Khiết: “Xử lý tự động phiếu điều tra”, Khóa luận tốt nghiệp, đại học Công nghệ, đại học Quốc gia Hà nội, 5-2004.
[3] Trần Thanh Phúc & Đinh Văn Phƣơng: “ Nghiên cứu và xây dựng hệ thống nhập tài liệu tự động bằng nhận dạng quang học”, Khóa luận tốt nghiệp , đại học Công nghệ, đại học Quốc gia Hà nội, 5-2006.
Tài liệu tiếng Anh STT
[4] Yoji Maeda, Masaki Nakagawa: Design of paper based user interface for editing document, Proc. SPIE, Vol.4307, pp184- 192 (2001)
[5] http://www.parc.com/solutions/dataglyphs/
[6] Koichi Kise, Yasuo Miki, Keinosuke Matsumoto: Backgrounds as
Information Carriers for Printed Documents, Proc.15th ICPR’2000, Vol.4, pp380-384 (2000.9)
[7] Bilan Zhu, Masaki Nakagawa: Informationd Encoding Into and Decoding From Dot Texture for Active Form, Proc. ACM Symposium on Document Engineering, pp105- 144 (2003.11)
[8] Taro SHIMAMURA Bilan ZHU Atsushi MASUDA Motoki ONUMA Takeshi SAKURADA Masaki NAKAGAWA: “A Prototype of An Active Form System”, Seventh International Conference on Document Analysis and Recognition (ICDAR), Edinburgh, Scotland, pp921-925 (2003.8).
99
[9] Koichi Kise, Yasuo Miki, Keinosuke Matsumoto: Backgrounds as
Information Carriers for Printed Documents, Proc.15th ICPR’2000, Vol.4, pp380-384 (2000.9)
[10] Bilan Zhu, Taro Shimamura, Masaki Nakagawa:Document processing methods for active form, Proc of the 3rd IASTED International Conference Visualation, Image and Image processing, September 8-10 -2003, Spain
[11] S.V. Rice, F.R Jenkins, and T.A. Nartker. The Fifth Annual Test of OCR Accuracy. Technical Report TR-96-01, Information Science Research Institute, University of Nevada, Las Vegas, April 1996
[12] RM. Haralick. Document Image Understanding: Geometric and Logical Layout. In IEEE Computer Society Con]. Computer Vision and Pattern Recognition (CVPR), pages 385390, Seattle, Washington, 1994.
[13] Y.Y. Tang, S.\\I. Lee, and C.Y. Suen. Automatic Document Processing: a Survey. Pattern Recognition, 29(12):19311952, 1996.
[14] A.K. Jain and B. Yu. Document Representation and Its Application to Page Decomposition. Technical Report MSUCPS:TR96-63, Michigan State University, East Lansing, MI, December 1996.
[15] L. O'Gorman and R Kasturi. Dowment Image Analysis. IEEE Computer Society Press, Los Alamitos, CA, 1995.
[16] F. Fignoni, S. Messelodi, and C.M. Modena. Review of the State of the Art in Optical Character Recognition. Part 1: Machine Printed Documents.
Technical Report #9607-03, IRST, Trento, Italy, June 1996.
[17] J.M. White and G.D. Rohrer. Image Thresholding for Optical Character Recognition and Other Apllications Requiring Character Image Extraction.
IBM Journal of Besercl; and Development, 27(4):400411, July 1983.
[18] T. Taxt, P.J. Flynn, and A.K. Jain. Segmentation of Document Images. IEEE Transaction on Pattern Analysis and Machine Intelligence, 1(12):13221329, December 1989.
100
Using Connectivity. CVGIP: Graphical Models and Image Processing, 56(6):494506, 1994.
[20] H.-S. Don. A Noise Attribute Thresholding Method for Document Image Binarization. In Proc. of the 3th International Conference on Document Analysis and Recognition, pages 231234, Montreal, Canada, August 1995.
[21] Y. Liu and S.N. Srihari. Document Image Binarization Based on Texture Features. IEEE Transactions on Pattern Analysis and lldachine Intelligence, 19(5):540544, May 1997.
[22] J. Sauvola, T. Seppanen, S. Haapakoski, and M. Pietikainen. Adaptive Document Binarization. In Proc. of the 4th International Conference on Dowment Analysis and Recognition, pages 147152, Ulm, Germany, August 1997.
[23] P.W. Palumbo, P. Swarninathan, and S.N. Srihari. Document image binarization: Evaluation of algorithms. In Proc. of SPIE Symposium. Applications of Digital Image Processing IX, volume 697, pages 278 285, San Diego, California, August 1986.
[24] O.D. Trier and T. Taxt. Evaluation of Binarization Methods for Document Images. IEEE Transactions on Pattern Analysis and lldachine Intelligence, 17(3):312315, March 1995.
[25] A.T. Abak, U. Baris, and B. Sankur. The Performance Evaluation of
Thresholding Algorithms for Optical Character Recognition. In Proc. of the 4th International Conference on Dowment Analysis and Recognition, pages 697700, Ulm, Germany, August 1997.
[26] \"1. Post!. Detection of linear oblique structures and skew scan in digitized documents. In Proc. of the 8th International Conference on Pattern
Recognition, pages 687689, Paris, France, 1986.
[27] H.S. Baird. The skew angle of printed documents. In Proc. of the Con- ference Society of Photographic Scientists and Engineers, volume 40, pages 2124, Rochester, NY, May, 20-21 1987.
101
[28] G. Ciardiello, G. Scafuro, M.T. Degrandi, M.R. Spada, and M.P. Roccotelli. An experimental system for office document handling and text recognition.
In Proc. of the 9th International Conference on Pattern Recognition, volume 2, pages 739743, Roma, Italy, November, 14-17 1988.
[29] Y. Ishitani. Document Skew Detection Based on Local Region Complexity.
In Proc. of the 2nd International Conference on Dowment Analysis and Recognition, pages 4952, 'I'sukuba, Japan, October 1993. IEEE Computer Society.
[30] A. Bagdanov and J. Kanai. Projection Profile Based Skew Estimation Algorithm for JBIG Compressed Images. In Proc. of the 4th International Conference on Dowment Analysis and Recognition, pages 401405, Ulm, Germany, August 1997.
[31] S.N. Srihari and V. Govindaraju. Analysis of Textual Images Using the Hough Transform. Machine Vision and Applications, 2(3):141 153, 1989.
[32] S. Hinds, J. Fisher, and D. D'Amato. A document skew detection method using run-length encoding and the Hough transform. In Proc. of the 10th International Conference on Pattern Recognition, pages 464468, Atlantic City, NJ, June, 17-21 1990.
[33] A.L. Spitz. Skew Determination in CCITT Group 4 Compressed Document Images. In Proc. of the Symposium on Document Analysis and Information Retrieval, pages 1125, Las Vegas, 1992.
[34] D.S. Le, G.R. Thoma, and H. Wechsler. Automated Page Orientation and Skew Angle Detection for Binary Document Images. Pattern Recognition, 27(10):13251344, 1994.
[35] Y. Min, S.-B. Cho, and Y. Lee. A Data Reduction Method for Efficient Document Skew Estimation Based on Hough Transformation. In Proc. of the 13th International Conference on Pattern Recognition, pages 732736, Vienna, Austria, August 1996. IEEE Press.
102
technique. Pattern Recognition Letters, 17(8):899904, July 1996.
[37] B. Yu and A.K. Jain. A Robust and Fast Skew Detection Algorithm for Generic Documents. Pattern Recognition, 29(10):15991629, 1996.
[38] A. Hashizume, P.S. Yeh, and A. Rosenfeld. A method of detecting the orientation of aligned components. Pattern Recognition Letters, 4:125132, 1986.
[39] L. O'Gorman. The Document Spectrum for Page Layout Analysis.
IEEE Transactions on Pattern Analysis and Machine Intelligence, 15(11):11621173, 1993.
[40] R. Smith. A Simple and Efficient Skew Detection Algorithm via Text Row Accumulation. In Proc. of the 3th International Conference on Dowment Analysis and Recognition, pages 11451148, Montreal, Canada, August 1995.
[41] T. Akiyama and N. Hagita. Automated Entry System for Printed Documents. Pattern Recognition, 23(11):11411154, 1990.
[42] H. Yan. Skew Correction of Document Images Using Interline Cross- Correlation. CVGIP: Graphical Models and Image Processing, 55(6):538543, November 1993.
[43] B. Gatos, N. Paparnarkos, and C. Charnzas. Skew Detection and Text Line Position Determination in Digitized Documents. Pattern Recognition, 30(9):15051519, 1997.
[44] J. Sauvola and M. Pietikainen. Skew Angle Detection Using Texture Direction Analysis. In Proc. of the 9th Scandinavian Conference on Image Analysis, pages 10991106, Uppsala, Sweden, June 1995.
[45] C. Sun and D. Si. Skew and Slant Correction for Document Images Using Gradient Direction. In Proc. ofthe 4th International Conference on
Document Analysis and Recognition, pages 142146, Ulm, Germany, August 1997.
103
Estimation in Document Images Using Recursive Morphological transforms.
In Proc. of the first IEEE International Conference on Image Processing, pages 139143, Austin, Texas, 1994.
[47] H. K. Aghajan, B. H. Khalaj, and T. Kailath. Estimation of skew angle in text-image analysis by SLIDE: subspace-based line detection. Machine Vision and Applications, 7:267276, 1994.
[48] H.S. Baird. Anatomy of a Versatile Page Reader. Proc. of the IEEE, 80(7):10591065, 1992.
[49] P.V.C. Hough. Methods and means for recognizing complex patterns. US Patent #3,069,654, December 18, 1962.
[50] E.R Davies. Machine Vision: Theory, Algorithms, Practicalities. Academic Press, 1992.
[51] S. Chen and RM. Haralick. Recursive Erosion, Dilation, Opening and Closing Transforms. IEEE Transaction on Image Processing, 4(3):335345, March 1995.
[52] A.P. Dias. Minimum Spanning Trees for Text Segmentation. In Proc. of Fifth Annual Symposium on Dowment Analysis and Information Retrieval, Las Vegas, Nevada, 1996.
[53] H.S. Baird. Global-tn-Local Layout Analysis. In Proc. of the IAPR
Workshop on Syntactic and Structnrol Pattern Recognition, pages 136 147, Pont-a-Mousson, France, September 1988.
[54] H.S. Baird, S.E. Jones, and S.J. Fortune. Image Segmentation using Shape- Directed Covers. In Proc. of the 10th International Conference on Pattern Recognition, Atlantic City, NJ, June, 17-211990.
[55] H.S. Baird. Background Structure in Document Images. In Advances in Stmctural and Syntactic Pattern Recognition, pages 253269. World Scientific, Singapore, 1992.
[56] J. Ha, RM. Haralick, and LT. Phillips. Document Page Decomposition by the Bounding-Box Projection Technique. In Proc. 0/ the 3th International
104
Conference on Dowment Analysis and Recognition, Montreal, Canada, August 1995.
[57] S. Chen, RM. Haralick, and LT. Phillips. Extraction of Text Layout Structures on Document Images based on Statistical Characterization. In ISe1T/SPIE Symposium on Electronic Imaging Science and Technology, Dowment Recognition II, pages 128139, San Jose', USA, 1995.
[58] E.G. Johnston. SHORT NOTE: Printed Text Discrimination. Computer Graphics and Image Processing, 3:8389, 1974.
[59] F. Heines and J. Lichter. Layout extraction of mixed mode documents.
Machine Vision and Applications, 7:237246, 1994.
[60] O. Deforges and D. Barba. Segmentation of Complex Documents Multilevel Images: a Robust and Fast Text Bodies-Headers Detection and Extraction Scheme. In Proc. 0/ the 3th International Conference on Document Analysis and Recognition, pages 770773, Montreal, Canada, August 1995.
[61] P. Parodi and G. Piccioli. An Efficient Pre-Processing of MixedContent Document Images for OCR Systems. In Proc. 0/ the 13th International Conference on Pattern Recognition, pages 778782, Vienna, Austria, August 1996. IEEE Press.
[62] M.B.H. Ali, F. Fein, F. Heines, T. Jager, and A. Weigel. Document Analysis at DFKL Part 1: Image Anlysis and Text Recognition. Technical Report RR-