Chúng ta thực hiện việc phân vùng bằng cách xác định các vị trí cục bộ của vùng cần nhận dạng so với vị trí của đường thẳng gần nó nhất cả theo chiều dọc và theo chiều ngang.
Trong một số trường hợp vùng cần nhận dạng nằm các xa các đường thẳng do vậy khi thực nghiệm chúng tôi thấy các vị trí các vùng thường bì dịch chuyển so với vị trí ban đầu, dẫn tới bị mất một phần nhỏ của vùng( hình 4-2).
Hình 4-1: Vùng cần xác định bị lệch so với vùng xác định thực tế
Sai số là do ảnh bị co giãn không đều khi scan, sự co giãn giữa các đường thẳng trong ảnh không đánh giá chính xác hoàn toàn được sự co giãn trên toàn bộ ảnh. Do đó vùng tìm kiếm cần được mở rộng để hạn chế việc mất thông tin.
Hình 4-2: (a) Ảnh mẫu (b) Kết quả thu đƣợc sau khi phân vùng
Kết quả kiểm thử với ảnh 150 DPI , 300 DPI thu được kết quả trong bảng 11
Bảng 11: Độ chính xác phƣơng pháp tách vùng dựa trên đƣờng thẳng DPI Sai số trong xác
định tỉ lệ co giãn
Sai số trong xác định vị trí vùng(pixel)
150 0.02 2.15
300 0.01 3.60
4.6.4 Thực nghiệm 4: tìm kích thƣớc trung bình trên ảnh
Thực nghiệm này được thực hiện trên các ảnh có nhiều chữ với nhiều loại font chữ khác nhau, nhiều đối tượng khác nhau, bao gồm cả hình ảnh. Ảnh dùng để thử nghiệm phải có độ nghiêng bằng không. Mục đích của bước xử lý này là để đánh giá chung về kích thước các đối tượng do đó không cần quá đề cao về độ chính xác. Mặc dù chữ là các đối tượng phổ biến nhất nhưng kích thước trung bình tìm được cũng không nhất thiết là của các đối tượng này.
Kết quả thu được như sau :
Bảng 12: Kết quả xác định kích thƣớc trung bình của các đối tƣợng Font chữ phổ biến nhất Kích thƣớc font chữ Kích thƣớc trung bình xác định đƣợc theo chiều thẳng đứng( pixel) Kích thƣớc trung bình xác định đƣợc theo chiều thẳng ngang( pixel) Times New Roman 12 11 9
Hình 4-3: (a) ảnh thử nghiệm; (b) Một phần của ảnh đƣợc phóng to
Hiệu năng xử lý :
Bảng 13: Thời gian xác định kích thƣớc trung bình
DPI Thời gian xử lý(ms)
150 11.02
200 17.75
300 31.61
Thời gian xử lý chủ yếu nằm ở thời gian tìm các đối tượng trong ảnh. Thông qua cải tiến thuật toán và thay đổi cách thức đọc ảnh – lưu lại các chuỗi điểm đen liền kề trong mảng để tính toán thay vì đọc trực tiếp trên ảnh, hiệu năng của phương pháp này đã tăng lên đáng kể so với trước.
4.7 Thực nghiệm nhận dạng
4.7.1 Thực nghiệm nhận dạng ô đánh dấu
Các vùng đánh dấu được sử dụng để thực nghiệm lấy từ mẫu phiếu bài thi trắc nghiệm trong cat 5( bảng 1) và một số bài thi thử ở một số kỳ thi. Nhận dạng được tiến hành trên 1000 ảnh. Kết quả thực nghiệm cho thấy rằng phương pháp đề xuất trong
luận văn giải quyết được hai vấn đề chính trong nhận dạng vùng đánh dấu : tô mờ, tẩy xóa. Các ngưỡng nhận dạng cũng có thể được kiểm soát bởi người thực thi chương trình, giúp cho việc chấm thi thêm chính xác và linh hoạt.
Với một số ô vùng diện tích thí sinh tô quá ít so với diện tích ô, phương pháp có thể cho kết quả không chính xác.
Thực nghiệm trên mẫu phiếu thi với 60 câu cho kết quả :
Bảng 14: Độ chính xác phƣơng pháp tách vùng dựa trên đƣờng thẳng DPI Độ chính xác nhận dạng(%) Thời gian tách ô(ms) Thời gian nhận dạng(ms) 150 99.9% 8.11 9.42 300 99.9% 21.05 23.76 4.7.2Thực nghiệm nhận dạng số
Các chữ số sử dụng để kiểm thử phương pháp đề ra trong luận văn được thu thập thông qua mẫu phiếu "Mẫu dữ liệu số", được thiết kế bởi module thiết kế mẫu phiếu, và được tách riêng ra từng số bở module tách vùng được trình bày trong chương 3. Mười ảnh của phiếu được thu được sau khi scan, mỗi ảnh bao gồm 300 số, tổng cộng là 3000 số của các số từ 0 đến 9.
Kết quả nhận dạng trênh ảnh với độ phân giải 150DPI và 300DPI được cho như trong bảng 15
Bảng 15: Kết quả thực nghiệm nhận dạng số DPI Độ chính xác nhận dạng(%) Thời gian nhận dạng(ms) 150 99.85% 34.69 300 99.89% 44.21 4.8 Thực nghiệm tích hợp các thành phần
Lần thực nghiệm này tôi thực hiện xử lý tích hợp các phần như: Nạp ảnh, xử lý nhiễu, chính xác góc quay, xử lý phân vùng, nhận dạng. Thực nghiệm được thực hiện trên mẫu "Phiếu đánh giá môn học" với 10 ảnh, Kết quả về hiệu năng được cho trong bảng.
Bảng 16: Kết quả thực nghiệm tích hợp DPI Nạp ảnh (ms) Lọc nhiễu (ms) Xác định góc xoay (ms) Xoay ảnh (ms) Xử lý phân vùng (ms) Nhận dạng Tổng thời gian (ms) 150 28.70 15.23 32.18 31.29 17.57 5.24 130.21 300 110.31 67.10 42.03 115.46 78.71 12.70 426.31
KẾT LUẬN
Qua quá trình nghiên cứu về nhập dữ liệu tự động bằng phương pháp quang học, chúng tôi đã tìm ra những giải pháp thích hợp đối với đặc điểm của văn bản dạng form nhập dữ liệu để từ đó tiến hành cài đặt các module cần thiết cho quá trình tiền xử lý ảnh như: lọc nhiễu và tách nền; chính xác góc nghiêng của ảnh; xác định các vùng nhập liệu, nhận dạng vùng nhập liệu. Bên cạnh các module về xử lý ảnh, module quản trị form cũng được xây dựng để quản trị các thông tin liên quan đến các mẫu phiếu.
Trong quá trình nghiên cứu nhiều dạng form văn bản khác nhau, bao gồm cả các văn bản tiếng Việt và tiếng Anh cùng với việc nghiên cứu so sánh nhiều thuật toán, chúng tôi đã lựa chọn, cải tiến và đưa ra được một số các giải pháp riêng cũng như cài đặt thành công các thuật toán về tiền xử lý, phân vùng và nhận dạng ảnh. Việc tách nhiễu tỏ ra rất hiệu quả cho những ảnh có mức xám của nền lớn. Xác định góc nghiêng trên những ảnh được scan với độ phân giải 200, 300 DPI cho độ chính xác nhỏ hơn 0.1, và tốc độ xử lý cũng rất nhanh cỡ 0.04 – 0.07 (s).
Việc xác định các vùng cũng cho kết quả rất khả quan. Đối với những mẫu có sử dụng các block bên lề làm mốc quy chiếu, độ chính xác của việc xác định vùng với nhiều mẫu form lên đến 100%. Trên những văn bản dạng Form với các đường thẳng có độ dày tối thiểu 2 pixel, khi phân vùng dựa trên đường thẳng cũng cho độ chính xác rất cao ≥ 99%, và thời gian thực thi cỡ 0.045 – 0.1 (s) tùy thuộc vào số đường thẳng được xác định trong ảnh scan và trong tập mẫu. Giải pháp của chúng tôi cho việc phân vùng dựa trên việc xác định các đường thẳng ngang và thẳng đứng trong ảnh scan tỏ ra hiệu quả ngay cả trong trường hợp có nhiễu và mất mát thông tin và đã góp phần đáng kể vào kết quả nhận dạng chung.
Module nhận dạng đã tận dụng tối đa những thông tin về cấu trúc của ảnh, cho kết quả với độ chính xác 99.9% đối với nhận dạng ô đánh dấu. Khi so sánh trực tiếp với các máy chấm thi trắc nghiệm, phương pháp nhận dạng đề xuất trong luận văn tỏ ra mạnh mẽ hơn rất nhiều trong các trường hợp ô bị tô mờ và tẩy xóa. Đối với nhận dạng số viết tay dựa trên khung độ chính xác là 99.8% .
Với độ chính xác cao của việc tiền xử lý ảnh, xác định vùng và nhận dạng. Hệ thống hoàn toàn có thể được áp dụng rộng rãi trong thực tế.
Module quản trị form cũng được xây dựng nhằm hỗ trợ cho việc thiết kế và nhận dạng. Với sự hỗ trợ của module này, ảnh có thể được đối chiếu mã tự động và cho phép xử lý form với nhiều mặt giấy như các bài thi hoặc các phiếu điều tra dài.
Cùng với các kết quả đã đạt được, hệ thống vẫn còn một số hạn chế như module phân vùng dựa trên đường thẳng hiện mới làm việc tốt với những đường thẳng
có độ dày tối thiểu là 2 pixel, ngoài ra vẫn còn một số phần việc chưa được thực hiện để có thể đưa ra được một sản phẩm thật sự "hoàn chỉnh". Vì vậy, trong thời gian tới, tôi dự định sẽ tiếp tục nghiên cứu, cải tiến và hoàn thiện hệ thống với mục đích cuối cùng tạo ra một sản phẩm hoàn thiện có thể áp dụng ngay được trong thực tế góp phần đáng kể vào xu hướng số hóa của nước ta hiện nay.
Các công việc sẽ được nghiên cứu tiếp như:
- Xây dựng module nhận dạng chữ viết tiếng việt.
- Nâng cao hiệu năng và độ chính xác cho module tiền xử lý ảnh và phân vùng.
TÀI LIỆU THAM KHẢO Tài liệu tham khảo tiếng Việt
[1] N.T.M. Ánh, Đ.V. Cường, N.T. Hoài (2004). "Ứng dụng mạng Neural trong nhận dạng văn bản", NCKH SV 2004, Khoa Công Nghệ - ĐHQGHN. [2] Lương Mạnh Bá, Nguyễn Thanh Thủy (1999), Nhập môn xử lý ảnh số, Nhà
xuất bản khoa học và kỹ thuật, tr.75-76, 51-53.
[3] Nguyễn Thanh Phúc, Đinh Văn Phương (2006), “Nghiên cứu và xây dựng hệ thống nhập dữ liệu tự động bằng phương pháp nhận dạng quang học”, NCKH SV 2006, Khoa Công Nghệ - ĐHQGHN, tr.5-9, 10-15, 15-22
[4] Phan Văn Thuận (2004), Ứng dụng nhận dạng trong xử lý kết quả điều tra, Luận văn tốt nghiệp ngành công nghệ thông tin – Đại Học Quốc Gia Hà Nội, Khoa Công Nghệ, tr.21-22.
Tài liệu tham khảo tiếng Anh
[5] A. Antonacopoulos and R.T. Ritchings (1995), “Representation and Classification of Complex-shaped Printed Regions Using White Tiles”,
Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, Canada, pp.1132-1135.
[6] A. Bagdanov and J. Kanai (1997), “Projection Profile Based Skew Estimation Algorithm for JBIG Compressed Images”, Proceedings of the 4th
International Conference on Document Analysis and Recognition, Ulm, Germany, pp. 401-405.
[7] A. Hashizume, P.-S. Yeh, and A. Rosenfeld (1986), “A Method of Detecting the Orientation of Aligned Components”, Pattern Recognition Letters, Vol. 4, No. 2, pp. 125- 133
[8] A.L. Spitz (1992), “Skew Determination in CCITT Group 4 Compressed Document Images”, Proceedings of Symposium on Document Analysis and Information Retrieval, Las Vegas, Nevada, USA, pp. 11-25.
[9] B. Yu and A. Jain (1996), “A Robust and Fast Skew Detection Algorithm for Generic Documents”, Pattern Recognition, Vol. 29, No. 10, pp. 1599-1629. [10] Bo Yuan, Chew Lim Tan(2007), “Convex hull based skew estimation”,
[11] Dipti Deodhare, NNR Ranga Suri, R.Amit (2005). “Preprocessing and Image Enhancement Algorithms for a Form-based Intelligent Character Recognition System”, International Journal Of Computer Science & Application, Vol. 2, No. 2, pp. 131-144
[12] D.P. Lopresti (2000), “String Techniques for Detecting Duplicates in Document Databases”, International Journal on Document Analysis and Recognition, Vol. 2, No. 4, pp. 186-199.
[13] D. X. Le, G. Thoma (1993) , “ Document Skew Angle Detection Algorithm”.
Proc. 1993 SPIE Symposium on Aerospace and Remote Sensing - Visual Information Processing II, Orlando, FL, Vol. 1961, pp. 251-262.
[14] D.S. Le, G.R. Thoma, and H. Weschler (1994), “Automated Page Orientation and Skew Angle Detection for Binary Document Images”, Pattern
Recognition, Vol. 27, No. 10, pp. 1325-1344.
[15] E.Kavallieratou, D.C.Balcan, M.F.Popa, N.Fakotakis (1999), “ Handwritten text localization in skewed documents”, Int. Conference on Document Analysis and Recognition, ICDAR'99, pp. 705 – 708.
[16] Fu Chang, Chien-Hsing Chou, and Shih-Yu Chu (2004), “A New Approach to Estimation of Document Skew Angles Based on Piecewise Linear
Approximation of Line Objects”, Graphical Models and Image Processing , Institute of Information Science, Academia Sinica, Taipei, Taiwan, pp.1-3. [17] Fu Chang Kung-Hao Liang Tzu-Ming Tan Wen-Liang Hwan (1999),
“Binarization of document images using Hadamard multiresolutionanalysis”,
Document Analysis and Recognition, ICDAR'99, pp. 157-160
[18] Elise Gabarra1 Contact Information and Antoine Tabbone, " Combining Global and Local Threshold to Binarize Document of Images", Pattern Recognition and Image Analysis, Volume 3523/2005, pp.371-378 [19] H.-F. Jiang, C.-C. Han, and K.-C. Fan (1997), “A Fast Approach to the
Detection and Correction of Skew Documents”, Pattern Recognition Letters,
Vol. 18, No. 7, pp. 675-686.
[20] H. Peng, F. Long, Z. Chi, and W. Siu (2001), “Document Template Matching Based on Component Block List”, Pattern Recognition Letters, Vol. 22, No. 9, pp. 1033-1042.
[21] Hanchuan Peng, Member, IEEE, Fuhui Long, and Zheru Chi, (2003)
Block Projections”, Ieee Transactions On Pattern Analysis And Machine Intelligence, Vol. 25, No. 9, pp.1188-1192.
[22] H.S. Baird (1987), “The Skew Angle of Printed Documents”, Proceedings of SPSE 40th Symposium on Hybrid Imaging Systems, Rochester, New York, USA, pp. 21-24.
[23] Junichi Kanai, Andrew D. Bagdanov (1998), “Projection profile based skew estimation algorithm for JBIG compressed images”, International Journal on Document Analysis and Recognition 98, pp.43-51.
[24] J. Sauvola*, M. PietikaKinen (1999), “Adaptive document image binarization”, Pattern Recognition , 33, pp. 225-236
[25] K. Etemad, D. Doermann, and R. Chellappa (1997), “Multiscale Segmentation of Unstructured Document Pages Using Soft Decision Integration”, IEEE Trans. on Pattern Recognition and Machine Intelligence, Vol. 19, No. 1, pp. 92-96.
[26] Keiko Kakanishi, Kenichi Kazumi, Kitahiro Kaneda, Hiroki Fukuda (2007), “Form Recognition System, Form Recognition Method, Program and Storage Medium”. United State Patent, pp. 5-10
[27] K. Fan and M. Chang (1998), “Form Document Identification Using Line Structure Based Features”, Proc. Fourth Int’l Conf. Pattern Recognition, Vol. 2, pp. 1098- 1100.
[28] K. R. Arvind, Jayant Kumar and A. G. Ramakrishnan (2007), “Entropy Based Skew Correction of Document Images”, Pattern Recognition and Machine Intelligence, Volume 4815/2007, pp. 495-502.
[29] K. Sugawara (1997), “Weighted Hough Transform on a Gridded Image Plane”,
Proceedings of the 4th International Conference on Document Analysis and Recognition, Ulm, Germany, pp. 701-704.
[30] L. O’Gorman (1993), “The Document Spectrum for Page Layout Analysis”,
IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol. 15, No. 11, pp. 1162- 1173.
[31] Oleg Okun, Matti Pietik¨ainen and Jaakko Sauvola (1999), “Robust Skew Estimation on Low-Resolution Document Images”. Proceedings of the Fifth International Conference onDocument Analysis and Recognition, ICDAR '99 ,
[32] R. Cattoni, T. Coianiz, S. Messelodi, and C. M. Modena (1998), “ Geometric layout analysis techniques for document image understanding: a review”,
Technical report, IRST, Trento, Italy, pp.5
[33] Scott G.Van Sickle, David Grossberg (2004), “Method and system for form recognition and digitized image processing”, U.S.Patent, pp. 4-10
[34] S.N. Srihari and V. Govindaraju (1989), “Analysis of Textual Images Using the Hough Transform”, Machine Vision and Applications, Vol. 2, No. 3, pp. 141-153.
[35] Shamik Sural, P.K.Das (1997), “A Document Image Analysis System on Parallel Processors”, Proceedings. Fourth International Conference on High- Performance Computing, 1997, pp. 527-532.
[36] T. Pavlidis and J. Zhou (1992), Page Segmentation and Classification,
Computer Vision, Graphics and Image Processing: Graphical Models and Image Processing, Vol. 54, No. 6, pp. 484-496.
[37] Yue Lu, Chew Lim Tan (2003), “A nearest-neighbor chain based approach to skew estimation in document images”, Pattern Recognition Letters 24
(2003)2315–2323, Department of Computer Science, School of Computing National University of Singapore, Kent Ridge, Singapore 17543, pp.2315- 2319.
[38] Z.Shi, V.Govindaraju (2003), “Skew Detection for Complex Document Images Using Fuzzy Run length”, Proc. Of the Seventh Int. Conf. on Document Analysis and Recognition, ICDAR’03, pp. 1-4