Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
1,84 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NGỌC TUẤN NHẬN DẠNG CHỮ CHO ẢNH MÀU THƯƠNG HIỆU LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NGỌC TUẤN NHẬN DẠNG CHỮ CHO ẢNH MÀU THƯƠNG HIỆU Ngành: Công nghệ thông tin Chuyên ngành: Khoa Học Máy Tính Mã số: 60480101 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ THANH HÀ Hà Nội - 2015 Lời cam đoan Tôi xin cam đoan phần nghiên cứu thực khóa luận riêng tôi, hướng dẫn TS Lê Thanh Hà, không chép từ công trình nghiên cứu khác Tôi trích dẫn đầy đủ tài liệu tham khảo, công trình nghiên cứu liên quan nước quốc tế Nếu sai xin chịu hoàn toàn trách nhiệm chịu kỷ luật ĐHQG Hà Nội Nhà trường Hà Nội, ngày 22 tháng năm 2015 Học viên Lời cảm ơn Lời em xin bày tỏ lòng biết ơn sâu sắc tới TS Lê Thanh Hà, người hướng dẫn em tận tình suốt trình học tập, nghiên cứu viết luận văn Đồng thời giúp em lựa chọn hướng cho riêng Một lần em xin nói lời cảm ơn với Thầy Em xin bày tỏ lòng biết ơn tới thầy cô giáo Khoa Công Nghệ Thông Tin - Đại Học Công Nghệ - ĐHQGHN Các thầy cô dạy bảo, dẫn chúng em tạo điều kiện tốt cho chúng em trình học tập, đặc biệt thời gian làm luận văn tốt nghiệp Em xin cảm ơn anh chị em lớp K17KHMT trường Đại Học Công Nghệ anh chị em lớp KHMT, giúp đỡ em suốt trình học tập Cuối xin gửi tới bố mẹ toàn thể gia đình lòng biết ơn tình cảm yêu thương Hà Nội ngày 22 tháng năm 2015 Nguyễn Ngọc Tuấn MỞ ĐẦU Nhận dạng chữ in nói chung nhận dạng chữ in ảnh màu toán có nhiều ứng dụng thực tế thu hút nhiều quan tâm nghiên cứu Máy tính tự động nhận dạng, xử lý ảnh đầu vào tạo liệu văn phục vụ lưu trữ, tìm kiếm, phân tích Nhờ giúp tiết kiệm chi phí, thời gian, công sức so với nhập liệu thủ công Ngày nay, cạnh tranh mạnh mẽ kinh tế, việc xây dựng hình ảnh doanh nghiệp truyền tải đến người tiêu dùng ngày trở nên quan trọng Ảnh thương hiệu (logo) phần thiếu trình này, bổ sung vào sở liệu doanh nghiệp Để khai thác thông tin ảnh thương hiệu sở liệu, dựa vào hai thành phần chính: phần hình ảnh phần chữ (text) Trong đó, phần text chứa nhiều thông tin hữu ích tên sản phẩm, tên doanh nghiệp, hiệu (slogan) , phục vụ đắc lực cho việc tìm kiếm, phân tích, lưu trữ Phương pháp đề cập luận văn nhằm giải vấn đề trích xuất liệu text từ ảnh thương hiệu cách tự động, nâng cao độ xác giảm thiểu chi phí cho hoạt động nhập liệu Quan sát số sở liệu ảnh thương hiệu, thấy ảnh thương hiệu bao gồm thông tin dạng văn (text) chiếm phần đáng kể, giải phương pháp nhận dạng chữ thông thường Tuy nhiên, phần không nhỏ ảnh màu thương hiệu text thường có yếu tố hình họa kèm, nhập nhằng vùng chữ in vùng hình họa làm khó khăn trích xuất text tăng lên nhiều so với nhận dạng chữ in ảnh xám truyền thống Để giải vấn đề đó, luận văn đề xuất giải pháp kết hợp phương pháp grayscale phân đoạn ảnh cải tiến, dựa khác biệt màu sắc cảm nhận mắt người, nguyên tắc thường thấy thiết kế ảnh màu thương hiệu Bài toán nhận dạng chữ in ảnh màu gồm ba công đoạn chủ yếu: tiền xử lý, nhận dạng kí tự hậu xử lý Trong luận văn tập trung chủ yếu vào giai đoạn tiền xử lý, cụ thể trình grayscale phân đoạn ảnh, nhằm đưa cải tiến để cải thiện độ xác kết nhận dạng sau Đồng thời sử dụng máy nhận dạng văn Tesseract để xây dựng thành hệ thống hoàn chỉnh Trong phần thực nghiệm luận văn, tiến hành nhận dạng chữ in ảnh màu thương hiệu với nhiều kích cỡ chữ, font chữ màu sắc khác Kết sau hệ thống nhận dạng chữ in cải thiện rõ rệt so sánh với phương pháp phân đoạn khác hệ thống nhận dạng Từ khóa: Nhận dạng chữ in, ảnh thương hiệu màu, biểu đồ Histogram, phân đoạn ảnh, nhị phân hóa Mục lục TỔNG QUAN 1.1 Đặt vấn đề 1.2 Nội dung nghiên cứu luận văn 1.3 Cấu trúc luận văn 10 10 10 11 Cơ 2.1 2.2 2.3 2.4 2.5 2.6 2.7 13 13 15 17 17 18 20 21 tự động 24 24 28 28 29 29 30 Thực nghiệm đánh giá 4.1 Môi trường thực nghiệm 4.2 Thực nghiệm phân đoạn ảnh 4.3 Thực nghiệm nhận dạng 33 33 33 35 Kết luận 38 sở lý thuyết cho phân đoạn ảnh Ảnh màu thương hiệu Không gian màu (color space) Biểu đồ Histogram Chuyển đổi ảnh màu sang ảnh mức xám Phân đoạn ảnh Một số phương pháp phân đoạn Máy nhận dạng văn Tesseract Phân đoạn ảnh màu thương hiệu 3.1 Pha 1: Chuyển đổi ảnh màu sang ảnh mức xám 3.2 Pha 2: Phân đoạn ảnh phân cấp 3.2.1 Xác định khoảng cách cụm 3.2.2 Hòa nhập cụm 3.2.3 Thuật toán Arifin cải tiến lựa chọn ngưỡng 3.3 Pha 3: Nhận dạng ký tự Danh mục hình vẽ 2.1 2.2 2.3 2.4 2.5 Ảnh thương hiệu màu Không gian màu HSV Phân cụm phân ngưỡng Histogram Ảnh gốc vùng ảnh sau phân đoạn Cấu trúc Tesseract 14 16 18 19 22 3.1 3.2 Sơ đồ hệ nhận dạng ký tự cho ảnh màu thương hiệu Chuyển đổi ảnh màu sang ảnh mức xám; (a): ảnh gốc, (b) ảnh độ sáng, (c) ảnh mức xám áp dụng phương pháp Rasche, (d) ảnh mức xám áp dụng phương pháp Mark Ảnh màu thương hiệu Ảnh mức xám sau biến đổi sử dụng phương pháp Mark (a) Biểu đồ Histogram trình hòa nhập cụm (b) Nhận dạng văn ảnh phân đoạn Tesseract 25 3.3 3.4 3.5 3.6 4.1 4.2 4.3 4.4 Ảnh thương hiệu sau phân đoạn áp dụng phương pháp Otsu Ảnh thương hiệu sau phân đoạn phương pháp phân cấp Arafin Ảnh thương hiệu sau phân đoạn phương pháp phân cấp K-means Kết nhận dạng với số RCR, RJR ER cho mô hình 26 27 27 29 30 34 34 35 36 Danh mục bảng biểu 4.1 Bảng so sánh kết thực nghiệm 37 Danh sách từ viết tắt OCR RGB HSV CMYK CIE LAB LA*B* RCR RJR ER NOIP Optical Character Recognition Red Green Blue Hue Saturation Value Cyan Magenta Yellow Key International Commission on Illumination Lightness a b Lightness a* b* Recognition rate Rejection rate Error rate National Office of Intellectual Property Tài liệu tham khảo [1] Pablo Arbelaez, Michael Maire, Charless Fowlkes, and Jitendra Malik Contour detection and hierarchical image segmentation IEEE Transactions on Pattern Analysis and Machine Intelligence, 33:898–916, 2011 ISSN 0162-8828 doi: http://doi.ieeecomputersociety.org/10.1109/TPAMI.2010.161 [2] Asano Akira Arifin, Agus Zainal Image segmentation by histogram thresholding using hierarchical cluster analysis Pattern Recogn Lett., 27(13):1515–1521, October 2006 ISSN 0167-8655 doi: 10 1016/j.patrec.2006.02.022 URL http://dx.doi.org/10.1016/j.patrec.2006.02.022 [3] S Belongie, J Malik, and J Puzicha Shape matching and object recognition using shape contexts Pattern Analysis and Machine Intelligence, IEEE Transactions on, 24(4):509 –522, apr 2002 ISSN 0162-8828 doi: 10.1109/34.993558 [4] Teófilo Emídio de Campos, Bodla Rakesh Babu, and Manik Varma Character recognition in natural images In VISSAPP (2)’09, pages 273–280, 2009 [5] Line Eikvil Ocr - optical character recognition, 1993 [6] A Srikrishna G Rama Mohan Babu, P Srimaiyee Text extraction from heterogeneous images using mathematical morphology Journal of Theoretical and Applied Information Technology, 16(1):39–47, 2010 [7 ] Y M Y Hasan and L J Karam Morphological text extraction from images IEEE Transactions on Image Processing, 9(11):1978–1983, 2000 URL http://www.ncbi.nlm.nih.gov/pubmed/18262934 [8] Rose Holley How good can it get? analysing and improving ocr accuracy in large scale historic newspaper digitisation programs D-Lib Magazine, 15(3/4), 03 2009 [9] Anil Jain and Aditya Vailaya Shape-based retrieval: A case study with trademark image databases Pattern Recognition, 31:1369–1390, 1998 [10] Keechul Jung, Kwang In Kim, and Anil K Jain Abstract text information extraction in images and video: A survey [11] K.C.Singh and Lalit Mohan Satapathy Comparative Study on Thresholding International Journal of Instrumentation, 1:73–77, 2011 doi: 10.1002/col.5080160608 [12] Rainer Lienhart and Frank Stuber Automatic text recognition in digital videos Technical report, 1995 [13] Elizabeth Pirrotta Mark D Fairchild Predicting the lightness of chromatic object colors using CIELAB Color Research and Application, 16:385–393, 1991 doi: 10.1002/col.5080160608 [14] Shunji Mori, Hirobumi Nishida, and Hiromitsu Yamada Optical Character Recognition John Wiley & Sons, Inc., New York, NY, USA, 1st edition, 1999 ISBN 0471308196 [15] Jun Zhang and Jinglu Hu Image segmentation based on 2d otsu method with histogram analysis In Proceedings of the 2008 International Conference on Computer Science and Software Engineering Volume 06, CSSE ’08, pages 105–108, Washington, DC, USA, 2008a IEEE Computer Society ISBN 978-0-7695-3336-0 doi: 10.1109/CSSE.2008.206 URL http://dx.doi.org/10.1109/CSSE.2008 206 39 [16] Jun Zhang and Jinglu Hu Image segmentation based on 2d otsu method with histogram analysis In Proceedings of the 2008 International Conference on Computer Science and Software Engineering Volume 06, CSSE ’08, pages 105–108, Washington, DC, USA, 2008b IEEE Computer Society ISBN 978-0-7695-3336-0 [17] Lihong Zheng and Xiangjian He Character segmentation for license plate recognition by k-means algo- rithm In Proceedings of the 16th international conference on Image analysis and processing - Volume Part II, ICIAP’11, pages 444–453, Berlin, Heidelberg, 2011 Springer-Verlag ISBN 978-3-642-24087-4 URL http://dl.acm.org/citation.cfm?id=2042703.2042751 [18] Yu Zhong, K Karu, and A K Jain Locating text in complex color images In Proceedings of the Third International Conference on Document Analysis and Recognition (Volume 1) - Volume 1, ICDAR ’95, pages 146–149, Washington, DC, USA, Aug 1995 IEEE Computer Society ISBN 0-8186-7128-9 URL http://dl.acm.org/citation.cfm?id=844379.844664 [19] www.noip.gov.vn/ [20] https://code.google.com/p/tesseract-ocr/ [21] http://www.nuance.com/for-individuals/by-product/omnipage/ 40