Trích xuất thông tin thẻ tên sử dụng học sâu (luận văn thạc sỹ công nghệ thông tin)

Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐAI HOC NGUYỄN TÁT THÀNH NGUYỄN QC CƯỜNG TRÍCH XUẤT THƠNG TIN THẺ TÊN sù DỤNG HỌC SÂU Chuyên ngành: Công Nghệ Thông Tin Mã số: 8480201 LUẬN VĂN THẠC sĩ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẲN KHOA HỌC: TS DƯƠNG TRỌNG HẢI Thành phố Hồ Chí Minh - 2020 CƠNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI ĐẠI HỌC NGUYỄN TÁT THÀNH Cán châm phản biện 1: TS (Ghi rõ họ, tên, học hàm, học vị) Cán chấm phản biện 2: TS (Ghi rõ họ, tên, học hàm, học vị) Luận văn thạc sĩ bảo vệ tại: HỘI ĐỒNG CHẤM LUẬN VÀN THẠC sĩ ĐẠI HỌC NGUYỀN TÁT THÀNH Ngày tháng năm 2020 LỜI CAM ĐOAN Tôi tên là: Nguyên Quôc Cường Mã số học viên: 1800000143 Tôi xin cam đoan cơng trình nghiên cứu Những nội dung luận văn thực hướng dần trực tiếp TS DƯƠNG TRỌNG HAI Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình Các số liệu kết nghiên cứu luận văn tự thực hiện, trung thực không trùng lặp với đề tài khác Tôi xin chịu trách nhiệm nghiên cứu Tp HCM, tháng năm 2020 TÁC GIẢ LUẬN VĂN (Ký ghi rõ họ tên) Nguyền Quôc Cường LỜI CÁM ƠN Đâu tiên, xin gửi lời cảm ơn chân thành tri ân sâu săc với thây cô Trường Đại học Nguyền Tất Thành, đặc biệt thầy cô khoa Công Nghệ Thông Tin trường tạo điều kiện cho tơi có nhiều thời gian cho khóa luận tốt nghiệp Và xin chân thành cảm ơn Thầy TS Dương Trọng Hải nhiệt tình hướng dẫn hồn thành luận văn Trong trình học, trình làm báo cáo luận văn, khó tránh khỏi sai sót, mong thầy, bỏ qua Đồng thời trình độ lý luận kinh nghiệm thực tiễn cịn hạn chế nên báo cáo khơng thể tránh khỏi thiếu sót, tơi mong nhận ý kiến đóng góp thầy, để tơi học thêm nhiều kinh nghiệm hoàn thành tốt báo cáo luận văn Tôi xin chân thành cảm ơn ! Tp HCM, tháng năm 2020 TÁC GIẢ LUẬN VÀN (Ký ghi rõ họ tên) Nguyên Quôc Cường 1 MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii MỤC LỤC .iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT V DANH MỤC CÁC HÌNH VÈ VÀ Đồ THỊ vii DANH MỤC CÁC BẢNG ix CHƯƠNG TÓNG QUAN ĐỀ TÀI 1.1 1.2 Giới thiệu đề tài .1 Tổng quan lĩnh vực nghiên cứu 1.3 Mục tiêu đề tài 1.4 P hạm vi nghiên cứu 1.5 1.6 Phương pháp nghiên cứu .3 Bố cục luận văn .4 CHƯƠNG Cơ SỞ LÝ THUYẾT 2.1 Mạng nơ ron tích chập 2.1.1 Tích chập .6 2.2 2.3 2.1.2 Pooling layer 2.1.3 Fully Connected Mạng AlexNet .11 2.2.1 ReLu Nonlinearity .12 2.2.2 Reducing overfitting 12 MạngVGGNet 13 2.4 Mạng GoogLeNet .14 2.5 Mạng ResNets .16 2.6 Mạng Densenet 17 2.7 Kết luận chương .19 CHƯƠNG BÀI TOÁN IMAGE SEGMENTATION VÀ KIẾN TRÚC MẠNG Ư-NET 21 3.1 Bài toán image segmentation .21 3.2 Input output toán Image Segmentation 21 3.3 Các ứng dụng image Segmentation 23 3.4 Kiến trúc mạng Ư-Net 25 CHƯƠNG RÚT TRÍCH THƠNG TIN THẺ TÊN sử DỤNG HỌC SÂƯ 28 4.1 Tổng quan hệ thống .28 4.1.1 Ngơn ngừ lập trình 28 4.1.2 Các thu viện sử dụng 29 4.2 Tác vụ Cropper sử dụng Ư-Net 29 4.2.1 Chuẩn bị liệu đầu vào cropper .29 4.2.2 Áp dụng Ư-Net vào phân vùng ảnh name card 32 4.3 Detector sử dụng Resnet FPN .37 4.3.1 Tổng quan Resnet FPN .37 4.3.2 Áp dụng FPN vào phát text name card 44 4.4 Reader sử dụng Attention-OCR 49 CHƯƠNG KẾT LƯẬN VÀ HƯỚNG PHÁT TRIÉN 58 5.1 Kết thực nghiệm .58 5.2 Kết luận .61 5.3 Hướng phát triển đề tài 62 TÀI LIỆU THAM KHẢO 63 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu Diễn giải tiếng Anh Diên giải tiêng Việt AI Artificial intelligence Trí tuê nhân tao •• ANN Artificial neural network Mạng nơ ron nhân tạo API Application Programming Giao diện lập trình ứng Interface dụng CNN Convolutional Neural Mạng nơ ron tích chập Network cv Computer Vision Thị giác máy tính DL Deep learning Hoc sâu • DPI Dot per inch số điếm ảnh inch vuông FPN Feature Pyramid Network Phân tầng mạng tích chập sâu GPU Graphics processing unit Bộ xử lý đồ họa MC Machine learning Học máy OCR Optical Recognition Character Nhận dạng ký tự quang hoc • DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT OpenCV Open Source Computer Thư viện mã nguồn mở Vision thị giác máy RGB RGB color model RNN Recurrent Mơ hình màu Neural Mạng no-ron hồi quy Network RPN Region proposal network Mạng đề xuất khu vực SSD Single Shot Detector Phân tầng cúa mạng tích chập sâu v i CHƯƠNG KÉT LUẬN VÀ HƯỚNG PHÁT TRIÉN 5.1 Kết thực nghiệm Luận văn thực nghiệm băng cách sử dụng 300 nane card, môi name card quay video điện thoại thông minh khoảng thời gian Os gốc độ, khoảng cách, điều kiện ánh sáng, môi trường xung quanh độ phân giải khác Mồi video có frame rate 10 frame/s, suy có tổng cộng 90000 hình ảnh name card khác Với mồi name card trích xuất thơng tin tọa độ góc, tọa độ vùng text, củng text tưorng ứng mồi vùng name card Theo giới hạn luận văn, mồi name card trích xuất thơng tin khác họ tên, email, số điện thoại Các thí nghiệm thực máy tính có CPU core Ĩ9 3.50 GHz, 32GB RAM, card hình VGA MSI GeForce RTX 2080 Ti 11GB GDDR6, chạy hệ điều hành window 10 Thời gian thực nhận dạng thông tin card hệ thống end-to-end bao gồm tất tác vụ có thời gian trung bình khoảng 2.6s mồi card Đe đánh giá kết quả, luận văn dựa thông số Precision, Recall Fmeasure định nghĩa sau: Precision: mô tả ti lệ dự đốn xác đối tượng tổng số đối tượng mà phân lóp gán nhãn hình ảnh đối tượng TP Precision = TP+FP Recall: mơ tả tỉ lệ dự dự đốn xác đối tượng tổng số đối tượng thực tế TP Recall = — — TP + FN 2*Precision* Recall r - measure = —- -— -— Precision + Recall Gọi V khu vực chứa đôi tượng V' vùng phát chứa đơi tượng chương trình Khi chương trình phát đối tượng nằm hồn tồn ngồi khu vực chứa đối tượng thật V' = Một đối tượng xem phát diện tích giao V' V đảm bảo điều kiện sau: V'*0 5(KnK')>CI2xS(r) xS(r) req{ = ^S(KnK')>C (0.10) Với s(.) diện tích vùng, CpC2 số tùy chọn, luận văn c\ = C2 = 1/3, (K n V') vùng giao cùa V p Một đối tượng xem phát sai khơng thỏa mản điều kiện Gọi Nr số khu vực phát xác, Nư số khu vực phát hiện, NF số khu vực phát sai Khác với toán phân vùng text loại thẻ cước, chứng minh thư vị trí trường cố định số lượng trường xác định trước Bài tốn nhận dạng thơng tin name card có số trường khơng xác định vị trí cùa trường củng khơng xác định trước Chính lý đánh giá tác vụ detector cho loại text nói chung name card mà khơng phân loại vùng riêng lẽ Kết tác vụ phát text thể bảng Kết cho thấy số vùng text phát bị sai số vùng text phát có số lượng gần Các vùng text phát sai thường nhằm vào số logo có hình dáng gần giống với ký tự, vùng text phát thường nằm vào vùng text có font chữ mang tính tượng hình cao Tơng sơ Bảng 5.1: Kêt tác vụ phát text Precision Recall NT NF card 90000 (%) 81932 4232 3836 95.53 (%) 91 F-measure (%) 93.2 Đôi với tác vụ reader tác vụ trích xt thơng tin, luận văn tiên hành đánh giá tổng hợp dựa vào nhóm thông tin họ tên, số điện thoại email, với thông số đánh giá tương tự tác vụ phát text Tuy nhiên vùng diện tích quy đổi tương đương với sổ ký tự chuồi Một thông tin xem nhận dạng có 95% kỷ tự khớp với theo thứ tự, nhận dạng sai ký tự khớp với bé 95%, nhận dạng hệ thống đưa kết Kết tác vụ nhận dạng thông tin thể bảng Dựa vào kết bảng 2, nhận thấy số lượng nhận dạng thông tin sai trường Họ tên lớn, nguyên nhân thông tin họ tên nhận dạng sai thường nhầm vào tên công ty, địa thông tin khác Các thông tin email số điện thoại có tỉ lệ nhận dạng xác chúng có ký tự đặc biệt kèm @, với số điện thoại bao gồm phần lớn ký tự số Mặt khác hệ thống xây dựng phương thức nhận dạng thơng tin dựa vào phân tích ngừ nghĩa, phân tích dựa theo cảm tính Bảng 5.2: Kết tác vụ nhận dạng thông tin Trường thông tin NT Precision Recall F-measure (%) (%) (%) Ho tên • sồ điên thoai •• Email 62267 6397 21336 84.48 69.19 71.73 73278 8768 7954 90.2 81.42 85.59 81587 1189 7224 91.86 90.65 91.26 NF 5.2 Kết luận Sau thí nghiệm với mơ hình trích xt thơng tin có thẻ tên Mục tiêu đề nghiên cứu với mơ hình mạng có dựa mạng CNN với kiến trúc cải tiến Tơi xây dựng mơ hình trích xuất với tác vụ nêu phần trước cropper, detector, reader vs mơ hình mạng khác để cải tiến hiệu suất tác vụ kết tơi trích xuất thơng tin ảnh họ tên, email, số điện thoại Độ xác theo nhóm mà tơi lấy với lượng liệu khoảng 300 ảnh mà dùng với tỉ lệ :3 dùng 90 ảnh để huấn luyện 210 ảnh để test kiểm tra Các ảnh trích xuất vùng text dựa vào thuật tốn trình bày phần phát văn với mục tiêu trích xuất thơng tin họ tên, email, số điện thoại Với nhóm họ tên mà tơi trích xuất 210 ảnh tỉ lệ xác cùa rơi vào khoảng 84% Với nhóm email tỉ lệ rơi vào khoảng 90% số điện thoại 91% Theo kết nhận số lồi xảy thường gặp xây dựng tiến trình nhận dạng là: - Thơng tin ảnh đầu vào thường không cố định chụp nhiều góc độ khác - Ảnh đầu vào gồm nhiều font chừ đa dạng không đồng Hệ thống hay bị nhầm lần ký tự tương đối giống nhau, Ví dụ số ‘11’ thay cùm từ ‘11’, xâu ký tự ‘rr’ thay ký tự ‘n’, ký tự ‘T’ thay số ‘ ’, số ‘0’ thay ký tự ‘o’ điều tơi xử lý cách huấn luyện cách khai báo trường hợp trước Chương trình tự đồng tìm thay cụm từ ký tự ảnh thẻ với mầu từ sữa chữa Và lỗi xuất đặc biệt thẻ tên mà tơi phát hình thứ hình 21, với thơng tin trích xuất họ tên icon xuất chữ A, điều bất ngờ đa dạng thẻ tên Nhìn chung với mục tiêu mà đề trước thực luận văn với kết trích xuất thu phần cho kết đáp ứng khoảng 85% tốn cịn có thê cải thiện độ xác tưong lai dựa cải tiên kiến trúc mạng 5.3 Hướng phát triển đề tài Với mục tiêu xây dựng hệ thống trích xuất thơng tin xác áp dụng môi trường công nghiệp Và với phát triển tốc độ cải tiến kiến trúc mạng Mơ hình CNN, LSTM attention mong nghiên cứu thêm tăng cường khả xử lý đầu cho phép trích xuất hết thơng tin thẻ tên hình ảnh với khả xác đồng thời xây dựng API thiết kế ứng dụng điện thoại có chức liên kết với danh bạ triển khai lên server, đưa ứng dụng thực tiễn phục vụ ngành công nghiệp TÀI LIỆU THAM KHẢO [1] Arlazarov, Vladimir Viktorovich, et al "MIDV-500: a dataset for identity document analysis and recognition on mobile devices in video stream." KoMUbtomepnasi onmuna 43.5 (2019) [2] Baggio, Daniel Lélis Mastering OpenCV with practical computer vision projects Packt Publishing Ltd, 2012 [3J Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio "Neural machine translation by jointly learning to align and translate." arXiv preprint arXiv: 1409.0473 (2014) [4] He, Kaiming, et al "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition 2016 [5J Hochreiter, Sepp, and Jurgen Schmidhuber "Long short-term memory." Neural computation 9.8 (1997): 1735-1780 [6] Huang, Zhiheng, Wei Xu, and Kai Yu "Bidirectional LSTM-CRF models for sequence tagging." arXivpreprint arXiv: 1508.01991 (2015) [7] I J Goodfellow, D Warde-Farley, M Mirza, A Courville and Y Bengio, “Maxout networks,” arXiv preprint arXiv: 1302.4389, 2013 [8] J Redmon and A Farhadi, “YOLO9000: better, faster, stronger,” arXiv preprint, 2017 [9] J Redmon and A Farhadi, “Yolov3: An incremental improvement,” arXiv preprint arXiv: 1804.02767, 2018 [10] Kingma, Diederik p., and Jimmy Ba "Adam: A method for stochastic optimization." arXivpreprint arXiv: 1412.6980 (2014) [11] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E Hinton "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems 2012 [12] K He, X Zhang, s Ren and J Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016 [13] LeCun, Yann, et al "Gradient-based learning applied to document recognition." Proceedings of the IEEE 86.11 (1998): 2278-2324 [14] Lin, Tsung-Yi, et al "Feature pyramid networks for object detection." Proceedings of the IEEE conference on computer vision and pattern recognition 2017 [15] Michelucci, Umberto Advanced applied deep learning: convolutional neural networks and object detection Apress, 2019 [16] Prabhu, Raghav "Understanding of Convolutional Neural Network (CNN)-Deep Learning." A Medium Corporation, US (2018) [17] p Viola and M J Jones, “Robust real-time face detection,” International journal of computer vision, vol 57, pp 137-154, 2004 [18] Ren, Shaoqing, et al "Faster r-cnn: Towards real-time object detection with region proposal networks." Advances in neural information processing systems 2015 [19] Ronneberger, Olaf, Philipp Fischer, and Thomas Brox "U-net: Convolutional networks for biomedical image segmentation." International Conference on Medical image computing and computer-assisted intervention, springer, Cham, 2015 [20] Simonyan, Karen, and Andrew Zisserman "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv: 1409.1556 (2014) [21] Szegedy, Christian, et al "Going deeper with convolutions." Proceedings of the IEEE conference on computer vision and pattern recognition 2015 [22] Szegedy, Christian, et al "Inception-v4, inception-resnet and the impact of residual connections on learning." arXiv preprint arXiv:1602.07261 (2016) [23] V Jain and R Learned-Miller, “FDDB: A Benchmark for Face Detection in Unconstrained Settings,” 2010 [24] Wojna, Zbigniew, et al "Attention-based extraction of structured information from street view imagery." 2017 14th IAPR International Conference on Document Analysis and Recognition (ỈCDAR) Vol IEEE, 2017 [25] Wu, Jianxin "Introduction to convolutional neural networks." National Key Lab for Novel Software Technology Nanjing University China (2017) ... thông tin từ thẻ tên, chứng minh nhân dân, để truy xuất tự động thông tin khách hàng ngân hàng Trong khuôn khổ để tài này, chọn vấn đề rút trích thơng tin từ thẻ tên sử dụng học sâu (deep learning)... Keras, TensorFlow 4.1.2 Các thư viện sử dụng •••” Bên cạnh thư viện chuẩn ngơn ngữ, chương trình trích xuất thông tin thẻ tên sử dụng số thư viện khác sử dụng Long short term memory (LSTM) biến... ký tự quang học tiên tiến Từ tìm hiểu nghiên cứu để đưa đề xuất cải tiến hiệu cho tốn nhận diện trích xuất thông tin thẻ tên sử dụng deep learning Mục tiêu cụ thể: - Nghiên cứu áp dụng kiến trúc

Định dạng
Số trang	88
Dung lượng	1,86 MB