Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

107 69 0
Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ ỨNG DỤNG HỌC SÂU GIẢI QUYẾT BÀI TOÁN NHẬN DẠNG KÝ TỰ QUANG HỌC TIẾNG VIỆT NGUYỄN TRỌNG HOÀNG VIỆT viet.nth145242@sis.hust.edu.vn Ngành Toán Tin Khoa Học Giảng viên hướng dẫn: TS Lê Đình Nam Viện: Tốn ứng dụng tin học Hà Nội, 09/2021 Mục lục Danh mục từ viết tắt Danh mục hình vẽ bảng CÁC KHÁI NIỆM CƠ BẢN 1.1 Bài toán OCR 1.1.1 Giới thiệu chung 1.1.2 Chương trình OCR 1.1.3 Các phương pháp tiếp cận 10 1.1.4 Các thành phần mơ hình OCR 11 1.1.5 Hàm chi phí - Loss Function 12 1.2 Mạng nơ-ron 14 1.2.1 Tổng quan mơ hình tảng tốn học 15 1.2.2 Bài toán Mạng Nơ-ron truyền thẳng - Feed Forward (FF) 17 1.2.3 Bài toán Mạng Nơ-ron truyền ngược - Back Propagation (Backward) (BW) 19 1.2.4 Thuật toán Tối ưu suy giảm độ dốc - Gradient Descent (GD) 20 1.3 Cơ sở lý thuyết - Mạng nơ-ron tích chập - Convolutional Neural Network 21 1.4 1.3.1 Trường tiếp nhận cục - Local Receptive Field (LRF) 22 1.3.2 Lớp tổng hợp - Pooling Layer (PL) 23 Cơ sở lý thuyết - Mạng nơ-ron hồi quy - Recurrent Neural Network 24 1.5 Cơ sở lý thuyết - Phân loại thời gian kết nối - Connectionist Temporal Classification Loss 26 1.6 1.7 Cơ sở lý thuyết - Lớp nơ-ron ý - Attention Layer 28 1.6.1 Tổng quát 28 1.6.2 Cơ chế ý OCR 30 Phương pháp đánh giá mơ hình OCR 31 1.7.1 Các phương pháp đánh giá 31 1.7.2 Các liệu đánh giá 34 CÁC PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN 2.1 2.2 37 Phương pháp nhận dạng ký tự - Character Based OCR 37 2.1.1 Tổng quan hướng tiếp cận 37 2.1.2 Xử lý ảnh 38 2.1.3 Mơ hình Character Classification 42 2.1.4 Các kết tiêu biểu 44 2.1.5 Đánh giá hướng tiếp cận 45 Phương pháp nhận dạng từ - Word Based OCR 45 2.2.1 Tổng quan hướng tiếp cận 45 2.2.2 Xử lý ảnh 46 2.2.3 Nhận dạng từ - Word Detection 47 2.2.4 CRNN 47 2.3 2.4 2.5 2.2.5 CNN + RNN + CTC Loss 49 2.2.6 CNN + RNN + Attention 50 2.2.7 Kết hợp CTC + Attention 50 2.2.8 Các kết tiêu biểu 50 2.2.9 Đánh giá hướng tiếp cận 51 Phương pháp nhận dạng câu - Sentence Based OCR 52 2.3.1 Tổng quan hướng tiếp cận 52 2.3.2 Xử lý ảnh 52 2.3.3 Mơ hình Sentence Based OCR 53 2.3.4 CRNN 53 2.3.5 CNN + RNN + CTC Loss 55 2.3.6 CNN + RNN + Attention 55 2.3.7 Kết hợp CTC + Attention 56 2.3.8 Đánh giá hướng tiếp cận 56 Phương pháp nhận dạng toàn form - 2D OCR 57 2.4.1 Tổng quan hướng tiếp cận 57 2.4.2 Xử lý ảnh 58 2.4.3 Mơ hình Chargrid-OCR 63 2.4.4 Các kết tiêu biểu 65 2.4.5 Đánh giá hướng tiếp cận 68 Phương pháp End2End kết hợp - End2End OCR 69 2.5.1 Tổng quan hướng tiếp cận 69 2.5.2 Xử lý ảnh 70 2.5.3 Mơ hình FOTS 70 2.5.4 Các kết tiêu biểu 72 2.5.5 Đánh giá hướng tiếp cận 73 MƠ HÌNH OCR CẢI TIẾN 74 3.1 Tổng quan 74 3.2 Kiến trúc mô hình 74 3.2.1 Mơ hình Text Detection with Differentiable Binarization [42] 76 3.3 3.2.2 Mơ hình phân lớp (Classification) hướng xoay dịng chữ 77 3.2.3 Mơ hình Xception Attention OCR 77 Dữ liệu nhân tạo - Data Generation (DG) 79 3.3.1 Tổng quan Dữ liệu nhân tạo - Data Generation (DG) OCR 79 3.3.2 Tạo liệu nhân tạo giống với liệu thực tế 80 3.4 Phương pháp huấn luyện hỗn hợp - Mixed Precision 82 3.5 Kết 84 3.6 Chương trình 86 KẾT LUẬN TÀI LIỆU THAM KHẢO 89 91 Danh mục từ viết tắt OCR Nhận dạng ký tự quang học - Optical Character Recognition , 4, 6, 7, 8, 9, 10, 11, 13, 14, 28, 30, 31, 32, 33, 34, 37, 38, 42, 49, 51, 55, 69, 74, 75, 76, 77, 78, 79, 89 CB-OCR Phương pháp nhận dạng ký tự - Character Based OCR , 5, 10, 26, 37, 38, 41, 44, 45, 46, 89 WB-OCR Phương pháp nhận dạng từ - Word Based OCR , 5, 10, 45, 46, 52, 53, 89 SB-OCR Phương pháp nhận dạng câu - Sentence Based OCR , 5, 10, 52, 53, 74, 89 2D-OCR Phương pháp nhận dạng toàn form - 2D OCR , 10, 57, 89 EE-OCR Phương pháp End2End kết hợp - End2End OCR , 10, 69, 89 Deep Learning Học sâu - Deep Learning 7, 14, 15, 69 TD Phát ký tự - Text Detection 69 TR Nhận diện ký tự - Text Recognition 26, 69 ML Học máy - Machine Learning 14 CV Thị giác máy tính - Computer Vision CNN Mạng nơ-ron tích chập - Convolutional Neural Network , 11, 14, 21, 23, 24, 28, 42, 43, 48, 49, 53, 54, 78, 90 NN Mạng nơ-ron - Neural Network 14 RNN Mạng nơ-ron hồi quy - Recurrent Neural Network , 24, 25, 28, 30, 48, 49, 53, 54 FF Mạng Nơ-ron truyền thẳng - Feed Forward , 17 BW Mạng Nơ-ron truyền ngược - Back Propagation (Backward) , 19 GD Tối ưu suy giảm độ dốc - Gradient Descent , 20 SGD Tối ưu suy giảm độ dốc ngẫu nhiên - Stochastic Gradient Descent 64 SW Cửa sổ trượt - Sliding Windows LRF Trường tiếp nhận cục - Local Receptive Field , 4, 22, 23 LSTM Mạng nhớ dài ngắn - Long Short Term Memory 71 PL Lớp tổng hợp - Pooling Layer , 4, 23, 24 Feature map Bản đồ đặc trưng - Feature map CTC Phân loại thời gian kết nối - Connectionist Temporal Classification Loss , 26, 27 ATTN Lớp nơ-ron ý - Attention Layer , 28, 78 DG Dữ liệu nhân tạo - Data Generation , 79 MPT Phương pháp huấn luyện hỗn hợp - Mixed Precision , 6, 82, 83 NLP Xử lý ngôn ngữ tự nhiên - Natural Language Processing 25 WRR Tỉ lệ nhận dạng từ - Word Recognition Rate 65 DPI Số lượng điểm ảnh inch - Dots Per Inch 66 GPU Bộ xử lý đồ họa - Graphics processing unit CPU Bộ xử lý trung tâm - Central processing unit Danh mục hình vẽ bảng 1.1 Minh họa số trường hợp khó xử lý OCR 1.2 Minh họa luồng OCR tiêu biểu 1.3 Ví dụ văn scan 1.4 Ví dụ văn scan 10 1.5 Tiêu chuẩn mơ hình OCR 11 1.6 Hàm chi phí mơ hình OCR 13 1.7 Kiến trúc mạng Perceptron nhiều lớp - Multi Layer Perceptron (MLP) Nguồn: [51] 15 1.8 Quan hệ lớp MLP Nguồn: [51] 16 1.9 Mô hình mạng CNN - Nguồn: [85] 22 1.10 Trường tiếp nhận cục - Local Receptive Field (LRF) Nguồn: [85] 23 1.11 Lớp tổng hợp - Pooling Layer (PL) - Nguồn: [85] 24 1.12 Kiến trúc mạng RNN - Nguồn: [85] 25 1.13 Ví dụ vấn đề thuật toán text recognition - Nguồn: [81] 27 1.14 Kiến trúc mơ hình mạng nơ-ron ý Nguồn: [4] 29 1.15 Gộp tọa độ điểm ảnh vào đặc trưng Nguồn: [4] 31 1.16 Hình ảnh từ liệu FSNS Nguồn: [45] 35 1.17 Hình ảnh từ liệu im2latex-100k Nguồn: [46] 35 1.18 Hình ảnh từ liệu ArT Nguồn: [47] [48] 36 2.1 Phân tách ký tự Phương pháp nhận dạng ký tự Character Based OCR Nguồn: [44] 38 2.2 Xử lý ảnh đầu vào bị lệch (De-skewing) - Nguồn: [64] 39 2.3 Chuyển ảnh dạng trắng đen (Binarization) Nguồn: [64] 40 2.4 Loại bỏ nhiễu (Despeckle) Nguồn: [64] 40 2.5 Loại bỏ đường kẻ (Line removal) Nguồn: [64] 41 2.6 Phân chia ký tự "phân đoạn" (Character isolation or “segmentation”) Nguồn: [64] 42 2.7 Tensor Nguồn: DeepAI.org 43 2.8 Mơ hình Character Classification Nguồn: [23] 43 2.9 Luồng xử lý Phương pháp nhận dạng từ - Word Based OCR 46 2.10 Phân tách từ 47 2.11 Kiến trúc mơ hình CRNN [55] 49 2.12 Kiến trúc mơ hình ocr kết hợp CTC + Attention [65] 50 2.13 Luồng xử lý Phương pháp nhận dạng câu - Sentence Based OCR 53 2.14 Kiến trúc mơ hình CRNN [55] 55 2.15 Kiến trúc mơ hình ocr kết hợp CTC + Attention [65] 56 2.16 Đầu mơ hình Chargrid-OCR với đầu vào ảnh tài liệu thuộc tập liệu DOE Tables [13] 58 2.17 Phân tách điểm ảnh thuộc ký tự 60 2.18 Mơ hình dự đốn nhiều hình chữ nhật bao quanh ký tự [17] 60 2.19 Minh họa thuật tốn Graphcore để lọc hình chữ nhật bao quanh ký tự 61 2.20 Kiến trúc Chargrid-OCR với ví dụ đầu vào đầu 63 2.21 WRR tập liệu đánh giá 66 Hình 3.11: Ví dụ bóc tách thơng tin 88 Chương KẾT LUẬN Luận văn trình bày đầy đủ toán Nhận dạng ký tự quang học - Optical Character Recognition (OCR) Tác giả trình bày khái niệm tốn OCR nói chung dạng tiếp cận nói riêng, bao gồm: • Phương pháp nhận dạng ký tự - Character Based OCR • Phương pháp nhận dạng từ - Word Based OCR • Phương pháp nhận dạng câu - Sentence Based OCR • Phương pháp nhận dạng tồn form - 2D OCR • Phương pháp End2End kết hợp - End2End OCR Hơn nữa, tác giả trình bày đánh giá chi tiết kỹ thuật sử dụng toán trên, đề xuất giải pháp tối ưu cải tiến độ xác, bao gồm: • Sử dụng thuật toán Attention để tăng cường hiệu dự đốn ngữ nghĩa 89 • Tạo liệu tiếng Việt nhân tạo từ đa dạng font chữ câu ngữ cảnh để gia tăng liệu thực tế • Sử dụng kỹ thuật Mixed Precision Training để tăng tốc độ xử lý mơ hình Ngồi ra, với thuật toán đưa ra, tác giả đánh giá khả thuật toán, điểm mạnh với điểm yếu kết thực tế chạy thuật toán Trong thời gian tới, tác giả tập trung vào cải thiện kết nghiên cứu dựa số hướng sau: • Sử dụng thuật tốn Collaborative Mutual Learning (CML) [2] để tăng tốc độ mô hình thiết bị cấu hình yếu • Sử dụng kỹ thuật Self-Supervised Learning DINO [3] nhằm tăng chất lượng mơ hình CNN Do thời gian nghiên cứu có hạn, luận văn cịn gặp nhiều thiếu sót, tác giả mong nhận nhiều nhận xét, đánh giá cách tích cực để luận văn cải thiện tiến tốt 90 Tài liệu tham khảo [1] LeCun, Y.; Boser, B.; Denker, J S.; Henderson, D.; Howard, R E.; Hubbard, W & Jackel, L D (1989) "Backpropagation applied to handwritten zip code recognition" Neural Computation, 1(4):541-551, 1998 [2] Yuning Du, Chenxia Li, Ruoyu Guo, Cheng Cui, Weiwei Liu, Jun Zhou, Bin Lu, Yehua Yang, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma, "PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System", 2021 [3] Caron, Mathilde and Touvron, Hugo and Misra, Ishan and Jégou, Hervé and Mairal, Julien and Bojanowski, Piotr and Joulin, Armand, "Emerging Properties in Self-Supervised Vision Transformers", Proceedings of the International Conference on Computer Vision (ICCV), 2021 [4] Zbigniew Wojna, Alex Gorban, Dar-Shyang Lee, Kevin Murphy, Qian Yu† Yeqing Li, Julian Ibarz, "Attention-based Extraction of Structured Information from Street View Imagery", Computing Research Repository (CoRR), 2017 [5] R Smith, C Gu, D.-S Lee, H Hu, R Unnikrishnan, J Ibarz, S Arnoud, and S Lin, “End-to-end interpretation of the french street name signs 91 dataset,” in European Conference on Computer Vision Springer, pp 411–426, 2016 [6] T He, W Huang, Y Qiao, and J Yao, “Text-attentional convolutional neural network for scene text detection,” IEEE Transactions on Image Processing, vol 25, no 6, pp 2529–2541, 2016 [7] C.-Y Lee and S Osindero, “Recursive recurrent nets with attention modeling for OCR in the wild,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 2231–2239, 2016 [8] B Shi, X Bai, and C Yao, “An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition,” IEEE transactions on pattern analysis and machine intelligence, 2016 [9] B Shi, X Wang, P Lyu, C Yao, and X Bai, “Robust scene text recognition with automatic rectification,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.4168–4176, 2016 [10] T Bluche, J Louradour, and R Messina, “Scan, attend and read: Endtoend handwritten paragraph recognition with mdlstm attention,” arXiv preprint arXiv:1604.03286, 2016 [11] T Bluche, “Joint line segmentation and transcription for endto-end handwritten paragraph recognition,” arXiv preprint arXiv:1604.08352,2016 [12] Christian Reisswig, Anoop R Katti, Marco Spinaci, Johannes Hohne, "Chargrid-OCR: End-to-end Trainable Optical Character 92 Recognition for Printed Documents using Instance Segmentation", arXiv:1909.04469v4 [cs.CV], 2020 [13] Asif Shahab, Faisal Shafait, Thomas Kieninger, and Andreas Dengel "An open approach towards the benchmarking of table structure recognition systems" In Proceedings of the 9th IAPR International Workshop on Document Analysis Systems, pages 113–120 ACM, 2010 [14] Shaoqing Ren, Kaiming He, Ross B Girshick, and Jian Sun "Faster R-CNN: towards real-time object detection with region proposal networks" CoRR, abs/1506.01497, 2015 [15] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott E Reed, Cheng-Yang Fu, and Alexander C.Berg "SSD: single shot multibox detector" In ECCV 2016, pages 21–37, 2016 [16] Vladimir Batagelj and Matjaz Zaversnik "An o(m) algorithm for cores decomposition of networks" CoRR, cs.DS/0310049, 2003 [17] DD A Borges Oliveira and M P Viana, "Fast CNN-Based Document Layout Analysis," 2017 IEEE International Conference on Computer Vision Workshops (ICCVW), pp 1173-1180, doi: 10.1109/ICCVW.2017.142 2017 [18] Fisher Yu and Vladlen Koltun "Multi-Scale Context Aggregation by Dilated Convolutions." International Conference on Learning Representations (ICLR), May 2016 [19] Olaf Ronneberger, Philipp Fischer, and Thomas Brox "U-net: Convolutional networks for biomedical image segmentation" In MICCAI 2015, pages 234–241 Springer, 2015 93 [20] Sergey Ioffe and Christian Szegedy "Batch normalization: Accelerating deep network training by reducing internal covariate shift" arXiv preprint arXiv:1502.03167, 2015 [21] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton "Imagenet classification with deep convolutional neural networks In Advances in neural information processing systems", pages 1097–1105, 2012 [22] Jonathan Tompson, Ross Goroshin, Arjun Jain, Yann LeCun, and Christoph Bregler "Efficient object localization using convolutional networks" In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 648–656, 2015 [23] Xiang Zhang, Junbo Zhao, Yann LeCun, "Character-level Convolutional Networks for Text Classification", 2007 [24] Liu, X., Liang, D., Yan, S., Chen, D., Qiao, Y & Yan, J "FOTS: Fast Oriented Text Spotting with a Unified Network" CoRR abs/1801.01671, 2018 http://arxiv.org/abs/1801.01671 [25] Buˇsta, M., Neumann, L & Matas, J Deep "TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework" 2017 IEEE International Conference On Computer Vision (ICCV) pp 22232231 ,2017 [26] Li, H., Wang, P & Shen, C Towards "End-to-end Text Spotting with Convolutional Recurrent Neural Networks" CoRR abs/1707.03985, 2017 http://arxiv.org/abs/1707.03985 [27] Girshick, R "Fast R-CNN" http://arxiv.org/abs/1504.08083 94 CoRR abs/1504.08083, 2015 [28] Bartz, C., Yang, H & Meinel, C SEE: "Towards Semi-Supervised End-to-End Scene Text Recognition" CoRR abs/1712.05404, 2017 http://arxiv.org/abs/1712.05404 [29] Jaderberg, M., Simonyan, K., Zisserman, A & Kavukcuoglu, K "Spatial Transformer Networks" CoRR abs/1506.02025, 2015 http://arxiv.org/abs/1506.02025 [30] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun "Delving deep into rectifiers: Surpassing human-level performance on imagenet classification" In Proceedings of the IEEE international conference on computer vision, pages 1026–1034, 2015 [31] Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla "Segnet: A deep convolutional encoder-decoder architecture for image segmentation" IEEE transactions on pattern analysis and machine intelligence, 39(12):2481–2495, 2017 [32] Shaoqing Ren, Kaiming He, Ross B Girshick, and Jian Sun."Faster R-CNN: towards real-time object detection with region proposal networks" CoRR, abs/1506.01497, 2015 [33] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio "Neural machine transation by jointly learn- ing to align and translate" In Proc ICLR 2015 [34] Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S Zemel, and Yoshua Bengio "Show, attend and tell: Neural image caption generation with visual attention." In Proc ICML 2015 95 [35] Tsung-Hsien Wen, Milica Gasˇic , Nikola Mrksˇic , Pei-Hao Su, David Vandyke, and Steve Young "Semanti- cally conditioned LSTM-based natural language gen- eration for spoken dialogue systems." In Proc EMNLP 2015 [36] S M Lucas ICDAR 2005 text locating competition results In Document Analysis and Recognition, pages 80–84, 2005 [37] A Mishra, K Alahari, and C Jawahar "Scene text recognition using higher order language priors" 2012 [38] ] K Wang, B Babenko, and S Belongie "End-to-end scene text recognition" In Proc ICCV, pages 1457–1464 IEEE, 2011 [39] TC C Tappert, C Y Suen, and T Wakahara, “The state of the art in online handwriting recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 12, no 8, pp 787–808, Aug 1990.[Online] Available: http://dx.doi.org/10.1109/34.57669 [40] Yann Lecun, Léon Bottou, Yoshuo Bengio, and Patrick Haffner, "Gradient-Based Learning Applied to Document Recognition", PROC OF THE IEEE 1998 [41] Wenjia Wang, Enze Xie, Peize Sun, Wenhai Wang, Lixun Tian, Chunhua Shen, Ping Luo, "TextSR: Content-Aware Text Super-Resolution Guided by Recognition", 2019 [42] Minghui Liao, Zhaoyi Wan, Cong Yao, Kai Chen, Xiang Bai, "Real-time Scene Text Detection with Differentiable Binarization", 2020 [43] Mingxing Tan, Quoc V Le, "EfficientNetV2: Smaller Models and Faster Training", 2021 96 [44] R Smith, "An Overview of the Tesseract OCR Engine," Ninth International Conference on Document Analysis and Recognition (ICDAR 2007), pp 629-633, doi: 10.1109/ICDAR.2007.4376991, 2007 [45] Raymond Smith, Chunhui Gu, Dar-Shyang Lee, Huiyi Hu, Ranjith Unnikrishnan, Julian Ibarz, Sacha Arnoud, and Sophia Lin, "End-to-End Interpretation of the French Street Name Signs Dataset", 2017 [46] Yuntian Deng, Anssi Kanervisto, Jeffrey Ling, Alexander M Rush, "Image-to-Markup Generation with Coarse-to-Fine Attention", 2017 [47] Ch’ng, Chee Kheng, and Chee Seng Chan "Total-text: A comprehensive dataset for scene text detection and recognition." 14th IAPR International Conference on Document Analysis and Recognition (ICDAR) Vol IEEE, 2017 [48] Yuliang, Liu, Lianwen, Jin, et al "Curved Scene Text Detection via Transverse and Longitudinal Sequence Connection." Pattern Recognition, 2019 [49] Gupta, A., Vedaldi, A., Zisserman, A.: "Synthetic data for text localisation in natural images" In: Proceedings of the IEEE conference on computer vision and pattern 2015 [50] Jaderberg, M., Simonyan, K., Vedaldi, A., Zisserman, A.: "Synthetic data and artificial neural networks for natural scene text recognition" In: Workshop on Deep Learning, NIPS (2014) recognition pp 2315–2324, 2016 [51] E Wilson and D W Tufts, "Multilayer perceptron design algorithm", 97 Proceedings of IEEE Workshop on Neural Networks for Signal Processing", pp 61-68, doi: 10.1109/NNSP.1994.366063, 1994 [52] Ebin Zacharias, Martin Teuchler and Bénédicte Bernier, "Image Processing Based Scene-Text Detection and Recognition with Tesseract" 2020 [53] Xiaoxue Chen, Lianwen Jin, Yuanzhi Zhu, Canjie Luo, and Tianwei Wang "Text recognition in the wild: A survey", 2020 [54] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio "Generative adversarial nets" In Proceedings of NIPS 2672–2680 2014 [55] Baoguang Shi, Xiang Bai, Cong Yao "An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition", CoRR, 2015 [56] A Bissacco, M Cummins, Y Netzer, and H Neven Photoocr: "Reading text in uncontrolled conditions" In ICCV, 2013 [57] M Jaderberg, A Vedaldi, and A Zisserman "Deep features for text spotting" In ECCV, 2014 [58] S M Lucas, A Panaretos, L Sosa, A Tang, S Wong, R Young, K Ashida, H Nagai, M Okamoto, H Yamamoto, H Miyao, J Zhu, W Ou, C Wolf, J Jolion, L Todoran, M Worring, and X Lin ICDAR 2003 robust reading competitions: entries, results, and future directions IJDAR, 7(2-3):105–122, 2005 98 [59] D Karatzas, F Shafait, S Uchida, M Iwamura, L G i Bigorda, S R Mestre, J Mas, D F Mota, J Almazan, and ´ L de las Heras ICDAR 2013 robust reading competition In ICDAR, 2013 [60] A Mishra, K Alahari, and C V Jawahar "Scene text recognition using higher order language priors" In BMVC, 2012 [61] K Wang, B Babenko, and S Belongie "End-to-end scene text recognition" In ICCV, 2011 [62] M Jaderberg, K Simonyan, A Vedaldi, and A Zisserman "Reading text in the wild with convolutional neural networks" IJCV (Accepted), 2015 [63] Franc¸ois Chollet "Xception: Deep Learning with Depthwise Separable Convolutions", 2017 [64] W Bieniecki, S Grabowski and W Rozenberg, "Image Preprocessing for Improving OCR Accuracy," 2007 International Conference on Perspective Technologies and Methods in MEMS Design, 2007, pp 75-80, doi: 10.1109/MEMSTECH.4283429, 2007 [65] Suyoun Kim, Takaaki Hori, Shinji Watanabe "Joint CTC-attention based end-to-end speech recognition using multi-task learning", 2017 [66] T Bluche and R Messina Gated "convolutional recurrent neural networks for multilingual handwriting recognition" In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), volume 01, pages 646– 651, 2017 [67] J Michael, R Labahn, T Gru ning, and J Zo llner "Evaluating sequence-to-sequence models for handwritten text recogni- tion" In 99 2019 International Conference on Document Anal- ysis and Recognition (ICDAR), pages 1286–1293, 2019 [68] Lei Kang, Pau Riba, Marc al Rusin ol, Alicia Forne s, and Mauricio Villegas "Pay attention to what you read: Non- recurrent handwritten text-line recognition", 2020 [69] Maurits Bleeker and Maarten de Rijke "Bidirectional scene text recognition with a single decoder" arXiv preprint arXiv:1912.03656, 2019 [70] NingLu,WenwenYu,XianbiaoQi,YihaoChen,PingGong, and Rong Xiao "MASTER: multi-aspect non-local network for scene text recognition CoRR", abs/1910.02562, 2019 [71] B.Shi,M.Yang,X.Wang,P.Lyu,C.Yao,andX.Bai.Aster: "An attentional scene text recognizer with flexible rectifica- tion" IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(9):2035–2048, 2019 [72] Fenfen Sheng, Zhineng Chen, and Bo Xu "NRTR: A no- recurrence sequence-to-sequence model for scene text recog- nition" CoRR, abs/1806.00926, 2018 [73] Tianwei Wang, Yuanzhi Zhu, Lianwen Jin, Canjie Luo, Xi-aoxue Chen, Yaqiang Wu, Qianying Wang, and Mingxi- ang Cai "Decoupled attention network for text recognition" In The Thirty-Fourth AAAI Conference on Artificial Intelli- gence, AAAI 2020, The Thirty-Second Innovative Applica- tions of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artifi- cial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, pages 12216–12224 AAAI Press, 2020 100 [74] Ron Litman, Oron Anschel, Shahar Tsiper, Roee Litman, Shai Mazor, and R Manmatha "Scatter: Selective con- text attentional scene text recognizer" In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020 [75] Deli Yu, Xuan Li, Chengquan Zhang, Tao Liu, Junyu Han, Jingtuo Liu, and Errui Ding "Towards accurate scene text recognition with semantic reasoning networks" In Proceed- ings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12113–12122, 2020 [76] Mlchain, https://github.com/Techainer/mlchain-python [77] http://yann.lecun.com/exdb/mnist/ [78] https://moov.ai/en/blog/optical-character-recognition-ocr/ [79] Optical Character Recognition, https://medium.com/sfu-cspmp/opticalcharacter-recognition-948bfc4adfb3 [80] VeryPDF, http://www.verypdf.com/app/papertools/user-guide.html [81] https://towardsdatascience.com/intuitively-understandingconnectionist-temporal-classification-3797e43a86c [82] https://en.wikipedia.org [83] https://en.wikipedia.org/wiki/PDF [84] https://github.com/NVlabs/ocrodeg [85] https://cs231n.github.io/convolutional-networks/ [86] EDGAR Sec https://www.sec.gov/Archives/edgar/vprr/index.html 101 [87] Tesseract https://github.com/tesseract-ocr/ tesseract [88] "Overview - Scanned Receipts OCR and Information Extraction (SROIE)" https://rrc.cvc.uab.es/?ch=13com=introduction [89] https://deepai.org/machine-learning-glossary-and-terms/recurrentneural-network 102 ... vào dạng chuỗi ký tự Và cung cấp cách mã hóa cho nhãn cần học Bằng cách tạo ký tự giả (pseudo-character) gọi ký tự trống Trong lúc mã hóa chuỗi ký tự nhãn, thêm ký tự giả vào vị trí nhãn, ký tự. .. thành ký tự đưa vào mơ hình, ký tự so sánh với sở liệu ký tự Ký tự sở liệu giống với ký tự đọc chọn Trên thực tế phân tách liệu tiến hành Hình 2.1 bên Hình 2.1: Phân tách ký tự Phương pháp nhận dạng. .. pháp nhận dạng 45 ký tự - Character Based OCR, điểm khác biệt thay thực phân tách ký tự nhận dạng ký tự, phương pháp thực phân tách theo từ nhận dạng theo từ Hình 2.9: Luồng xử lý Phương pháp nhận

Ngày đăng: 04/04/2022, 12:48

Hình ảnh liên quan

chỉnh để giải quyết bài toán, mô hình OCR là một trong số đó. Một luồng hoàn chỉnh được mô tả như hình dưới đây: - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

ch.

ỉnh để giải quyết bài toán, mô hình OCR là một trong số đó. Một luồng hoàn chỉnh được mô tả như hình dưới đây: Xem tại trang 14 của tài liệu.
Hình 1.4: Ví dụ văn bản scan. - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 1.4.

Ví dụ văn bản scan Xem tại trang 15 của tài liệu.
1.1.4 Các thành phần của mô hình OCR - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

1.1.4.

Các thành phần của mô hình OCR Xem tại trang 16 của tài liệu.
1.2.1 Tổng quan mô hình và nền tảng toán học - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

1.2.1.

Tổng quan mô hình và nền tảng toán học Xem tại trang 20 của tài liệu.
Hình 1.8: Quan hệ giữa các lớp trong MLP. Nguồn: [51] - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 1.8.

Quan hệ giữa các lớp trong MLP. Nguồn: [51] Xem tại trang 21 của tài liệu.
Hình 1.9: Mô hình mạng CNN- Nguồn: [85]. - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 1.9.

Mô hình mạng CNN- Nguồn: [85] Xem tại trang 27 của tài liệu.
Hình 1.11: Lớp tổng hợp - Pooling Layer (PL) - Nguồn: [85]. - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 1.11.

Lớp tổng hợp - Pooling Layer (PL) - Nguồn: [85] Xem tại trang 29 của tài liệu.
Hình 1.12: Kiến trúc mạng RN N- Nguồn: [85]. Cơ bản, mạng RNN có cấu trúc như sau: - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 1.12.

Kiến trúc mạng RN N- Nguồn: [85]. Cơ bản, mạng RNN có cấu trúc như sau: Xem tại trang 30 của tài liệu.
Hình 1.14: Kiến trúc của mô hình mạng nơ-ron chú ý. Nguồn: [4] Mô hình cho độ chính xác 84,2% trên tập dữ liệu French Street Name Signs (FSNS) [45] và trở thành mô hình có độ chính xác cao nhất tính đến thời điểm bài báo được công bố (mô hình tốt nhất trư - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 1.14.

Kiến trúc của mô hình mạng nơ-ron chú ý. Nguồn: [4] Mô hình cho độ chính xác 84,2% trên tập dữ liệu French Street Name Signs (FSNS) [45] và trở thành mô hình có độ chính xác cao nhất tính đến thời điểm bài báo được công bố (mô hình tốt nhất trư Xem tại trang 34 của tài liệu.
Hình 1.16: Hình ảnh từ bộ dữ liệu FSNS. Nguồn: [45]. - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 1.16.

Hình ảnh từ bộ dữ liệu FSNS. Nguồn: [45] Xem tại trang 40 của tài liệu.
Hình 1.18: Hình ảnh từ bộ dữ liệu ArT. Nguồn: [47] [48] - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 1.18.

Hình ảnh từ bộ dữ liệu ArT. Nguồn: [47] [48] Xem tại trang 41 của tài liệu.
Hình 2.2: Xử lý ảnh đầu vào bị lệch (De-skewing) .- Nguồn: [64] - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 2.2.

Xử lý ảnh đầu vào bị lệch (De-skewing) .- Nguồn: [64] Xem tại trang 44 của tài liệu.
Hình 2.3: Chuyển ảnh về dạng trắng đen (Binarization). Nguồn: [64] - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 2.3.

Chuyển ảnh về dạng trắng đen (Binarization). Nguồn: [64] Xem tại trang 45 của tài liệu.
Hình 2.5: Loại bỏ đường kẻ (Line removal). Nguồn: [64] - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 2.5.

Loại bỏ đường kẻ (Line removal). Nguồn: [64] Xem tại trang 46 của tài liệu.
Hình 2.7: Tensor. Nguồn: DeepAI.org - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 2.7.

Tensor. Nguồn: DeepAI.org Xem tại trang 48 của tài liệu.
Hình 2.9: Luồng xử lý Phương pháp nhận dạng từng từ - Word Based OCR - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 2.9.

Luồng xử lý Phương pháp nhận dạng từng từ - Word Based OCR Xem tại trang 51 của tài liệu.
Hình 2.11: Kiến trúc mô hình CRNN [55] - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 2.11.

Kiến trúc mô hình CRNN [55] Xem tại trang 54 của tài liệu.
Hình 2.12: Kiến trúc mô hình ocr kết hợp CTC + Attention [65] - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 2.12.

Kiến trúc mô hình ocr kết hợp CTC + Attention [65] Xem tại trang 55 của tài liệu.
Hình 2.13: Luồng xử lý Phương pháp nhận dạng từng câ u- Sentence Based OCR - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 2.13.

Luồng xử lý Phương pháp nhận dạng từng câ u- Sentence Based OCR Xem tại trang 58 của tài liệu.
Hình 2.14: Kiến trúc mô hình CRNN [55] - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 2.14.

Kiến trúc mô hình CRNN [55] Xem tại trang 60 của tài liệu.
Hình 2.15: Kiến trúc mô hình ocr kết hợp CTC + Attention [65] - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 2.15.

Kiến trúc mô hình ocr kết hợp CTC + Attention [65] Xem tại trang 61 của tài liệu.
qua 2.4.2.2.2 lớn hơn 50% diện tích của hình chữ nhật nhỏ. - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

qua.

2.4.2.2.2 lớn hơn 50% diện tích của hình chữ nhật nhỏ Xem tại trang 68 của tài liệu.
Hình 2.23: SROIE. Trái: trước khi tinh chỉnh tham số. Phải: sau khi tinh chỉnh tham số. - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 2.23.

SROIE. Trái: trước khi tinh chỉnh tham số. Phải: sau khi tinh chỉnh tham số Xem tại trang 73 của tài liệu.
Hình 2.26: Kiến trúc RoIRotate khi áp dụng trên vùng chứa ký tự. - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 2.26.

Kiến trúc RoIRotate khi áp dụng trên vùng chứa ký tự Xem tại trang 77 của tài liệu.
Hình 3.1: Kiến trúc mô hình OCR cải tiến. Kiến trúc trên được thiết kế gồm các thành phần sau: - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 3.1.

Kiến trúc mô hình OCR cải tiến. Kiến trúc trên được thiết kế gồm các thành phần sau: Xem tại trang 80 của tài liệu.
• OCR từng dòng chữ: Là mô hình chính của luận văn, được huấn luyện sử dụng mô hình Xception Attention OCR. - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

t.

ừng dòng chữ: Là mô hình chính của luận văn, được huấn luyện sử dụng mô hình Xception Attention OCR Xem tại trang 81 của tài liệu.
3.2.2 Mô hình phân lớp (Classification) hướng xoay dòng chữ - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

3.2.2.

Mô hình phân lớp (Classification) hướng xoay dòng chữ Xem tại trang 82 của tài liệu.
Hình 3.5: Luồng tạo dữ liệu nhân tạo. - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

Hình 3.5.

Luồng tạo dữ liệu nhân tạo Xem tại trang 86 của tài liệu.
Thời gian predict mô hình 1x 1.35x - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

h.

ời gian predict mô hình 1x 1.35x Xem tại trang 88 của tài liệu.
Thời gian huấn luyện mô hình 140 giờ - Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt

h.

ời gian huấn luyện mô hình 140 giờ Xem tại trang 90 của tài liệu.

Mục lục

    Tài liệu tham khảo

Tài liệu cùng người dùng

Tài liệu liên quan