Cải tiến mạng nơ ron nhiều tầng dựa trên cơ chế chú ý cho bài toán nhận dạng văn bản

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Cải tiến mạng nơ-ron nhiều tầng dựa chế ý cho toán nhận dạng văn NGUYỄN TRỌNG THÁI HÀ NỘI, 4/2021 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Cải tiến mạng nơ-ron nhiều tầng dựa chế ý cho toán nhận dạng văn NGUYỄN TRỌNG THÁI Thai.NTCB190218@sis.hust.edu.vn Ngành Khoa học máy tính Giảng viên hướng dẫn: TS Đinh Viết Sang Chữ ký GVHD Viện: Công nghệ Thơng tin Truyền thơng HÀ NỘI, 4/2021 CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Nguyễn Trọng Thái Đề tài luận văn: Cải tiến mạng nơ-ron nhiều tầng dựa chế ý cho toán nhận dạng văn Chuyên ngành: Khoa học máy tính MSHV: CB190218 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 28/04/2021 với nội dung sau: - Giải thích minh họa Hình 3.1 - Phần 4.3 bổ sung thêm độ đo FLOPS cho ước tính độ phức tạp tính tốn - Bổ sung Phần 4.4.4; bao gồm phân tích độ phức tạp tính tốn mơ hình biểu đồ Hình 4.5 cho thời gian chạy mơ hình Giảng viên hướng dẫn Chủ tịch hội đồng Tác giả luận văn Ký ghi rõ họ tên Ký ghi rõ họ tên Ký ghi rõ họ tên Đinh Viết Sang Vũ Văn Thiệu Nguyễn Trọng Thái ĐỀ TÀI LUẬN VĂN Học viên: Nguyễn Trọng Thái MSHV: CB190218 Tên đề tài tiếng Việt: Cải tiến mạng nơ-ron nhiều tầng dựa chế ý cho toán nhận dạng văn Tên đề tài tiếng Anh: An Improved Deep Neural Network Based on Visual Attention Mechanism for Text Recognition Mã đề tài: 19BKHMT-KH06 Hệ: Thạc sĩ khoa học Ngành: Khoa học máy tính Cán hướng dẫn: TS Đinh Viết Sang Đơn vị: Viện Công nghệ Thông tin Truyền thông, Trường Đại học Bách Khoa Hà Nội Giảng viên hướng dẫn Ký ghi rõ họ tên Đinh Viết Sang LỜI CẢM ƠN Luận văn hoàn thành hướng dẫn giúp đỡ thầy hướng dẫn TS Đinh Viết Sang, Trường Đại học Bách Khoa Hà Nội Tác giả luận văn xin bày tỏ lòng biết ơn chân thành sâu sắc đến thầy giúp đỡ, đóng góp q báu suốt trình học tập thực luận văn Tác giả xin gửi lời cảm ơn đến Ban lãnh đạo Viện Công nghệ Thông tin Truyền thông, Phịng Đào tạo Sau Đại Học, thầy giáo giảng dạy lớp cao học chuyên ngành Khoa học máy tính, dày cơng giảng dạy suốt khóa học, tạo điều kiện thuận lợi cho tác giả trình học tập thực luận văn Nhân đây, tác giả xin chân thành cảm ơn hỗ trợ mặt tinh thần gia đình bạn bè, động viên giúp đỡ thời gian khóa học nghiên cứu luận văn Xin trân trọng cảm ơn! TÓM TẮT NỘI DUNG LUẬN VĂN Nhận dạng văn từ hình ảnh chụp thiết bị di động gần thu hút quan tâm nghiên cứu đáng kể Các phương pháp nhận dạng văn thường phát triển kiến trúc mạng nơ-ron dựa chế ý Tuy nhiên, phương pháp hoạt động hình ảnh chụp điều kiện bối cảnh thực ánh sáng kém, chất lượng hình ảnh mờ, nhiễu độ phân giải thấp Luận văn đề xuất phương pháp nhận dạng văn dựa mạng nơ-ron mã hóa - giải mã Một chế ý giới thiệu cách sử dụng kiểu cấu trúc phân tầng đa quy mô kết hợp với cổng ý kênh Mô hình đề xuất củng cố cách sử dụng trích chọn đặc trưng mạnh mẽ có tên gọi EfficientNet Kết thử nghiệm ba tập liệu SROIE 2019, B-MOD CORD cho thấy phương pháp đề xuất mang lại hiệu suất vượt trội so với phương pháp sở đạt độ xác cạnh tranh so với phương pháp đại khác Học viên Ký ghi rõ họ tên Nguyễn Trọng Thái DANH SÁCH HÌNH VẼ Minh họa sơ đồ tổng quan hệ thống trích xuất văn tự động từ biên lai 12 Một số ví dụ hình ảnh có a) chất lượng hình ảnh khơng đảm bảo b) cảnh phức tạp c) nhiễu, mờ camera bị tác động d) biến dạng hình học 1.1 13 Minh họa sai lệch ý a) phương pháp dựa chế ý truyền thống b) phương pháp đề xuất 19 2.1 Kết nối hoàn toàn kết nối thưa [1] 23 2.2 Minh họa phép tính tích chập [1] 24 2.3 Minh họa phép tính tích chập phân tách theo chiều sâu 25 2.4 Các dạng kích hoạt phi tuyến khác [1] 26 2.5 Minh họa hoạt động lớp GAP 27 2.6 Tạo hỗ trợ × từ lọc kích thước × VGG [1] 31 2.7 Minh họa tính tốn ResNet [5] 32 2.8 Minh họa cách mở rộng mạng nơ-ron theo chiều sâu, chiều rộng độ phân giải không gian so với mạng nơ-ron sở phương pháp mở rộng quy mô hợp [8] Phương pháp mở rộng quy mô hợp tiến hành mở rộng đồng tất yếu tố theo tỉ lệ định 32 Minh họa kiến trúc EfficientNet-B0 [8] 33 2.10 Minh họa phần tử LSTM 35 2.11 Minh họa phần tử GRU 36 2.9 2.12 Minh họa cho chế ý cố gắng tạo thành phần yt chuỗi đầu từ chuỗi đầu vào (x1 , x2 , , xT ) 38 3.1 Minh họa kiến trúc tổng thể phương pháp đề xuất 41 3.2 Minh họa tính tốn khối MBBlock 42 3.3 Minh họa chi tiết kiến trúc mạng nơ-ron phân tầng đa quy mô đề xuất Các mũi tên nét liền màu đỏ, vàng lục tương ứng đại diện cho lớp tích chập phân tách theo chiều sâu, lớp gộp cực đại hoạt động tăng mẫu Các mũi tên nét đứt màu lam đại diện cho ánh xạ định danh 3.4 Minh họa chi tiết cổng ý kênh, σ 45 tương ứng ký hiệu hàm sigmoid phép nhân cặp phần tử tương ứng 46 3.5 Minh họa việc xếp chồng khối phân tầng 48 3.6 Một số ví dụ đồ nhiệt (bản đồ ý) 48 4.1 Minh họa số biến đổi tăng cường liệu áp dụng: a) Hình ảnh đầu vào b) Làm mờ c) Biến đổi affine d) Biến đổi elastic e) Thêm nhiễu f) Phép xoay 4.2 51 Minh họa tập liệu CORD cho a) q trình cực tiểu hóa hàm mục tiêu tập huấn luyện b) xác nhận hiệu suất (điểm F1) tập xác nhận 4.3 52 Từ trái qua phải: Hình ảnh đầu vào / nhãn văn tương ứng, kết dự đốn mơ hình ý truyền thống mơ hình ý phân tầng chúng tơi, với văn dự đốn bên hình ảnh kết Các tâm đồ ý thích ký hiệu ‘+’ màu vàng Các ký tự màu lục / đỏ cho biết ký tự nhận dạng hay sai 57 4.4 Minh họa số ví dụ mà mơ hình nhận dạng lỗi Các quy ước tương tự Hình 4.3 4.5 58 Biểu đồ thời gian chạy (mili giây/hình ảnh) so với điểm F1 mơ hình ý khác tập liệu CORD 59 DANH SÁCH BẢNG 3.1 Cấu hình trích chọn đặc trưng sửa đổi từ EfficientNet 43 4.1 Một số thơng số cài đặt mơ hình cho tập liệu 53 4.2 Kết thử nghiệm trích chọn đặc trưng 54 4.3 Kết thử nghiệm mơ hình ý khác 55 4.4 So sánh độ phức tạp tính tốn mơ hình ý khác 60 4.5 So sánh với phương pháp đại tập liệu SROIE 2019 60 Plastik Plasuk Plastik Chamomile ChamOMITE Chamomile (Hot/Iced) (Hot/Cedo (Hot/Iced) Aneka Anela Aneka KATSU KArsu KATSU Hình 4.3: Từ trái qua phải: Hình ảnh đầu vào / nhãn văn tương ứng, kết dự đốn mơ hình ý truyền thống mơ hình ý phân tầng chúng tơi, với văn dự đốn bên hình ảnh kết Các tâm đồ ý thích ký hiệu ‘+’ màu vàng Các ký tự màu lục / đỏ cho biết ký tự nhận dạng hay sai có hình dạng tương đồng ký tự ‘M’ (bị nét), điều dẫn đến mơ hình nhầm lẫn dự đốn ký tự ‘M’ Thực tế, xuất nhiều ví dụ huấn luyện chứa nhiễu phức tạp làm xáo trộn hoạt động chỉnh mơ hình ý Trong Hình 4.4 b), nhãn văn “240,000”, văn dự đốn từ mơ hình “240.000” Chúng thấy trường hợp xuất đáng kể thử nghiệm chúng tơi, chúng tơi giải thích điều xuất phát từ việc thiết kế mơ hình ý Theo đó, cấu trúc ý phân tầng xếp chồng làm cho tâm đồ ý nhìn chung xuất tập trung số vị trí định, vùng nằm hình ảnh, tập hợp tâm đồ ý nằm dọc theo hình dạng 57 IVANGGO MANGGO (a) 240,000 240.000 (b) PHOTAI PHO TAI (c) SP00 SPOO (d) Hình 4.4: Minh họa số ví dụ mà mơ hình chúng tơi nhận dạng lỗi Các quy ước tương tự Hình 4.3 văn (Hình 4.3 minh họa rõ ràng điều này) Điều có nghĩa cấu trúc ý phân tầng sử dụng chủ yếu đặc trưng nằm dọc trung tâm hình ảnh văn để góp phần cho việc dự đốn đầu ra, nói cách khác, ký tự nằm xa vùng trung tâm này, đặc biệt ký tự dấu ‘,’ ‘.’ mà kích thước hình dạng chúng khơng có nhiều khác biệt, khó khăn để nhận dạng xác Trong Hình 4.4 c), mơ hình chúng tơi dự đoán “PHO TAI” nhãn văn “PHOTAI”, điều khoảng cách vị trí ‘O’ ‘T’ dự đốn thành ký tự khoảng trắng (space) Chúng lưu ý tác động chủ quan việc gán nhãn liệu người gây ảnh hưởng việc huấn luyện mạng nơ-ron Cuối cùng, Hình 4.4 d), ký tự ‘0’ bị nhận dạng sai thành ký tự ‘O’, loại lỗi nhận dạng khó tránh hơn, chí 58 với quan sát người Tóm tại, giới hạn phương pháp đề xuất nằm mô-đun chỉnh sử dụng thông tin trực quan cho hoạt động chỉnh, khác với chế ý truyền thống có sử dụng thơng tin lịch sử thơng qua trạng thái ẩn từ giải mã để tạo đồ ý Bên cạnh đó, số lỗi vấn đề phổ biến với hầu hết chế ý 4.4.4 Độ phức tạp tính tốn 0.95 BA SCA(#1) SCA(#2) SCA(#3) SCA(#1)+CAG SCA(#2)+CAG SCA(#3)+CAG F1-score 0.94 SCA(#2)+CAG 0.93 0.92 Run time (ms/img) Hình 4.5: Biểu đồ thời gian chạy (mili giây/hình ảnh) so với điểm F1 mơ hình ý khác tập liệu CORD Chúng tơi so sánh độ phức tạp tính tốn phương pháp đề xuất với phương pháp sở, thông qua việc ước tính số lượng phép tính dấu phẩy động (FLOPS) mơ hình triển khai (cách tính trình bày Mục 4.3), thể Bảng 4.4 Mơ hình nhỏ chúng tơi có độ phức tạp tính tốn lớn chút so với mơ hình ý truyền thống khoảng 0.12 GFLOPS, mơ hình lớn chúng tơi lớn khoảng 0.3 GFLOPS Mặc dù vậy, biểu đồ từ Hình 4.5 suy đánh đổi 59 phần chi phí tính tốn mơ hình đổi lấy độ xác tốt đáng kể Ngồi ra, điểm F1 SCA(#2) SCA(#3) khơng chênh lệch đáng kể, việc sử dụng CAG giúp mô hình tốt mà khơng tăng đáng kể thời gian suy luận, thực tế SCA(#2)+CAG mang lại cân tốt Bảng 4.4: So sánh độ phức tạp tính tốn mơ hình ý khác Phương pháp EN EN EN EN EN EN EN 4.5 + + + + + + + BA SCA(#1) SCA(#2) SCA(#3) SCA(#1) + CAG SCA(#2) + CAG SCA(#3) + CAG #tham số GFLOPS 9.49M 10.56M 11.13M 11.70M 10.56M 11.13M 11.70M 3.89 4.01 4.11 4.19 4.02 4.11 4.19 Đánh giá Bảng 4.5: So sánh với phương pháp đại tập liệu SROIE 2019 Phương pháp P CNN + RNN + attention + LM1 (rank #1) 96.68 PVANet-like + multiple GRU (rank #2) 96.35 EfficientNet-like + attention (rank #3) 95.21 CNN + RNN + attention (rank #5) 95.04 ResNet + LSTM + synthetic data (rank #6) 94.63 Our2 95.05 LM: Mơ hình ngơn ngữ, R F1 96.46 96.52 95.37 94.82 95.17 95.04 96.57 96.43 95.29 94.93 94.90 95.04 EN + SCA(#3) + CAG Chúng so sánh kết với số phương pháp hàng đầu khác tham gia thi SROIE 2019 [28] Kết hiển thị Bảng 4.5 (kết cập nhật đến ngày 19/02/2021) Điểm F1 tốt nhỉnh chút so với hạng #5 #6 thi chút so với phương pháp xếp hạng #3 Tuy nhiên, cần lưu ý hạng #1 cần sử dụng mơ hình ngơn ngữ để tìm câu trả lời tốt nhất, không sử dụng mơ hình ngơn ngữ Phương pháp hạng #6 sử dụng liệu tổng hợp để cải thiện hiệu suất tổng thể Chúng 60 tin cải thiện đáng kể điểm F1 cách sử dụng mơ hình ngơn ngữ liệu tổng hợp 61 KẾT LUẬN Trong luận văn này, tác giả đề xuất kiến trúc mạng nơ-ron dựa mã hóa-giải mã để cải thiện hiệu suất tốn nhận dạng văn Mơ hình sử dụng trích chọn đặc trưng từ họ kiến trúc EfficientNet để trích chọn đặc trưng mang thơng tin trực quan từ hình ảnh cách hiệu Một mô-đun chỉnh thiết kế để tạo tập đồ nhiệt từ đồ đặc trưng nhằm mục đích định vị hóa, sau thơng qua chế ý giải mã xuất chuỗi ký tự Chúng đề xuất sử dụng cấu trúc ý theo cách khối phân tầng xếp chồng lên để khắc phục số hạn chế chế ý truyền thống Kết thử nghiệm cho thấy phương pháp đề xuất hoạt động tốt đáng kể phương pháp dựa chế ý truyền thống mang lại kết cạnh tranh so với phương pháp đại khác Mặc dù cố gắng hết sức, thời gian khả có hạn nên luận văn có nhiều thiếu sót Rất mong nhận đóng góp quý báu từ quý thầy cơ, bạn để luận văn hồn chỉnh 62 TÀI LIỆU THAM KHẢO [1] Sze, V., Yu-Hsin Chen, Tien-Ju Yang, J Emer, “Efficient Processing of Deep Neural Networks”, 2020 [2] Chollet, F., “Xception: Deep Learning with Depthwise Separable Convolutions”, 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 1800-1807, 2017 [3] Lin, M., Q Chen, S Yan, “Network In Network”, ICLR (Poster), 2014 [4] Krizhevsky, A., Ilya Sutskever, Geoffrey E Hinton, “Deep Residual Learning for Image Recognition”, Communications of the ACM 60, pp 84-90, 2012 [5] He, Kaiming, X Zhang, Shaoqing Ren, Jian Sun, “ImageNet classification with deep convolutional neural networks”, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 770-778, 2016 [6] Simonyan, K., Andrew Zisserman, “Very Deep Convolutional Networks for Large-Scale Image Recognition”, ICLR, 2015 [7] Bengio, Yoshua, P Simard, P Frasconi, “Learning long-term dependencies with gradient descent is difficult”, IEEE transactions on neural networks, vol 2, pp 157-166, 1994 [8] Tan, M., Quoc V Le, “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks”, ICML, pp 6105-6114, 2019 [9] Sandler, Mark, A Howard, Menglong Zhu, A Zhmoginov, Liang-Chieh Chen, “MobileNetV2: Inverted Residuals and Linear Bottlenecks”, 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp 4510-4520, 2018 63 [10] Hochreiter, S., J Schmidhuber, “Long Short-Term Memory”, Neural Computation, vol 9, pp 1735-1780, 1997 [11] Cho, Kyunghyun, B V Merrienboer, C aglar Gă ulácehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio, “Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation”, Empirical Methods in Natural Language Processing (EMNLP), pp 1724-1734, 2014 [12] Cheng, Zhanzhan, Fan Bai, Yunlu Xu, G Zheng, S Pu, Shuigeng Zhou, “Focusing Attention: Towards Accurate Text Recognition in Natural Images”, 2017 IEEE International Conference on Computer Vision (ICCV), pp 5086-5094, 2017 [13] Bissacco, A., M Cummins, Yuval Netzer, H Neven, “PhotoOCR: Reading Text in Uncontrolled Conditions”, 2013 IEEE International Conference on Computer Vision, pp 785-792, 2013 [14] Alsharif, O., Joelle Pineau, “End-to-End Text Recognition with Hybrid HMM Maxout Models”, ICLR (Workshop), 2014 [15] Jaderberg, Max, A Vedaldi, Andrew Zisserman, “Deep Features for Text Spotting”, ECCV, 2014 [16] Shi, Baoguang, Xinggang Wang, Pengyuan Lyu, C Yao, X Bai, “Robust Scene Text Recognition with Automatic Rectification”, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 4168-4176, 2016 [17] Shi, Baoguang, X Bai, Cong Yao, “An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 39, pp 2298-2304, 2017 64 [18] Wang, T., Yuanzhi Zhu, Lianwen Jin, Canjie Luo, Xiaoxue Chen, Y Wu, Qianying Wang, Mingxiang Cai, “Decoupled Attention Network for Text Recognition”, AAAI, pp 12216-12224, 2020 [19] Graves, A., S Fernández, F Gomez, J Schmidhuber, “Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks”, ICML ’06, 2006 [20] Graves, A., J Schmidhuber, “Framewise phoneme classification with bidirectional LSTM and other neural network architectures”, Neural networks : the official journal of the International Neural Network Society, vol 18 5-6, pp 602-610, 2005 [21] Hu, Jie, L Shen, Samuel Albanie, G Sun, Enhua Wu, “Squeeze-andExcitation Networks”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 42, pp 2011-2023, 2020 [22] Ronneberger, O., P Fischer, T Brox, “U-Net: Convolutional Networks for Biomedical Image Segmentation”, MICCAI (3), pp 234-241, 2015 [23] Woo, S., Jongchan Park, Joon-Young Lee, In-So Kweon, “CBAM: Convolutional Block Attention Module”, ECCV, 2018 [24] Newell, Alejandro, Kaiyu Yang, Jia Deng, “Stacked Hourglass Networks for Human Pose Estimation”, ECCV, 2016 [25] Huang, Z., Ke-Han Chen, Jianhua He, X Bai, Dimosthenis Karatzas, S Lu, C Jawahar, “ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction”, 2019 International Conference on Document Analysis and Recognition (ICDAR), pp 1516-1520, 2019 [26] Kiss, M., Michal Hradis, O Kodym, “Brno Mobile OCR Dataset”, 2019 International Conference on Document Analysis and Recognition (ICDAR), pp 1352-1357, 2019 65 [27] Park, Seunghyun, S Shin, Bado Lee, Jihyo Lee, Jaeheung Surh, Minjoon Seo, Hwal-Suk Lee, “CORD: A Consolidated Receipt Dataset for PostOCR Parsing”, 2019 [28] https://rrc.cvc.uab.es/?ch=13&com=evaluation&task=2 [29] Bahdanau, Dzmitry, Kyunghyun Cho, Yoshua Bengio, “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR, 2015 66 TÓM TẮT LUẬN VĂN THẠC SĨ Đề tài: Cải tiến mạng nơ-ron nhiều tầng dựa chế ý cho toán nhận dạng văn Tác giả luận văn: Nguyễn Trọng Thái Khóa: 2019B Người hướng dẫn: TS Đinh Viết Sang Từ khóa (keywords): Text recognition, Attention mechanism Nội dung tóm tắt: a) Lý chọn đề tài Nhận dạng văn từ hình ảnh chụp thiết bị di động gần thu hút quan tâm nghiên cứu đáng kể nhờ ứng dụng thực tiễn mang tính thương mại hệ thống đọc văn (số hóa) tự động Nhu cầu số hóa nội dung văn chụp bối cảnh thực đặt yêu cầu cải tiến phương pháp có để đạt hiệu suất xử lý tốn thực tế Những hạn chế điển hình hình ảnh chụp bối cảnh thực kể đến: điều kiện ánh sáng không đều, độ phân giải hình ảnh thấp, hình ảnh mờ nhiều nhiễu, biến dạng hình học tác động từ góc chụp ảnh, bố cục văn phức tạp, gây khó khăn lớn việc nhận dạng văn xác Với phát triển mạnh mẽ gần học sâu nói chung mạng nơ-ron nói riêng lĩnh vực thị giác máy tính, nghiên cứu tốn nhận dạng văn bước vào kỷ nguyên học sâu Các phương pháp nhận dạng văn dựa chế ý trở thành phương pháp phổ biến tính hiệu Tuy nhiên, bối cảnh thực, với hình ảnh đầu vào đa dạng nhiều thách thức, chế ý truyền thống thường bộc lộ nhiều hạn chế cần phải cải thiện Nội dung đề tài luận văn mang ý nghĩa khoa học trình bày phương 67 pháp nhận dạng văn sở, phân tích điểm hạn chế gây nên hiệu suất tốn điều kiện bối cảnh thực; từ đưa phương pháp nhận dạng dựa việc cải thiện chế ý truyền thống; đồng thời trình bày thử nghiệm phân tích đánh giá để chứng minh tính hiệu phương pháp đề xuất so với phương pháp sở phương pháp đại khác Đề tài luận văn mang ý nghĩa thực tiễn tác giả thử nghiệm liệu thực tế có tính thách thức, mơ tả kết đạt có ý nghĩa toán nhận dạng văn Từ tác giả đưa đề xuất, kiến nghị; góp phần có thêm nhiều sở giúp ích cho việc nghiên cứu tốn nhận dạng văn nói riêng lĩnh vực thị giác máy tính nói chung b) Mục đích nghiên cứu, đối tượng, phạm vi nghiên cứu Mục đích nghiên cứu: Đề xuất phương pháp nhận dạng văn hiệu dựa mạng nơ-ron, khắc phục hạn chế tốn nhận dạng văn bối cảnh thực để cải thiện độ xác nhận dạng Nhiệm vụ nghiên cứu: • Hệ thống lại tổng quan lý thuyết lĩnh vực học sâu mạng nơ-ron sâu, với đặc điểm tốn nhận dạng văn • Trình bày sở lý thuyết liên quan đề xuất phương pháp nhận dạng dựa chế ý cải tiến • So sánh đánh giá hiệu phương pháp đề xuất với phương pháp sở phương pháp đại khác tập liệu chuẩn Đối tượng nghiên cứu: • Đặc trưng toán nhận dạng văn điều kiện bối cảnh thực • Phương pháp nhận dạng văn sở dựa chế ý truyền thống điểm hạn chế 68 • Phương pháp nhận dạng văn đề xuất khắc phục điểm hạn chế phương pháp sở Phạm vi nghiên cứu: • Bài tốn nhận dạng văn hình ảnh chụp thiết bị di động điều kiện bối cảnh thực • Nghiên cứu kỹ thuật dựa học sâu mạng nơ-ron sâu lĩnh vực thị giác máy tính • Dữ liệu thử nghiệm thực tế có tính thách thức, phù hợp với điều kiện nghiên cứu tốn c) Tóm tắt nội dung đóng góp tác giả Nội dung chính: Ngoài phần mở đầu kết luận, nội dung luận văn chia thành bốn chương Phần mở đầu giới thiệu chung toán nhận dạng văn điều kiện bối cảnh thực Chương trình bày động lực cho việc thực đề tài luận văn, thơng qua việc phân tích hạn chế phương pháp sở toán nhận dạng văn bản, đóng góp luận văn cho việc khắc phục hạn chế Chương trình bày tổng quan lý thuyết học sâu mạng nơ-ron sâu, chủ yếu lĩnh vực thị giác máy tính Chương trình bày chi tiết sở lý thuyết phương pháp đề xuất, bao gồm vị trí, cấu trúc, vai trị cụ thể mơ-đun thành phần Chương triển khai mơ hình tiến hành thử nghiệm, đánh giá hiệu phương pháp đề xuất so với phương pháp sở phương pháp đại khác 69 Cuối phần kết luận phương hướng phát triển, kèm theo tài liệu tham khảo Đóng góp luận văn: Phương pháp nhận dạng sở dựa chế ý truyền thống gặp nhiều khó khăn hình ảnh văn có tính thách thức chụp điều kiện bối cảnh thực Phân tích kết trung gian cuối từ chế ý truyền thống mẫu thử nghiệm, luận văn nguyên nhân nằm chế ý truyền thống, vùng ý bị lệch mức độ so với vùng chứa ký tự mục tiêu hình ảnh; tượng gọi sai lệch ý Để khắc phục tượng này, luận văn trình bày phương pháp nhận dạng văn mới, sử dụng kiến trúc ý trực quan cho phép chế ý xử lý thông tin mặt khơng gian, theo cải thiện khả định vị ký tự hình ảnh xác Một trích chọn đặc trưng mạnh mẽ có tên gọi EfficientNet sử dụng để củng cố hiệu suất mơ đề xuất Những đóng góp luận văn tóm tắt sau: • Luận văn đề xuất mạng nơ-ron giống EfficientNet sử dụng mơ-đun trích chọn đặc trưng trước giải mã • Luận văn đề xuất chế ý theo kiểu phân tầng đa quy mơ để cải thiện khả định vị hóa ký tự hình ảnh văn • Luận văn thực thử nghiệm chi tiết để đánh giá hiệu phương pháp đề xuất ba tập liệu SROIE 2019, B-MOD CORD, đồng thời xác nhận phương pháp đề xuất mang lại hiệu suất cạnh tranh so với phương pháp tiếp cận đại khác d) Phương pháp nghiên cứu Nghiên cứu lý thuyết: 70 • Thu thập, tổng hợp tài liệu liên quan đến lĩnh vực học sâu mạng nơ-ron sâu, với nghiên cứu áp dụng chúng vào tốn nhận dạng văn • Phân tích sở lý thuyết phương pháp nhận dạng sở, phân tích điểm hạn chế từ đề xuất phương pháp giúp khắc phục điểm hạn chế Nghiên cứu thực nghiệm: • Cài đặt, triển khai mơ hình nhận dạng văn đề xuất • Thử nghiệm, sử dụng kết để so sánh đánh giá phương pháp đề xuất so với phương pháp sở phương pháp đại khác tập liệu điểm chuẩn, từ đưa kết luận Phương pháp tổng kết kinh nghiệm: Trao đổi, thảo luận, tham khảo ý kiến chuyên môn người hướng dẫn đồng nghiệp e) Kết luận Luận văn đạt mục tiêu đề ra, thu kết mang ý nghĩa thực tiễn Luận văn tóm tắt sở lý thuyết liên quan đến học sâu nói chung mạng nơ-ron nói riêng, với đặc điểm toán nhận dạng văn Luận văn trình bày sở lý thuyết phương pháp nhận dạng sở dựa chế ý truyền thống, đồng thời điểm hạn chế phương pháp với toán nhận dạng điều kiện bối cảnh thực Luận văn đề xuất phương pháp nhận dạng văn cách cải thiện chế ý truyền thống đề khắc phục hạn chế Kết thử nghiệm cho thấy phương pháp đề xuất hoạt động hiệu đáng kể so với phương pháp sở dựa chế ý truyền thống mang lại kết cạnh tranh so với phương pháp đại khác 71 ... pháp nhận dạng văn nhằm khắc phục hạn chế 1.1 Nghiên cứu liên quan Đối với toán nhận dạng văn bản, cách tiếp cận chia thành hai dạng: nhận dạng dựa ký tự nhận dạng dựa đối tượng văn Dựa nhận dạng. .. Trọng Thái ĐỀ TÀI LUẬN VĂN Học viên: Nguyễn Trọng Thái MSHV: CB190218 Tên đề tài tiếng Việt: Cải tiến mạng nơ- ron nhiều tầng dựa chế ý cho toán nhận dạng văn Tên đề tài tiếng Anh: An Improved... tài luận văn: Cải tiến mạng nơ- ron nhiều tầng dựa chế ý cho toán nhận dạng văn Chuyên ngành: Khoa học máy tính MSHV: CB190218 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác

Tiêu đề	Cải Tiến Mạng Nơ-Ron Nhiều Tầng Dựa Trên Cơ Chế Chú Ý Cho Bài Toán Nhận Dạng Văn Bản
Tác giả	Nguyễn Trọng Thái
Người hướng dẫn	TS. Đinh Viết Sang
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	73
Dung lượng	650,08 KB