6 Ứng dụng
5.9 Một số trường hợp sai của mơ hình Transformer
CHƯƠNG 6 ỨNG DỤNG
Bên cạnh việc xây dựng mơ hình học sâu cho việc nhận dạng chữ viết tay tiếng Việt, thì chúng tơi đã hiện thực một ứng dụng máy tính để trực quan hóa kết quả của mơ hình. Khi đó, người dùng có thể trực tiếp thực hiện những thao tác một cách đơn giản để kiểm tra kết quả của mơ hình. Giao diện của ứng dụng máy tính này được xây dựng bằng PyQt5 đã được trình bày ở Tiểu mục 2.4.2, và việc nhận dạng của mơ hình sẽ được thực hiện thơng qua máy chủ, ứng dụng máy tính sẽ tương tác với máy chủ thông qua REST API.
Đầu tiên, người dùng sẽ chọn nút “Load Image” để tải ảnh có nội dung cần nhận dạng. Bởi vì ứng dụng này chỉ phục vụ cho module nhận dạng chữ viết nên người dùng cần thực hiện thêm bước tô vùng cần nhận dạng bằng cách kéo thả chuột tại dòng cần nhận dạng để tạo ra một khung hình chữ nhật bao trọn dịng đó. Tại đây, có thể nhận dạng một lúc nhiều dòng hoặc một dòng. Tiếp theo, chỉ cần nhấn nút “Predict” để nhận về kết quả dự đốn của mơ hình. Nút “Clear” có chức năng xóa hết các vùng mà người dùng đã tơ.
Nếu như chỉ có một dịng cần được nhận dạng thì ứng dụng sẽ trả về kết quả của đúng dịng đó cùng với kết quả sau khi thực hiện hậu xử lý (Hình 6.1). Đối với nhận dạng nhiều dịng cùng một lúc thì kết quả của các dịng sẽ được ngăn cách nhau bởi kí tự “|” (Hình 6.2).
Ứng dụng 65
Hình 6.1: Demo trên một dịng
CHƯƠNG 7 TỔNG KẾT 7.1 Kết quả đạt được
Thông qua việc làm Luận văn tốt nghiệp, chúng tơi đã được học hỏi và tích lũy rất nhiều kiến thức liên quan đến lĩnh vực Thị giác máy tính nói riêng và Khoa học máy tính nói chung. Cùng với đó chúng tơi đã đạt được một số kết quả đáng kể như sau:
• Đóng góp tập dữ liệu gồm 2742 hình ảnh chữ viết tay tiếng Việt thu được từ 251 biểu mẫu Viettel post.
• Xây dựng mơ hình mạng học sâu cho bài toán nhận dạng chữ viết tay tiếng Việt với mơ hình nhận dạng từ mức độ từ đơn đến mức độ câu.
• Kế thừa mơ hình CNN–Attention-LSTM từ cơng trình liên quan và xây dựng mơ hình cho bài tốn nhận dạng chữ viết tay tiếng Việt.
• Kế thừa mơ hình Transformer (ý tưởng từ sử dụng mơ hình Transformer giải quyết bài tốn dịch máy đa ngữ), áp dụng bài toán nhận dạng chữ viết tay tiếng Việt, đây là điểm mới so với mơ hình cơ sở. Mục đích nhằm khai thác sự tương quan của các ký tự đã tiên đốn ở các vị trí trước ký tự đang tiên đốn.
• Đề xuất mơ hình CNN-Transformer để giải quyết bài tốn nhận dạng chữ viết tay tiếng Việt.
• Thực hiện hậu xử lý để khắc phục các nhược điểm của mơ hình học sâu giúp làm tăng độ chính xác cuối cùng cho hệ thống nhận dạng chữ viết tay.
Tổng kết 67
7.2 Hạn chế
• Số lượng dữ liệu cho chữ viết tay tiếng Việt cịn hạn chế, khơng đủ cho quá trình huấn luyện mơ hình cũng như khơng đủ để đánh giá kết quả một cách khách quan nhất.
• Hiện tại chỉ tập trung xây dựng mơ hình cho bài tốn nhận diện ký tự quang học, chưa thực hiện các module nhận diện biểu mẫu và nhận phát hiện vùng chữ viết tay.
• Thời gian inference của mơ hình khá cao chưa phù hợp nếu áp dụng trực tiếp trong mơi trường cơng nghiệp địi hỏi tốc độ xử lý nhanh.
7.3 Hướng phát triển trong tương lai
Từ những gì đang có và những hạn chế hiện tại, chúng tơi có một số kế hoạch tiếp theo để cải thiện như sau:
• Thu thập thêm dữ liệu ở các loại biểu mẫu khác, nghiên cứu tạo sinh dữ liệu để tạo được tập dữ liệu chữ viết tay tiếng Việt lớn và đa dạng.
• Nghiên cứu và hiện thực một hệ thống hoàn chỉnh, từ bước nhận diện biểu mẫu đến nhận diện vùng chữ viết tay và sau cùng là nhận dạng ký tự quang học.
• Xây dựng một ứng dụng điện thoại hoặc một ứng dụng máy tính hồn chỉnh để tạo thành một sản phẩm thực tế hồn thiện phục vụ cho người dùng.
• Tiếp tục cải thiện mơ hình chữ viết tay cùng các phương pháp hậu xử lý để làm tăng độ chính xác của mơ hình và giảm thời gian inference.
PHỤ LỤC A
KẾ HOẠCH LUẬN VĂN
Ngay từ giai đoạn làm đề cương đến lúc làm luận văn chúng tôi luôn vạch ra một kế hoạch để đảm bảo tiến độ của mình. Trong q trình thực hiện luận văn có thể có nhiều ảnh hưởng khác nhưng chúng tôi vẫn linh hoạt và cố gắng bám sát mục tiêu để hoàn thành một cách tốt nhất có thể. Kế hoạch chi tiết được chúng tơi trình bày trong hình A.1.
Giai đoạn luận văn - Học kỳ 202 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Thu thập và gán nhãn dữ liệu Huấn luyện các mơ hình OCR Đánh giá mơ hình Hậu xử lý Xây dựng ứng dụng máy tính Viết báo cáo và bài thuyết trình
TÀI LIỆU THAM KHẢO
[1] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. “Neural Machine Translation by Jointly Learning to Align and Translate”. In:CoRRabs/1409.0473 (2015).
[2] Akanksh Basavaraju et al. “A Machine Learning Approach to Road Surface Anomaly Assessment Using Smartphone Sensors”. In:IEEE Sensors Journal 20 (2020), pp. 2635–2647.
[3] Théodore Bluche. “Deep neural networks for large vocabulary handwritten text recognition”. PhD thesis. Paris 11, 2015.
[4] Walter A. Burkhard and Robert M. Keller. “Some approaches to best-match file searching”. In: Communications of the ACM 16.4 (1973), pp. 230–236.
[5] Jeffrey L Elman. “Finding structure in time”. In:Cognitive science 14.2 (1990), pp. 179–211.
[6] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. “Deep learning. Book in preparation for MIT Press”. In:http: // www. deeplearningbook. org (2016). [7] Ian G Goodfellow, Yoshua Bengio, and Aaron C. Courville. “Deep Learning”. In:
Nature 521 (2015), pp. 436–444.
[8] Alex Graves et al. “A novel connectionist system for unconstrained handwriting recognition”. In:IEEE transactions on pattern analysis and machine intelligence
31.5 (2008), pp. 855–868.
[9] Alex Graves et al. “Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks”. In: Proceedings of the 23rd in- ternational conference on Machine learning. ACM. 2006, pp. 369–376.
[10] Diederik P. Kingma and Jimmy Ba. “Adam: A Method for Stochastic Optimiza- tion”. In:CoRR abs/1412.6980 (2015).
TÀI LIỆU THAM KHẢO 70
[11] Johannes Michael et al. “Evaluating Sequence-to-Sequence Models for Handwrit- ten Text Recognition”. In:2019 International Conference on Document Analysis and Recognition (ICDAR) (2019), pp. 1286–1293.
[12] Hung Tuan Nguyen, Cuong Tuan Nguyen, and Masaki Nakagawa. “ICFHR 2018 – Competition on Vietnamese Online Handwritten Text Recognition us- ing HANDS-VNOnDB (VOHTR2018)”. In:2018 16th International Conference on Frontiers in Handwriting Recognition (ICFHR) (2018), pp. 494–499. doi: 10.1109/icfhr-2018.2018.00092.
[13] Lawrence Rabiner and Biinghwang Juang. “An introduction to hidden Markov models”. In:ieee assp magazine 3.1 (1986), pp. 4–16.
[14] Baoguang Shi, Xiang Bai, and Cong Yao. “An end-to-end trainable neural net- work for image-based sequence recognition and its application to scene text recognition”. In:IEEE transactions on pattern analysis and machine intelligence
39.11 (2016), pp. 2298–2304.
[15] Ilya Sutskever, Oriol Vinyals, and Quoc V Le. “Sequence to sequence learning with neural networks”. In: arXiv preprint arXiv:1409.3215 (2014).
[16] Ashish Vaswani et al. “Attention Is All You Need”. In: Advances in neural in- formation processing systems. 2017, pp. 5998–6008.
[17] Paul Voigtlaender, Patrick Doetsch, and Hermann Ney. “Handwriting recog- nition with large multidimensional long short-term memory recurrent neural networks”. In: 2016 15th International Conference on Frontiers in Handwriting Recognition (ICFHR). IEEE. 2016, pp. 228–233.
[18] Minz Won, Sanghyuk Chun, and X. Serra. “Toward Interpretable Music Tagging with Self-Attention”. In: ArXiv abs/1906.04972 (2019).