Ảnh kết quả từ cuộc thi MC-OCR

Một phần của tài liệu Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt (Trang 58 - 62)

55 3.3.4.2. Đánh giá kết quả

Dựa vào kết quả thực nghiệm, nhóm nhận thấy rằng:

− YOLOv3 có điểm CER thấp nhất nghĩa là đây là model thể hiện tốt nhất trong việc thực hiện giai đoạn 1 của bài tốn rút trích thơng tin hóa đơn giữa 3 model được thực nghiệm.

− Kết quả của Faster R-CNN có thấp hơn YOLOv3 đơi chút, tuy nhiên, CER là dự đoán chung trên cả 4 loại đối tượng, do vậy, với kết quả khơng mấy chênh lệch, có khả năng Faster R-CNN sẽ có dự đốn tốt hơn YOLOv3 ở một vài loại đối tượng.

− Kết quả của YOLOF hoàn toàn thấp hơn hẳn so với các kết quả khác.

56

Chương 4. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4.1. Kết luận 4.1. Kết luận

4.1.1 Kết quả đạt được

− Cái nhìn tổng quan về bài tốn phát hiện đối tượng, lịch sử phát triển của nó, cụ thể là phát hiện đối tượng trong ảnh hóa đơn.

− Thực nghiệm phương pháp Faster R-CNN, YOLOv3, YOLOF cho bước phát hiện đối tượng.

− Sử dụng được model pretrained TransformerOCR cho bước trích xuất thơng tin đã được phát hiện.

4.1.2 Hạn chế

− Còn nhiều vấn đề trong lĩnh vực trong xử lý ảnh và xử lý ngôn ngữ tự nhiên vẫn chưa rõ.

− Kết quả dự đốn cịn thấp.

4.2. Hướng phát triển

− Áp dụng các thuật tốn mới cho phát hiện đối tượng và trích xuất thơng tin trong hóa đơn ra văn bản.

57

TÀI LIỆU THAM KHẢO

[1] Huang, Z., Chen, K., He, J., Bai, X., Karatzas, D., Lu, S., & Jawahar, C. V. (2019, September). Icdar2019 competition on scanned receipt ocr and information extraction. In 2019 International Conference on Document Analysis and Recognition (ICDAR) (pp. 1516-1520). IEEE.

[2] Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497.

[3] Yu, W., Lu, N., Qi, X., Gong, P., & Xiao, R. (2020). Pick: processing key information extraction from documents using improved graph learning- convolutional networks. arXiv preprint arXiv:2004.07464.

[4] Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., & Zhou, M. (2020, August). Layoutlm: Pre-training of text and layout for document image understanding. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 1192-1200).

[5] Patel, S., & Bhatt, D. (2020). Abstractive Information Extraction from Scanned Invoices (AIESI) using End-to-end Sequential Approach. arXiv preprint arXiv:2009.05728.

[6] Zou, Z., Shi, Z., Guo, Y., & Ye, J. (2019). Object detection in 20 years: A survey. arXiv preprint arXiv:1905.05055.

[7] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre- training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

[8] Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018, July). Image transformer. In International Conference on Machine Learning (pp. 4055-4064). PMLR.

[9] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008).

58

[10] Ba, J. L., Kiros, J. R., & Hinton, G. E. (2016). Layer normalization. arXiv preprint arXiv:1607.06450.

[11] Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788).

[12] Redmon, J., & Farhadi, A. (2017). YOLO9000: better, faster, stronger. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7263-7271).

[13] Redmon, J., & Farhadi, A. (2018). Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767.

[14] Chen, Q., Wang, Y., Yang, T., Zhang, X., Cheng, J., & Sun, J. (2021). You only look one-level feature. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 13039-13048).

[15] Yu, F., & Koltun, V. (2015). Multi-scale context aggregation by dilated convolutions. arXiv preprint arXiv:1511.07122.

Một phần của tài liệu Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt (Trang 58 - 62)

Tải bản đầy đủ (PDF)

(62 trang)