Đánh giá phương pháp rút trích thông tin hóa đơn tại việt nam (khóa luận tốt nghiệp)

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRẦN LÊ BẢO CHÂU - 18520256 ĐOÀN THỊ THANH HIẾU - 18520734 BÁO CÁO KHĨA LUẬN RÚT TRÍCH THƠNG TIN HÓA ĐƠN TẠI VIỆT NAM An Information Extraction Method For Vietnamese Receipts KỸ SƯ NGÀNH CÔNG NGHỆ PHẦN MỀM TP HỒ CHÍ MINH, 2022 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRẦN LÊ BẢO CHÂU - 18520256 ĐỒN THỊ THANH HIẾU - 18520734 BÁO CÁO KHĨA LUẬN RÚT TRÍCH THƠNG TIN HĨA ĐƠN TẠI VIỆT NAM An Information Extraction Method For Vietnamese Receipts KỸ SƯ NGÀNH CÔNG NGHỆ PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN NGUYỄN TẤN TRẦN MINH KHANG TP HỒ CHÍ MINH, 2022 LỜI CẢM ƠN Lời cảm ơn đầu tiên, xin dành đến thầy TS.Nguyễn Tấn Trần Minh Khang – giảng viên hướng dẫn chúng tơi khóa luận tốt nghiệp Cảm ơn thầy quan tâm, nhắc nhở tận tình hướng dẫn chúng tơi Cảm ơn thầy nhiệt huyết bất tận trình hướng dẫn, nhiệt huyết cổ vũ trở thành động lực giúp chúng tơi thực tốt khóa luận Lời cảm ơn thứ hai, xin dành cho thầy ThS.Võ Duy Nguyên, người theo sát giúp đỡ hỗ trợ cho chúng tơi q trình thực khóa luận Lời cảm ơn cuối cùng, xin dành cho anh chị, bạn, em nhóm nghiên cứu ln đồng hành, giúp đỡ cổ vũ cho suốt q trình thực khóa luận Trong q trình thực khóa luận khó tránh khỏi sai sót, hạn chế, chúng tơi mong nhận nhận xét, góp ý q thầy bạn để chúng tơi tiến xa đường học thuật Xin chân thành cảm ơn Sinh viên thực Trần Lê Bảo Châu Đoàn Thị Thanh Hiếu TP.Hồ Chí Minh, ngày 15 tháng 06 năm 2022 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN ĐỀ CƯƠNG CHI TIẾT TÊN ĐỀ TÀI: ĐÁNH GIÁ PHƯƠNG PHÁP RÚT TRÍCH THƠNG TIN HĨA ĐƠN TẠI VIỆT NAM Cán hướng dẫn: TS Nguyễn Tấn Trần Minh Khang Thời gian thực hiện: Từ ngày 28/02/2022 đến tháng 20/06/2022 Sinh viên thực hiện: − Trần Lê Bảo Châu – 18520256 − Đoàn Thị Thanh Hiếu – 18520734 Nội dung đề tài: Động lực nghiên cứu: Trong thời đại số hóa nay, tác vụ hướng đến xác, nhanh chóng tiện lợi, khơng tác vụ phức tạp, mà với tác vụ tưởng chừng đơn giản rút trích thơng tin hóa đơn Bài tốn rút trích thơng tin từ hóa đơn áp dụng vào tác vụ liên quan tới lĩnh vực kinh tế, tài chính, kế tốn nói riêng tác vụ văn phịng nói chung, để tự động rút trích thơng tin quan trọng từ hóa đơn, từ giảm thiểu cơng việc, mang lại hiệu cao cơng việc cho nhân viên kế tốn, tài Ngồi ra, tiền đề để phát triển tốn nhận dạng thơng tin có cấu trúc khác Đây toán đặt để mục đích đẩy mạnh tự động hóa tác vụ văn phịng thơng qua việc lưu trữ tự động thơng tin quan trọng từ hóa đơn Thách thức toán phải đạt độ xác gần tuyệt đối lẽ sai sót nhỏ dẫn đến sai lầm nghiêm trọng Bài tốn có nhiều thách thức vấn đề môi trường chất lượng giấy, chất lượng máy in, mực in, chất lượng ánh sáng chất lượng ảnh, … dẫn đến ảnh khơng rõ chữ, khó đọc Hóa đơn có nếp gấp, bị uốn cong, có nhiều góc độ chụp, , dẫn đến dịng chữ hóa đơn khơng thẳng, bị biến dạng, … dẫn đến khó nhận dạng, địi hỏi cần có kỹ thuật tiền xử lý ảnh trích đặc trưng phù hợp Phát biểu toán: Đầu vào: Ảnh có chứa hóa đơn từ cửa hàng, quán ăn, … Việt Nam Đầu ra: Thông tin hóa đơn (trong phạm vi khóa luận, nhóm thực rút trích nhóm thơng tin bao gồm tên cửa hàng, địa cửa hàng, thời gian mua hàng, tổng tiền khách phải trả) Hình 1-1 Ảnh minh họa đầu vào đầu toán Mục tiêu đề tài: Khảo sát liệu phổ biến việc trích xuất thơng tin hóa đơn, xây dựng liệu hóa đơn Việt Nam Sau đó, tìm hiểu xây dựng mơ hình rút trích thơng tin hóa đơn Việt Nam dựa mơ hình học sâu từ phát triển ứng dụng minh họa rút trích thơng tin hóa đơn Việt Nam Nội dung đề tài: − Khảo sát liệu hóa đơn có SROIE2019, CORD − Thu thập ảnh hóa đơn Việt Nam xây dựng liệu hóa đơn Việt Nam − Tìm hiểu tổng quan phương pháp học sâu để phát đối tượng nhận diện ký tự quang học (OCR) cho tốn trích xuất thơng tin hóa đơn − Đề xuất phương pháp tiếp cận phương pháp tiền xử lý để mơ hình đạt kết cao − Thực nghiệm tinh chỉnh mơ hình đề xuất − Xây dựng ứng dụng minh họa rút trích thơng tin hóa đơn Việt Nam Đối tượng phạm vi nghiên cứu: − Ảnh hóa đơn có nguồn gốc từ cửa hàng, quán ăn, khách sạn, … Việt Nam − Nhãn ảnh gồm lớp đối tượng: SELLER (tên cửa hàng), ADDRESS (địa cửa hàng), TIMESTAMP (thời gian bán hàng), TOTAL_COST (tổng tiền phải trả) − Phương pháp thực nghiệm: Nghiên cứu phương pháp học sâu cho toán phát đối tượng (Faster R-CNN, YOLOv3, YOLOF) nhận diện ký tự quang học (TransformerOCR) Phương pháp thực hiện: − Tìm hiểu tổng quan phương pháp học sâu (phát đối tượng, nhận diện ký tự quang học) cho toán rút trích thơng tin hóa đơn dựa nghiên cứu có sẵn − Thu thập xây dựng liệu hóa đơn Việt Nam − Nghiên cứu cài đặt thực nghiệm phương pháp học sâu dựa liệu xây dựng đánh giá, tinh chỉnh phương pháp có độ xác cao − Xây dựng ứng dụng minh họa rút trích thơng tin hóa đơn Việt Nam − Tổng hợp kết viết báo cáo khóa luận Kết dự kiến: − Cơng bố liệu hóa đơn Việt Nam với 000 ảnh − Báo cáo tổng hợp kết phương pháp phát đối tượng Faster R-CNN, YOLOv3, YOLOF phương pháp nhận dạng ký tự quang học TransformerOCR liệu công bố − Báo cáo tổng hợp phân tích đánh giá ưu nhược điểm phương pháp thực nghiệm đề xuất kết hợp giúp cải thiện kết mô hình − Tổng hợp kết nghiên cứu nộp báo hội nghị khoa học − Ứng dụng minh họa rút trích thơng tin hóa đơn Việt Nam Tài liệu tham khảo: [1] Huang, Z., Chen, K., He, J., Bai, X., Karatzas, D., Lu, S., & Jawahar, C V (2019, September) Icdar2019 competition on scanned receipt ocr and information extraction In 2019 International Conference on Document Analysis and Recognition (ICDAR) (pp 1516-1520) IEEE [2] Ren, S., He, K., Girshick, R., & Sun, J (2015) Faster r-cnn: Towards realtime object detection with region proposal networks arXiv preprint arXiv:1506.01497 [3] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A N., & Polosukhin, I (2017) Attention is all you need In Advances in neural information processing systems (pp 5998-6008) [4] Redmon, J., & Farhadi, A (2018) Yolov3: An incremental improvement arXiv preprint arXiv:1804.02767 [5] Chen, Q., Wang, Y., Yang, T., Zhang, X., Cheng, J., & Sun, J (2021) You only look one-level feature In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp 13039-13048) Kế hoạch thực hiện: Giai đoạn 1: Từ 28/02/2022 đến cuối tháng 03/2022: Nhiệm vụ STT Phân công Tìm hiểu liệu hóa đơn Cả nhóm Xây dựng liệu ảnh hóa đơn Việt Nam Cả nhóm Tìm hiểu tổng quan phương pháp học sâu (phát Cả nhóm đối tượng, nhận diện ký tự quang học) cho tốn rút trích thơng tin hóa đơn Huấn luyện đánh giá mơ hình phát đối tượng Cả nhóm nhận diện ký tự quang học Viết báo cáo cho nhiệm vụ thực Cả nhóm Giai đoạn 2: Từ đầu tháng 04/2022 đến tháng 05/2022: STT Nhiệm vụ Phân công Xây dựng mơ hình rút trích thơng tin hóa đơn tiếng Việt Cả nhóm dựa mơ hình huấn luyện sẵn Đánh giá cải thiện mơ hình xây dựng Cả nhóm Phát triển ứng dụng minh họa rút trích thơng tin hóa đơn Cả nhóm Việt Nam Viết báo cáo cho nhiệm vụ thực Cả nhóm Giai đoạn 3: Từ tháng 05/2022 đến ngày 20/06/2022: STT Nhiệm vụ Phân cơng Hồn thiện mơ hình Rút trích thơng tin hóa đơn Việt Cả nhóm Nam Hồn thiện ứng dụng minh họa rút trích thơng tin hóa đơn Việt Nam Cả nhóm Hồn thiện báo cáo khóa luận Xác nhận CBHD (Ký tên ghi rõ họ tên) Cả nhóm TP HCM, ngày 24 tháng 02 năm 2022 Sinh viên (Ký tên ghi rõ họ tên) TS Nguyễn Tấn Trần Minh Khang Trần Lê Bảo Châu Sinh viên (Ký tên ghi rõ họ tên) Đoàn Thị Thanh Hiếu 5.3.2.2 Thiết kế user-flow Hình 5-4: Sơ đồ tổng quan user-flow ứng dụng 5.3.2.3 Thiết kế kiến trúc Hình 5-5: Thiết kế kiến trúc hệ thống 90 5.3.2.4 Màn hình kết (a) (b) (c) (d) (e) (f) Hình 5-6: Ảnh giao diện ứng dụng (a) Màn hình chứa thơng tin lịch sử; (b) Màn hình chụp ảnh; (c) Màn hình xác nhận ảnh để rút trích thơng tin; (d) Màn hình phóng lớn ảnh; (e) Màn hình thơng tin sau rút trích (có thơng tin thời gian rút trích); (f) Màn hình thơng tin hóa đơn rút trích (có thơng tin ngày thực hiện) 91 5.3.2.5 Hướng dẫn cài đặt (a) Server Chạy lệnh sau server: pip install Flask pip install Flask-Cors git clone https://github.com/open-mmlab/mmdetection git checkout a7a16afbf2a4bdb4d023094da73d325cb864838b pip install torch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cd mmdetection pip install -r requirements.txt pip install -v -e pip install mmcv-full https://download.openmmlab.com/mmcv/dist/cu101/torch1.7.0/index.html cd git clone https://github.com/pbcquoc/vietocr pip install einops pip install gdown gdown id '1-lsthl2jfpJ04dIkbWttpb6obyJRQTqX' gdown id '1-qDt1-lz2Q0pwKQgoOOypZ8bZWGCPO1A' gdown id '1sbhBQ4lMwDOwyTlYzUTsLwvEJrQKWydT' 92 -f mkdir history Tải file demo.py (Link: https://github.com/BaoChauTranLe/kltn_demo/blob/master/demo.py) lên server, sửa thông tin đường link server (và port cần) sau chạy lệnh: python demo.py (b) Client Clone project từ https://github.com/BaoChauTranLe/kltn_demo, thay đổi thông số url file kltn\lib\server_connection\server_connection.dart thành IP port server Sau đó, run project 93 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 Kết luận 6.1.1 Kết đạt − Cái nhìn tổng quan tốn phát đối tượng, lịch sử phát triển nó, cụ thể phát đối tượng ảnh hóa đơn − Xây dựng liệu 2,147 ảnh hóa đơn với mục đích nghiên cứu tốn giải − Thực nghiệm phương pháp Faster R-CNN, YOLOv3, YOLOF cho bước phát đối tượng − Thực nghiệm phương pháp AttentionOCR, TransformerOCR cho bước nhận diện ký tự quang học − Đề xuất sử dụng Precise Roi Pooling[6] thay cho Roi Pooling giúp tăng kết giai đoạn phát thông tin − Xây dựng ứng dụng minh họa rút trích thơng tin từ hóa đơn − Có báo chấp nhận đăng hội nghị 2022 IEEE 9th International Conference on Communications and Electronics (IEEE ICCE 2022) 6.1.2 Hạn chế − Kết rút trích dù có cải thiện cịn nhiều sai sót, cần nhiều cải thiện − Một số phương pháp chưa thể thực nghiệm hạn chế mặt thiết bị 6.2 Hướng phát triển − Tiếp tục mở rộng liệu − Tìm hiểu thực nghiệm phương pháp để cải thiện kết rút trích thơng tin hóa đơn 94 − Tìm hiểu cách để cải thiện kết dựa phương pháp cũ − Tiếp tục phát triển mở rộng ứng dụng minh họa 95 TÀI LIỆU THAM KHẢO [1] Ba, J L., Kiros, J R., & Hinton, G E (2016) Layer normalization arXiv preprint arXiv:1607.06450 [2] Chen, Q., Wang, Y., Yang, T., Zhang, X., Cheng, J., & Sun, J (2021) You only look one-level feature In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp 13039-13048) [3] Devlin, J., Chang, M W., Lee, K., & Toutanova, K (2018) Bert: Pre-training of deep bidirectional transformers for language understanding arXiv preprint arXiv:1810.04805 [4] Girshick, R., Donahue, J., Darrell, T., & Malik, J (2014) Rich feature hierarchies for accurate object detection and semantic segmentation In Proceedings of the IEEE conference on computer vision and pattern recognition (pp 580-587) [5] Girshick, R (2015) Fast r-cnn In Proceedings of the IEEE international conference on computer vision (pp 1440-1448) [6] Jiang, B., Luo, R., Mao, J., Xiao, T., & Jiang, Y (2018) Acquisition of localization confidence for accurate object detection In Proceedings of the European conference on computer vision (ECCV) (pp 784-799) [7] He, K., Gkioxari, G., Dollár, P., & Girshick, R (2017) Mask r-cnn In Proceedings of the IEEE international conference on computer vision (pp 2961-2969) [8] Hochreiter, S., & Schmidhuber, J (1997) Long short-term memory Neural computation, 9(8), 1735-1780 [9] Huang, Z., Chen, K., He, J., Bai, X., Karatzas, D., Lu, S., & Jawahar, C V (2019, September) Icdar2019 competition on scanned receipt ocr and information extraction In 2019 International Conference on Document Analysis and Recognition (ICDAR) (pp 1516-1520) IEEE 96 [10] Lin, T Y., Dollár, P., Girshick, R., He, K., Hariharan, B., & Belongie, S (2017) Feature pyramid networks for object detection In Proceedings of the IEEE conference on computer vision and pattern recognition (pp 2117-2125) [11] Lin, T Y., Goyal, P., Girshick, R., He, K., & Dollár, P (2017) Focal loss for dense object detection In Proceedings of the IEEE international conference on computer vision (pp 2980-2988) [12] Lin, T Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., & Zitnick, C L (2014, September) Microsoft coco: Common objects in context In European conference on computer vision (pp 740-755) Springer, Cham [13] Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D (2018, July) Image transformer In International Conference on Machine Learning (pp 4055-4064) PMLR [14] Park, S., Shin, S., Lee, B., Lee, J., Surh, J., Seo, M., & Lee, H (2019, September) CORD: a consolidated receipt dataset for post-OCR parsing In Workshop on Document Intelligence at NeurIPS 2019 [15] Patel, S., & Bhatt, D (2020) Abstractive Information Extraction from Scanned Invoices (AIESI) using End-to-end Sequential Approach arXiv preprint arXiv:2009.05728 [16] Redmon, J., Divvala, S., Girshick, R., & Farhadi, A (2016) You only look once: Unified, real-time object detection In Proceedings of the IEEE conference on computer vision and pattern recognition (pp 779-788) [17] Redmon, J., & Farhadi, A (2017) YOLO9000: better, faster, stronger In Proceedings of the IEEE conference on computer vision and pattern recognition (pp 7263-7271) [18] Redmon, J., & Farhadi, A (2018) Yolov3: An incremental improvement arXiv preprint arXiv:1804.02767 [19] Ren, S., He, K., Girshick, R., & Sun, J (2015) Faster r-cnn: Towards realtime object detection with region proposal networks Advances in neural information processing systems, 28 97 [20] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A N., & Polosukhin, I (2017) Attention is all you need Advances in neural information processing systems, 30 [21] Vu, X S., Bui, Q A., Nguyen, N V., Nguyen, T T H., & Vu, T (2021, August) Mc-ocr challenge: Mobile-captured image document recognition for vietnamese receipts In 2021 RIVF International Conference on Computing and Communication Technologies (RIVF) (pp 1-6) IEEE [22] Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., & Zhou, M (2020, August) Layoutlm: Pre-training of text and layout for document image understanding In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp 1192-1200) [23] Yu, F., & Koltun, V (2015) Multi-scale context aggregation by dilated convolutions arXiv preprint arXiv:1511.07122 [24] Yu, W., Lu, N., Qi, X., Gong, P., & Xiao, R (2021, January) PICK: processing key information extraction from documents using improved graph learning-convolutional networks In 2020 25th International Conference on Pattern Recognition (ICPR) (pp 4363-4370) IEEE [25] Zou, Z., Shi, Z., Guo, Y., & Ye, J (2019) Object detection in 20 years: A survey arXiv preprint arXiv:1905.05055 98 PHỤ LỤC A – BÀI BÁO Bài báo khoa học chấp nhận đăng Hội nghị khoa học 2022 IEEE 9th International Conference on Communications and Electronics (ICCE 2022) 99 100 101 102 103 -Hết - 104 ... 1.3 Phát biểu tốn Khóa luận trình bày phương pháp cho tốn rút trích thơng tin hóa đơn với đầu vào ảnh chụp hóa đơn đầu thơng tin hóa đơn đó, khóa luận chúng tơi trích xuất thơng tin tên cửa hàng,... trích thơng tin hóa đơn Việt Nam Nội dung đề tài: − Khảo sát liệu hóa đơn có SROIE2019, CORD − Thu thập ảnh hóa đơn Việt Nam xây dựng liệu hóa đơn Việt Nam − Tìm hiểu tổng quan phương pháp học... việc trích xuất thơng tin hóa đơn, xây dựng liệu hóa đơn Việt Nam Sau đó, tìm hiểu xây dựng mơ hình rút trích thơng tin hóa đơn Việt Nam dựa mơ hình học sâu từ phát triển ứng dụng minh họa rút trích

Tiêu đề	Đánh Giá Phương Pháp Rút Trích Thông Tin Hóa Đơn Tại Việt Nam
Tác giả	Trần Lê Bảo Châu, Đoàn Thị Thanh Hiếu
Người hướng dẫn	TS. Nguyễn Tấn Trần Minh Khang
Trường học	Đại Học Quốc Gia Tp. Hồ Chí Minh
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	báo cáo khóa luận
Năm xuất bản	2022
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	104
Dung lượng	6,27 MB

Đánh giá phương pháp rút trích thông tin hóa đơn tại việt nam (khóa luận tốt nghiệp)

Các công trình nghiên cứu liên quan

Bộ dữ liệu Consolidated Receipt Dataset (CORD)