Đồ án một phương pháp rút trích thông tin hóa đơn tiếng việt

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRẦN LÊ BẢO CHÂU - 18520256 ĐOÀN THỊ THANH HIẾU - 18520734 BÁO CÁO ĐỒ ÁN MỘT PHƯƠNG PHÁP RÚT TRÍCH THƠNG TIN HĨA ĐƠN TIẾNG VIỆT A Information Extraction Method For Vietnamese Receipts KỸ SƯ NGÀNH CÔNG NGHỆ PHẦN MỀM TP HỒ CHÍ MINH, 2021 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRẦN LÊ BẢO CHÂU - 18520256 ĐOÀN THỊ THANH HIẾU - 18520734 BÁO CÁO ĐỒ ÁN MỘT PHƯƠNG PHÁP RÚT TRÍCH THƠNG TIN HÓA ĐƠN TIẾNG VIỆT A Information Extraction Method For Vietnamese Receipts KỸ SƯ NGÀNH CÔNG NGHỆ PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN NGUYỄN TẤN TRẦN MINH KHANG TP HỒ CHÍ MINH, 2021 NHẬN XÉT CỦA GIẢNG VIÊN LỜI CẢM ƠN Lời cảm ơn đầu tiên, xin dành đến thầy TS.Nguyễn Tấn Trần Minh Khang – giảng viên hướng dẫn môn Đồ án Cảm ơn thầy quan tâm, nhắc nhở tận tình hướng dẫn chúng tơi suốt q trình thực đồ án Cảm ơn thầy nhiệt huyết bất tận trình hướng dẫn, nhiệt huyết cổ vũ trở thành động lực giúp thực tốt đồ án Lời cảm ơn thứ hai, xin dành cho thầy ThS.Võ Duy Nguyên, người theo sát giúp đỡ hỗ trợ cho chúng tơi q trình thực đồ án Lời cảm ơn cuối cùng, xin dành cho anh chị, bạn, em nhóm nghiên cứu ln đồng hành, giúp đỡ cổ vũ cho suốt trình thực đồ án Trong trình thực đồ án khó tránh khỏi sai sót, hạn chế, mong nhận nhận xét, góp ý q thầy bạn để chúng tơi tiến xa đường học thuật Xin chân thành cảm ơn Sinh viên thực Trần Lê Bảo Châu Đoàn Thị Thanh Hiếu TP.Hồ Chí Minh, ngày 24 tháng 12 năm 2021 MỤC LỤC TÓM TẮT Chương TỔNG QUAN .2 1.1 Giới thiệu chung 1.2 Động lực nghiên cứu .2 1.2.1 Tính khoa học 1.2.2 Tính ứng dụng 1.3 Phát biểu toán 1.4 Phạm vi toán 1.5 Thách thức toán .4 1.6 Đóng góp đồ án .5 1.7 Cấu trúc đồ án Chương CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Một số sở lý thuyết 2.1.1 Neural Network .6 2.1.2 Convolutional Neural Network .6 2.1.2.1 Convolutional Layer 2.1.2.2 Pooling Layer 2.1.2.3 Fully Connected Layer 2.1.3 Fully Convolutional Network 2.2 Các cơng trình nghiên cứu liên quan .9 2.2.1 Object detection 2.2.1.1 Faster R-CNN 2.2.1.2 YOLOv3 14 2.2.1.3 YOLOF 25 2.2.2 OCR 31 2.2.2.1 Transformer 31 2.2.2.2 TransformerOCR 38 2.3 Bộ liệu thi Mobile-Captured Image Document Recognition for Vietnamese Receipts (RIVF2021 MC-OCR) .39 2.3.1 Tổng quan .39 2.3.2 Minh họa .40 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 41 3.1 Mô tả thực nghiệm .41 3.2 Phương pháp đánh giá 43 3.2.1 Bước nhận dạng phân loại thông tin 43 3.2.1.1 Confusion matrix 43 3.2.1.2 Precison and Recall 43 3.2.1.3 Intersection ove Union (IoU) 44 3.2.1.4 Average Precision (AP) 44 3.2.1.5 Mean Average Precision (mAP) 45 3.2.2 Bước ánh xạ thông tin dạng text .45 3.2.2.1 Khoảng cách Levenshtein 45 3.2.2.2 Độ đo CER .46 3.3 Quy trình thực nghiệm đánh giá .47 3.3.1 Dữ liệu 47 3.3.2 Cài đặt môi trường 47 3.3.3 Tiến hành thực nghiệm 48 3.3.3.1 Huấn luyên model 48 3.3.3.2 Nhận diện rút trích thơng tin: 48 3.3.4 Kết 49 3.3.4.1 Kết thực nghiệm 49 3.3.4.2 Đánh giá kết 50 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 51 4.1 Kết luận 51 4.1.1 Kết đạt 51 4.1.2 Hạn chế 51 4.2 Hướng phát triển 51 TÀI LIỆU THAM KHẢO 52 DANH MỤC HÌNH Hình 1-1 Một số ví dụ thách thức tốn .4 Hình 2-1 Ảnh mô tả hướng di chuyển kernel (k = 3) ảnh màu .7 Hình 2-2 Biến thể Pooling Layer Hình 2-3 Mốc thời gian cho đời phương phát đối tượng (1990 – 2019)[6] .9 Hình 2-4 Kiến trúc R-CNN 10 Hình 2-5 Kiến trúc Fast R-CNN 11 Hình 2-6 Kiến trúc Faster R-CNN 12 Hình 2-7 Kiến trúc Region Proposal Network (RPN) .12 Hình 2-8 IoU (Intersection over Union) .13 Hình 2-9 Minh họa bước YOLOv1 (Ảnh từ báo) 14 Hình 2-10 Minh họa kiến trúc mạng YOLOv1 (Ảnh từ báo) 15 Hình 2-11 Minh họa ý nghĩa đầu sau lớp fully connected YOLOv1 15 Hình 2-12 Hình minh họa ý nghĩ tọa độ x, y, width, height bounding box 16 Hình 2-13 Hình minh họa thuật toán đầu vào – đầu thuật tốn NMS 17 Hình 2-14 Hình minh họa loss function YOLOv1 18 Hình 2-15 Kiến trúc mạng YOLOv2 .20 Hình 2-16 Cách thức hoạt động Reorg layer 21 Hình 2-17 Minh họa đầu YOLOv2 với lưới dự đốn bounding box .21 Hình 2-18 Ảnh minh họa kiến trúc mạng YOLOv3 23 Hình 2-19 Bảng minh họa kết YOLOv3 (thời gian độ xác) so với số phương pháp khác 24 Hình 2-20 Ảnh minh họa kiến trúc FPN 26 Hình 2-21 Các loại encoder kết thí nghiệm tương ứng (ảnh cắt từ báo [14]) 26 Hình 2-22 Ảnh minh họa convolution thông thường (bên trái) dilated convolution (bên phải) 28 Hình 2-23 Ảnh minh họa kiến trúc mạng YOLOF (Ảnh cắt từ báo[14]) .29 Hình 2-24 Bảng so sánh kết YOLOF RetinaNet (Ảnh cắt từ báo).31 Hình 2-25 Kiến trúc mạng Transformer (Ảnh từ báo)[9] 32 Hình 2-26 Trực quan hóa giá trị vector Positional Encoding 20 từ với kích thước 512 (kích thước sử dụng báo) .33 Hình 2-27 Ảnh minh họa bước cuối trình xử lý đầu vào model 34 Hình 2-28 Kiến trúc lớp Encoder .34 Hình 2-29 Kiến trúc lớp self-attention 35 Hình 2-30 Kiến trúc lớp Add & Normalize 36 Hình 2-31 Kiến trúc lớp decoder 37 Hình 2-32 Minh họa thay đổi lớp decoder so với lớp encoder .38 Hình 2-33 Quy trình xử lý đầu model Transformer 38 Hình 2-34 Kiến trúc CNN kết hợp với Transformer (Ảnh từ github model) 39 Hình 3-1 Quy trình thực nghiệm 41 Hình 3-2 Ảnh minh họa bước nhận dạng phân loại thông tin 42 Hình 3-3 Ảnh minh họa bước ánh xạ thông tin dạng text 42 Hình 3-4 Confusion Matrix 43 Hình 3-5 Đồ thị mối quan hệ precision, recall (Precision-Recall curve) 44 Hình 3-6 Ảnh minh họa phép biến đổi thêm, sửa, xóa 46 Hình 3-7 Ảnh format file csv dùng để submit cho thi RIVF2021 MC-OCR .49 Hình 3-8 Ảnh kết từ thi MC-OCR .50 DANH MỤC BẢNG Bảng 1-1 Tổng quan đầu vào – đầu toán Bảng 2-1 Ví dụ đơn giản từ liệu 40 Bảng 3-1 Bảng kết thực nghiệm phương pháp Faster R-CNN, YOLOv3 YOLOF submit kết lên thi MC-OCR .49 2.3.2 Minh họa Ảnh gốc Bounding-box Phân loại SELLER|||ADDR ESS|||TIMESTAM P|||TOTAL_COST Nội dung Guitar Cafe|||28 Phan Chu Trinh, Hiệp Phú, Quận 9, Hồ|||Ngày lập: 05/10/2020|||Thàn h tiền: 25,000 Bảng 2-1 Ví dụ đơn giản từ liệu 40 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Mô tả thực nghiệm Hình 3-1 Quy trình thực nghiệm Quá trình thực nghiệm gồm bước Hình 3-1, đó: − Nhận dạng vị trí phân loại thơng tin cần trích xuất (Faster R-CNN, YOLOv3, YOLOF): bước này, thông tin tên cửa hàng (SELLER), địa (ADDRESS), thời gian (TIMESTAMP) tổng giá trị hóa đơn (TOTAL_COST) xác định vị trị phân loại Đầu vào bước ảnh hóa đơn, đầu bước bounding box thông tin cần trích xuất phân loại chúng Các model sử dụng bước huấn luyện với tập train liệu thi RIVF2021 MC-OCR 41 Hình 3-2 Ảnh minh họa bước nhận dạng phân loại thông tin − Ánh xạ thơng tin cần trích xuất ảnh thành văn (TransformerOCR): bước này, phần chữ bên bounding box chuyển thành text Đầu vào bước phần ảnh phía bounding box đầu nội dung bounding box dạng text Model TransformerOCR sử dụng bước model pretrained nhắc tới phần 2.2.2.2 Hình 3-3 Ảnh minh họa bước ánh xạ thông tin dạng text Để đánh giá kết thực nghiệm, nhóm submit đầu giai đoạn lên trang web thi MC-OCR để so sánh kết model dự đoán với ground truth tập private test thi độ đo CER 42 3.2 Phương pháp đánh giá 3.2.1 Bước nhận dạng phân loại thông tin 3.2.1.1 Confusion matrix Confusion Matrix (Hình 3-4 Confusion Matrix) cung cấp cách chi tiết để đánh giá kết thuật tốn phân loại có giám sát (supervised learning) Một ma trận nhầm lẫn chia kết thành hai loại: giá trị (nhãn) dự đoán giá trị (nhãn) thực tế điểm liệu Hình 3-4 Confusion Matrix Trong đó: − True Positive (TP): trường hợp dương tính dự đốn dương tính − True Negative (TN): trường hợp âm tính dự đốn âm tính − False Positive (FP): trường hợp âm tính dự đốn dương tính − False Negative (FN): trường hợp dương tính dự đốn âm tính 3.2.1.2 Precison and Recall Precision định nghĩa tỉ lệ số điểm True Positive tổng số điểm phân loại Positive (TP + FP) 43 Precision = TP TP + FN Recall định nghĩa tỉ lệ số điểm True Positive số điểm thật Positive (TP +FN) Recall = 3.2.1.3 TP TP + FN Intersection ove Union (IoU) Intersection over Union (IoU) đùng làm tiêu chuẩn để đánh giá cho toán phát đối tượng ảnh, cách đánh giá mức độ overlap (trùng lắp) bounding boxes Kết IoU cho tốt >=0.5 3.2.1.4 Average Precision (AP) Giả sử có N ngưỡng để tính precision recall, ngưỡng có cặp giá trị (𝑃𝑛 , 𝑅𝑛 ) với 𝑛 = 1, 2, , 𝑁 Precision-Recall curve vẽ cách vẽ điểm có toạ độ (𝑃𝑛 , 𝑅𝑛 ) trục toạ độ nối chúng với Hình 3-5 Đồ thị mối quan hệ precision, recall (Precision-Recall curve)1 https://dothanhblog.wordpress.com/2020/04/24/map-mean-average-precision/ 44 Average precision định nghĩa diện tích phần phía đường biểu diễn mối quan hệ precision recall AP thường tính xấp xỉ cơng thức sau: 𝐴𝑃 = ∑(𝑅𝑛 − 𝑅𝑛 − ) 𝑃𝑛 𝑛 Trong đó: (𝑅𝑛 − 𝑅𝑛 − )𝑃𝑛 diện tính hình chữ nhật có chiều rộng (𝑅𝑛 − 𝑅𝑛 − ) chiều cao 𝑃𝑛 3.2.1.5 Mean Average Precision (mAP) Mean Average Precision tính cách lấy trung bình AP tất lớp 3.2.2 Bước ánh xạ thông tin dạng text 3.2.2.1 Khoảng cách Levenshtein Levenshtein khoảng cách khác biệt chuỗi ký tự, khoảng cách đặt tên theo Vladimir Levenshtein – người đề khái niệm vào năm 1965 Khoảng cách Levenshtein chuỗi S chuỗi T số bước biến chuỗi S thành chuỗi T thơng qua phép biến đổi: − Xố ký tự: “steam” → “team” − Thêm ký tự: “steam” → “stream” − Thay ký tự ký tự khác: “steam” → “steal” 45 Hình 3-6 Ảnh minh họa phép biến đổi thêm, sửa, xóa1 Ví dụ, khoảng cách Levenshtein chuỗi “sitting” “kitten” “sitting” cần bước biến đổi để trở thành “kitten”: − Bước 1: “sitting” → “kitting” (thay thế) − Bước 2: “kitting” → “kitteng” (thay thế) − Bước 3: “kitteng” → “kitten” (xóa) 3.2.2.2 Độ đo CER Trong thi RIVF2021 MC-OCR, độ đo CER sử dụng để đánh giá kết thí sinh nộp lên CER xây dựng dựa khoảng cách Levenshtein với công thức sau: 𝐶𝐸𝑅 = 𝑖 + 𝑠 + 𝑑 𝑛 Trong đó: − 𝑖 + 𝑠 + 𝑑 số bước biến đổi để chuyển kết dự đoán thành đáp án thực tế (groundtruth) − 𝑛 số ký tự đáp án thực tế https://towardsdatascience.com/evaluating-ocr-output-quality-with-character-error-rate-cer-and-word-errorrate-wer-853175297510 46 3.3 Quy trình thực nghiệm đánh giá 3.3.1 Dữ liệu Dữ liệu trình thực nghiệm lấy từ thi RIVF2021 MC-OCR Trong đó: − Tập train thi dùng để huấn luyện model object detection giai đoạn − Tập private test thi dùng để model dự đoán kết submit kết lên server thi để nhận đánh giá 3.3.2 Cài đặt môi trường − Link reference: https://github.com/open-mmlab/mmdetection − Yêu cầu cài đặt: Python v3.7.10 PyTorch: 1.7.0 CUDA >= v10.0 MMCV >= 1.3.8 − Chuẩn bị: + config_faster_rcnn.py: file dùng để thiết lập cấu hình cho phương pháp Faster RCNN + config_yolov3.py: file dùng để thiết lập cấu hình cho phương pháp YOLOv3 + config_yolof.py: file dùng để thiết lập cấu hình cho phương pháp YOLOF 47 3.3.3 Tiến hành thực nghiệm 3.3.3.1 Huấn luyên model (a) Phương pháp Faster R-CNN: − Chạy huấn luyện command: !python tools/train.py config_faster_rcnn.py (b) Phương pháp YOLOv3: − Chạy huấn luyện command: !python tools/train.py config_yolov3.py (c) Phương pháp YOLOF: − Chạy huấn luyện command: !python tools/train.py config_yolof.py 3.3.3.2 Nhận diện rút trích thơng tin: Sau huấn luyện model để nhận diện phân loại thông tin cần trích xuất, nhóm sử dụng model để dự đốn bounding box thơng tin hóa đơn lưu trữ thông tin bounding box dạng file json (COCO format) (Giai đoạn 1) File json sau đưa qua model pretrained TransformerOCR Phạm Quốc nhắc đến phần 2.2.2.2 Kết đầu model phần thông tin bounding box dạng text nhóm chuyển vào file csv theo format quy định thi RIVF2021 MC-OCR để submit lên trang web thi (https://aihub.vn/competitions/1?fbclid=IwAR38wwnawFQDJbCLzOiVEG5sSYE OshGfisF4xjePXZK6Irlv2482aAIarsY#participate-submit_results) chấm điểm tự động dựa độ đo CER 48 Hình 3-7 Ảnh format file csv dùng để submit cho thi RIVF2021 MC-OCR Do nhãn tập private test thi RIVF2021 MC-OCR không công bố kết trả sau submit lên trang web thi có điểm CER để đánh giá kết cuối toán, nhóm đánh giá phương pháp dựa điểm CER nhận submit kết thi 3.3.4 Kết 3.3.4.1 Kết thực nghiệm CER Faster R-CNN 0.454742 YOLOv3 0.439313 YOLOF 0.545651 Bảng 3-1 Bảng kết thực nghiệm phương pháp Faster R-CNN, YOLOv3 YOLOF submit kết lên thi MC-OCR 49 Hình 3-8 Ảnh kết từ thi MC-OCR 3.3.4.2 Đánh giá kết Dựa vào kết thực nghiệm, nhóm nhận thấy rằng: − YOLOv3 có điểm CER thấp nghĩa là model thể tốt việc thực giai đoạn tốn rút trích thơng tin hóa đơn model thực nghiệm − Kết Faster R-CNN có thấp YOLOv3 đơi chút, nhiên, CER dự đoán chung loại đối tượng, vậy, với kết khơng chênh lệch, có khả Faster R-CNN có dự đốn tốt YOLOv3 vài loại đối tượng − Kết YOLOF hoàn toàn thấp hẳn so với kết khác 50 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4.1 Kết luận 4.1.1 Kết đạt − Cái nhìn tổng quan tốn phát đối tượng, lịch sử phát triển nó, cụ thể phát đối tượng ảnh hóa đơn − Thực nghiệm phương pháp Faster R-CNN, YOLOv3, YOLOF cho bước phát đối tượng − Sử dụng model pretrained TransformerOCR cho bước trích xuất thơng tin phát 4.1.2 Hạn chế − Còn nhiều vấn đề lĩnh vực xử lý ảnh xử lý ngôn ngữ tự nhiên chưa rõ − Kết dự đoán thấp 4.2 Hướng phát triển − Áp dụng thuật tốn cho phát đối tượng trích xuất thơng tin hóa đơn văn − Tiếp tục hoàn thiện mở rộng liệu 51 TÀI LIỆU THAM KHẢO [1] Huang, Z., Chen, K., He, J., Bai, X., Karatzas, D., Lu, S., & Jawahar, C V (2019, September) Icdar2019 competition on scanned receipt ocr and information extraction In 2019 International Conference on Document Analysis and Recognition (ICDAR) (pp 1516-1520) IEEE [2] Ren, S., He, K., Girshick, R., & Sun, J (2015) Faster r-cnn: Towards realtime object detection with region proposal networks arXiv preprint arXiv:1506.01497 [3] Yu, W., Lu, N., Qi, X., Gong, P., & Xiao, R (2020) Pick: processing key information extraction from documents using improved graph learning-convolutional networks arXiv preprint arXiv:2004.07464 [4] Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., & Zhou, M (2020, August) Layoutlm: Pre-training of text and layout for document image understanding In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp 1192-1200) [5] Patel, S., & Bhatt, D (2020) Abstractive Information Extraction from Scanned Invoices (AIESI) using End-to-end Sequential Approach arXiv preprint arXiv:2009.05728 [6] Zou, Z., Shi, Z., Guo, Y., & Ye, J (2019) Object detection in 20 years: A survey arXiv preprint arXiv:1905.05055 [7] Devlin, J., Chang, M W., Lee, K., & Toutanova, K (2018) Bert: Pre-training of deep bidirectional transformers for language understanding arXiv preprint arXiv:1810.04805 [8] Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D (2018, July) Image transformer In International Conference on Machine Learning (pp 4055-4064) PMLR [9] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A N., & Polosukhin, I (2017) Attention is all you need In Advances in neural information processing systems (pp 5998-6008) 52 [10] Ba, J L., Kiros, J R., & Hinton, G E (2016) Layer normalization arXiv preprint arXiv:1607.06450 [11] Redmon, J., Divvala, S., Girshick, R., & Farhadi, A (2016) You only look once: Unified, real-time object detection In Proceedings of the IEEE conference on computer vision and pattern recognition (pp 779-788) [12] Redmon, J., & Farhadi, A (2017) YOLO9000: better, faster, stronger In Proceedings of the IEEE conference on computer vision and pattern recognition (pp 7263-7271) [13] Redmon, J., & Farhadi, A (2018) Yolov3: An incremental improvement arXiv preprint arXiv:1804.02767 [14] Chen, Q., Wang, Y., Yang, T., Zhang, X., Cheng, J., & Sun, J (2021) You only look one-level feature In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp 13039-13048) [15] Yu, F., & Koltun, V (2015) Multi-scale context aggregation by dilated convolutions arXiv preprint arXiv:1511.07122 53 -Hết - 54 ... khác 1.3 Phát biểu tốn Đồ án trình bày phương pháp cho tốn rút trích thơng tin hóa đơn với đầu vào ảnh chụp hóa đơn đầu thơng tin hóa đơn đó, đồ án chúng tơi trích xuất thơng tin tên cửa hàng, địa... chừng đơn giản rút trích thơng tin hóa đơn Bài tốn rút trích thơng tin hóa đơn đặt nhằm mục đích đẩy mạnh tự động hóa tác vụ văn phịng thơng qua việc lưu trữ tự động thơng tin quan trọng từ hóa đơn. .. ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRẦN LÊ BẢO CHÂU - 18520256 ĐOÀN THỊ THANH HIẾU - 18520734 BÁO CÁO ĐỒ ÁN MỘT PHƯƠNG PHÁP RÚT TRÍCH THƠNG TIN HĨA ĐƠN TIẾNG VIỆT A Information

Định dạng
Số trang	65
Dung lượng	2,98 MB

Đồ án một phương pháp rút trích thông tin hóa đơn tiếng việt

Hình minh họa loss function của YOLOv1

Ảnh minh họa kiến trúc mạng YOLOv3