Đồ án tìm HIỂU PHƯƠNG PHÁP rút TRÍCH THÔNG TIN hóa đơn TIẾNG VIỆT

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRẦN LÊ BẢO CHÂU - 18520256 ĐOÀN THỊ THANH HIẾU - 18520734 BÁO CÁO ĐỒ ÁN TÌM HIỂU PHƯƠNG PHÁP RÚT TRÍCH THƠNG TIN HĨA ĐƠN TIẾNG VIỆT Research Of Information Extraction Method For Vietnamese Receipts KỸ SƯ NGÀNH CƠNG NGHỆ PHẦN MỀM TP HỒ CHÍ MINH, 2021 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRẦN LÊ BẢO CHÂU - 18520256 ĐOÀN THỊ THANH HIẾU - 18520734 BÁO CÁO ĐỒ ÁN TÌM HIỂU PHƯƠNG PHÁP RÚT TRÍCH THƠNG TIN HĨA ĐƠN TIẾNG VIỆT Research Of Information Extraction Method For Vietnamese Receipts KỸ SƯ NGÀNH CÔNG NGHỆ PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN NGUYỄN TẤN TRẦN MINH KHANG TP HỒ CHÍ MINH, 2021 NHẬN XÉT CỦA GIẢNG VIÊN LỜI CẢM ƠN Lời cảm ơn đầu tiên, xin dành đến thầy TS.Nguyễn Tấn Trần Minh Khang – giảng viên hướng dẫn môn Đồ án Cảm ơn thầy quan tâm, nhắc nhở tận tình hướng dẫn chúng tơi suốt trình thực đồ án Cảm ơn thầy nhiệt huyết bất tận trình hướng dẫn, nhiệt huyết cổ vũ trở thành động lực giúp thực tốt đồ án Lời cảm ơn thứ hai, xin dành cho thầy ThS.Võ Duy Nguyên, người theo sát giúp đỡ hỗ trợ cho chúng tơi q trình thực đồ án Lời cảm ơn cuối cùng, xin dành cho anh chị, bạn, em nhóm nghiên cứu đồng hành, giúp đỡ cổ vũ cho chúng tơi suốt q trình thực đồ án Trong q trình thực đồ án khó tránh khỏi sai sót, hạn chế, chúng tơi mong nhận nhận xét, góp ý q thầy bạn để chúng tơi tiến xa đường học thuật Xin chân thành cảm ơn Sinh viên thực Trần Lê Bảo Châu Đoàn Thị Thanh Hiếu TP.Hồ Chí Minh, ngày 30 tháng 06 năm 2021 MỤC LỤC DANH MỤC HÌNH DANH MỤC BẢNG DANH MỤC TỪ VIẾT TẮT 10 TÓM TẮT 11 Chương TỔNG QUAN 12 1.1 Giới thiệu chung 12 1.2 Động lực nghiên cứu 12 1.2.1 Tính khoa học .12 1.2.2 Tính ứng dụng .12 1.3 Phát biểu toán 13 1.4 Phạm vi toán 14 1.5 Thách thức toán .14 1.6 Đóng góp đồ án .15 1.7 Cấu trúc đồ án 15 Chương CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN .16 2.1 Một số sở lý thuyết 16 2.1.1 Neural Network 16 2.1.2 Convolutional Neural Network .16 2.1.3 Fully Convolutional Network .18 2.2 Các cơng trình nghiên cứu liên quan 19 2.2.1 Faster R-CNN .19 2.2.2 Transformer 23 2.2.3 TransformerOCR 31 2.3 Bộ liệu thi Mobile-Captured Image Document Recognition for Vietnamese Receipts (RIVF2021 MC-OCR) .32 2.3.1 Tổng quan .32 2.3.2 Minh họa .33 Chương XÂY DỰNG DỮ LIỆU 34 3.1 Xây dựng liệu bổ sung .34 3.1.1 Thu thập liệu 34 3.1.2 Gán nhãn liệu 34 3.1.3 Định dạng file annotation .35 3.1.4 Kết 42 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 43 4.1 Mô tả thực nghiệm .43 4.2 Phương pháp đánh giá 44 4.2.1 Confusion matrix 44 4.2.2 Precison and Recall .44 4.2.3 Intersection ove Union (IoU) 45 4.2.4 Average Precision (AP) 46 4.2.5 Mean Average Precision (mAP) 46 4.3 Quy trình thực nghiệm đánh giá .47 4.4 Demo minh họa 48 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 49 5.1 Kết luận 49 5.1.1 Kết đạt 49 5.1.2 Hạn chế 49 5.2 Hướng phát triển 49 TÀI LIỆU THAM KHẢO 50 PHỤ LỤC 51 DANH MỤC HÌNH Hình 1-1 Một số ví dụ thách thức toán 14 Hình 2-1 Ảnh mơ tả hướng di chuyển kernel (k = 3) ảnh màu .17 Hình 2-2 Biến thể Pooling Layer 18 Hình 2-3 Mốc thời gian cho đời phương phát đối tượng (1990 – 2019) [6] 19 Hình 2-4 Kiến trúc R-CNN 20 Hình 2-5 Kiến trúc Fast R-CNN 21 Hình 2-6 Kiến trúc Faster R-CNN 22 Hình 2-7 Kiến trúc Region Proposal Network (RPN) .22 Hình 2-8 IoU (Intersection over Union) .23 Hình 2-9 Kiến trúc mạng Transformer (ảnh từ báo) [9] 24 Hình 2-10 Trực quan hóa giá trị vector Positional Encoding 20 từ với kích thước 512 (kích thước sử dụng báo) .26 Hình 2-11 Ảnh minh họa bước cuối trình xử lý đầu vào mơ hình .27 Hình 2-12 Kiến trúc lớp Encoder .27 Hình 2-13 Kiến trúc lớp self-attention 28 Hình 2-14 Kiến trúc lớp Add & Normalize 29 Hình 2-15 Kiến trúc lớp decoder 30 Hình 2-16 Minh họa thay đổi lớp decoder so với lớp encoder 31 Hình 2-17 Quy trình xử lý đầu mơ hình Transformer 31 Hình 2-18 Kiến trúc CNN kết hợp với Transformer (Ảnh từ github mơ hình) 32 Hình 4-1 Ảnh minh họa bước đầu trình thực nghiệm 43 Hình 4-2 Ảnh minh họa bước thứ hai trình thực nghiệm 43 Hình 4-3 Confusion Matrix 44 Hình 4-4 Đồ thị mối quan hệ precision, recall (Precision-Recall curve) 46 Hình 4-5 Kết chạy demo 48 DANH MỤC BẢNG Bảng 1-1 Tổng quan đầu vào – đầu toán .13 Bảng 2-1 Ví dụ đơn giản từ liệu 33 Bảng 3-1 Mô tả ý nghĩa thuộc tính phần “info” định dạng COCO 36 Bảng 3-2 Mô tả ý nghĩa thuộc tính phần “licenses” định dạng COCO 37 Bảng 3-3 Mô tả ý nghĩa thuộc tính phần “images” định dạng COCO 38 Bảng 3-4 Mơ tả ý nghĩa thuộc tính phần “annotations” định dạng COCO 41 Bảng 3-5 Mơ tả ý nghĩa thuộc tính phần “categories” định dạng COCO 42 Bảng 3-6 Bản phân bổ nhãn liệu .42 DANH MỤC TỪ VIẾT TẮT AP Average Precision ID Identification (Mã số định danh) mAP Mean Average Precision RLE Run Length Encoding "file_name": "nnnnnnnnnn.jpg", "date_captured": "2013-11-18 02:53:27" } ], Trong đó: Thuộc tính Kiểu liệu Ý nghĩa < id > int (bắt buộc) ID ảnh liệu < license > (không bắt buộc) ID giấy phép int ảnh < coco_url > str (optional) Đường dẫn ảnh < flickr_url > str (không bắt buộc) Đường dẫn ảnh Flickr < width > int (bắt buộc) Chiều rộng ảnh < height > int (bắt buộc) Chiều cao ảnh < file_name > str (bắt buộc) Tên ảnh < date_captured > datetime (bắt buộc) Thời gian chụp Bảng 3-3 Mô tả ý nghĩa thuộc tính phần “images” định dạng COCO (d) annotations annotations danh sách thông tin tất đối tượng tất ảnh liệu "annotations": [ { 38 "id": 125686, "category_id": 0, "iscrowd": 0, "segmentation": [[164.81, 417.51, 167.55, 410.64]], "image_id": 242287, "area": 42061.80340000001, "bbox": [19.23, 383.18, 314.5, 244.46] }, … { "id": 1410165, "category_id": 1, "iscrowd": 0, "segmentation": [[486.34, 239.01, 495.95, 244.39]], "image_id": 245915, "area": 1775.8932499999994, "bbox": [86, 65, 220, 334] } ], Trong đó: Thuộc tính Kiểu liệu Ý nghĩa < id > int (không bắt buộc) ID đối tượng 39 < category_id > int (bắt buộc) ID lớp đối tượng < iscrowd > (không bắt buộc) 0: Bounding-box chứa đối tượng 1: Bounding-box chứa nhiều đối tượng < segmentation > RLE [polygon] (không bắt buộc) [polygon]: phân vùng Bounding-box chứa đối tượng RLE: phân vùng Bounding-box chứa nhiều đối tượng < image_id > int (không bắt buộc) ID ảnh chứa đối tượng < area > float (không bắt buộc) Diện tích phân vùng đối tượng < bbox > [x, y, width, height] (bắt buộc) Thông tin tọa độ kích thước Bounding-box dối tượng: − x, y: tọa độ trái Bounding-box 40 − width: chiều rộng Bounding-box − height: chiều cao Bounding-box Bảng 3-4 Mô tả ý nghĩa thuộc tính phần “annotations” định dạng COCO (e) categories categories danh sách lớp đối tượng liệu "categories": [ { "supercategory": "speaker", "id": 0, "name": "echo" }, … { "supercategory": "speaker", "id": 1, "name": "echo dot"} ] Trong đó: Thuộc tính Kiểu liệu Ý nghĩa < id > int (bắt buộc) ID lớp đối tượng 41 < supercategory > (không bắt buộc) Tên lớp str đối tượng cha lớp đối tượng < name > (bắt buộc) Tên lớp đối str tượng Bảng 3-5 Mơ tả ý nghĩa thuộc tính phần “categories” định dạng COCO 3.1.4 Kết 3.1.4.1 Tổng quan Bộ liệu bổ sung gồm 147 ảnh hóa đơn từ nhiều siêu thị, quán ăn, cửa hảng, …, chia thành 358 ảnh train (chiếm 63,25%) 789 ảnh test (chiếm 36,75%) Các ảnh liệu gán nhãn bounding-box đầy đủ Các nhãn liệu phân bổ sau: Train + Test Train Test SELLER 2335 17.86% 1449 17.61% 886 18.28% ADDRESS 2879 22.02% 1826 22.20% 1053 21.73% TIMESTAMP 3596 27.51% 2249 27.34% 1347 27.80% TOTAL_COST 4262 32.60% 2702 32.85% 1560 32.19% 13072 100% 8226 100% 4846 100% Tổng cộng Bảng 3-6 Bản phân bổ nhãn liệu 3.1.4.2 Thiếu sót Q trình gán nhãn bounding-box cho liệu gặp khó khăn phong cách bounding-box khác nhau, dẫn tới việc phải rà soát lại nhiều lần, chưa thể thực gán nhãn text cho liệu 42 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Mô tả thực nghiệm Quá trình thực nghiệm dự kiến gồm bước: − Nhận dạng vị trí phân loại thơng tin cần trích xuất (Faster R-CNN) Hình 4-1 Ảnh minh họa bước đầu q trình thực nghiệm − Ánh xạ thơng tin cần trích xuất ảnh thành văn (TransformerOCR) Hình 4-2 Ảnh minh họa bước thứ hai trình thực nghiệm Tuy nhiên, gặp khó khăn q trình gán nhãn cho liệu bổ sung, nhóm thực nghiệp bước dự kiến 43 4.2 Phương pháp đánh giá 4.2.1 Confusion matrix Confusion Matrix (Hình 4.x) cung cấp cách chi tiết để đánh giá kết thuật toán phân loại có giám sát (supervised learning) Một ma trận nhầm lẫn chia kết thành hai loại: giá trị (nhãn) dự đoán giá trị (nhãn) thực tế điểm liệu Hình 4-3 Confusion Matrix Trong đó: − True Positive (TP): trường hợp dương tính dự đốn dương tính − True Negative (TN): trường hợp âm tính dự đốn âm tính − False Positive (FP): trường hợp âm tính dự đốn dương tính − False Negative (FN): trường hợp dương tính dự đốn âm tính 4.2.2 Precison and Recall Precision định nghĩa tỉ lệ số điểm True Positive tổng số điểm phân loại Positive (TP + FP) 44 Precision = TP TP + FN Recall định nghĩa tỉ lệ số điểm True Positive số điểm thật Positive (TP +FN) Recall = TP TP + FN 4.2.3 Intersection ove Union (IoU) Intersection over Union (IoU) đùng làm tiêu chuẩn để đánh giá cho toán phát đối tượng ảnh, cách đánh giá mức độ overlap (trùng lắp) bounding boxes Để sử dụng độ đo IoU, ta cần tính giá trị sau: − Ground-truth Bounding-boxes: vị trí thực tế đối tượng − Predicted Bounding-boxes: vị trí đối tượng mà model dự đốn Trong đó: − Area of Overlap vùng overlap (giao) ground-truth Bounding-boxes predicted Bounding-boxes − Area of Union vùng union (hợp) ground-truth Bounding-boxes predicted Bounding-boxes − Kết IoU cho tốt >=0.5 45 4.2.4 Average Precision (AP) Giả sử có N ngưỡng để tính precision recall, ngưỡng có cặp giá trị (𝑃𝑛 , 𝑅𝑛 ) với 𝑛 = 1, 2, , 𝑁 Precision-Recall curve vẽ cách vẽ điểm có toạ độ (𝑃𝑛 , 𝑅𝑛 ) trục toạ độ nối chúng với Hình 4-4 Đồ thị mối quan hệ precision, recall (Precision-Recall curve)1 Average precision định nghĩa diện tích phần phía đường biểu diễn mối quan hệ precision recall AP thường tính xấp xỉ cơng thức sau: 𝐴𝑃 = ∑(𝑅𝑛 − 𝑅𝑛 − ) 𝑃𝑛 𝑛 Trong đó: (𝑅𝑛 − 𝑅𝑛 − )𝑃𝑛 diện tính hình chữ nhật có chiều rộng (𝑅𝑛 − 𝑅𝑛 − ) chiều cao 𝑃𝑛 4.2.5 Mean Average Precision (mAP) Mean Average Precision tính cách lấy trung bình AP tất lớp https://dothanhblog.wordpress.com/2020/04/24/map-mean-average-precision/ 46 4.3 Quy trình thực nghiệm đánh giá − Link reference: https://github.com/open-mmlab/mmdetection − Yêu cầu môi trường: Thực nghiệm Google Colaboratory Python v3.7.10 PyTorch: 1.7.0 CUDA >= v10.0 MMCV >= 1.3.8 − Chuẩn bị: config_fold1.py: file dùng để thiết lặp cấu hình TRAIN: folder chứa ảnh tập liệu train TEST: folder chứa ảnh tập liệu test train.json: file chứa thông tin tập liệu train test.json: file chứa thông tin tập liệu test − Huấn luyện mơ hình: !python tools/train.py config_fold1.py 47 4.4 Demo minh họa Demo phát đối tượng ảnh hóa đơn thực tảng Google Colaboratory Hình 4-5 Kết chạy demo 48 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận 5.1.1 Kết đạt − Cái nhìn tổng quan tốn phát đối tượng, lịch sử phát triển nó, cụ thể phát đối tượng ảnh hóa đơn − Xây dựng liệu 2147 ảnh hóa đơn với mục đích nghiên cứu tốn giải − Thực nghiệm phương pháp Faster R-CNN cho bước phát đối tượng 5.1.2 Hạn chế − Còn nhiều vấn đề lĩnh vực xử lý ngôn ngữ tự nhiên chưa rõ − Bộ liệu q trình hồn thiện 5.2 Hướng phát triển − Áp dụng thuật toán cho phát đối tượng áp dụng thuật tốn cho pha trích xuất thơng tin hóa đơn văn − Tiếp tục hoàn thiện mở rộng liệu 49 TÀI LIỆU THAM KHẢO [1] Huang, Z., Chen, K., He, J., Bai, X., Karatzas, D., Lu, S., & Jawahar, C V (2019, September) Icdar2019 competition on scanned receipt ocr and information extraction In 2019 International Conference on Document Analysis and Recognition (ICDAR) (pp 1516-1520) IEEE [2] Ren, S., He, K., Girshick, R., & Sun, J (2015) Faster r-cnn: Towards realtime object detection with region proposal networks arXiv preprint arXiv:1506.01497 [3] Yu, W., Lu, N., Qi, X., Gong, P., & Xiao, R (2020) Pick: processing key information extraction from documents using improved graph learning-convolutional networks arXiv preprint arXiv:2004.07464 [4] Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., & Zhou, M (2020, August) Layoutlm: Pre-training of text and layout for document image understanding In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp 1192-1200) [5] Patel, S., & Bhatt, D (2020) Abstractive Information Extraction from Scanned Invoices (AIESI) using End-to-end Sequential Approach arXiv preprint arXiv:2009.05728 [6] Zou, Z., Shi, Z., Guo, Y., & Ye, J (2019) Object detection in 20 years: A survey arXiv preprint arXiv:1905.05055 [7] Devlin, J., Chang, M W., Lee, K., & Toutanova, K (2018) Bert: Pre-training of deep bidirectional transformers for language understanding arXiv preprint arXiv:1810.04805 [8] Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D (2018, July) Image transformer In International Conference on Machine Learning (pp 4055-4064) PMLR [9] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A N., & Polosukhin, I (2017) Attention is all you need In Advances in neural information processing systems (pp 5998-6008) 50 [10] Ba, J L., Kiros, J R., & Hinton, G E (2016) Layer normalization arXiv preprint arXiv:1607.06450 51 -Hết - 52 ... khác 1.3 Phát biểu tốn Đồ án trình bày phương pháp cho tốn rút trích thơng tin hóa đơn với đầu vào ảnh chụp hóa đơn đầu thơng tin hóa đơn đó, đồ án chúng tơi trích xuất thơng tin tên cửa hàng, địa... sâu kỹ để tìm phương pháp mang lại kết cao 1.6 Đóng góp đồ án − Tìm hiểu tổng quan phương pháp Faster R-CNN kỹ thuật Deep Learning cho tốn rút trích thơng tin hóa đơn tiếng Việt − Tìm hiểu liệu... quan tâm tồn giới Trong đồ án này, chúng tơi thực tìm hiểu phương pháp rút trích thơng tin hóa đơn tiếng Việt liệu mà nhóm nhiên cứu xây dựng Bộ liệu nhóm gồm 147 ảnh hóa đơn, có 358 ảnh huấn luyện

Định dạng
Số trang	52
Dung lượng	2,01 MB