1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt

62 27 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 3,07 MB

Nội dung

Mẫu F6 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ SINH VIÊN NĂM 2021 Tên đề tài tiếng Việt: TÌM HIỂU PHƯƠNG PHÁP RÚT TRÍCH THƠNG TIN HĨA ĐƠN TIẾNG VIỆT Tên đề tài tiếng Anh: RESEARCH OF INFORMATION EXTRACTION METHOD FOR VIETNAMESE RECEIPTS Khoa/ Bộ môn: Công nghệ Phần mềm Thời gian thực hiện: tháng Cán hướng dẫn: TS Nguyễn Tấn Trần Minh Khang Tham gia thực TT Họ tên, MSSV Trần Lê Bảo Châu, 18520256 Đoàn Thị Thanh Hiếu, 18520734 Chịu trách nhiệm Chủ nhiệm Điện thoại Email 0934047125 18520256@gm.uit.edu.vn Tham gia 0706120290 18520734@gm.uit.edu.vn Thành phố Hồ Chí Minh – Tháng 03/2022 Mẫu F6 Ngày nhận hồ sơ ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Mã số đề tài (Do CQ quản lý ghi) BÁO CÁO TỔNG KẾT Tên đề tài tiếng Việt: TÌM HIỂU PHƯƠNG PHÁP RÚT TRÍCH THƠNG TIN HÓA ĐƠN TIẾNG VIỆT Tên đề tài tiếng Anh: RESEARCH OF INFORMATION EXTRACTION METHOD FOR VIETNAMESE RECEIPTS Ngày tháng năm Cán hướng dẫn (Họ tên chữ ký) Ngày tháng năm Sinh viên chủ nhiệm đề tài (Họ tên chữ ký) Nguyễn Tấn Trần Minh Khang Trần Lê Bảo Châu Mẫu F6 THÔNG TIN KẾT QUẢ NGHIÊN CỨU Thông tin chung: - Tên đề tài: Tìm hiểu phương pháp rút trích thơng tin hóa đơn tiếng Việt - Chủ nhiệm: Trần Lê Bảo Châu - Thành viên tham gia: Đoàn Thị Thanh Hiếu - Cơ quan chủ trì: Trường Đại học Cơng nghệ Thông tin - Thời gian thực hiện: tháng Mục tiêu: Trong phạm vi đề tài này, chúng tơi sẽ: - - - Tìm hiểu tổng quan phương pháp object detection Faster R-CNN, YOLOv3, YOLOF phương pháp nhận diện ký tự quan học (OCR) TransformerOCR cho tốn rút trích thơng tin hóa đơn tiếng Việt Tìm hiểu liệu có để ứng dụng vào toán Tiến hành huấn luyện phương pháp object detection (Faster R-CNN, YOLOv3, YOLOF) Thực dự đoán dựa model object detection huấn luyện sử dụng model pretrained TransformerOCR để tiến hành đánh giá nhận xét Tính sáng tạo: Tác vụ rút trích thơng tin gặp nhiều khó khăn làm giảm độ xác, nhiên, lại tác vụ địi hỏi độ xác cao lẽ sai xót nhỏ lĩnh vực dẫn tới nhiều vấn đề nghiêm trọng Đây vấn đề chung mà nhiều nghiên cứu rút trích thơng tin hóa đơn gặp phải Trong đề tài này, chúng tơi đánh giá hiệu phương pháp object detection (Faster R-CNN, YOLOv3, YOLOF) tốn rút trích thơng tin hóa đơn Tóm tắt kết nghiên cứu: - Trình bày tổng quan tốn rút trích thơng tin hóa đơn - Trình bày tổng quan liệu thi MC-OCR - - - Trình bày tổng quan phương pháp phát đối tượng Faster R-CNN nghiên cứu liên quan Trình bày tổng quan phương pháp nhận diện ký tự quang học TransformerOCR nghiên cứu liên quan Thực nghiệm phương pháp nghiên cứu Tên sản phẩm: Mẫu F6 Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: Trong nghiên cứu này, chúng tơi tập trung vào tìm hiểu cách hoạt động số phương pháp object detection đánh giá hiệu chúng tốn rút trích thơng tin hóa đơn Các phương pháp thực nghiệm cần cải thiện kết trước đưa vào sử dụng thực tế Hình ảnh, sơ đồ minh họa chính: Cơ quan Chủ trì (ký, họ tên, đóng dấu) Chủ nhiệm đề tài (ký, họ tên) Mẫu F6 MỤC LỤC TÓM TẮT……… CHƯƠNG TỔNG QUAN 1.1 Giới thiệu chung 1.2 Động lực nghiên cứu .9 1.2.1 Tính khoa học 1.2.2 Tính ứng dụng 1.3 Phát biểu toán 10 1.4 Phạm vi toán 10 1.5 Thách thức toán .11 1.6 Đóng góp nghiên cứu 11 1.7 Cấu trúc nghiên cứu .12 CHƯƠNG CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN…………… 13 2.1 Một số sở lý thuyết 13 2.1.1 Neural Network 13 2.1.2 Convolutional Neural Network .13 2.1.2.1 Convolutional Layer 13 2.1.2.2 Pooling Layer .14 2.1.2.3 Fully Connected Layer 15 2.1.3 Fully Convolutional Network .15 2.2 Các cơng trình nghiên cứu liên quan 16 2.2.1 Object detection 16 2.2.1.1 Faster R-CNN 16 2.2.1.2 YOLOv3 20 2.2.1.3 YOLOF 31 Mẫu F6 2.2.2 OCR 38 2.2.2.1 Transformer 38 2.2.2.2 TransformerOCR 45 2.3 Bộ liệu thi Mobile-Captured Image Document Recognition for Vietnamese Receipts (RIVF2021 MC-OCR) .45 2.3.1 Tổng quan .45 2.3.2 Minh họa .46 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 47 3.1 Mô tả thực nghiệm .47 3.2 Phương pháp đánh giá 48 3.2.1 Bước nhận dạng phân loại thông tin 48 3.2.1.1 Confusion matrix 48 3.2.1.2 Precison and Recall 49 3.2.1.3 Intersection ove Union (IoU) 50 3.2.1.4 Average Precision (AP) 50 3.2.1.5 Mean Average Precision (mAP) 51 3.2.2 Bước ánh xạ thông tin dạng text .51 3.2.2.1 Khoảng cách Levenshtein 51 3.2.2.2 Độ đo CER .51 3.3 Quy trình thực nghiệm đánh giá .52 3.3.1 Dữ liệu 52 3.3.2 Cài đặt môi trường 52 3.3.3 Tiến hành thực nghiệm 53 3.3.3.1 Huấn luyên model 53 3.3.3.2 Nhận diện rút trích thơng tin: 53 Mẫu F6 3.3.4 Kết 54 3.3.4.1 Kết thực nghiệm 54 3.3.4.2 Đánh giá kết 55 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 56 4.1 Kết luận 56 4.1.1 Kết đạt 56 4.1.2 Hạn chế 56 4.2 Hướng phát triển 56 TÀI LIỆU THAM KHẢO 57 Mẫu F6 DANH MỤC HÌNH Hình 1-1 Một số ví dụ thách thức tốn 11 Hình 2-1 Ảnh mô tả hướng di chuyển kernel (k = 3) ảnh màu .14 Hình 2-2 Biến thể Pooling Layer 15 Hình 2-3 Mốc thời gian cho đời phương phát đối tượng (1990 – 2019)[6] .16 Hình 2-4 Kiến trúc R-CNN 17 Hình 2-5 Kiến trúc Fast R-CNN 18 Hình 2-6 Kiến trúc Faster R-CNN 19 Hình 2-7 Kiến trúc Region Proposal Network (RPN) .19 Hình 2-8 IoU (Intersection over Union) .20 Hình 2-9 Minh họa bước YOLOv1 (Ảnh từ báo) 21 Hình 2-10 Minh họa kiến trúc mạng YOLOv1 (Ảnh từ báo) 21 Hình 2-11 Minh họa ý nghĩa đầu sau lớp fully connected YOLOv1 22 Hình 2-12 Hình minh họa ý nghĩ tọa độ x, y, width, height bounding box 23 Hình 2-13 Hình minh họa thuật toán đầu vào – đầu thuật toán NMS 23 Hình 2-14 Hình minh họa loss function YOLOv1 24 Hình 2-15 Kiến trúc mạng YOLOv2 .27 Hình 2-16 Cách thức hoạt động Reorg layer 27 Hình 2-17 Minh họa đầu YOLOv2 với ô lưới dự đoán bounding box .28 Hình 2-18 Ảnh minh họa kiến trúc mạng YOLOv3 30 Hình 2-19 Bảng minh họa kết YOLOv3 (thời gian độ xác) so với số phương pháp khác 31 Hình 2-20 Ảnh minh họa kiến trúc FPN 32 Hình 2-21 Các loại encoder kết thí nghiệm tương ứng (ảnh cắt từ báo [14]) 33 Hình 2-22 Ảnh minh họa convolution thông thường (bên trái) dilated convolution (bên phải) 35 Mẫu F6 Hình 2-23 Ảnh minh họa kiến trúc mạng YOLOF (Ảnh cắt từ báo[14]) .36 Hình 2-24 Bảng so sánh kết YOLOF RetinaNet (Ảnh cắt từ báo).37 Hình 2-25 Kiến trúc mạng Transformer (Ảnh từ báo)[9] 38 Hình 2-26 Trực quan hóa giá trị vector Positional Encoding 20 từ với kích thước 512 (kích thước sử dụng báo) .40 Hình 2-27 Ảnh minh họa bước cuối trình xử lý đầu vào model 41 Hình 2-28 Kiến trúc lớp Encoder .41 Hình 2-29 Kiến trúc lớp self-attention 42 Hình 2-30 Kiến trúc lớp Add & Normalize 43 Hình 2-31 Kiến trúc lớp decoder 44 Hình 2-32 Minh họa thay đổi lớp decoder so với lớp encoder .44 Hình 2-33 Quy trình xử lý đầu model Transformer 45 Hình 2-34 Kiến trúc CNN kết hợp với Transformer (Ảnh từ github model) 45 Hình 3-1 Quy trình thực nghiệm 47 Hình 3-2 Ảnh minh họa bước nhận dạng phân loại thông tin 48 Hình 3-3 Ảnh minh họa bước ánh xạ thông tin dạng text 48 Hình 3-4 Confusion Matrix 49 Hình 3-5 Đồ thị mối quan hệ precision, recall (Precision-Recall curve) 50 Hình 3-6 Ảnh minh họa phép biến đổi thêm, sửa, xóa 51 Hình 3-7 Ảnh format file csv dùng để submit cho thi RIVF2021 MC-OCR .54 Hình 3-8 Ảnh kết từ thi MC-OCR .54 Mẫu F6 DANH MỤC BẢNG Bảng 1-1 Tổng quan đầu vào – đầu toán .10 Bảng 2-1 Ví dụ đơn giản từ liệu 46 Bảng 3-1 Bảng kết thực nghiệm phương pháp Faster R-CNN, YOLOv3 YOLOF submit kết lên thi MC-OCR .54 ... tìm phương pháp mang lại kết cao 1.6 Đóng góp nghiên cứu − Tìm hiểu tổng quan phương pháp Faster R-CNN kỹ thuật Deep Learning cho toán rút trích thơng tin hóa đơn tiếng Việt 11 Mẫu F6 − Tìm hiểu. .. ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Mã số đề tài (Do CQ quản lý ghi) BÁO CÁO TỔNG KẾT Tên đề tài tiếng Việt: TÌM HIỂU PHƯƠNG PHÁP RÚT TRÍCH THƠNG TIN HĨA ĐƠN TIẾNG VIỆT Tên đề tài tiếng Anh: RESEARCH... toán Nghiên cứu trình bày phương pháp cho tốn rút trích thơng tin hóa đơn với đầu vào ảnh chụp hóa đơn đầu thơng tin hóa đơn đó, nghiên cứu chúng tơi trích xuất thơng tin tên cửa hàng, địa cửa

Ngày đăng: 20/04/2022, 09:27

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497 Khác
[3] Yu, W., Lu, N., Qi, X., Gong, P., & Xiao, R. (2020). Pick: processing key information extraction from documents using improved graph learning- convolutional networks. arXiv preprint arXiv:2004.07464 Khác
[4] Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., & Zhou, M. (2020, August). Layoutlm: Pre-training of text and layout for document image understanding.In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 1192-1200) Khác
[5] Patel, S., & Bhatt, D. (2020). Abstractive Information Extraction from Scanned Invoices (AIESI) using End-to-end Sequential Approach. arXiv preprint arXiv:2009.05728 Khác
[6] Zou, Z., Shi, Z., Guo, Y., & Ye, J. (2019). Object detection in 20 years: A survey. arXiv preprint arXiv:1905.05055 Khác
[7] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre- training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 Khác
[9] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008) Khác
[10] Ba, J. L., Kiros, J. R., & Hinton, G. E. (2016). Layer normalization. arXiv preprint arXiv:1607.06450 Khác
[11] Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788) Khác
[12] Redmon, J., & Farhadi, A. (2017). YOLO9000: better, faster, stronger. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7263-7271) Khác
[13] Redmon, J., & Farhadi, A. (2018). Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767 Khác
[14] Chen, Q., Wang, Y., Yang, T., Zhang, X., Cheng, J., & Sun, J. (2021). You only look one-level feature. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 13039-13048) Khác
[15] Yu, F., & Koltun, V. (2015). Multi-scale context aggregation by dilated convolutions. arXiv preprint arXiv:1511.07122.-----------------------Hết----------------------- Khác

HÌNH ẢNH LIÊN QUAN

7. Hình ảnh, sơ đồ minh họa chính: - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
7. Hình ảnh, sơ đồ minh họa chính: (Trang 4)
Bảng 1-1. Tổng quan về đầu vào – đầu ra của bài toán. - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Bảng 1 1. Tổng quan về đầu vào – đầu ra của bài toán (Trang 14)
Hình 1-1. Một số ví dụ về những thách thức của bài toán. - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 1 1. Một số ví dụ về những thách thức của bài toán (Trang 15)
Hình 2-2. Biến thể Pooling Layer. - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 2. Biến thể Pooling Layer (Trang 19)
Hình 2-3. Mốc thời gian cho sự ra đời các phương phát hiện đối tượng (1990 – 2019)[6]  - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 3. Mốc thời gian cho sự ra đời các phương phát hiện đối tượng (1990 – 2019)[6] (Trang 20)
Hình 2-4. Kiến trúc R-CNN. - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 4. Kiến trúc R-CNN (Trang 21)
Hình 2-5. Kiến trúc Fast R-CNN. - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 5. Kiến trúc Fast R-CNN (Trang 22)
Hình 2-7. Kiến trúc Region Proposal Network (RPN) - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 7. Kiến trúc Region Proposal Network (RPN) (Trang 23)
Hình 2-8. IoU (Intersection over Union). - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 8. IoU (Intersection over Union) (Trang 24)
Hình 2-10. Minh họa kiến trúc mạng của YOLOv1 (Ảnh từ bài báo). - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 10. Minh họa kiến trúc mạng của YOLOv1 (Ảnh từ bài báo) (Trang 25)
Hình 2-15. Kiến trúc mạng YOLOv21 - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 15. Kiến trúc mạng YOLOv21 (Trang 31)
Hình 2-16. Cách thức hoạt động của Reorg layer2. - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 16. Cách thức hoạt động của Reorg layer2 (Trang 31)
Hình 2-18. Ảnh minh họa kiến trúc mạng YOLOv31. - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 18. Ảnh minh họa kiến trúc mạng YOLOv31 (Trang 34)
Hình 2-19. Bảng minh họa kết quả của YOLOv3 (thời gian và độ chính xác) so với một số phương pháp khác - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 19. Bảng minh họa kết quả của YOLOv3 (thời gian và độ chính xác) so với một số phương pháp khác (Trang 35)
Hình 2-21. Các loại encoder và kết quả thí nghiệm tương ứng (ảnh cắt từ bài báo [14]) - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 21. Các loại encoder và kết quả thí nghiệm tương ứng (ảnh cắt từ bài báo [14]) (Trang 37)
Hình 2-22. Ảnh minh họa một convolution thông thường (bên trái) và một dilated convolution (bên phải)1 - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 22. Ảnh minh họa một convolution thông thường (bên trái) và một dilated convolution (bên phải)1 (Trang 39)
Hình 2-25. Kiến trúc mạng Transformer (Ảnh từ bài báo)[9] - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 25. Kiến trúc mạng Transformer (Ảnh từ bài báo)[9] (Trang 42)
Hình 2-26. Trực quan hóa giá trị vector Positional Encoding của 20 từ với kích thước 512 (kích thước sử dụng trong bài báo) - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 26. Trực quan hóa giá trị vector Positional Encoding của 20 từ với kích thước 512 (kích thước sử dụng trong bài báo) (Trang 44)
Hình 2-27. Ảnh minh họa bước cuối quá trình xử lý đầu vào của model1 - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 27. Ảnh minh họa bước cuối quá trình xử lý đầu vào của model1 (Trang 45)
Hình 2-29. Kiến trúc lớp self-attention. - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 29. Kiến trúc lớp self-attention (Trang 46)
Hình 2-30. Kiến trúc lớp Add & Normalize. - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 30. Kiến trúc lớp Add & Normalize (Trang 47)
Hình 2-31. Kiến trúc lớp decoder. - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 31. Kiến trúc lớp decoder (Trang 48)
Hình 2-32. Minh họa thay đổi của lớp decoder so với lớp encoder1. - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 32. Minh họa thay đổi của lớp decoder so với lớp encoder1 (Trang 48)
Hình 2-33. Quy trình xử lý đầu ra của model Transformer - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 2 33. Quy trình xử lý đầu ra của model Transformer (Trang 49)
Bảng 2-1. Ví dụ đơn giản từ bộ dữ liệu - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Bảng 2 1. Ví dụ đơn giản từ bộ dữ liệu (Trang 50)
Hình 3-2. Ảnh minh họa bước nhận dạng và phân loại thông tin. - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 3 2. Ảnh minh họa bước nhận dạng và phân loại thông tin (Trang 52)
Hình 3-4. Confusion Matrix Trong đó:  - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 3 4. Confusion Matrix Trong đó: (Trang 53)
Hình 3-6. Ảnh minh họa 3 phép biến đổi thêm, sửa, xóa14. - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 3 6. Ảnh minh họa 3 phép biến đổi thêm, sửa, xóa14 (Trang 55)
+ config_faster_rcnn.py: file dùng để thiết lập cấu hình cho phương pháp Faster RCNN.   - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
config _faster_rcnn.py: file dùng để thiết lập cấu hình cho phương pháp Faster RCNN. (Trang 56)
Hình 3-7. Ảnh format file csv dùng để submit cho cuộc thi RIVF2021 MC- MC-OCR.  - Tìm hiểu phương pháp rút trích thông tin hóa đơn tiếng việt
Hình 3 7. Ảnh format file csv dùng để submit cho cuộc thi RIVF2021 MC- MC-OCR. (Trang 58)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN