Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	58
Dung lượng	3,64 MB

Nội dung

Mẫu F6 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ SINH VIÊN NĂM 20 Tên đề tài tiếng Việt: TÌM HIỂU PHƯƠNG PHÁP YOLOV4 CHO BÀI TOÁN PHÁT HIỆN ĐỐI TƯỢNG TRONG TÀI LIỆU DẠNG ẢNH Tên đề tài tiếng Anh: YOLOV4 METHOD FOR OBJECT DETECTION IN DOCUMENT IMAGE Khoa/ Bộ môn: Công Nghệ Phần Mềm Thời gian thực hiện: 06 tháng Cán hướng dẫn: TS Nguyễn Tấn Trần Minh Khang Tham gia thực TT Họ tên, MSSV Trương Diệu Linh Chịu trách nhiệm Chủ nhiệm Điện thoại Email 0365 235 137 17520691@gm.uit.edu.vn Thành phố Hồ Chí Minh – Tháng 07 /2021 Mẫu F6 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Ngày nhận hồ sơ Mã số đề tài (Do CQ quản lý ghi) BÁO CÁO TỔNG KẾT Tên đề tài tiếng Việt: TÌM HIỂU PHƯƠNG PHÁP YOLOV4 CHO BÀI TOÁN PHÁT HIỆN ĐỐI TƯỢNG TRONG TÀI LIỆU DẠNG ẢNH Tên đề tài tiếng Anh: YOLOV4 METHOD FOR OBJECT DETECTION IN DOCUMENT IMAGE Ngày tháng năm Cán hướng dẫn (Họ tên chữ ký) Ngày 20 tháng 07 năm 2021 Sinh viên chủ nhiệm đề tài (Họ tên chữ ký) Nguyễn Tấn Trần Minh Khang Trương Diệu Linh Mẫu F6 THƠNG TIN KẾT QUẢ NGHIÊN CỨU Thơng tin chung: - Tên đề tài: Tìm hiểu phương pháp YOLOv4 cho toán Phát đối tượng tài liệu dạng ảnh - Chủ nhiệm: Trương Diệu Linh - Thành viên tham gia: Khơng - Cơ quan chủ trì: Trường Đại học Công nghệ Thông tin - Thời gian thực hiện: 06 tháng Mục tiêu: Trong phạm vi đề tài này, chúng tơi tập trung tìm hiểu giải vấn đề: − Tìm hiểu tổng quan kỹ thuật học sâu toán phát đối tượng tài liệu dạng ảnh dựa nghiên cứu có sẵn − Xây dựng liệu UIT-POD21 dựa liệu chuẩn ICDAR2017 − Nghiên cứu cài đặt thực nghiệm, tinh chỉnh tham số mơ hình phương pháp phát đối tượng thời gian thực YOLOv4 UIT-POD21 − Tổng hợp kết viết báo cáo Tính sáng tạo: Tính đề tài giải toán thực tế, xuất phát từ phát triển ứng dụng scan điện thoại, chuyển dịch tài liệu giấy thành tài liệu điện tử, xây dựng liệu ảnh tài liệu Khoa học tiếng Việt gồm ảnh PDF ảnh scan điện thoại, dẫn đến thách thức riêng biệt cho toán Các thử nghiệm mở rộng mơ hình Phát đối tượng “state-of-the-art” YOLOv4 YOLOv4x-mish Tóm tắt kết nghiên cứu: Nội dung đề tài tập trung tìm hiểu tốn Phát đối tượng tài liệu dạng ảnh, nghiên cứu chạy thực nghiệm phương pháp YOLOv4 Dựa mục tiêu đặt ra, đề tài đạt số kết sau: − Khảo sát hướng tiếp cận liên quan tới toán phương pháp Phát đối tượng dựa học sâu ứng dụng năm gần Thơng qua đó, chọn phương pháp YOLOv4 phiên mở rộng YOLOv4x-mish để chạy thực nghiệm liệu UIT-PODV Mẫu F6 − Tiến hành cài đặt mơ hình mơi trường colab, máy local điều chỉnh tham số model để phù hợp với mơ hình dự đốn cải thiện kết Kết đánh giá độ đo AP cho thấy phiên mở rộng cho kết tốt với AP 63.71% − Cung cấp đánh giá chi tiết, đầy đủ liệu UIT-PODV, kết chạy thực nghiệm mơ hình YOLOv4 YOLOv4x-mish Tên sản phẩm: Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: Kết thu từ mơ hình huấn luyện triển khai thơng qua API áp dụng để xây dựng hệ thống Phát đối tượng tài liệu dạng ảnh theo thời gian thực Hình ảnh, sơ đồ minh họa Hình Luồng xử lý trình cài đặt, chạy thực nghiệm với mơ hình YOLOv4 Cơ quan Chủ trì (ký, họ tên, đóng dấu) Chủ nhiệm đề tài (ký, họ tên) Trương Diệu Linh MỤC LỤC Chương TỔNG QUAN ĐỀ TÀI 1.1 Động lực nghiên cứu 1.2 Mục tiêu đề tài .10 1.3 Phát biểu toán 11 1.4 Đối tượng phạm vi nghiên cứu .11 1.5 Nội dung thực 12 1.6 Kết đề tài 12 1.7 Cấu trúc báo cáo đề tài .12 Chương CÁC NGHIÊN CỨU LIÊN QUAN 14 2.1 Giới thiệu tổng quan 14 2.2 Computer Vision 15 2.2.1 Giới thiệu 15 2.2.2 Phân loại .16 2.2.3 Ứng dụng 17 2.3 Object Detection 17 2.3.1 Giới thiệu 17 2.3.2 Phân loại .18 2.3.3 Ứng dụng 19 2.4 Mơ hình mạng học sâu 19 2.4.1 Mạng nơ-ron nhân tạo – ANN 19 2.4.2 Convolutional Neural Network - CNN 20 2.5 Region Proposal Network 22 2.6 Feature Pyramid Network 23 2.7 Mơ hình Phát đối tượng R-CNN 24 2.7.1 Tổng quan .24 2.7.2 R-CNN 24 2.8 Mơ hình Phát đối tượng YOLO 25 2.8.1 Tổng quan .25 2.8.2 YOLOv1 .25 2.8.3 YOLOv2 .27 2.8.4 YOLOv3 .28 2.8.5 YOLOv4 .29 2.8.6 YOLOv4x-mish 31 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ .33 3.1 Mô tả tập liệu thực nghiệm .33 3.1.1 Bộ liệu huấn luyện 33 3.1.2 Giới thiệu lớp đối tượng 34 3.1.3 Đặc điểm lớp đối tượng liệu 35 3.2 Mơ tả quy trình thực nghiệm .35 3.2.1 Thu thập tiền xử lý liệu .36 3.2.2 Cài đặt môi trường huấn luyện .37 3.2.3 Cài đặt tham số cho trình huấn luyện 38 3.2.4 Tiến hành huấn luyện model .40 3.3 Phương pháp đánh giá 40 3.3.1 Intersection over Union (IoU) 40 3.3.2 Average Precision (AP) 41 3.3.3 Mean Average Precision (mAP) 42 3.4 Đánh giá mơ hình .42 3.5 Kết 43 3.5.1 Trực quan hóa kết 43 3.5.2 Đánh giá kết 47 3.5.3 Phân tích đánh giá 48 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50 4.1 Kết luận 50 4.2 Khó khăn 50 4.3 Thuận lợi 50 4.4 Hướng phát triển 51 DANH MỤC HÌNH Hình 1-1: Ảnh chứa đối tượng nghiên cứu đề tài Màu đỏ : bảng (table) ; màu xanh lá: ảnh (figure) ; màu xanh dương: thích (caption) 10 Hình 1-2: Đầu vào đầu toán Phát đối tượng tài liệu dạng ảnh a) Ảnh đầu vào ; b) Ảnh đầu 11 Hình 2-1: Mối quan hệ AI, Machine Learning Deep Learning [13] 15 Hình 2-2: Sơ đồ mối liên hệ tác vụ computer vision 16 Hình 2-3: Ví dụ phân biệt kỹ thuật Computer Vision.[14] 18 Hình 2-4: Hình so sánh khác mơ hình one-stage two-stage.[18] 19 Hình 2-5: Hình nơ ron thần kinh [12] 19 Hình 2-6: Kiến trúc mạng nơ ron nhân tạo.[8] 20 Hình 2-7: Cấu trúc nốt mạng nơ-ron nhân tạo.[8] 20 Hình 2-8: Kiến trúc tổng quan mơ hình CNN.[15] 21 Hình 2-9: Model Region Proposal Network.[11] 22 Hình 2-10: Các mơ hình trích xuất đặc trưng.[10] 23 Hình 2-11: Kiến trúc mơ hình R-CNN.[5] 25 Hình 2-12: Hình minh họa hoạt động mơ hình one-stage (YOLO) [1] 26 Hình 2-13: Kiến trúc mơ hình YOLOv3.[17] 28 Hình 2-14: Kết so sánh đánh giá mơ hình Phát đối tượng YOLOv4 với mơ hình state-of-the-art khác.[4] 29 Hình 2-15: Kiến trúc mơ hình object detection [4] 30 Hình 2-16: Kiến trúc mạng Dense (DenseNet) [19] 30 Hình 2-17: Kết so sánh đánh giá mơ hình Phát đối tượng YOLOv4 với mơ hình state-of-the-art khác.[4] 31 Hình 2-18 a Backbone YOLOv4; b Backbone YOLOv4x-mish 32 Hình 2-19 Neck YOLOv4; b Neck sau CSP hóa [20] 32 Hình 3-1: Bảng phân chia liệu 33 Hình 3-2: Bảng phân phối lớp tồn tập liệu 34 Hình 3-3: Luồng xử lý trình cài đặt, chạy thực nghiệm với mơ hình YOLOv4 36 Hình 3-4: Cơng thức minh họa để tính IoU [16] 41 Hình 3-5: Precision and recall [20] 42 Hình 3-6: Biểu đồ giá trị độ lỗi sau vòng lặp độ đo mAP đánh giá trình huấn luyện tập đánh giá (validation) với mơ hình YOLOv4 44 Hình 3-7: Biểu đồ giá trị độ lỗi sau vòng lặp độ đo mAP đánh giá trình huấn luyện tập đánh giá (validation) với mơ hình YOLOv4 44 Hình 3-8: Ảnh kết dự đoán tốt tập liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với model yolov4-custom_6000.weights; c) ảnh dự đoán với model yolov4-custom_best.weights 45 Hình 3-9: Ảnh kết dự đoán xấu tập liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với model yolov4-custom_6000.weights; c) ảnh dự đoán với model yolov4-custom_best.weights 45 Hình 3-10: Ảnh kết dự đốn tốt tập liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với model yolov4x-mish_6000.weights; c) ảnh dự đoán với model yolov4x-mish_best.weights 46 Hình 3-11: Ảnh kết dự đốn xấu tập liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với model yolov4x-mish_6000.weights; c) ảnh dự đoán với model yolov4x-mish_best.weights 46 Hình 3-12: Biểu đồ phân phối lớp tập liệu huấn luyện 48 Hình 3-13: Biểu đồ phân phối lớp tập liệu kiểm thử 49 Hình 3-14: Biểu đồ phân phối lớp tập liệu kiểm thử 49 DANH MỤC BẢNG Bảng 3-1: Mô tả ý nghĩa giá trị thuộc tính file annotations định dạng txt 37 Bảng 3-2: Bảng đánh giá kết dự đốn dựa mơ hình YOLOv4 43 Bảng 3-3: Bảng đánh giá kết dự đốn dựa mơ hình YOLOv4x_mish 43 ... với liệu 1.2 Mục tiêu đề tài • Tìm hiểu tổng quan kỹ thuật học sâu toán Phát đối tượng tài liệu dạng ảnh dựa nghiên cứu có sẵn 10 • Xây dựng liệu cho tốn Phát đối tượng tài liệu dạng ảnh Trong. .. đề tài ? ?Phát đối tượng tài liệu dạng ảnh phương pháp học sâu” bao gồm: • Tìm hiểu tổng quan tốn Phát đối tượng tài liệu dạng ảnh từ nghiên cứu có • Thu thập, gán nhãn liệu ảnh • Nghiên cứu phương. .. sơ Mã số đề tài (Do CQ quản lý ghi) BÁO CÁO TỔNG KẾT Tên đề tài tiếng Việt: TÌM HIỂU PHƯƠNG PHÁP YOLOV4 CHO BÀI TOÁN PHÁT HIỆN ĐỐI TƯỢNG TRONG TÀI LIỆU DẠNG ẢNH Tên đề tài tiếng Anh: YOLOV4 METHOD

Ngày đăng: 20/04/2022, 09:27

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1] Redmon J, Divvala S, Girshick R, et al. “You only look once: Unified, real-time object detection” [C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788

Sách, tạp chí

Tiêu đề:	You only look once: Unified, real-time object detection

[2] Redmon J, Farhadi A. “YOLO9000: better, faster, stronger” [C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 7263- 7271

Sách, tạp chí

Tiêu đề:	YOLO9000: better, faster, stronger

[4] Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao. “YOLOv4: Optimal Speed and Accuracy of Object Detection” 23 Apr 2020 :arXiv:2004.10934

Sách, tạp chí

Tiêu đề:	YOLOv4: Optimal Speed and Accuracy of Object Detection

[5] Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik. “Rich feature hierarchies for accurate object detection and semantic segmentation”[C]// The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014, pp. 580-587

Sách, tạp chí

Tiêu đề:	Rich feature hierarchies for accurate object detection and semantic segmentation

[6] Y. LeCun, Y. Bengio, and G. Hinton, "Deep learning," NATURE, vol. 521, no.7553, pp. 436-444, 2015

Sách, tạp chí

Tiêu đề:	Deep learning

[7] Vaibhaw Singh Chandel, “Selective Search for Object Detection (C++ / Python)” 18 09 2017. [Online]. Available: https://www.learnopencv.com/selective-search-for-object-detection-cpp-python/

Sách, tạp chí

Tiêu đề:	Selective Search for Object Detection (C++ / Python)

[8] Arden Dertat, "Applied Deep Learning - Part 1: Artificial Neural Networks," 08 08 2017. [Online]. Available: https://towardsdatascience.com

Sách, tạp chí

Tiêu đề:	Applied Deep Learning - Part 1: Artificial Neural Networks

[9] Oleksii Sheremet, “Intersection over union (IoU) calculation for evaluating an image segmentation model ”Jul 25 2020. [Online].Available:https://towardsdatascience.com/intersection-over-union-iou-calculation-for-evaluating-an-image-segmentation-model-822e2e84686

Sách, tạp chí

Tiêu đề:	Intersection over union (IoU) calculation for evaluating an image segmentation model

[10] Tsung-Yi Lin, Piotr Dollar , Ross Girshick , Kaiming He, Bharath Hariharan , and Serge Belongie, “Feature Pyramid Networks for Object Detection”

Sách, tạp chí

Tiêu đề:	Feature Pyramid Networks for Object Detection

[11] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. arXiv:1506.01497v3, 2016

Sách, tạp chí

Tiêu đề:	Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

[12] Stanford CS class CS231n: Convolutional Neural Networks for Visual Recognition, “Neural Networks Part 1: Setting up the Architecture ”. [Online].Available: https://cs231n.github.io/neural-networks-1/

Sách, tạp chí

Tiêu đề:	Neural Networks Part 1: Setting up the Architecture

[13] Michael Copeland, “What’s the Difference Between Artificial Intelligence, Machine Learning and Deep Learning?” , July 29, 2016. [Online].Available:https://blogs.nvidia.com/blog/2016/07/29/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/

Sách, tạp chí

Tiêu đề:	What’s the Difference Between Artificial Intelligence, Machine Learning and Deep Learning

[14] Arthur Ouaknine, “Review of Deep Learning Algorithms for Object Detection”, Feb 5, 2018. [Online]. Available:https://medium0.com/zylapp/review-of-deep-learning-algorithms-for-object-detection-c1f3d437b852

Sách, tạp chí

Tiêu đề:	Review of Deep Learning Algorithms for Object Detection

[15] Prabhu, “Understanding of Convolutional Neural Network (CNN) — Deep Learning” , Mar 4, 2018. [Online]. Available:https://medium0.com/@RaghavPrabhu/understanding-of-convolutional-neural-network-cnn-deep-learning-99760835f148

Sách, tạp chí

Tiêu đề:	Understanding of Convolutional Neural Network (CNN) — Deep Learning

[16] Adrian Rosebrock , “Intersection over Union (IoU) for object detection”, 2016 [Online]. Available: https://www.pyimagesearch.com/2016/11/07/intersection-over-union-iou-for-object-detection/

Sách, tạp chí

Tiêu đề:	Intersection over Union (IoU) for object detection

[17] Paolo F. Valdez, “Apple defect detection using deep learning-based object detection for better post har-vest handling”, ICLR Conference, arXiv:2005.06089, May 2020

Sách, tạp chí

Tiêu đề:	Apple defect detection using deep learning-based object detection for better post har-vest handling

[18] Patrick Poirson, Phil Ammirato,… “Fast Single Shot Detection and Pose Estimation” 2016 Fourth International Conference on 3D Vision, (3DV) – IEEE, arXiv:1609.05590v, Sep 2016

Sách, tạp chí

Tiêu đề:	Fast Single Shot Detection and Pose Estimation

[19] Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger , “Densely Connected Convolutional Networks”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, arXiv:1608.06993, Jan 2018

Sách, tạp chí

Tiêu đề:	Densely Connected Convolutional Networks

[20] Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao, “Scaled- YOLOv4: Scaling Cross Stage Partial Network”, 22 Feb 2021, arXiv:2011.08036v2

Sách, tạp chí

Tiêu đề:	Scaled-YOLOv4: Scaling Cross Stage Partial Network

[3] Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018

Khác

Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh

Mô hình Phát hiện đối tượng YOLO