1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh

58 243 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Mẫu F6 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ SINH VIÊN NĂM 20 Tên đề tài tiếng Việt: TÌM HIỂU PHƯƠNG PHÁP YOLOV4 CHO BÀI TOÁN PHÁT HIỆN ĐỐI TƯỢNG TRONG TÀI LIỆU DẠNG ẢNH Tên đề tài tiếng Anh: YOLOV4 METHOD FOR OBJECT DETECTION IN DOCUMENT IMAGE Khoa/ Bộ môn: Công Nghệ Phần Mềm Thời gian thực hiện: 06 tháng Cán hướng dẫn: TS Nguyễn Tấn Trần Minh Khang Tham gia thực TT Họ tên, MSSV Trương Diệu Linh Chịu trách nhiệm Chủ nhiệm Điện thoại Email 0365 235 137 17520691@gm.uit.edu.vn Thành phố Hồ Chí Minh – Tháng 07 /2021 Mẫu F6 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Ngày nhận hồ sơ Mã số đề tài (Do CQ quản lý ghi) BÁO CÁO TỔNG KẾT Tên đề tài tiếng Việt: TÌM HIỂU PHƯƠNG PHÁP YOLOV4 CHO BÀI TOÁN PHÁT HIỆN ĐỐI TƯỢNG TRONG TÀI LIỆU DẠNG ẢNH Tên đề tài tiếng Anh: YOLOV4 METHOD FOR OBJECT DETECTION IN DOCUMENT IMAGE Ngày tháng năm Cán hướng dẫn (Họ tên chữ ký) Ngày 20 tháng 07 năm 2021 Sinh viên chủ nhiệm đề tài (Họ tên chữ ký) Nguyễn Tấn Trần Minh Khang Trương Diệu Linh Mẫu F6 THƠNG TIN KẾT QUẢ NGHIÊN CỨU Thơng tin chung: - Tên đề tài: Tìm hiểu phương pháp YOLOv4 cho toán Phát đối tượng tài liệu dạng ảnh - Chủ nhiệm: Trương Diệu Linh - Thành viên tham gia: Khơng - Cơ quan chủ trì: Trường Đại học Công nghệ Thông tin - Thời gian thực hiện: 06 tháng Mục tiêu: Trong phạm vi đề tài này, chúng tơi tập trung tìm hiểu giải vấn đề: − Tìm hiểu tổng quan kỹ thuật học sâu toán phát đối tượng tài liệu dạng ảnh dựa nghiên cứu có sẵn − Xây dựng liệu UIT-POD21 dựa liệu chuẩn ICDAR2017 − Nghiên cứu cài đặt thực nghiệm, tinh chỉnh tham số mơ hình phương pháp phát đối tượng thời gian thực YOLOv4 UIT-POD21 − Tổng hợp kết viết báo cáo Tính sáng tạo: Tính đề tài giải toán thực tế, xuất phát từ phát triển ứng dụng scan điện thoại, chuyển dịch tài liệu giấy thành tài liệu điện tử, xây dựng liệu ảnh tài liệu Khoa học tiếng Việt gồm ảnh PDF ảnh scan điện thoại, dẫn đến thách thức riêng biệt cho toán Các thử nghiệm mở rộng mơ hình Phát đối tượng “state-of-the-art” YOLOv4 YOLOv4x-mish Tóm tắt kết nghiên cứu: Nội dung đề tài tập trung tìm hiểu tốn Phát đối tượng tài liệu dạng ảnh, nghiên cứu chạy thực nghiệm phương pháp YOLOv4 Dựa mục tiêu đặt ra, đề tài đạt số kết sau: − Khảo sát hướng tiếp cận liên quan tới toán phương pháp Phát đối tượng dựa học sâu ứng dụng năm gần Thơng qua đó, chọn phương pháp YOLOv4 phiên mở rộng YOLOv4x-mish để chạy thực nghiệm liệu UIT-PODV Mẫu F6 − Tiến hành cài đặt mơ hình mơi trường colab, máy local điều chỉnh tham số model để phù hợp với mơ hình dự đốn cải thiện kết Kết đánh giá độ đo AP cho thấy phiên mở rộng cho kết tốt với AP 63.71% − Cung cấp đánh giá chi tiết, đầy đủ liệu UIT-PODV, kết chạy thực nghiệm mơ hình YOLOv4 YOLOv4x-mish Tên sản phẩm: Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: Kết thu từ mơ hình huấn luyện triển khai thơng qua API áp dụng để xây dựng hệ thống Phát đối tượng tài liệu dạng ảnh theo thời gian thực Hình ảnh, sơ đồ minh họa Hình Luồng xử lý trình cài đặt, chạy thực nghiệm với mơ hình YOLOv4 Cơ quan Chủ trì (ký, họ tên, đóng dấu) Chủ nhiệm đề tài (ký, họ tên) Trương Diệu Linh MỤC LỤC Chương TỔNG QUAN ĐỀ TÀI 1.1 Động lực nghiên cứu 1.2 Mục tiêu đề tài .10 1.3 Phát biểu toán 11 1.4 Đối tượng phạm vi nghiên cứu .11 1.5 Nội dung thực 12 1.6 Kết đề tài 12 1.7 Cấu trúc báo cáo đề tài .12 Chương CÁC NGHIÊN CỨU LIÊN QUAN 14 2.1 Giới thiệu tổng quan 14 2.2 Computer Vision 15 2.2.1 Giới thiệu 15 2.2.2 Phân loại .16 2.2.3 Ứng dụng 17 2.3 Object Detection 17 2.3.1 Giới thiệu 17 2.3.2 Phân loại .18 2.3.3 Ứng dụng 19 2.4 Mơ hình mạng học sâu 19 2.4.1 Mạng nơ-ron nhân tạo – ANN 19 2.4.2 Convolutional Neural Network - CNN 20 2.5 Region Proposal Network 22 2.6 Feature Pyramid Network 23 2.7 Mơ hình Phát đối tượng R-CNN 24 2.7.1 Tổng quan .24 2.7.2 R-CNN 24 2.8 Mơ hình Phát đối tượng YOLO 25 2.8.1 Tổng quan .25 2.8.2 YOLOv1 .25 2.8.3 YOLOv2 .27 2.8.4 YOLOv3 .28 2.8.5 YOLOv4 .29 2.8.6 YOLOv4x-mish 31 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ .33 3.1 Mô tả tập liệu thực nghiệm .33 3.1.1 Bộ liệu huấn luyện 33 3.1.2 Giới thiệu lớp đối tượng 34 3.1.3 Đặc điểm lớp đối tượng liệu 35 3.2 Mơ tả quy trình thực nghiệm .35 3.2.1 Thu thập tiền xử lý liệu .36 3.2.2 Cài đặt môi trường huấn luyện .37 3.2.3 Cài đặt tham số cho trình huấn luyện 38 3.2.4 Tiến hành huấn luyện model .40 3.3 Phương pháp đánh giá 40 3.3.1 Intersection over Union (IoU) 40 3.3.2 Average Precision (AP) 41 3.3.3 Mean Average Precision (mAP) 42 3.4 Đánh giá mơ hình .42 3.5 Kết 43 3.5.1 Trực quan hóa kết 43 3.5.2 Đánh giá kết 47 3.5.3 Phân tích đánh giá 48 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50 4.1 Kết luận 50 4.2 Khó khăn 50 4.3 Thuận lợi 50 4.4 Hướng phát triển 51 DANH MỤC HÌNH Hình 1-1: Ảnh chứa đối tượng nghiên cứu đề tài Màu đỏ : bảng (table) ; màu xanh lá: ảnh (figure) ; màu xanh dương: thích (caption) 10 Hình 1-2: Đầu vào đầu toán Phát đối tượng tài liệu dạng ảnh a) Ảnh đầu vào ; b) Ảnh đầu 11 Hình 2-1: Mối quan hệ AI, Machine Learning Deep Learning [13] 15 Hình 2-2: Sơ đồ mối liên hệ tác vụ computer vision 16 Hình 2-3: Ví dụ phân biệt kỹ thuật Computer Vision.[14] 18 Hình 2-4: Hình so sánh khác mơ hình one-stage two-stage.[18] 19 Hình 2-5: Hình nơ ron thần kinh [12] 19 Hình 2-6: Kiến trúc mạng nơ ron nhân tạo.[8] 20 Hình 2-7: Cấu trúc nốt mạng nơ-ron nhân tạo.[8] 20 Hình 2-8: Kiến trúc tổng quan mơ hình CNN.[15] 21 Hình 2-9: Model Region Proposal Network.[11] 22 Hình 2-10: Các mơ hình trích xuất đặc trưng.[10] 23 Hình 2-11: Kiến trúc mơ hình R-CNN.[5] 25 Hình 2-12: Hình minh họa hoạt động mơ hình one-stage (YOLO) [1] 26 Hình 2-13: Kiến trúc mơ hình YOLOv3.[17] 28 Hình 2-14: Kết so sánh đánh giá mơ hình Phát đối tượng YOLOv4 với mơ hình state-of-the-art khác.[4] 29 Hình 2-15: Kiến trúc mơ hình object detection [4] 30 Hình 2-16: Kiến trúc mạng Dense (DenseNet) [19] 30 Hình 2-17: Kết so sánh đánh giá mơ hình Phát đối tượng YOLOv4 với mơ hình state-of-the-art khác.[4] 31 Hình 2-18 a Backbone YOLOv4; b Backbone YOLOv4x-mish 32 Hình 2-19 Neck YOLOv4; b Neck sau CSP hóa [20] 32 Hình 3-1: Bảng phân chia liệu 33 Hình 3-2: Bảng phân phối lớp tồn tập liệu 34 Hình 3-3: Luồng xử lý trình cài đặt, chạy thực nghiệm với mơ hình YOLOv4 36 Hình 3-4: Cơng thức minh họa để tính IoU [16] 41 Hình 3-5: Precision and recall [20] 42 Hình 3-6: Biểu đồ giá trị độ lỗi sau vòng lặp độ đo mAP đánh giá trình huấn luyện tập đánh giá (validation) với mơ hình YOLOv4 44 Hình 3-7: Biểu đồ giá trị độ lỗi sau vòng lặp độ đo mAP đánh giá trình huấn luyện tập đánh giá (validation) với mơ hình YOLOv4 44 Hình 3-8: Ảnh kết dự đoán tốt tập liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với model yolov4-custom_6000.weights; c) ảnh dự đoán với model yolov4-custom_best.weights 45 Hình 3-9: Ảnh kết dự đoán xấu tập liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với model yolov4-custom_6000.weights; c) ảnh dự đoán với model yolov4-custom_best.weights 45 Hình 3-10: Ảnh kết dự đốn tốt tập liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với model yolov4x-mish_6000.weights; c) ảnh dự đoán với model yolov4x-mish_best.weights 46 Hình 3-11: Ảnh kết dự đốn xấu tập liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với model yolov4x-mish_6000.weights; c) ảnh dự đoán với model yolov4x-mish_best.weights 46 Hình 3-12: Biểu đồ phân phối lớp tập liệu huấn luyện 48 Hình 3-13: Biểu đồ phân phối lớp tập liệu kiểm thử 49 Hình 3-14: Biểu đồ phân phối lớp tập liệu kiểm thử 49 DANH MỤC BẢNG Bảng 3-1: Mô tả ý nghĩa giá trị thuộc tính file annotations định dạng txt 37 Bảng 3-2: Bảng đánh giá kết dự đốn dựa mơ hình YOLOv4 43 Bảng 3-3: Bảng đánh giá kết dự đốn dựa mơ hình YOLOv4x_mish 43 ... với liệu 1.2 Mục tiêu đề tài • Tìm hiểu tổng quan kỹ thuật học sâu toán Phát đối tượng tài liệu dạng ảnh dựa nghiên cứu có sẵn 10 • Xây dựng liệu cho tốn Phát đối tượng tài liệu dạng ảnh Trong. .. đề tài ? ?Phát đối tượng tài liệu dạng ảnh phương pháp học sâu” bao gồm: • Tìm hiểu tổng quan tốn Phát đối tượng tài liệu dạng ảnh từ nghiên cứu có • Thu thập, gán nhãn liệu ảnh • Nghiên cứu phương. .. sơ Mã số đề tài (Do CQ quản lý ghi) BÁO CÁO TỔNG KẾT Tên đề tài tiếng Việt: TÌM HIỂU PHƯƠNG PHÁP YOLOV4 CHO BÀI TOÁN PHÁT HIỆN ĐỐI TƯỢNG TRONG TÀI LIỆU DẠNG ẢNH Tên đề tài tiếng Anh: YOLOV4 METHOD

Ngày đăng: 20/04/2022, 09:27

HÌNH ẢNH LIÊN QUAN

05 CNN Mô hình mạng tích chập – - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
05 CNN Mô hình mạng tích chập – (Trang 11)
Hình 2-1: Mối quan hệ giữa AI, Machine Learning và Deep Learning. [13] Trong  đồ  án  này,  nhóm  tôi  quyết  định  chọn  lĩnh  vực  Thị  giác  máy  tính  (Computer Vision) –  một nhánh nhỏ của Deep Learning để thực hiện nghiên cứu và  ứng dụng cho bài to - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 2 1: Mối quan hệ giữa AI, Machine Learning và Deep Learning. [13] Trong đồ án này, nhóm tôi quyết định chọn lĩnh vực Thị giác máy tính (Computer Vision) – một nhánh nhỏ của Deep Learning để thực hiện nghiên cứu và ứng dụng cho bài to (Trang 19)
• Phân loại hình ảnh (Image Classification) là một kỹ thuật liên quan đến việc dự đoán lớp của một đối tượng trong một hình ảnh - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
h ân loại hình ảnh (Image Classification) là một kỹ thuật liên quan đến việc dự đoán lớp của một đối tượng trong một hình ảnh (Trang 20)
Hình 2-4: Hình so sánh sự khác nhau của mô hình one-stage và two-stage.[18] - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 2 4: Hình so sánh sự khác nhau của mô hình one-stage và two-stage.[18] (Trang 23)
Hình 2-6: Kiến trúc mạng nơ ron nhân tạo.[8] - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 2 6: Kiến trúc mạng nơ ron nhân tạo.[8] (Trang 24)
vision) để giải quyết các bài toán như nhận dạng hình ảnh, phân loại hình ảnh, Phát hiện đối tượng , nhận diện khuôn mặt, …v.v - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
vision để giải quyết các bài toán như nhận dạng hình ảnh, phân loại hình ảnh, Phát hiện đối tượng , nhận diện khuôn mặt, …v.v (Trang 25)
Hình 2-9: Model Region Proposal Network.[11] - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 2 9: Model Region Proposal Network.[11] (Trang 26)
Hình 2-10: Các mô hình trích xuất đặc trưng.[10] - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 2 10: Các mô hình trích xuất đặc trưng.[10] (Trang 27)
Hình 2-11: Kiến trúc mô hình R-CNN.[5] - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 2 11: Kiến trúc mô hình R-CNN.[5] (Trang 29)
Hình 2-13: Kiến trúc mô hình YOLOv3.[17] - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 2 13: Kiến trúc mô hình YOLOv3.[17] (Trang 32)
Hình 2-15: Kiến trúc mô hình objectdetection [4] - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 2 15: Kiến trúc mô hình objectdetection [4] (Trang 34)
• Head (detector): Vai trò của Head trong mô hình one-stage là thực hiện các dự đoán dày đặc (dense prediction) - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
ead (detector): Vai trò của Head trong mô hình one-stage là thực hiện các dự đoán dày đặc (dense prediction) (Trang 35)
Hình 2-18 a. Backbone YOLOv4; b. Backbone YOLOv4x-mish - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 2 18 a. Backbone YOLOv4; b. Backbone YOLOv4x-mish (Trang 36)
Hình 2-19 Neck của YOLOv4; b. Neck sau khi được CSP hóa [20] - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 2 19 Neck của YOLOv4; b. Neck sau khi được CSP hóa [20] (Trang 36)
Hình 3-1: Bảng phân chia bộ dữ liệu - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 3 1: Bảng phân chia bộ dữ liệu (Trang 37)
Hình 3-2: Bảng phân phối các lớp của toàn bộ tập dữ liệu - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 3 2: Bảng phân phối các lớp của toàn bộ tập dữ liệu (Trang 38)
Hình 3-3: Luồng xử lý quá trình cài đặt, chạy thực nghiệm với mô hình YOLOv4 - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 3 3: Luồng xử lý quá trình cài đặt, chạy thực nghiệm với mô hình YOLOv4 (Trang 40)
Bảng 3-1: Mô tả ý nghĩa giá trị các thuộc tính trong file annotations định dạng txt - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Bảng 3 1: Mô tả ý nghĩa giá trị các thuộc tính trong file annotations định dạng txt (Trang 41)
o Makefile: file chứa các thông số cấu hình máy để chạy mô hình. Ở đây, - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
o Makefile: file chứa các thông số cấu hình máy để chạy mô hình. Ở đây, (Trang 42)
o yolov4x-mish.cf g: file cấu hình cho YOLOv4x-mish. - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
o yolov4x-mish.cf g: file cấu hình cho YOLOv4x-mish (Trang 43)
Bảng 3-3: Bảng đánh giá kết quả dự đoán dựa trên mô hình YOLOv4x_mish - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Bảng 3 3: Bảng đánh giá kết quả dự đoán dựa trên mô hình YOLOv4x_mish (Trang 47)
Bảng 3-2: Bảng đánh giá kết quả dự đoán dựa trên mô hình YOLOv4 •Mô hình YOLOv4x_mish:  - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Bảng 3 2: Bảng đánh giá kết quả dự đoán dựa trên mô hình YOLOv4 •Mô hình YOLOv4x_mish: (Trang 47)
• Mô hình YOLOv4x_mish: - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
h ình YOLOv4x_mish: (Trang 48)
• Mô hình YOLOv4 - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
h ình YOLOv4 (Trang 49)
Hình 3-8: Ảnh kết quả dự đoán tốt trên tập dữ liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với model yolov4-custom_6000.weights; c)  ảnh dự đoán với model  - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 3 8: Ảnh kết quả dự đoán tốt trên tập dữ liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với model yolov4-custom_6000.weights; c) ảnh dự đoán với model (Trang 49)
• Mô hình YOLOv4x_mish - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
h ình YOLOv4x_mish (Trang 50)
Hình 3-10: Ảnh kết quả dự đoán tốt trên tập dữ liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với model yolov4x-mish_6000.weights; c)  ảnh dự đoán với model  - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 3 10: Ảnh kết quả dự đoán tốt trên tập dữ liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với model yolov4x-mish_6000.weights; c) ảnh dự đoán với model (Trang 50)
Hình 3-12: Biểu đồ phân phối các lớp của tập dữ liệu huấn luyện1303 - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 3 12: Biểu đồ phân phối các lớp của tập dữ liệu huấn luyện1303 (Trang 52)
Hình 3-14: Biểu đồ phân phối các lớp của tập dữ liệu kiểm thử219 - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 3 14: Biểu đồ phân phối các lớp của tập dữ liệu kiểm thử219 (Trang 53)
Hình 3-13: Biểu đồ phân phối các lớp của tập dữ liệu kiểm thử - Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh
Hình 3 13: Biểu đồ phân phối các lớp của tập dữ liệu kiểm thử (Trang 53)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w