Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 58 trang
THÔNG TIN TÀI LIỆU
Nội dung
Mẫu F6 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ SINH VIÊN NĂM 20 Tên đề tài tiếng Việt: TÌM HIỂU PHƯƠNG PHÁP YOLOV4 CHO BÀI TOÁN PHÁT HIỆN ĐỐI TƯỢNG TRONG TÀI LIỆU DẠNG ẢNH Tên đề tài tiếng Anh: YOLOV4 METHOD FOR OBJECT DETECTION IN DOCUMENT IMAGE Khoa/ Bộ môn: Công Nghệ Phần Mềm Thời gian thực hiện: 06 tháng Cán hướng dẫn: TS Nguyễn Tấn Trần Minh Khang Tham gia thực TT Họ tên, MSSV Trương Diệu Linh Chịu trách nhiệm Chủ nhiệm Điện thoại Email 0365 235 137 17520691@gm.uit.edu.vn Thành phố Hồ Chí Minh – Tháng 07 /2021 Mẫu F6 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Ngày nhận hồ sơ Mã số đề tài (Do CQ quản lý ghi) BÁO CÁO TỔNG KẾT Tên đề tài tiếng Việt: TÌM HIỂU PHƯƠNG PHÁP YOLOV4 CHO BÀI TOÁN PHÁT HIỆN ĐỐI TƯỢNG TRONG TÀI LIỆU DẠNG ẢNH Tên đề tài tiếng Anh: YOLOV4 METHOD FOR OBJECT DETECTION IN DOCUMENT IMAGE Ngày tháng năm Cán hướng dẫn (Họ tên chữ ký) Ngày 20 tháng 07 năm 2021 Sinh viên chủ nhiệm đề tài (Họ tên chữ ký) Nguyễn Tấn Trần Minh Khang Trương Diệu Linh Mẫu F6 THƠNG TIN KẾT QUẢ NGHIÊN CỨU Thơng tin chung: - Tên đề tài: Tìm hiểu phương pháp YOLOv4 cho toán Phát đối tượng tài liệu dạng ảnh - Chủ nhiệm: Trương Diệu Linh - Thành viên tham gia: Khơng - Cơ quan chủ trì: Trường Đại học Công nghệ Thông tin - Thời gian thực hiện: 06 tháng Mục tiêu: Trong phạm vi đề tài này, chúng tơi tập trung tìm hiểu giải vấn đề: − Tìm hiểu tổng quan kỹ thuật học sâu toán phát đối tượng tài liệu dạng ảnh dựa nghiên cứu có sẵn − Xây dựng liệu UIT-POD21 dựa liệu chuẩn ICDAR2017 − Nghiên cứu cài đặt thực nghiệm, tinh chỉnh tham số mơ hình phương pháp phát đối tượng thời gian thực YOLOv4 UIT-POD21 − Tổng hợp kết viết báo cáo Tính sáng tạo: Tính đề tài giải toán thực tế, xuất phát từ phát triển ứng dụng scan điện thoại, chuyển dịch tài liệu giấy thành tài liệu điện tử, xây dựng liệu ảnh tài liệu Khoa học tiếng Việt gồm ảnh PDF ảnh scan điện thoại, dẫn đến thách thức riêng biệt cho toán Các thử nghiệm mở rộng mơ hình Phát đối tượng “state-of-the-art” YOLOv4 YOLOv4x-mish Tóm tắt kết nghiên cứu: Nội dung đề tài tập trung tìm hiểu tốn Phát đối tượng tài liệu dạng ảnh, nghiên cứu chạy thực nghiệm phương pháp YOLOv4 Dựa mục tiêu đặt ra, đề tài đạt số kết sau: − Khảo sát hướng tiếp cận liên quan tới toán phương pháp Phát đối tượng dựa học sâu ứng dụng năm gần Thơng qua đó, chọn phương pháp YOLOv4 phiên mở rộng YOLOv4x-mish để chạy thực nghiệm liệu UIT-PODV Mẫu F6 − Tiến hành cài đặt mơ hình mơi trường colab, máy local điều chỉnh tham số model để phù hợp với mơ hình dự đốn cải thiện kết Kết đánh giá độ đo AP cho thấy phiên mở rộng cho kết tốt với AP 63.71% − Cung cấp đánh giá chi tiết, đầy đủ liệu UIT-PODV, kết chạy thực nghiệm mơ hình YOLOv4 YOLOv4x-mish Tên sản phẩm: Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: Kết thu từ mơ hình huấn luyện triển khai thơng qua API áp dụng để xây dựng hệ thống Phát đối tượng tài liệu dạng ảnh theo thời gian thực Hình ảnh, sơ đồ minh họa Hình Luồng xử lý trình cài đặt, chạy thực nghiệm với mơ hình YOLOv4 Cơ quan Chủ trì (ký, họ tên, đóng dấu) Chủ nhiệm đề tài (ký, họ tên) Trương Diệu Linh MỤC LỤC Chương TỔNG QUAN ĐỀ TÀI 1.1 Động lực nghiên cứu 1.2 Mục tiêu đề tài .10 1.3 Phát biểu toán 11 1.4 Đối tượng phạm vi nghiên cứu .11 1.5 Nội dung thực 12 1.6 Kết đề tài 12 1.7 Cấu trúc báo cáo đề tài .12 Chương CÁC NGHIÊN CỨU LIÊN QUAN 14 2.1 Giới thiệu tổng quan 14 2.2 Computer Vision 15 2.2.1 Giới thiệu 15 2.2.2 Phân loại .16 2.2.3 Ứng dụng 17 2.3 Object Detection 17 2.3.1 Giới thiệu 17 2.3.2 Phân loại .18 2.3.3 Ứng dụng 19 2.4 Mơ hình mạng học sâu 19 2.4.1 Mạng nơ-ron nhân tạo – ANN 19 2.4.2 Convolutional Neural Network - CNN 20 2.5 Region Proposal Network 22 2.6 Feature Pyramid Network 23 2.7 Mơ hình Phát đối tượng R-CNN 24 2.7.1 Tổng quan .24 2.7.2 R-CNN 24 2.8 Mơ hình Phát đối tượng YOLO 25 2.8.1 Tổng quan .25 2.8.2 YOLOv1 .25 2.8.3 YOLOv2 .27 2.8.4 YOLOv3 .28 2.8.5 YOLOv4 .29 2.8.6 YOLOv4x-mish 31 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ .33 3.1 Mô tả tập liệu thực nghiệm .33 3.1.1 Bộ liệu huấn luyện 33 3.1.2 Giới thiệu lớp đối tượng 34 3.1.3 Đặc điểm lớp đối tượng liệu 35 3.2 Mơ tả quy trình thực nghiệm .35 3.2.1 Thu thập tiền xử lý liệu .36 3.2.2 Cài đặt môi trường huấn luyện .37 3.2.3 Cài đặt tham số cho trình huấn luyện 38 3.2.4 Tiến hành huấn luyện model .40 3.3 Phương pháp đánh giá 40 3.3.1 Intersection over Union (IoU) 40 3.3.2 Average Precision (AP) 41 3.3.3 Mean Average Precision (mAP) 42 3.4 Đánh giá mơ hình .42 3.5 Kết 43 3.5.1 Trực quan hóa kết 43 3.5.2 Đánh giá kết 47 3.5.3 Phân tích đánh giá 48 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50 4.1 Kết luận 50 4.2 Khó khăn 50 4.3 Thuận lợi 50 4.4 Hướng phát triển 51 DANH MỤC HÌNH Hình 1-1: Ảnh chứa đối tượng nghiên cứu đề tài Màu đỏ : bảng (table) ; màu xanh lá: ảnh (figure) ; màu xanh dương: thích (caption) 10 Hình 1-2: Đầu vào đầu toán Phát đối tượng tài liệu dạng ảnh a) Ảnh đầu vào ; b) Ảnh đầu 11 Hình 2-1: Mối quan hệ AI, Machine Learning Deep Learning [13] 15 Hình 2-2: Sơ đồ mối liên hệ tác vụ computer vision 16 Hình 2-3: Ví dụ phân biệt kỹ thuật Computer Vision.[14] 18 Hình 2-4: Hình so sánh khác mơ hình one-stage two-stage.[18] 19 Hình 2-5: Hình nơ ron thần kinh [12] 19 Hình 2-6: Kiến trúc mạng nơ ron nhân tạo.[8] 20 Hình 2-7: Cấu trúc nốt mạng nơ-ron nhân tạo.[8] 20 Hình 2-8: Kiến trúc tổng quan mơ hình CNN.[15] 21 Hình 2-9: Model Region Proposal Network.[11] 22 Hình 2-10: Các mơ hình trích xuất đặc trưng.[10] 23 Hình 2-11: Kiến trúc mơ hình R-CNN.[5] 25 Hình 2-12: Hình minh họa hoạt động mơ hình one-stage (YOLO) [1] 26 Hình 2-13: Kiến trúc mơ hình YOLOv3.[17] 28 Hình 2-14: Kết so sánh đánh giá mơ hình Phát đối tượng YOLOv4 với mơ hình state-of-the-art khác.[4] 29 Hình 2-15: Kiến trúc mơ hình object detection [4] 30 Hình 2-16: Kiến trúc mạng Dense (DenseNet) [19] 30 Hình 2-17: Kết so sánh đánh giá mơ hình Phát đối tượng YOLOv4 với mơ hình state-of-the-art khác.[4] 31 Hình 2-18 a Backbone YOLOv4; b Backbone YOLOv4x-mish 32 Hình 2-19 Neck YOLOv4; b Neck sau CSP hóa [20] 32 Hình 3-1: Bảng phân chia liệu 33 Hình 3-2: Bảng phân phối lớp tồn tập liệu 34 Hình 3-3: Luồng xử lý trình cài đặt, chạy thực nghiệm với mơ hình YOLOv4 36 Hình 3-4: Cơng thức minh họa để tính IoU [16] 41 Hình 3-5: Precision and recall [20] 42 Hình 3-6: Biểu đồ giá trị độ lỗi sau vòng lặp độ đo mAP đánh giá trình huấn luyện tập đánh giá (validation) với mơ hình YOLOv4 44 Hình 3-7: Biểu đồ giá trị độ lỗi sau vòng lặp độ đo mAP đánh giá trình huấn luyện tập đánh giá (validation) với mơ hình YOLOv4 44 Hình 3-8: Ảnh kết dự đoán tốt tập liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với model yolov4-custom_6000.weights; c) ảnh dự đoán với model yolov4-custom_best.weights 45 Hình 3-9: Ảnh kết dự đoán xấu tập liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với model yolov4-custom_6000.weights; c) ảnh dự đoán với model yolov4-custom_best.weights 45 Hình 3-10: Ảnh kết dự đốn tốt tập liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với model yolov4x-mish_6000.weights; c) ảnh dự đoán với model yolov4x-mish_best.weights 46 Hình 3-11: Ảnh kết dự đốn xấu tập liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với model yolov4x-mish_6000.weights; c) ảnh dự đoán với model yolov4x-mish_best.weights 46 Hình 3-12: Biểu đồ phân phối lớp tập liệu huấn luyện 48 Hình 3-13: Biểu đồ phân phối lớp tập liệu kiểm thử 49 Hình 3-14: Biểu đồ phân phối lớp tập liệu kiểm thử 49 DANH MỤC BẢNG Bảng 3-1: Mô tả ý nghĩa giá trị thuộc tính file annotations định dạng txt 37 Bảng 3-2: Bảng đánh giá kết dự đốn dựa mơ hình YOLOv4 43 Bảng 3-3: Bảng đánh giá kết dự đốn dựa mơ hình YOLOv4x_mish 43 ... với liệu 1.2 Mục tiêu đề tài • Tìm hiểu tổng quan kỹ thuật học sâu toán Phát đối tượng tài liệu dạng ảnh dựa nghiên cứu có sẵn 10 • Xây dựng liệu cho tốn Phát đối tượng tài liệu dạng ảnh Trong. .. đề tài ? ?Phát đối tượng tài liệu dạng ảnh phương pháp học sâu” bao gồm: • Tìm hiểu tổng quan tốn Phát đối tượng tài liệu dạng ảnh từ nghiên cứu có • Thu thập, gán nhãn liệu ảnh • Nghiên cứu phương. .. sơ Mã số đề tài (Do CQ quản lý ghi) BÁO CÁO TỔNG KẾT Tên đề tài tiếng Việt: TÌM HIỂU PHƯƠNG PHÁP YOLOV4 CHO BÀI TOÁN PHÁT HIỆN ĐỐI TƯỢNG TRONG TÀI LIỆU DẠNG ẢNH Tên đề tài tiếng Anh: YOLOV4 METHOD