(Luận văn thạc sĩ) nghiên cứu kỹ thuật học sâu trong nhận dạng đối tượng hướng đến ứng dụng trong giám sát thông minh

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CƠNG TRÌNH NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN NGHIÊN CỨU KỸ THUẬT HỌC SÂU TRONG NHẬN DẠNG ĐỐI TƯỢNG HƯỚNG ĐẾN ỨNG DỤNG TRONG GIÁM SÁT THÔNG MINH h S K C 0 9 MÃ SỐ: SV2022-34 CHỦ NHIỆM ĐỀ TÀI: VĂN HOÀNG PHƯỚC TOÀN SKC008080 Tp Hồ Chí Minh, tháng 11/2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐH SƯ PHẠM KỸ THUẬT TPHCM BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN h NGHIÊN CỨU KỸ THUẬT HỌC SÂU TRONG NHẬN DẠNG ĐỐI TƯỢNG HƯỚNG ĐẾN ỨNG DỤNG TRONG GIÁM SÁT THƠNG MINH Mã số đề tài : SV2022-34 Thuộc nhóm ngành khoa học: Khoa học máy tính SV thực hiện: Văn Hoàng Phước Toàn Nam, Nữ: Nam Dân tộc: Kinh Lớp, khoa: 191513B Khoa Điện - Điện Tử Năm thứ: 4/Số năm đào tạo: Ngành học: Công Nghệ Kỹ Thuật Điều Khiển Tự Động Hóa Người hướng dẫn: PGS.TS Hồng Văn Dũng TP Hồ Chí Minh, 11/2022 Mục Lục Mục Lục i Danh Mục Bảng Biểu iii Danh Mục Hình Ảnh iv Danh Mục Những Từ Viết Tắt .vi MỞ ĐẦU 1) Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài 2) Lý chọn đề tài 3) Mục tiêu đề tài 4) Phương pháp nghiên cứu 5) Đối tượng phạm vi nghiên cứu Chương 1: CƠ SỞ LÝ THUYẾT 1.1 Ảnh xử lý ảnh 1.2 Học sâu trí tuệ nhân tạo 1.3 Mạng thần kinh tích chập 1.3.1 Tích chập (Convolution) 1.3.2 Mơ hình mạng thần kinh tích chập h 1.4 Nhận dạng đối tượng 1.4.1 Khái niệm ứng dụng 1.4.2 Các phương pháp nhận dạng đối tượng phổ biến 13 1.4.2.1.1 Mạng thần kinh tích chập theo vùng (R-CNN) 13 1.4.2.2 Faster R-CNN 14 1.4.2.3 Single Shot MultiBox Detector (SSD) 16 Chương 2: KỸ THUẬT HỌC SÂU TRONG NHẬN DẠNG SỨ ĐIỆN 18 2.1 Tầm quan trọng nhận dạng sứ điện 18 2.2 Nhận dạng sứ YOLO 18 2.2.1 Giới thiệu YOLO 18 2.2.2 Cách thức hoạt động YOLO 20 2.2.3 Kiến trúc mạng YOLO 21 2.2.4 Các hàm Loss YOLO (Loss function) 22 Chương 3: GIẢI PHÁP NHẬN DẠNG SỨ ĐIỆN 24 3.1 Giải pháp tổng thể 24 3.2 Giải pháp chi tiết 25 Chương 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ GIẢI PHÁP 34 i 4.1 Môi trường công cụ thực nghiệm 34 4.2 Thu thập xử lý liệu 34 4.3 Thực nghiệm đánh giá 36 Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 54 5.1 Kết luận 54 5.2 Hướng phát triển 54 Tài Liệu Tham Khảo 55 h ii Danh Mục Bảng Biểu Bảng 1: Dữ liệu thực nghiệm phát sứ điện 36 Bảng 2: Cấu hình tham số nhận dạng YOLOv5 38 Bảng 3: Các siêu tham số sử dụng mô hình tối ưu YOLOv5x 40 Bảng 4: Tổng hợp kết từ mơ hình huấn luyện 46 h iii Danh Mục Hình Ảnh h Hình 1: Sơ đồ tổng quan hệ thống xử lý ảnh Hình 2: Mối quan hệ AI ML DL Hình 3: Ví dụ Tích chập Hình 4: Làm mờ ảnh dùng ma trận tích chập Gaussian blur 7x7 Hình 5: Kiến trúc CNN Hình 6: Ví dụ nhận dạng sứ đường dây điện Hình 7: Nhận dạng đèn giao thông 10 Hình 8: Nhận dạng chỗ trống bãi đỗ xe 11 Hình 9: Nhận dạng tế bào ung thư da 12 Hình 10: Nhận dạng sản phẩm lỗi 12 Hình 11: Nhận dạng loại côn trùng gây hại 13 Hình 12: Kiến trúc R-CNN 14 Hình 13: Kiến trúc mơ hình Faster R-CNN 15 Hình 14: Kiến trúc mơ hình SSD 16 Hình 15: Ví dụ mơ hình nhận dạng giai đoạn hai giai đoạn 19 Hình 16: Ảnh chia thành nhiều để dự đoán đối tượng 20 Hình 17: Quá trình nhận dạng YOLO 21 Hình 18: Kiến trúc YOLO 21 Hình 19: Sơ đồ khối hệ thống giám sát sứ điện 24 Hình 20: Một số ảnh tế bào máu áp dụng tăng cường liệu 27 Hình 21:Các kết nối Mạng DenseNet với kết nối lớp 28 Hình 22: Dữ liệu DenseNet qua k lớp thành lớp chuyển tiếp cuối 28 Hình 23: Dữ liệu DenseNet qua k lớp thành lớp chuyển tiếp phần 29 Hình 24: Mạng PA-Net 29 Hình 25: Các hộp giới hạn với kích thước vị trí dự đốn 30 Hình 26: Sự phát triển chiến lược tổng lợp lớp YOLOv7 31 Hình 27: Tỷ lệ mơ hình phức hợp YOLOv7 32 Hình 28: Các thử nghiệm tham số hóa YOLOv7 32 Hình 29: Bộ gán nhãn cho Lead head gán nhãn từ thô-đến-mịn cho Lead head 33 Hình 30: Tài nguyên để phục vụ thực nghiệm 34 Hình 31: Một số ảnh sứ điện 35 Hình 32: Các điều chỉnh ảnh để huấn luyện Roboflow 35 Hình 33: Dùng Roboflow để gán nhãn, tạo liệu 36 Hình 34: Đồ thị thể mối quan hệ Precision Recall 37 Hình 35: Quá trình huấn luyện YOLOv5n 42 Hình 36: Quá trình huấn luyện YOLOv5m 43 Hình 37: Quá trình huấn luyện YOLOv5x 44 Hình 38: Quá trình huấn luyện YOLOv5x hiệu chỉnh siêu tham số 45 Hình 39: Quá trình huấn luyện YOLOv7 46 Hình 40: Một số ảnh sứ nhận diện từ YOLOv5n 48 Hình 41: Một số ảnh sứ nhận diện từ YOLOv5m 48 Hình 42: Một số ảnh sứ nhận diện từ YOLOv5x 49 Hình 43: Một số ảnh sứ nhận diện từ YOLOv5x hiệu chỉnh tham số 49 Hình 44: Một số ảnh sứ nhận diện từ YOLOv7 50 iv Hình 45: Ảnh nhận dạng sai từ YOLOv7 50 Hình 46: Ảnh nhận dạng từ YOLOv5x 51 Hình 47: Ảnh nhận dạng sai từ YOLOv7 51 Hình 48: Ảnh nhận dạng từ YOLOv5x 52 Hình 49: Ảnh nhận dạng sai từ YOLOv5n 52 Hình 50: Ảnh nhận dạng từ YOLOv5x 53 h v Danh Mục Những Từ Viết Tắt Từ đầy đủ CNN Convolutional Neural Network DL Deep Learning ML Machine Learning AI Artificial Intelligence SSP Spatial Pyramid Pooling SSD Single Shot Multibox Detector YOLO You Only Look Once CSP Cross Stage Partial R-FCN Region-based Fully Convolutional Networks ReLu Rectified Linear Units SIFT Scale Invariant and Feature Transform R-CNN Region-based Convolutional Neural Networks SVM Support Vector Machine RPN Region Proposal Network FPN Feature Pyramid Networks SPP Spatial Pyramid Pooling UAV Unmanned aerial vehicle IoT Internet of Things IOU Intersection over union HOG Histogram of oriented gradients mAP mean Average Precision h Từ viết tắt vi BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐH SƯ PHẠM KỸ THUẬT TPHCM THÔNG TIN KẾT QUẢ NGHIÊN CỨU CỦA ĐỀ TÀI Thông tin chung: - Tên đề tài: NGHIÊN CỨU KỸ THUẬT HỌC SÂU TRONG NHẬN DẠNG ĐỐI TƯỢNG HƯỚNG ĐẾN ỨNG DỤNG TRONG GIÁM SÁT THƠNG MINH - Chủ nhiệm đề tài: Văn Hồng Phước Toàn Mã số SV: 19151298 - Lớp: 191513B Khoa: Điện - Điện Tử - Thành viên đề tài: Stt Họ tên MSSV Lớp Khoa Ghi Lê Nguyễn Hùng Anh 19110322 19110CLST4 Đào tạo Chất Lượng Cao Không tham gia thực Phan Tấn Thành 19110288 19110CLST2 Đào tạo Chất Lượng Cao Đặng Nguyễn Quyết Thắng 19110291 19110CLST2 Đào tạo Chất Lượng Cao h - Người hướng dẫn: PGS.TS Hoàng Văn Dũng Mục tiêu đề tài: Nghiên cứu kỹ thuật học sâu nhận dạng đối tượng hướng đến ứng dụng giám sát thông minh Tính sáng tạo: Sử dụng mơ hình học sâu YOLOv5 áp dụng thay đổi siêu tham số để thiện chất lượng mơ hình nhận diện sứ điện Kết nghiên cứu: Mơ hình nhận diện sứ điện với thơng số precision, recall, mAP_0.5 mAP_0.5:0.95 99.3%, 98.5%, 99.0% 68.6% Đóng góp mặt giáo dục đào tạo, kinh tế - xã hội, an ninh, quốc phòng khả áp dụng đề tài: Kết nghiên cứu đề tài áp dụng vào hệ thống giám sát thông minh, cụ thể việc phát sứ điện bị hư hỏng mạng lưới điện Công bố khoa học SV từ kết nghiên cứu đề tài (ghi rõ tên tạp chí có) nhận xét, đánh giá sở áp dụng kết nghiên cứu (nếu có): Bài báo “NGHIÊN CỨU KỸ THUẬT HỌC SÂU TRONG NHẬN DẠNG ĐỐI TƯỢNG HƯỚNG ĐẾN ỨNG DỤNG TRONG GIÁM SÁT THÔNG MINH” chấp nhận đăng kỷ yếu JTE-HCMUTE Ngày tháng 11 năm 2022 SV chịu trách nhiệm thực đề tài (kí, họ tên) Nhận xét người hướng dẫn đóng góp khoa học SV thực đề tài (phần người hướng dẫn ghi): Ngày tháng 11 năm 2022 Người hướng dẫn (kí, họ tên) h YOLOv5n Training Process 1.2 Ratio 0.8 0.6 0.4 0.2 0 20 40 60 80 100 120 140 160 Epoch h Precision Recall mAP_0.5 mAP_0.5:0.95 Hình 35: Quá trình huấn luyện YOLOv5n 42 YOLOv5m Training Process 1.2 Ratio 0.8 0.6 0.4 0.2 0 20 40 60 80 100 120 140 160 Epoch h Precision Recall mAP_0.5 mAP_0.5:0.95 Hình 36: Quá trình huấn luyện YOLOv5m 43 YOLOv5x Training Process 1.2 Ratio 0.8 0.6 0.4 0.2 0 20 40 60 80 100 120 140 160 Epoch Recall h Precision mAP_0.5 mAP_0.5:0.95 Hình 37: Quá trình huấn luyện YOLOv5x 44 YOLOv5x Hyperparameters Augmented Training Process 1.2 Ratio 0.8 0.6 0.4 0.2 0 20 40 60 80 100 120 140 160 Epoch Recall h Precision mAP_0.5 mAP_0.5:0.95 Hình 38: Quá trình huấn luyện YOLOv5x hiệu chỉnh siêu tham số 45 YOLOv7 Training Progress 1.2 Ratio 0.8 0.6 0.4 0.2 0 20 40 60 -0.2 80 100 120 140 160 Epoch Recall h Precision mAP_0.5 mAP_0.5:0.95 Hình 39: Quá trình huấn luyện YOLOv7 Bảng trình bày số kết phát sứ điện tập liệu thử nghiệm sử dụng mơ hình Yolov5n, Yolov5m, Yolov5x Yolov7 đào tạo Kết cho thấy mơ hình hoạt động với độ xác cao Bảng 4: Tổng hợp kết từ mơ hình huấn luyện Yolov5n Số lớp Số tham số Thời gian huấn luyện Số ảnh dùng để validate Số ảnh dùng để kiểm tra Yolov5m 157 212 1.760.518 20.852.934 22m30s 29m55s Yolov5x 322 86.173.414 1h12m52s Augmented Yolov5x 322 86.173.414 1h15m17s Yolov7 314 36.481.772 1h45m53s 110 ảnh với độ phân giải 640x640 110 ảnh với độ phân giải 640x640 46 Số lượng sứ Ngưỡng nhận dạng Precision Recall mAP_0.5 mAP_0.5:0.95 Pre-process Inference Bounding box process (NMS Non maximum suppression) 295 insulators in 110 images conf-thres=0.001, iou_thres=0.6 0.963 0.963 0.989 0.623 1.3ms 4.0ms 2.0ms 0.953 0.976 0.989 0.695 3.8ms 17.7ms 3.1ms 0.971 0.973 0.992 0.657 0.3ms 57.6ms 2.6ms 0.933 0.985 0.99 0.686 0.3ms 59.2ms 2.8ms 0.957 0.976 0.986 0.633 18.2ms 20.5ms 2.3ms Như bảng ta thấy mơ hình YOLOv5x có số lượng tham số lớn nhiều so với YOLOv5n YOLOv5m thời gian huấn luyện lâu YOLOv7 đời sau YOLOv5 nên tối ưu tham số huấn luyện, số tham số thấp YOLOv5x Tuy nhiên với số epoch 150 mơ hình nhận dạng sứ điện, mơ hình YOLOv7 lại có thời gian huấn luyện lâu so với h YOLOv5 So sánh độ xác trung bình mAP_0.5, YOLOv5x đạt giá trị cao nhất, theo sau YOLOv5x hiệu chỉnh tham số, YOLOv5m, YOLOv5n cuối YOLOv7 Dù sau thay đổi tham số mơ hình YOLOv5x, giá trị mAP_0.5:0.95 tăng lên so với tham số gốc nhiên YOLOv5m lại đạt giá trị cao năm mơ hình, ngun nhân mơ hình nhận diện đối tượng nên khơng q phức tạp cho mơ hình nhỏ có chất lượng nhận dạng tốt Trong trình gán nhãn gắn nhãn sứ điện nằm ngồi khung hình bị che khuất cột điện, sứ nằm dọc sứ nằm ngang với khung hình Kết cho thấy năm mơ hình nhận diện tốt 47 Hình 40: Một số ảnh sứ nhận diện từ YOLOv5n h Hình 41: Một số ảnh sứ nhận diện từ YOLOv5m 48 Hình 42: Một số ảnh sứ nhận diện từ YOLOv5x h Hình 43: Một số ảnh sứ nhận diện từ YOLOv5x hiệu chỉnh tham số 49 Hình 44: Một số ảnh sứ nhận diện từ YOLOv7 h Hình 45: Ảnh nhận dạng sai từ YOLOv7 50 Hình 46: Ảnh nhận dạng từ YOLOv5x h Hình 47: Ảnh nhận dạng sai từ YOLOv7 51 Hình 48: Ảnh nhận dạng từ YOLOv5x h Hình 49: Ảnh nhận dạng sai từ YOLOv5n 52 Hình 50: Ảnh nhận dạng từ YOLOv5x Từ Hình 45 đến Hình 50 so sánh số kết mơ hình nhận dạng h sứ điện Việc kiểm tra thủ công cho thấy Yolov7 phát dương tính giả (false positive) nhiều họ Yolov5 Mặt khác, kết số trường hợp, mơ hình nhận phát dương tính giả (false positive), mơ hình khác lại phát dương tính thật (true postitive) Vấn đề thú vị cho công việc nghiên cứu tương lai kết hợp hai ưu điểm Yolov5 Yolov7 để cải thiện hiệu suất phát 53 Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Trong báo này, đề xuất cách để tối ưu hóa mơ hình YOLOv5 cách điều chỉnh siêu tham số để phát sứ điện Đầu tiên, sử dụng Roboflow để gắn nhãn hình ảnh thêm số tính bổ sung xoay, độ sáng độ phơi sáng Sau đó, chúng tơi điều chỉnh số siêu thơng số phù hợp với đối tượng mà cần phát hiện, trường hợp sứ điện Sau mơ hình phát cuối đào tạo, nhúng vào máy bay không người lái sử dụng để phát sứ điện đường dây tải điện Kết cuối cho thấy YOLOv5x tối ưu hóa phát sứ điện với mAP_0,5 99,0% mAP_0,5: 0,95 với IoU = 0,6 68,6% Mặc dù mAP_0.5 thấp Yolov5x mặc định 99,2% cao Yolov7 98,6%, mAP_0,5: 0,95 cao Yolov5x mặc định 65,7% Yolov7 63,3% Nhưng đáng ngạc nhiên mAP_0,5: 0,95 Yolov5x tối ưu hóa thấp Yolov5m 69,5% Ngun nhân vấn đề nhận dạng với lớp đối tượng đơn giản nên mơ hình kiến trúc nhỏ 5.2 h xử lý tốt Hướng phát triển Kỹ thuật đề xuất có tiềm việc phát sứ điện thời gian thực nhúng vào máy bay không người lái cần phải có thêm cải tiến tương lai để tăng độ xác phân biệt sứ điện bị hỏng sứ hoạt động tốt loại 54 Tài Liệu Tham Khảo h [1] Chuanyang Liu, Yiquan Wu, Jingjing Liu,Jiaming Han, “MTI-YOLO: A LightWeight and Real-Time Deep Neural Network for Insulator Detection in Complex Aerial Images” [2] XIREN MIAO, XINYU LIU, JING CHEN, SHENGBIN ZHUANG, JIANWEI FAN, AND HAO JIANG), “Insulator Detection in Aerial Images for Transmission Line Inspection Using Single Shot Multibox Detector” [3] ZHENBING ZHAO, XIAOQING FAN, GUOZHI XU, LEI ZHANG, YINCHENG QI1, AND KE ZHANG, “Aggregating Deep Convolutional Feature Maps for Insulator Detection in Infrared Images” [4] Shanjun Lia, Haomiao Zhoua, Guoyou Wanga, Xiuhong Zhua, Lanfang Konga and Zhaoyang Hu, “Cracked Insulator Detection Based on R-FCN” [5] K He, X Zhang, S Ren, and J Sun, "Deep residual learning for image recognition." pp 770-778 [6] S Ren, K He, R Girshick, and J Sun, “Faster r-cnn: Towards real-time object detection with region proposal networks,” Advances in neural information processing systems, vol 28, 2015 [7] J Redmon, S Divvala, R Girshick, and A Farhadi, "You only look once: Unified, real-time object detection." pp 779-788 [8] Z Huang, J Wang, X Fu, T Yu, Y Guo, and R Wang, “DC-SPP-YOLO: Dense connection and spatial pyramid pooling based YOLO for object detection,” Information Sciences, vol 522, pp 241-258, 2020 [9] J Redmon, and A Farhadi, "YOLO9000: better, faster, stronger." pp 7263-7271 [10] Z Zhao, X Fan, G Xu, L Zhang, Y Qi, and K Zhang, “Aggregating deep convolutional feature maps for insulator detection in infrared images,” IEEE Access, vol 5, pp 21831-21839, 2017 [11] K He, G Gkioxari, P Dollár, and R Girshick, "Mask R-CNN." pp 2980-2988 [12] X Wang, T Kong, C Shen, Y Jiang, and L Li, "Solo: Segmenting objects by locations." pp 649-665 [13] D Bolya, C Zhou, F Xiao, and Y J Lee, "Yolact: Real-time instance segmentation." pp 9157-9166 [14] H Liu, R A R Soto, F Xiao, and Y J Lee, "Yolactedge: Real-time instance segmentation on the edge." pp 9579-9585 [15] S Li, H Zhou, G Wang, X Zhu, L Kong, and Z Hu, "Cracked insulator detection based on R-FCN." p 012147 [16] G Jocher, “Ultralytics/yolov5: v3.1 - Bug Fixes and Performance Improvements,” {https://doi.org/10.5281/zenodo.4154370, 2020 [17] C.-Y Wang, A Bochkovskiy, and H.-Y M Liao, “YOLOv7: Trainable bag-offreebies sets new state-of-the-art for real-time object detectors,” arXiv preprint arXiv:2207.02696, 2022 55 h S K L 0