Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
2,88 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRƯƠNG TUẤN NGẠN KHÓA LUẬN TỐT NGHIỆP ẢNH HƯỞNG CỦA PHƯƠNG PHÁP SIÊU PHÂN GIẢI ĐỐI VỚI BÀI TOÁN PHÁT HIỆN ĐỐI TƯỢNG TRONG KHÔNG ẢNH The effects of super-resolution on object detection performance in an aerial image KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM TP HỒ CHÍ MINH, 2020 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRƯƠNG TUẤN NGẠN – 16520796 KHÓA LUẬN TỐT NGHIỆP ẢNH HƯỞNG CỦA PHƯƠNG PHÁP SIÊU PHÂN GIẢI ĐỐI VỚI BÀI TỐN PHÁT HIỆN ĐỐI TƯỢNG TRONG KHƠNG ẢNH The effects of super-resolution on object detection performance in an aerial image KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS NGUYỄN TẤN TRẦN MINH KHANG TP HỒ CHÍ MINH, 2020 THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số …………………… ngày ………………… Hiệu trưởng Trường Đại học Công nghệ Thông tin ………………………………………… – Chủ tịch ………………………………………… – Thư ký ………………………………………… – Ủy viên ………………………………………… – Ủy viên ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày… tháng… năm…… NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ HƯỚNG DẪN) Tên khóa luận: ẢNH HƯỞNG CỦA PHƯƠNG PHÁP SIÊU PHÂN GIẢI ĐỐI VỚI BÀI TOÁN PHÁT HIỆN ĐỐI TƯỢNG TRONG KHÔNG ẢNH Cán hướng dẫn: Nhóm SV thực hiện: Trương Tuấn Ngạn 16520796 TS Nguyễn Tấn Trần Minh Khang Đánh giá Khóa luận Về báo cáo: Số trang _ Số chương _ Số bảng số liệu _ Số hình vẽ _ Số tài liệu tham khảo _ Sản phẩm _ Một số nhận xét hình thức báo cáo: ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… Về nội dung nghiên cứu: ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… Về chương trình ứng dụng: ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… Về thái độ làm việc sinh viên: ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… Đánh giá chung: ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… Điểm sinh viên: Trương Tuấn Ngạn:……… /10 Người nhận xét (Ký tên ghi rõ họ tên) ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày… tháng… năm…… NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ PHẢN BIỆN) Tên khóa luận: ẢNH HƯỞNG CỦA PHƯƠNG PHÁP SIÊU PHÂN GIẢI ĐỐI VỚI BÀI TỐN PHÁT HIỆN ĐỐI TƯỢNG TRONG KHƠNG ẢNH Nhóm SV thực hiện: Cán phản biện: Trương Tuấn Ngạn 16520796 Đánh giá Khóa luận Về báo cáo: Số trang _ Số chương _ Số bảng số liệu _ Số hình vẽ _ Số tài liệu tham khảo _ Sản phẩm _ Một số nhận xét hình thức báo cáo: ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… Về nội dung nghiên cứu: ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… Về chương trình ứng dụng: ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… Về thái độ làm việc sinh viên: ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… Đánh giá chung: ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… Điểm sinh viên: Trương Tuấn Ngạn:……… /10 Người nhận xét (Ký tên ghi rõ họ tên) ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN ĐỀ CƯƠNG CHI TIẾT TÊN ĐỀ TÀI: ẢNH HƯỞNG CỦA PHƯƠNG PHÁP SIÊU PHÂN GIẢI ĐỐI VỚI BÀI TỐN PHÁT HIỆN ĐỐI TƯỢNG TRONG KHƠNG ẢNH Cán hướng dẫn: TS Nguyễn Tấn Trần Minh Khang Thời gian thực hiện:Từ ngày…07/09/2020…………… đến ngày…27/12/2020……… Sinh viên thực hiện: Nội dung đề tài: Ngày nay, thiết bị bay An unmanned aerial vehicle (UAV) sử dụng ngày nhiều, phục vụ cho nhiều nhiệm vụ thu thập, giám sát, nguồn liệu thu thập từ UAV lớn, nhiệm vụ xử lý ảnh UAV có nhiều đặc điểm khác với ảnh từ CCTV góc quay, đối tượng chiếm tỉ lệ nhỏ, cân foreground background, bị ảnh hưởng thời tiết: rung lắc (gió), che chắn (mây), mờ (sương), làm ảnh hưởng chất lượng ảnh tạo nhiều thách thức cho nhiệm vụ thị giác máy tính, phát đối tượng Việc tái tạo ảnh xác tốt Image Super Resolution (SR) thuộc nhóm phương pháp Chất lượng hình ảnh tái tạo đánh giá thước đo định lượng dựa pixel PSNR, SSIM Một cách trực quan, người ta cho phương pháp siêu phân giải tăng hiệu suất phát đối tượng, gia tăng độ phân giải thêm nhiều tính dễ phân biệt mà thuật tốn phát đối tượng sử dụng để phân biệt Phát vật thể nhỏ người, xe cộ ảnh nhiệm vụ khó khăn Trong ngữ cảnh nghiên cứu này, tạo liệu LR phương pháp Blurdown Degradation làm giảm chất lượng, độ phân giải ảnh Visdrone2019-val xuống (LR - Low Resolution) Sử dụng phương pháp Image Super Resolution - RCAN để cải thiện liệu LR thành SR Sử dụng liệu SR vào mơ hình nhận diện vật thể huấn luyện sẵn từ liệu HR để đánh giá kết nhận diện Thông thường việc nhận diện vật thể ảnh có chất lượng, độ phân giải cao (HR) ln ln tối ưu ảnh có chất lượng thấp (LR) hay ảnh siêu độ phân giải (SR) để thu ảnh có chất lượng cao đồng nghĩa với việc chi khoảng chi phí lớn cho việc thay đổi chất lượng camera [1], áp dụng phương pháp việc nhận diện ảnh có chất lượng, độ phân giải thấp (LR, SR) có kết gần tương đồng với kết nhận diện ảnh chất lượng cao (HR) Chúng chọn phương pháp toán toán phát đối tượng: Faster-RCNN [3], Cascade-RCNN [4], DetectoRS [5], Retina [6], SSD [7]; sử dụng phương pháp RCAN[8] cho toán ảnh siêu độ phân giải Phương pháp: • • • • • Tìm hiểu tổng quan toán Object Detection Image Super Resolution Cài đặt phương pháp tiên tiến tốn Tìm hiểu liệu Visdrone2019-DET [2] Sử dụng phương pháp RCAN (ISR) vào liệu Visdrone2019-DET Huấn luyện phương pháp Object Detection với liệu Visdrone2019DET: Faster RCNN, Cascade RCNN, DetectoRS, RetinaNet, SSD • Thử nghiệm liệu thu từ phương pháp RCAN vào mơ hình huấn luyện phương pháp Object Detection • Đánh giá kết thử nghiệm Mục tiêu: • Tìm hiểu tổng hợp phương pháp phát đối tượng: Faster-RCNN, Cascade-RCNN, DetectoRS , RetinaNet, SSD • Huấn luyện đánh giá kết thực nghiệm phương pháp với độ phân giải khác (HR, LR, SR) • Xây dựng ứng dụng áp dụng kết thu Tài liệu tham khảo: [1] K Nguyen, N T Huynh, P C Nguyen, K.-D Nguyen, N D Vo, and T V Nguyen, “Detecting objects from space: An evaluation of deep-learning modern approaches”, Electronics, vol 9, no 4, p 583, 2020 [2] D R Pailla, “Visdrone-det2019: The vision meets drone object detection in image challenge results”, 2019 [3] S Ren, K He, R Girshick, and J Sun, “Faster rcnn: Towards real-time object detection with region proposal networks”, in Advances in neural information processing systems, 2015, pp 91–99 [4] Z Cai and N Vasconcelos, “Cascade r-cnn: Delving into high quality object detection”, in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp 6154–6162 [5] S Qiao, L.-C Chen, and A Yuille, “Detectors: Detecting objects with recursive feature pyramid and switchable atrous convolution”, arXiv preprint arXiv:2006.02334, 2020 [6] T.-Y Lin, P Goyal, R Girshick, K He, and P Dollar, “Focal loss for dense object detection”, in The IEEE International Conference on Computer Vision (ICCV), Oct 2017 [7] W Liu, D Anguelov, D Erhan, C Szegedy, S Reed, C.-Y Fu, and A C Berg, “Ssd: Single shot multibox detector”, in European conference on computer vision, Springer, 2016, pp 21–37 [8] Y Zhang, K Li, K Li, L Wang, B Zhong, and Y Fu, “Image super-resolution using very deep residual channel attention networks”, in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp 286–301 Kế hoạch thực hiện: Công việc Nội dung thực Thời gian thực ND1: Tìm hiểu đề tài - Nghiên cứu, tìm hiểu yêu 07/09/2020-14/09/2020 cầu toán giải pháp liên quan ND2: Cài đặt thực nghiệm - Cài đặt phương pháp ảnh 15/09/2020 – 22/09/2020 phương pháp siêu phân giải: RCAN - Cài đặt phương pháp phát Method AR IOU=0.5:0.9 5| area =all |maxDet=10 0.248 AR IOU=0.5:0.9 5| area =all |maxDet=30 0.248 LRx2 SRx2 (RCAN) SRx3 (RCAN) HR 0.065 0.065 0.065 0.218 0.218 0.196 Scale HR FasterRCNN DetetoRS CascadeRCNN Retina AR IOU=0.5:0.9 AR IOU = 5| area =all 0.5:0.95 | |maxDet=10 area = small 00 0.248 0.104 AR IOU = AR IOU = 0.5:0.95 | 0.5:0.95 | area = area = large medium 0.509 0.535 0.055 0.132 0.218 0.083 0.444 0.512 0.196 0.196 0.067 0.397 0.537 0.259 0.259 0.259 0.112 0.531 0.57 LRx2 SRx2 (RCAN) SRx3 (RCAN) HR 0.058 0.058 0.058 0.052 0.092 0.225 0.225 0.225 0.089 0.455 0.563 0.202 0.202 0.202 0.075 0.402 0.54 0.257 0.257 0.257 0.111 0.526 0.524 LRx2 SRx2 (RCAN) SRx3 (RCAN) HR 0.058 0.058 0.058 0.052 0.115 0.223 0.223 0.223 0.089 0.447 0.514 0.2 0.2 0.2 0.075 0.398 0.546 0.216 0.216 0.216 0.101 0.396 0.528 41 LRx2 SRx2 (RCAN) SRx3 (RCAN) HR 0.07 0.07 0.07 0.058 0.216 0.329 0.199 0.199 0.199 0.088 0.365 0.529 0.186 0.186 0.186 0.078 0.341 0.518 0.293 0.294 0.294 0.18 0.485 0.561 LRx2 0.072 0.073 0.073 0.065 0.123 0.35 SRx2 SSD 0.24 0.242 0.242 0.126 0.423 0.529 (RCAN) SRx3 0.206 0.208 0.208 0.094 0.378 0.511 (RCAN) Bảng Bảng so sánh kết thực nghiệm phương pháp phát đối tượng tập liệu Visdrone2019-val (HR, LRx2, SRx2, SRx3) độ đo AR Nhận xét: • Từ bảng bảng 4, ta thấy với thang đo (AP, AR) IOU=0.5:0.95| area =all tỷ lệ xác cao thuộc phương pháp SSD với kết HR = 35,5% (29,4% AR), SRx2=29,4% (24,2% AR), SRx3= 24,9% (20,8% AR) • Với thang đo (AP, AR) IOU=0.5:0.95| area =medium tỷ lệ xác cao thuộc phương pháp DetectoRs với kết HR = 40% (53,1% AR), SRx2=34,6% (45,5% AR), SRx3= 30,3% (40,2% AR) • Ở phương pháp SSD ta có số AP cao AR phương pháp DetetoRS ta có AP thấp AR • Khoảng cách AP AR nhỏ tập liệu HR, SRx2, SRx3 thuộc phương pháp RetinaNet • Khoảng cách AP AR lớn tập liệu HR, SRx2, SRx3 thuộc phương pháp SSD 42 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Thông qua kết thực nghiệm bảng so sánh kết ta có thấy nhận thấy Dù kết thực nghiệm toán phát đối tượng tập liệu ảnh siêu phân giải (SRx2, SRx3) đạt kết không cao kết thực nghiệm tập liệu gốc (HR) Nhưng ta nhận định kết ảnh siêu phân giải tối ưu nhiều so với ảnh phân giải thấp (LR), kết gần đạt kết khả quan gần với kết ảnh phân giải cao Chúng ta mong chờ thuật tốn chuyển đổi ảnh siêu phân giải ngày phát triển, vật thể ảnh tái lại kích thước, điểm ảnh rõ nét lúc ta mong việc phát đối tượng ảnh siêu phân giải sánh tiên tiến so với ảnh chất lượng cao 5.2 Hướng phát triển • Kiểm thử kết với nhiều phương pháp ảnh siêu phân giải • Tìm điểm hạn chế ảnh siêu phân giải so với ảnh chất lượng cao đưa hướng giải • Xây dựng hệ thống nhận dạng đối tượng huấn luyện tập liệu chất lượng cao đưa vào sử dụng sử dụng ảnh (video) siêu phân giải chuyển đổi từ liệu chất lượng thấp thu thập camera chất lượng 5.3 Công bố Nội dung khóa luận viết thành báo khoa học công bố hội nghị NAFOSTED Conference on Information and Computer Science, 2020 43 CƠNG TRÌNH CƠNG BỐ Ngan T Truong, Nguyen D Vo, Khang Nguyen, "The Effects of SuperResolution on Object Detection Performance in an Aerial Image", NAFOSTED Conference on Information and Computer Science, 2020, Ho Chi Minh city, Vietnam 44 TÀI LIỆU THAM KHẢO [1] K Nguyen, N T Huynh, P C Nguyen, K.-D Nguyen,N D Vo, and T V Nguyen, “Detecting objects fromspace: An evaluation of deep-learning modern approaches”,Electronics, vol 9, no 4, p 583, 2020 [2] D R Pailla, “Visdrone-det2019: The vision meets drone object detection in image challenge results”, 2019 [3] S Ren, K He, R Girshick, and J Sun, “Faster r-cnn: Towards real-time object detection with region proposal networks”, inAdvances in neural information processing systems, 2015, pp 91–99 [4] Z Cai and N Vasconcelos, “Cascade r-cnn: Delving into high quality object detection”, in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp 6154–6162 [5] S Qiao, L.-C Chen, and A Yuille, “Detectors:Detecting objects with recursive feature pyramid and switchable atrous convolution”,arXiv preprint arXiv:2006.02334, 2020 [6] T.-Y Lin, P Goyal, R Girshick, K He, and P Dollar,“Focal loss for dense object detection”, in The IEEE International Conference on Computer Vision (ICCV),Oct 2017 [7] W Liu, D Anguelov, D Erhan, C Szegedy, S Reed,C.-Y Fu, and A C Berg, “Ssd: Single shot multibox detector”, in European conference on computer vision,Springer, 2016, pp 21–37 [8] Y Zhang, K Li, K Li, L Wang, B Zhong, and Y.Fu, “Image super-resolution using very deep residual channel attention networks”, in Proceedings of the European Conference on Computer Vision (ECCV), 2018,pp 286–301 [9] K Simonyan and A Zisserman, “Very deep convo-lutional networks for largescale image recognition”,arXiv preprint arXiv:1409.1556, 2014 [10] R I Bendjillali, M Beladgham, K Merit, and A Taleb-Ahmed, “Illumination-robust face recognition based on deep convolutional neural networks 45 architectures”,In-donesian Journal of Electrical Engineering and Com-puter Science, vol 18, no 2, pp 1015–1027, 2020 [11] K He, X Zhang, S Ren, and J Sun, “Deep residual learning for image recognition”, inProceedings of theIEEE conference on computer vision and pattern recog-nition, 2016, pp 770–778 [12] Z Wang, J Chen, and S C Hoi, “Deep learning for image super-resolution: A survey”,IEEE Transactionson Pattern Analysis and Machine Intelligence, 2020 [13] K Chen, J Wang, J Pang, Y Cao, Y Xiong, X Li,S Sun, W Feng, Z Liu, J Xu,et al., “Mmdetection:Open mmlab detection toolbox and benchmark”,arXivpreprint arXiv:1906.07155, 2019 [14] Zhu, P., Wen, L., Du, D., Bian, X., Hu, Q., & Ling, H (2020) Vision Meets Drones: Past, Present and Future arXiv preprint arXiv:2001.06303 46 PHỤ LỤC CÁC KẾT QUẢ THỰC NGHIỆM Faster R-CNN Kết đánh giá mơ hình phương pháp Faster R-CNN Visdrone2019-val (HR) Kết đánh giá mơ hình phương pháp Faster R-CNN Visdrone2019-val (LRx2) Kết đánh giá mơ hình phương pháp Faster R-CNN Visdrone2019-val (SRx2) 47 Kết đánh giá mơ hình phương pháp Faster R-CNN Visdrone2019-val (SRx3) Cascade R-CNN Kết đánh giá mơ hình phương pháp Cascade R-CNN Visdrone2019-val (HR) Kết đánh giá mô hình phương pháp Cascade R-CNN Visdrone2019-val (LRx2) 48 Kết đánh giá mơ hình phương pháp Cascade R-CNN Visdrone2019-val (SRx2) Kết đánh giá mơ hình phương pháp Cascade R-CNN Visdrone2019-val (SRx3) DetectoRS Kết đánh giá mơ hình phương pháp DetectoRS Visdrone2019-val (HR) 49 Kết đánh giá mơ hình phương pháp DetectoRS Visdrone2019-val (LRx2) Kết đánh giá mơ hình phương pháp DetectoRS Visdrone2019-val (SRx2) Kết đánh giá mơ hình phương pháp DetectoRS Visdrone2019-val (SRx3) RetinaNet Kết đánh giá mơ hình phương pháp RetinaNet Visdrone2019-val (HR) 50 Kết đánh giá mơ hình phương pháp RetinaNet Visdrone2019-val (LRx2) Kết đánh giá mơ hình phương pháp RetinaNet Visdrone2019-val (SRx2) Kết đánh giá mơ hình phương pháp RetinaNet Visdrone2019-val (SRx3) 51 SSD Kết đánh giá mơ hình phương pháp SSD Visdrone2019-val (HR) Kết đánh giá mơ hình phương pháp SSD Visdrone2019-val (LRx2) Kết đánh giá mơ hình phương pháp SSD Visdrone2019-val (SRx2) 52 Kết đánh giá mơ hình phương pháp SSD Visdrone2019-val (SRx3) 53 MINH HỌA THỰC NGHIỆM Phát đối tượng phương pháp Cascade R-CNN với tập liệu Visdrone2019-val HR Phát đối tượng phương pháp Cascade R-CNN với tập liệu Visdrone2019-val LRx2 54 Phát đối tượng phương pháp Cascade R-CNN với tập liệu Visdrone2019-val SRx2 55 ... NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ HƯỚNG DẪN) Tên khóa luận: ẢNH HƯỞNG CỦA PHƯƠNG PHÁP SIÊU PHÂN GIẢI ĐỐI VỚI BÀI TOÁN PHÁT HIỆN ĐỐI TƯỢNG TRONG KHÔNG ẢNH Cán hướng dẫn: Nhóm SV thực hiện: ... năm…… NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ PHẢN BIỆN) Tên khóa luận: ẢNH HƯỞNG CỦA PHƯƠNG PHÁP SIÊU PHÂN GIẢI ĐỐI VỚI BÀI TOÁN PHÁT HIỆN ĐỐI TƯỢNG TRONG KHƠNG ẢNH Nhóm SV thực hiện: Cán phản... hạn chế toán ảnh siêu phân giải toán phát đối tượng - Phương pháp máy học: sử dụng cho việc nghiên cứu phương pháp phát đối tượng ảnh siêu phân giải Tổng hợp lý thuyết máy học tồn khóa luận: o