Khóa luận phát hiện đối tượng định hướng trong không ảnh dựa trên học sâu

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRẦN VĂN BẢO KHÓA LUẬN TỐT NGHIỆP PHÁT HIỆN ĐỐI TƯỢNG ĐỊNH HƯỚNG TRONG KHÔNG ẢNH DỰA TRÊN HỌC SÂU Oriented object detection in aerial images based on deep learning KỸ SƯ NGÀNH CƠNG NGHỆ PHẦN MỀM TP HỒ CHÍ MINH, 2023 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRẦN VĂN BẢO – 18520499 KHÓA LUẬN TỐT NGHIỆP PHÁT HIỆN ĐỐI TƯỢNG ĐỊNH HƯỚNG TRONG KHÔNG ẢNH DỰA TRÊN HỌC SÂU Oriented object detection in aerial images based on deep learning KỸ SƯ NGÀNH CÔNG NGHỆ PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS NGUYỄN TẤN TRẦN MINH KHANG TP HỒ CHÍ MINH, 2023 THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số …………………… ngày ………………… Hiệu trưởng Trường Đại học Công nghệ Thông tin LỜI CẢM ƠN Để hồn thành khóa luận này, lời đầu tiên, em xin chân thành gửi lời cảm ơn sâu sắc đến thầy TS Nguyễn Tấn Trần Minh Khang – giảng viên hướng dẫn em khóa luận Thầy ln lo lắng, nhắc nhở, dành quan tâm hỗ trợ em suốt q trình thực khóa luận Thầy người tạo hội động lực cho em đường học tập nghiên cứu khoa học Cùng với đó, em xin gửi lời cảm ơn đến thầy ThS Võ Duy Nguyên giúp đỡ, hướng dẫn tận tình sửa chữa, đóng góp nhiều ý kiến quý báu giúp em hoàn thành báo cáo khóa luận Em xin chân thành cảm ơn tập thể quý thầy cô trường Đại học Công nghệ Thông tin, q thầy khoa Cơng nghệ Phần mềm, phịng thí nghiệm Truyền thơng Đa phương tiện MMLab anh chị, bạn truyền đạt kiến thức, tạo điều kiện hỗ trợ nhiệt tình cho em suốt trình em theo học trường Trong trình thực khóa luận, thân em cố gắng, nỗ lực hoàn thành nhiệm vụ khơng tránh khỏi sai sót đề tài Em mong nhận góp ý quý thầy bạn để hồn thiện kiến thức, lấy làm hành trang quý báu chặng đường sau Một lần nữa, em xin chân thành cảm ơn! Sinh viên thực Trần Văn Bảo TP Hồ Chí Minh, ngày 03 tháng 07 năm 2023 MỤC LỤC Chương TỔNG QUAN ĐỀ TÀI 1.1 Động lực nghiên cứu 1.2 Phát biểu toán 1.3 Thách thức toán 1.4 Mục tiêu phạm vi nghiên cứu 1.5 Đóng góp khố luận 1.6 Cấu trúc báo cáo khoá luận Chương CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Phát đối tượng 2.1.1 Giới thiệu 2.1.2 Phân loại thuật toán phát đối tượng 2.2 Phương pháp rút trích đặc trưng ảnh dựa học sâu 10 2.2.1 Mạng học sâu – DNN 11 2.2.2 Convolutional Neural Network – CNN 13 2.2.2.1 Tầng tích chập (Convolution layer) 14 2.2.2.2 Tầng tổng hợp (Pooling layer) 15 2.2.2.3 Tầng liên kết đầy đủ (Fully connected layer) 16 2.3 Các phương pháp phát đối tượng 17 2.3.1 YOLOv3 17 2.3.2 YOLOX 19 2.3.2.1 Anchor free 19 2.3.2.2 Decoupled head 19 2.3.2.3 Multiple positive 20 2.3.3 PP-YOLOE 21 2.4 Phương pháp phát đối tượng không ảnh 23 2.4.1 Oriented RepPoints for Aerial Object Detection - OR 23 2.4.2 Learning High-Precision Bounding Box for Rotated Object Detection via Kullback-Leibler Divergence [12] – KLD 28 2.4.3 Fully Convolutional One-Stage Object Detection – FCOS 31 Chương BỘ DỮ LIỆU KHÔNG ẢNH 34 3.1 DOTA - Dataset for Object Detection in Aerial Images 34 3.2 Các liệu không ảnh tương tự 37 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 39 4.1 Dữ liệu thực nghiệm 39 4.2 Mô tả thực nghiệm 39 4.2.1 Mô tả quy trình thực nghiệm 39 4.2.2 Cấu hình thực nghiệm 39 4.3 Phương pháp đánh giá 40 4.3.1 Intersection over Union 40 4.3.2 Average Precision (AP) 41 4.3.3 Mean Average Precision (mAP) 42 4.4 Kết thực nghiệm đánh giá 44 4.4.1 Kết thực nghiệm 44 4.4.2 Trực quan hoá kết 45 4.4.3 Đánh giá kết 46 Chương ỨNG DỤNG PHÁT HIỆN ĐỐI TƯỢNG 47 5.1 Giới thiệu 47 5.2 Phân tích thiết kế 48 5.2.1 Thiết kế usecase 48 5.2.2 Thiết kế user-flow 49 5.2.3 Thiết kế kiến trúc 49 5.2.4 Thiết kế giao diện 50 5.3 Chức ứng dụng 53 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 58 6.1 Kết luận 58 6.1.1 Kết 58 6.1.2 Khó khăn 59 6.1.3 Thuận lợi 59 6.2 Hướng phát triển 59 DANH MỤC HÌNH Hình 1.1 Bài tốn phát đối tượng khơng ảnh Hình 2.1 Các kỹ thuật Phát đối tượng Hình 2.2 So sánh mơ hình two-stage (a) one-stage (b) Hình 2.3 Ý tưởng mô hoạt động não người mạng ANN 11 Hình 2.4 Minh họa kiến trúc mạng nơ-ron sâu 12 Hình 2.5 Kiến trúc tổng quan mơ hình CNN 13 Hình 2.6 Minh họa Convolution Layer 14 Hình 2.7 Minh họa Pooling Layer 15 Hình 2.8 Minh họa Fully-connected layer, 16 Hình 2.9 Kiến trúc mạng Darknet-53 17 Hình 2.10 Minh họa hộp giới hạn dự đốn kích thước khác YOLOv3 18 Hình 2.11 Minh họa khác couple head kiến trúc YOLOv3 decoupled head YOLOX tác giả đề xuất 20 Hình 2.12 Minh họa khác Single positive Multiple Positives 21 Hình 2.13 Kiến trúc mơ hình PP-YOLOE 22 Hình 2.14 Hình ảnh framework Oriented RepPoints 24 Hình 2.15 Hình ảnh kiến trúc mạng FCOS 32 Hình 3.1 Hình ảnh lớp liệu DOTA 34 Hình 3.2 Một số hình ảnh liệu DOTA 36 Hình 4.1 Cơng thức minh họa để tính IoU 40 Hình 4.2 Precision and recall 42 Hình 4.3 Trực quan hố kết phương pháp OR liệu DOTA 45 Hình 4.4 Trực quan hoá kết ba phương pháp liệu DOTA 46 Hình 5.1 Sơ đồ usecase 49 Hình 5.2 Sơ đồ user-flow 49 Hình 5.3 Sơ đồ kiến trúc 50 Hình 5.4 Màn hình giao diện ban đầu 50 Hình 5.5 Màn hình giao diện sau tải ảnh đầu vào 51 Hình 5.6 Màn hình giao diện sau phát đối tượng 51 Hình 5.7 Màn hình giao diện xem chi tiết ảnh đầu 52 Hình 5.8 Màn hình giao diện nhấn tải thơng tin ảnh 52 Hình 5.9 Màn hình giao diện xem ảnh đầu 53 Hình 5.10 Hình ảnh minh hoạ sử dụng demo 53 Hình 5.11 Hình ảnh minh hoạ upload ảnh đầu vào 54 Hình 5.12 Hình ảnh minh hoạ bắt đầu phát đối tượng 54 Hình 5.13 Hình ảnh minh hoạ demo xử lý 55 Hình 5.14 Hình ảnh minh hoạ sau phát đối tượng 55 Hình 5.15 Hình ảnh minh hoạ xem ảnh đầu 56 Hình 5.16 Hình ảnh minh hoạ xem detail ảnh đầu 56 Hình 5.17 Hình ảnh minh hoạ download file txt thông tin đối tượng 57 DANH MỤC BẢNG Bảng 4-1 Kết thực nghiệm 44 Hình 4.4 Trực quan hố kết ba phương pháp liệu DOTA (Theo thứ tự từ trái sang phải phương pháp: OR, FCOS, KDL) 4.4.3 Đánh giá kết Từ bảng kết thực nghiệm thấy phương pháp OR đạt kết tốt ba phương pháp điểm AP lớp đối tượng mAP 0,453 Theo sau phương pháp FCOS với điểm mAP 0,274 cuối phương pháp KDL với điểm mAP 0,201 Cụ thể, lớp ship, OR đạt điểm AP 0.472 FCOS KLD 0,200 0.144 Hay lớp harbor, OR đạt 0.490 FCOS 0.221 KLD 0.150 Ngoài lớp đối tượng tennis court phát tương đối xác với điểm AP phương pháp cao 0.878, 0.799 0.778 46 Chương ỨNG DỤNG PHÁT HIỆN ĐỐI TƯỢNG Nội dung chương tập trung giới thiệu ứng dụng phát đối tượng tảng web bao gồm công nghệ sử dụng, phân tích thiết kế, chức ứng dụng Ở phần cuối chương hình ảnh minh hoạ trình sử dụng trực tiếp ứng dụng local 5.1 Giới thiệu Ứng dụng phát đối tượng không ảnh ứng dụng cho phép người dùng sử dụng ảnh tải lên để phát đối tượng đa dạng bao gồm 15 lớp khác nhau.Ứng dụng sử dụng tảng web Công nghệ sử dụng: • Web: ReactJs ReactJS thư viện JavaScript mã nguồn mở sử dụng rộng rãi việc xây dựng ứng dụng web Nó cho phép bạn xây dựng giao diện người dùng động, tương tác dễ bảo trì • Back-end: Python 3, Flask Python phiên ngôn ngữ lập trình Python Nó phiên phát triển cải tiến so với phiên trước Python Flask framework web nhẹ viết Python Nó giúp bạn xây dựng ứng dụng web nhanh chóng dễ dàng Flask thiết kế để đơn giản, linh hoạt có tính mở rộng, cho phép xây dựng từ ứng dụng web nhỏ đến ứng dụng web phức tạp Dưới số đặc điểm lợi ích Flask: • Lightweight (nhẹ): Flask xây dựng nhằm giữ số lượng thành phần cốt lõi, giúp ứng dụng bạn không trở nên phức tạp nặng nề 47 • Easy to use (dễ sử dụng): Flask có cú pháp đơn giản dễ hiểu, giúp người phát triển dễ dàng tiếp cận xây dựng ứng dụng web cách nhanh chóng • Flexible (linh hoạt): Flask không đưa quy định cứng nhắc cách bạn phải tổ chức dự án Bạn có tự tổ chức cấu trúc thư mục, chọn cách xử lý yêu cầu phản hồi, tích hợp thư viện cơng cụ mà bạn muốn sử dụng • Extensible (mở rộng): Flask có cộng đồng phát triển sôi nhiều extension plugin có sẵn, giúp bạn mở rộng khả Flask thêm tính vào ứng dụng bạn • Well-documented (tài liệu phong phú): Flask có tài liệu phong phú, với ví dụ cụ thể hướng dẫn chi tiết giúp bạn hiểu sử dụng Flask cách hiệu Flask sử dụng rộng rãi cộng đồng Python để xây dựng ứng dụng web, API, dịch vụ web Mọi người tìm hiểu thêm Flask tài liệu chi tiết trang chủ nó: https://flask.palletsprojects.com/ Regenerate response 5.2 Phân tích thiết kế 5.2.1 Thiết kế usecase Sơ đồ use case (use case diagram) biểu đồ kỹ thuật phần mềm, sử dụng để mô tả chức hệ thống ứng dụng mà hệ thống cung cấp từ quan điểm người dùng cuối Sơ đồ use case giúp hiểu rõ tác nhân (actors) tương tác tác nhân hệ thống thông qua trường hợp sử dụng (use case) 48 Hình 5.1 Sơ đồ usecase 5.2.2 Thiết kế user-flow Sơ đồ user flow (user flow diagram) biểu đồ hướng dẫn quy trình hoạt động người dùng ứng dụng, trang web giao diện người dùng Nó mơ tả bước mà người dùng thực để đạt mục tiêu cụ thể, từ bắt đầu tương tác với hệ thống hoàn thành tác vụ Sơ đồ user flow thường sử dụng biểu đồ dịng thời gian (timeline diagrams) biểu đồ luồng cơng việc (workflow diagrams) để trình bày trực quan trình di chuyển tương tác người dùng hệ thống Hình 5.2 Sơ đồ user-flow 5.2.3 Thiết kế kiến trúc Sơ đồ kiến trúc (architecture diagram) biểu đồ mô tả cấu trúc tổ chức hệ thống phần mềm ứng dụng Nó cung cấp nhìn tổng quan thành phần hệ thống, mối quan hệ chúng cách chúng tương tác với 49 Sơ đồ kiến trúc giúp người phát triển nhà thiết kế có nhìn tổng quan cấu trúc tổ chức hệ thống Nó giúp việc hiểu quy mơ phạm vi hệ thống, cung cấp khung làm việc cho phân tích thiết kế, cơng cụ hữu ích việc truyền tải thơng tin kiến trúc cho thành viên khác nhóm phát triển bên liên quan Hình 5.3 Sơ đồ kiến trúc 5.2.4 Thiết kế giao diện Hình 5.4 Màn hình giao diện ban đầu 50 Hình 5.5 Màn hình giao diện sau tải ảnh đầu vào Hình 5.6 Màn hình giao diện sau phát đối tượng 51 Hình 5.7 Màn hình giao diện xem chi tiết ảnh đầu Hình 5.8 Màn hình giao diện nhấn tải thơng tin ảnh 52 Hình 5.9 Màn hình giao diện xem ảnh đầu 5.3 Chức ứng dụng Bao gồm phát đối tượng từ ảnh người dùng tải lên, cho phép người dùng xem, xoay trái, phải, phóng to, thu nhỏ ảnh đầu Ngồi người dùng xem detail ảnh đầu tải file txt thơng tin đối tượng Hình 5.10 Hình ảnh minh hoạ sử dụng demo 53 Hình 5.11 Hình ảnh minh hoạ upload ảnh đầu vào Hình 5.12 Hình ảnh minh hoạ bắt đầu phát đối tượng 54 Hình 5.13 Hình ảnh minh hoạ demo xử lý Hình 5.14 Hình ảnh minh hoạ sau phát đối tượng 55 Hình 5.15 Hình ảnh minh hoạ xem ảnh đầu Hình 5.16 Hình ảnh minh hoạ xem detail ảnh đầu 56 Hình 5.17 Hình ảnh minh hoạ download file txt thông tin đối tượng 57 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Nội dung chương tập trung vào hai nội dung kết luận hướng phát triển đề tài Trong đó, phần kết luận bao gồm: kết quả, khó khăn, thuận lợi Phần hướng phát triển trình bày định hướng phát triển đề tài phù hợp tương lai dựa theo công việc kết đạt 6.1 Kết luận 6.1.1 Kết Nội dung khóa luận tập trung tìm hiểu tốn Phát đối tượng không ảnh, nghiên cứu chạy thực nghiệm phương pháp phát đối tượng dựa học sâu Dựa mục tiêu đặt ra, khóa luận đạt số kết sau: • Tìm hiểu tổng quan tốn Phát đối tượng từ ảnh chụp Drone dựa nghiên cứu cơng bố • Tìm hiểu liệu DOTA – A Large-scale Dataset for Object Detection in Arial Images khảo sát liệu dùng cho tốn tương tự • Nghiên cứu cài đặt thực nghiệm phương pháp phát đối tượng sử dụng mạng học sâu liệu DOTA • Tổng hợp, so sánh kết thực nghiệm phương pháp liệu không ảnh DOTA • Xây dựng ứng dụng web demo phát đối tượng từ không ảnh sử dụng mạng học sâu 58 6.1.2 Khó khăn Tìm hiểu cách hoạt động tốn Phát đối tượng cịn gặp nhiều khó khăn địi hỏi kiến thức liên quan đến học sâu Bên cạnh việc thực nghiệm yêu cầu phải cài đặt môi trường tinh chỉnh thông số phù hợp 6.1.3 Thuận lợi Trong suốt trình thực nghiên cứu nhận giúp đỡ nhiệt tình giáo viên hướng dẫn, phịng ban bạn nhóm nghiên cứu Q trình thực nghiệm nhận hỗ trợ sử dụng GPU phịng MMLab giúp cơng việc hiệu giảm đáng kể thời gian huấn luyện 6.2 Hướng phát triển Một số hướng phát triển cho đề tài khoá luận bao gồm: • Tiếp tục tìm hiểu phương pháp phát đối tượng dựa học sâu kiến thức liên quan • Thực nghiệm phương pháp phát đối tượng tìm hiểu để cải thiện kết liệu không ảnh • Phát triển ứng dụng song song tảng di động bổ sung thêm tính cần thiết 59 TÀI LIỆU THAM KHẢO [1] G.-S Xia, "DOTA: A large-scale dataset for object detection in aerial images," Proceedings of the IEEE conference on computer vision and pattern recognition, 2018 [2] W Li, "Oriented reppoints for aerial object detection," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022 [3] R Girshick, "Fast r-cnn," Proceedings of the IEEE international conference on computer vision, 2015 [4] S Ren, "Faster r-cnn: Towards real-time object detection with region proposal networks," Advances in neural information processing systems 28, 2015 [5] K G G D P & G He, "Mask r-cnn," Proceedings of the IEEE international conference on computer vision, 2017 [6] J a A F Redmon, "Yolov3: An incremental improvement," 2018 [7] G J B a Y A J Rjoub, "Active federated yolor model for enhancing autonomous vehicles safety," International Conference on Mobile Web and Intelligent Information Systems, 2022 [8] Z Ge, "Yolox: Exceeding yolo series in 2021," arXiv preprint arXiv:2107.08430, 2021 [9] Z Tian, "Fcos: Fully convolutional one-stage object detection," Proceedings of the IEEE/CVF international conference on computer vision, 2019 [10] X Huang, "PP-YOLOv2: A practical object detector," arXiv preprint arXiv:2104.10419, 2021 [11] S Xu, "PP-YOLOE: An evolved version of YOLO," arXiv preprint arXiv:2203.16250, 2022 [12] X Yang, "Learning high-precision bounding box for rotated object detection via kullback-leibler divergence," Advances in Neural Information Processing Systems 34, 2021 [13] T.-Y Lin, "Focal loss for dense object detection," Proceedings of the IEEE international conference on computer vision, 2017 [14] W Liu, "Ssd: Single shot multibox detector," Computer Vision–ECCV 2016: 14th European Conference, 2016 [15] A D L a T M B Van Etten, "Spacenet: A remote sensing dataset and challenge series," arXiv preprint arXiv:1807.01232, 2018 [16] D Lam, "xview: Objects in context in overhead imagery," arXiv preprint arXiv:1802.07856, 2018 [17] S Jiang, "An optimized deep neural network detecting small and narrow rectangular objects in Google Earth images," IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 13, 2020 [18] T Koch, "The tum-dlr multimodal earth observation evaluation benchmark," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2016 60

Định dạng
Số trang	71
Dung lượng	4,34 MB