.7 Minh họa vùng mà cơng thức tính AP tính tốn- 123docz.net

Chúng tôi sử dụng độ đo AP của COCO API 1 để đánh giá mơ hình. Theo COCO API, AP được tính tốn cho các IoU trong phạm vi từ 0.5 đến 0.95 với các bước nhảy là 0.05, thường được viết dưới dạng AP@0.50:0.95 hay viết ngắn gọn là AP.

Ngồi ra, chúng tơi cịn đánh giá với AP tại các IoU xác định như sau:

− AP@0.5: AP tại IoU = 0.5 (tương tự độ đo của PASCAL VOC).

− AP@0.75: AP tại IoU = 0.75.

5.3. Kết quả

5.3.1. Kết quả thực nghiệm

Chúng tôi sử dụng độ đo AP của COCO API để đánh giá mơ hình D2Det với backbone ResNet50 và ResNet101 trên tập test, daylight, lowalt, birdview, daylight – lowalt – birdview của bộ dữ liệu UAVDT-Benchmark-M.

5.3.1.1. Mô hình D2Det sử dụng backbone ResNet50 kết hợp với FPN

AP AP@0.5 AP@0.75

test 14.2 23.2 16.1

daylight 14.6 23.0 17.1

lowalt 43.7 59.6 53.6

birdview 11.1 17.8 12.0

daylight – lowalt – birdview 57.4 76.9 75.0

Bảng 5.2 Kết quả dự đoán của D2Det sử dụng ResNet50 kết hợp FPN.

Mơ hình D2Det sử dụng backbone ResNet50 kết hợp với FPN được huấn luyện trong khoảng 28 giờ. Mơ hình đạt kết quả tốt đối với trường hợp ảnh có cả 3

thuộc tính daylight, low-alt, bird-view và tập low-alt. Cịn lại, kết quả dự đốn của mơ hình trên tập test và các trường hợp khác đều không cao.

5.3.1.2. Mô hình D2Det sử dụng backbone ResNet101 kết hợp với FPN

AP AP@0.5 AP@0.75

test 12.3 23.2 11.8

daylight 12.0 22.1 11.9

lowalt 21.4 35.4 24.3

birdview 12.6 24.3 12.0

daylight – lowalt – birdview 45.5 71.1 55.3

Bảng 5.3 Kết quả dự đoán của D2Det sử dụng ResNet101 kết hợp FPN. Mơ hình D2Det sử dụng backbone ResNet101 kết hợp với FPN được huấn Mơ hình D2Det sử dụng backbone ResNet101 kết hợp với FPN được huấn Mơ hình D2Det sử dụng backbone ResNet101 kết hợp với FPN được huấn luyện trong khoảng 34 giờ. Mơ hình đạt kết quả tốt đối với trường hợp ảnh có cả 3 thuộc tính daylight, low-alt, bird-view. Mơ hình khơng hiệu quả đối với các trường hợp còn lại.

5.3.2. Hình ảnh minh họa

5.3.2.1. Mô hình D2Det sử dụng backbone ResNet50 kết hợp với FPN

c) Tập lowalt d) Tập birdview

e) Tập daylight – lowalt – birdview

Hình 5.8 Hình ảnh minh họa kết quả dự đốn của mơ hình D2Det sử dụng ResNet50 kết hợp FPN.

Nhận xét: Với ảnh trong tập test, daylight và birdview, mơ hình dự đốn sót

và nhầm lẫn nhiều đối tượng. Với ảnh trong tập lowalt, kết quả dự đoán tốt hơn nhưng vẫn có một đối tượng bus bị dự đốn thành car và vẽ bounding box sai. Ảnh trong tập daylight – lowalt – birdview được dự đốn tốt nhất, khơng bị chồng lắp bounding box hay bị bỏ sót. Tuy nhiên, vẫn tồn tại đối tượng truck bị dự đốn thành car.

5.3.2.2. Mơ hình D2Det sử dụng backbone ResNet101 kết hợp với FPN

c) Tập lowalt d) Tập birdview

e) Tập daylight – lowalt – birdview

Hình 5.9 Hình ảnh minh họa kết quả dự đốn của mơ hình D2Det sử dụng ResNet101 kết hợp FPN.

Nhận xét: Với ảnh trong tập test, daylight, mơ hình gặp phải các vấn đề tưởng

tự như mơ hình sử dụng ResNet50. Với trường hợp birdview, mơ hình dự đốn được nhiều đối tượng hơn so với mơ hình dung ResNet50, song vẫn sót rất nhiều đối tượng khác. Với ảnh trong tập lowalt, kết quả dự đốn tốt hơn nhưng vẫn có một đối tượng bus bị chồng lấp. Ảnh trong tập daylight – lowalt – birdview được dự đoán tốt nhất so với các trường hợp khác. Tuy nhiên, vẫn tồn tại nhiều đối tượng bị chồng lấp.

5.3.3. Đánh giá kết quả

Từ kết quả thực nghiệm cho thấy cả 2 mơ hình D2Det với backbone ResNet 50 và ResNet101 kết hợp FPN đều không hiệu quả đối với bộ dữ liệu UAVDT- benchmark-M. Trong đó, mơ hình D2Det sử dụng ResNet50 có thời gian huấn luyện ít hơn nhưng cho ra kết quả tốt hơn so với mơ hình sử dụng ResNet101, riêng trường hợp bird-view thì mơ hình ResNet101 có kết quả cao hơn. Cụ thể:

− Đối với tập test, đây là tập ảnh có đầy đủ các thuộc tính phức tạp của bộ dữ liệu UAVDT-Benchmark-M và kết quả dự đốn của cả 2 mơ hình D2Det đều thấp. Ngun nhân có thể kể đến như mơ hình được huấn luyện để dự đoán các đối tượng car, truck, bus. Đây là các đối tượng phương tiện giao thông mà trong không ảnh các đối tượng thường dễ bị nhầm lẫn với nhau, dẫn đến nhiều đối tượng được gán nhãn nhiều lần. Ngoài ra, với các ảnh có góc quay quá cao sẽ khiến các đối tượng trên ảnh rất nhỏ, cùng với các điều kiện phức tạp dẫn đến độ chính xác chưa cao.

− Xét riêng từng tình huống mà chúng tơi thực nghiệm (daylight, low-alt, birdview), kết quả dự đoán của cả 2 mơ hình đều thấp, trừ trường hợp low-alt thì mơ hình sử dụng ResNet50 cho kết quả AP = 43.7%, AP@0.5 = 59.6%, AP@0.75 = 53.6%. Trong đó, so với trường hợp daylight và bird-view, tập low-alt có kết quả tốt hơn. Ngun nhân có thể do kích thước của đối tượng khi được quay ở độ cao thấp sẽ to hơn nên dễ nhận diện hơn. Trong tập daylight, các đối tượng được chụp vào ban ngày nên các yếu tố như màu sắc, hình dạng phương tiện sẽ dễ phần biệt hơn so với các ảnh có thời tiết sương mù hoặc vào thời điểm ban đêm song vẫn bị hạn chế nhiều bởi yếu tố kích thước đối tượng ảnh hưởng từ độ cao của camera. Còn với tập bird-view, sự tương quan giữa các đối tượng car, truck, bus cũng như với các đối tượng nền khi được chụp thẳng từ trên xuống trong các điều kiện thời tiết, độ cao khác nhau sẽ cao hơn nên dễ nhầm lẫn hơn. Việc mơ hình cho kết quả tốt nhất với low alt cũng cho thấy yếu tố kích thước đối tượng ảnh hưởng từ độ cao camera tác động nhiều đến hiệu quả của bài toán hơn so với các yếu tố cịn lại. Ngồi ra, khi chúng tơi thực nghiệm với tập ảnh có cả 3 đặc điểm daylight, low-alt, bird-view, đây là tập đạt kết quả tốt nhất bởi tập ảnh này sẽ cải thiện được các hạn chế đó.

Chương 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1. Kết luận

Trong đề tài này, chúng tơi đã hồn thành được các mục tiêu chính đã đặt ra:

− Có cái nhìn tổng quan về Computer Vision, một số bài toán nổi bật của Computer Vision.

− Tìm hiểu bài tốn phát hiện đối tượng, đặc biệt là phát hiện phương tiện giao thông trong khơng ảnh.

− Tìm hiểu bộ dữ liệu UAVDT, xử lý dữ liệu cơ bản cho quá trình huấn luyện.

− Nghiên cứu các cơ sở lý thuyết về học sâu, về mơ hình phát hiện đối tượng: Faster R-CNN, D2Det,…

− Cài đặt phương pháp phát hiện đối tượng D2Det cho bài toán phát hiện phương tiện giao thông trong không ảnh.

− Đánh giá mơ hình dựa trên độ đo AP.

6.2. Hạn chế

− Q trình nghiên cứu gặp nhiều khó khăn do chưa có đủ kiến thức nền tảng.

− Việc cài đặt phương pháp D2Det tốn nhiều thời gian do chưa có kinh nghiệm giải quyết các lỡi phát sinh khi thiết lập cấu hình chạy thực nghiệm.

− Kết quả thực nghiệm chưa cao.

6.3. Hướng phát triển

− Tìm hiểu các phương pháp xử lý dữ liệu trước khi huấn luyện.

− Thực nghiệm với các kiến trúc mạng CNN khác để tìm ra phương án tốt hơn.

− Tìm hiểu các phương pháp khác để thực nghiệm trên bộ dữ liệu UAVDT- Benchmark-M.

TÀI LIỆU THAM KHẢO

[1] Cao, J., Cholakkal, H., Anwer, R. M., Khan, F. S., Pang, Y., & Shao, L. (2020). D2det: Towards high quality object detection and instance segmentation. In

Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 11485-11494).

[2] Du, D., Qi, Y., Yu, H., Yang, Y., Duan, K., Li, G., ... & Tian, Q. (2018). The unmanned aerial vehicle benchmark: Object detection and tracking. In

Proceedings of the European Conference on Computer Vision (ECCV) (pp.

370-386).

[3] Razakarivony, S., & Jurie, F. (2016). Vehicle detection in aerial imagery: A small target detection benchmark. Journal of Visual Communication and Image

Representation, 34, 187-203.

[4] Zhu, P., Wen, L., Du, D., Bian, X., Hu, Q., & Ling, H. (2020). Vision meets drones: Past, present and future. arXiv preprint arXiv:2001.06303.

[5] Ding, J., Zhu, Z., Xia, G. S., Bai, X., Belongie, S., Luo, J., ... & Zhang, L. (2018, August). Icpr2018 contest on object detection in aerial images (odai-18). In

2018 24th International Conference on Pattern Recognition (ICPR) (pp. 1-6).

IEEE.

[6] He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).

[7] Ren, S., He, K., Girshick, R., & Sun, J. (2016). Faster R-CNN: towards real- time object detection with region proposal networks. IEEE transactions on pattern analysis and machine intelligence, 39(6), 1137-1149.

[8] He, K., Gkioxari, G., Dollár, P., & Girshick, R. (2017). Mask r-cnn. In

Proceedings of the IEEE international conference on computer vision (pp.

2961-2969).

[9] Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., & Wei, Y. (2017). Deformable convolutional networks. In Proceedings of the IEEE international

conference on computer vision (pp. 764-773).

[10] Lin, T. Y., Dollár, P., Girshick, R., He, K., Hariharan, B., & Belongie, S. (2017). Feature pyramid networks for object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2117-2125).

[11] Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In

Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 580-587).

[12] Girshick, R. (2015). Fast r-cnn. In Proceedings of the IEEE international conference on computer vision (pp. 1440-1448).

.7 Minh họa vùng mà cơng thức tính AP tính tốn

.2 Kiến trúc của Fast R-CNN

.1 Một số ảnh của bộ dữ liệu UAVDT