Nhận xét: Các đối tượng khơng dự đốn được đối với ResNet50-24-RFP. Với ResNet101-24-mstrain-SAC, mơ hình dự đốn được một vài đối tượng nhưng vẫn cịn sót rất nhiều đối tượng khác.
59
4.4.4.Kết quả thực nghiệm phương pháp TOOD 4.4.4.1.Kết quả thực nghiệm 4.4.4.1.Kết quả thực nghiệm
Bảng 4.5 Kết quả thực nghiệm TOOD. (Kết quả cao nhất được in đậm)
Từ bảng 4.5, ta thấy cả 6 mơ hình TOOD đều khơng hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mơ hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 31.9%. Trong đó, mơ hình TOOD-ResNet50-12 có kết quả tốt nhất trên các tập fog, high-alt và bird-view. Mơ hình TOOD-ResNet50-24 có kết quả tốt nhất trên tập test, night, medium-alt, front-view và long-term. Mơ hình TOOD- ResNet50-24-MS có kết quả tốt nhất trên tập daylight, low-alt và side-view.
Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mơ hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn và có kết quả thấp hơn ResNet50 ở cả tập test và các trường hợp khác.
Xét về từng thuộc tính của bộ dữ liệu, cả 5 mơ hình TOOD đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp cịn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất. Riêng TOOD-ResNet50-24 có kết quả dự đốn tốt (57%) trên tập night.
60
4.4.4.2.Hình ảnh minh họa
Trường hợp mơ hình dự đốn tốt:
a) ResNet50-24
b) ResNet101-12
Hình 4.13 Ảnh minh họa kết quả dự đốn tốt của các mơ hình TOOD.
Nhận xét: Các đối tượng được mơ hình phát hiện đúng, khơng gặp tình trạng đối tượng bị chồng lắp bounding box. Tuy nhiên, cả hai vẫn sót vài đối tượng.
61
Trường hợp mơ hình dự đốn kém
a) ResNet50-24
b) ResNet101-12
Hình 4.14 Ảnh minh họa kết quả dự đốn kém của các mơ hình TOOD.
Nhận xét: Các đối tượng khơng dự đốn được đối với ResNet101-12. Còn ResNet50-24 cũng chỉ phát hiện đc vài đối tượng.
62
4.4.5.Kết quả thực nghiệm phương pháp VFNet 4.4.5.1.Kết quả thực nghiệm 4.4.5.1.Kết quả thực nghiệm
Bảng 4.6 Kết quả thực nghiệm VFNet. (Kết quả cao nhất được in đậm)
Từ bảng 4.6, ta thấy cả 6 mơ hình VFNet đều khơng hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mơ hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 29.9%. Trong đó, mơ hình VFNet-ResNet50-24-MS có kết quả tốt nhất trên các tập test, daylight, night, medium-alt, front-view, side-view và long- term. Mơ hình VFNet-ResNet101-24-MS có kết quả tốt nhất trên tập fog, high-alt và bird-view. Mơ hình VFNet-ResNet50-24 có kết quả tốt nhất trên tập low-alt.
Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mơ hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn và hầu hết có kết quả thấp hơn ResNet50 ở cả tập test và các trường hợp khác. Việc huấn luyện multi-scale trên ResNet50 cũng có cải thiện cho nhiều trường hợp nhưng không quá chênh lệch.
Xét về từng thuộc tính của bộ dữ liệu, các mơ hình VFNet (ngoại trừ VFNet- ResNet101-12) đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp cịn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất.
63
4.4.5.2.Hình ảnh minh họa
Trường hợp mơ hình dự đốn tốt:
a) ResNet50-24-mstrain
b) ResNet101-24
Hình 4.15 Ảnh minh họa kết quả dự đốn tốt của các mơ hình Faster R-CNN.
Nhận xét: Các đối tượng được mơ hình phát hiện đúng, khơng gặp tình trạng đối tượng bị chồng lắp bounding box. Trong đó, ResNet50-24-mstrain được dự đốn tốt nhất, cịn ResNet101-24 thì sót 1 đối tượng.
64
Trường hợp mơ hình dự đốn kém
a) ResNet50-24-mstrain
b) ResNet101-24
Hình 4.16 Ảnh minh họa kết quả dự đốn kém của các mơ hình Faster R-CNN.
Nhận xét: Cả 2 mơ hình đều chỉ dự đoán được số ít đối tượng. Trong đó, ResNet101-24 dự đốn được nhiều hơn so với ResNet50-24-mstrain nhưng không đáng kể.
65
4.5.Đánh giá 4.5.1.So sánh 4.5.1.So sánh
Từ kết quả thực nghiệm của từng phương pháp, các kết quả dự đốn của mơ hình sử dụng backbone ResNet101 hầu hết đều thấp hơn hoặc không quá chênh lệch với mơ hình sử dụng ResNet50 nên tôi chỉ so sánh kết quả của các mơ hình với ResNet50. Lưu ý, đối với kết quả của DetectoRS, tôi chỉ đưa vào 2 mơ hình DetectoRS-ResNet50-12 và DetectoRS-ResNet50-24 sử dụng RFP và mơ hình DetectoRS-ResNet50-24-MS sử dụng SAC.
Bảng 4.7 Tổng hợp kết quả tốt nhất của các phương pháp. (Kết quả cao nhất được in đậm)
Về tổng quát, ta thấy cả 5 phương pháp đều không hiệu quả đối với bộ dữ liệu UAVDT-Benchmark-M khi mơ hình TOOD-ResNet50-24 có kết quả tốt nhất chỉ với AP@50 = 31.9%. Khi so sánh các phương pháp với cùng thông số huấn luyện, phương pháp TOOD có các kết quả tốt hơn hẳn các phương pháp khác còn Faster R-CNN cho kết quả thấp nhất. Về thời gian huấn luyện, phương pháp DetectoRS mất hơn gấp đôi lượng thời gian của các phương pháp khác.
66 Xét các thuộc tính về điều kiện chiếu sáng:
• Daylight: mơ hình có kết quả tốt nhất là TOOD-ResNet50-24 với AP@50 = 28.9 %. Các mơ hình TOOD khác cũng cao hơn hẳn các mơ hình cùng thơng số huấn luyện cịn lại và Faster R-CNN thấp nhất. • Night: tuy chỉ có mơ hình TOOD-ResNet50-24 và DetectoRS-
ResNet50-24 có kết quả khá tốt (57% và 58%), song, các kết quả cịn lại cũng khơng q thấp như các trường hợp khác (thấp nhất là DetectoRS-ResNet50-24-MS với 34.6%). Đây là trường hợp thu được kết quả cao nhất trong nhóm thuộc tính về điều kiện chiếu sáng.
• Fog: Đây là trường hợp thu được kết quả thấp nhất trong nhóm thuộc tính về điều kiện chiếu sáng. Mơ hình có kết quả tốt nhất là VFNet- ResNet50-24 với AP@50 = 21.6 %. Các mơ hình TOOD cũng khơng q chênh lệch so với mơ hình của VFNet. Thấp nhất vẫn là Faster R- CNN.
Xét các thuộc tính về độ cao của thiết bị bay:
• Low-alt: Đây là thuộc tính có kết quả dự đốn cao nhất trong số 10 thuộc tính của bộ dữ liệu UAVDT-Benchmark-M khi được tất cả mơ hình thực nghiệm dự đốn với độ chính xác hơn 50 %. Trong đó, kết quả tốt nhất là TOOD-ResNet50-24-MS với AP@50 = 67%. Đồng thời, TOOD là phương pháp duy nhất với cả 3 mơ hình có độ chính xác hơn 60 %.
• Medium-alt: Đây là trường hợp mà các phương pháp có kết quả không quá chênh lệch và không hiệu quả với kết quả tốt nhất là 36.9 % thuộc về mơ hình TOOD-ResNet50-24.
• High-alt: Đây là trường hợp thu được kết quả thấp nhất trong số 10 thuộc tính của bộ dữ liệu UAVDT-Benchmark-M. Các kết quả không quá chênh lệch và không hiệu quả. Kết quả tốt nhất là mơ hình VFNet-ResNet50-24 với AP@50 = 17.5 %. Các mơ hình TOOD cũng
67
khơng q chênh lệch so với mơ hình của VFNet. Thấp nhất vẫn là Faster R-CNN.
Xét các thuộc tính về góc quay của camera:
• Front-view: Mơ hình có kết quả tốt nhất là TOOD-ResNet50-24 với AP@50 = 34.6%. Các mơ hình TOOD khác cũng cao hơn hẳn các mơ hình cùng thơng số huấn luyện cịn lại và Faster R-CNN thấp nhất. • Side-view: Mơ hình có kết quả tốt nhất là VFNet-ResNet50-24-MS
với AP@50 = 34.1%. Tuy nhiên, các mơ hình TOOD cũng có độ chính xác tương đương với VFNET và Faster R-CNN thấp nhất. • Bird-view: Đây là trường hợp có kết quả thấp nhất trong nhóm các
thuộc tính về góc quay của camera. Mơ hình có kết quả tốt nhất là TOOD-ResNet50-12 với AP@50 = 26.7%. Tuy nhiên, các mơ hình VFNet cũng có độ chính xác tương đương với TOOD.
Xét về long-term: tuy chỉ có mơ hình DetectoRS-ResNet50-24 có kết quả khá tốt (51.6%), song, các kết quả cịn lại cũng khơng q thấp như các trường hợp khác (thấp nhất là DetectoRS-ResNet50-24-MS với 29.6%). Đây là trường hợp thu được kết quả cao thứ 3 trong số 10 thuộc tính của bộ dữ liệu (sau low-alt và night).
4.5.2.Đánh giá
Nhìn chung, kết quả thực nghiệm cho thấy cả 5 phương pháp đều không hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M. Trong đó, về thời gian huấn luyện, các phương pháp khơng q chênh lệch ngoại trừ DetectoRS có thời gian dài hơn gấp đơi. Về độ chính xác, phương pháp TOOD có kết quả cao nhất so với 4 phương pháp cịn lại. Các mơ hình VFNet khơng thấp hơn TOOD q nhiều và có kết quả tốt hơn TOOD trong trường hợp fog và highalt. Ngoài ra, phương pháp DetectoRS tuy khơng q cao, nhưng mơ hình DetectoRS-ResNet50-24 sử dụng RFP có thể dự đốn hiệu quả cho thuộc tính night, low-alt và long-term.
Về nhóm thuộc tính điều kiện chiếu sáng (daylight, night, fog), kết quả dự đoán trên tập fog là thấp nhất bởi khi có sương mù, ảnh sẽ thiếu các chi tiết về
68
đường nét của đối tượng, đồng thời, nếu sương mù quá dày đặc, nó sẽ che khuất đối tượng, khiến việc dự đốn trở nên khó khăn. Theo thơng thường, ảnh với thời điểm ban ngày sẽ dễ dàng dự đoán hơn so với ban đêm do ánh sáng của đèn đường mờ vào ban đêm khiến thông tin kết cấu của vật thể trở nên khó nắm bắt. Tuy nhiên, kết quả thực nghiệm trên tập night lại cao hơn tập daylight là do các ảnh test có thuộc tính night lại khơng có ảnh nào chịu ảnh hưởng bởi thuộc tính high-alt trong khi lượng ảnh test có thuộc tính daylight nhiều hơn và chịu ảnh hưởng bởi nhiều thuộc tính hơn.
Về nhóm thuộc tính độ cao thiết bị bay (low-alt, medium-alt, high-alt), việc kết quả dự đoán trên tập low-alt là cao nhất và high-alt là thấp nhất trong số 10 thuộc tính của bộ dữ liệu UAVDT-Benchmark-M cho thấy kích thước đối tượng tác động nhiều nhất tới độ chính xác của dự đốn. Như đã đề cập ở chương về bộ dữ liệu, thiết bị bay càng lên cao, camera sẽ thu được khung cảnh rộng hơn, nhiều đối tượng hơn nhưng đồng thời đối tượng sẽ ngày càng nhỏ dần, trong khi ở độ cao thấp, camera sẽ thu được đối tượng có kích thước lớn hơn, nhiều chi tiết hơn.
Về nhóm thuộc tính góc quay của camera (front-view, side-view, bird-view), việc kết quả dự đốn khơng q chênh lệch cho thấy nhóm thuộc tính này khơng tác động quá lớn đến độ chính xác. Song, đây là nhóm thuộc tính tác động đến thơng tin của đối tượng ở nhiều góc độ khác nhau nên việc nâng cao độ chính xác cho các thuộc tính này sẽ giúp mơ hình phát hiện đối tượng linh hoạt hơn.
4.6.Ứng dụng Phát hiện phương tiện giao thông trong không ảnh 4.6.1.Giới thiệu 4.6.1.Giới thiệu
VEDAI (Vehicle Detection in Aerial Images) là ứng dụng cho phép người dùng load ảnh từ thiết bị để phát hiện đối tượng phương tiện giao thông đường bộ gồm: car, truck, bus. Cơng nghệ sử dụng:
• Model: TOOD.
69 • Client: HTML, CSS, JavaScript.
4.6.2.Thiết kế
4.6.2.1.Thiết kế Use case
Hình 4.17 Mơ tả use case tổng qt cho ứng dụng VEDAI.
4.6.2.2.Thiết kế user flow
Hình 4.18 User flow tổng quát của ứng dụng VEDAI.
4.6.2.3.Thiết kế kiến trúc
70
4.6.2.4.Thiết kế giao diện
Hình 4.20 Màn hình trang chủ.
71
Hình 4.22 Màn hình detect – sau khi upload ảnh.
72
Hình 4.24 Màn hình history.
Hình 4.25 Màn hình History detail.
73
Chương 5.KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
5.1.Kết luận
5.1.1.Kết quả đạt được
Trong đề tài này, chúng tơi đã hồn thành được các mục tiêu chính đã đặt ra: • Tìm hiểu tổng quan về Thị giác máy tính, một số bài tốn nổi bật của
nó và tập trung vào bài tốn Phát hiện đối tượng.
• Tìm hiểu bộ dữ liệu khơng ảnh về phương tiện giao thơng UAVDT. • Tìm hiểu về các phương pháp học sâu để ứng dụng cho bài tốn phát
hiện phương tiện giao thơng trong khơng ảnh.
• Thực nghiệm các phương pháp học sâu Faster R-CNN, D2Det, DetectoRS, TOOD, VFNet trên bộ dữ liệu UAVDT-Benchmark-M. • Phân tích và đánh giá các phương pháp học sâu Faster R-CNN,
D2Det, DetectoRS, TOOD, VFNet dựa trên kết quả thực nghiệm. • Xây dựng ứng dụng cơ bản minh họa phát hiện phương tiện giao
thơng trong khơng ảnh.
5.1.2.Hạn chế
• Kết quả thực nghiệm chưa cao.
• Q trình nghiên cứu gặp nhiều khó khăn do chưa có đủ kiến thức nền tảng.
• Việc thực nghiệm phương pháp tốn nhiều thời gian do thực nghiệm nhiều cấu hình và chưa có đủ kinh nghiệm để giải quyết hết các lỗi gặp phải.
5.2.Hướng phát triển
• Tìm hiểu các phương pháp tăng cường bộ dữ liệu.
• Tìm hiểu về các kỹ thuật sử dụng trong detector để cải thiện mơ hình về độ chính xác và thời gian tính tốn.
74
TÀI LIỆU THAM KHẢO
[1] Ren, S., He, K., Girshick, R., & Sun, J. (2016). Faster R-CNN: towards real- time object detection with region proposal networks. IEEE transactions on pattern analysis and machine intelligence, 39(6), 1137-1149.
[2] Cao, J., Cholakkal, H., Anwer, R. M., Khan, F. S., Pang, Y., & Shao, L. (2020). D2det: Towards high quality object detection and instance segmentation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 11485-11494).
[3] Qiao, S., Chen, L. C., & Yuille, A. (2021). Detectors: Detecting objects with recursive feature pyramid and switchable atrous convolution. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10213-10224).
[4] Feng, C., Zhong, Y., Gao, Y., Scott, M. R., & Huang, W. (2021, October). Tood: Task-aligned one-stage object detection. In 2021 IEEE/CVF International Conference on Computer Vision (ICCV) (pp. 3490-3499). IEEE Computer Society.
[5] Zhang, H., Wang, Y., Dayoub, F., & Sunderhauf, N. (2021). Varifocalnet: An iou-aware dense object detector. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 8514-8523).
[6] Du, D., Qi, Y., Yu, H., Yang, Y., Duan, K., Li, G., ... & Tian, Q. (2018). The unmanned aerial vehicle benchmark: Object detection and tracking. In Proceedings of the European conference on computer vision (ECCV) (pp. 370- 386).
[7] Razakarivony, S., & Jurie, F. (2016). Vehicle detection in aerial imagery: A small target detection benchmark. Journal of Visual Communication and Image
75 Representation, 34, 187-203.
[8] Zhu, P., Wen, L., Du, D., Bian, X., Hu, Q., & Ling, H. (2020). Vision meets drones: Past, present and future. arXiv preprint arXiv:2001.06303.
[9] Ding, J., Zhu, Z., Xia, G. S., Bai, X., Belongie, S., Luo, J., ... & Zhang, L. (2018, August). Icpr2018 contest on object detection in aerial images (odai- 18). In 2018 24th International Conference on Pattern Recognition (ICPR) (pp. 1-6). IEEE.
[10] He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).
[11] Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 580-587).
[12] Girshick, R. (2015). Fast r-cnn. In Proceedings of the IEEE international conference on computer vision (pp. 1440-1448).
[13] Lin, T. Y., Dollár, P., Girshick, R., He, K., Hariharan, B., & Belongie, S. (2017). Feature pyramid networks for object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2117-2125).
[14] Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., & Wei, Y. (2017). Deformable convolutional networks. In Proceedings of the IEEE international conference on computer vision (pp. 764-773).
[15] Cai, Z., & Vasconcelos, N. (2018). Cascade r-cnn: Delving into high quality object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6154-6162).
76
[16] Lin, T. Y., Goyal, P., Girshick, R., He, K., & Dollár, P. (2017). Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision (pp. 2980-2988).
77
PHỤ LỤC A – BÀI BÁO
Bài báo khoa học “Phát hiện phương tiện giao thông trong không ảnh với nhiều tình huống khác nhau” được đăng tại Hội thảo Quốc gia lần thứ XXIV về Điện