Bài viết trình bày phân tích và đánh giá hiệu suất của phương pháp D2Det trên bộ dữ liệu không ảnh UAVDT-Benchmark-M cho các tình huống daylight, low-alt, bird-view. Các kết quả ban đầu được báo cáo đầy đủ và là cơ sở cho các nghiên cứu sau này trong việc phát triển thuật toán trên miền dữ liệu không ảnh.
Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) Phát phương tiện giao thơng khơng ảnh với nhiều tình khác Phan Thị Hồng Cúc, Võ Duy Nguyên, Nguyễn Thành Hiệp, Nguyễn Tấn Trần Minh Khang Trường Đại Học Công Nghệ Thông Tin, ĐHQG-HCM 18520260@gm.uit.edu.vn, {nguyenvd, hiepnt, khangnttm}@uit.edu.vn Tóm tắt—Phát phương tiện giao thơng ảnh chụp từ khơng có nhiều ứng dụng cho hệ thống thông minh năm gần Những thách thức từ độ cao, tầm nhìn tồn cảnh góc chụp thẳng cần khai thác nhiều Trong nghiên cứu này, chúng tơi phân tích đánh giá hiệu suất phương pháp D2Det liệu khơng ảnh UAVDT-Benchmark-M cho tình daylight, low-alt, bird-view Các kết ban đầu báo cáo đầy đủ sở cho nghiên cứu sau việc phát triển thuật toán miền liệu khơng ảnh Từ khóa—Vehicle detection, Convolutional neural network, Drone, Aerial image toán Chẳng hạn như, thiết bị bay di chuyển với tốc độ nhanh, hình ảnh thu bị mờ, thiết bị bay cao đối tượng ảnh nhỏ hay có sương mù, vào thời điểm ban đêm, đối tượng ảnh khó nhận biết I GIỚI THIỆU Với phát triển mạnh mẽ công nghệ, nhiều dự án xây dựng thành phố thông minh nghiên cứu rộng rãi Một yếu tố góp phần thực điều việc xây dựng nên hệ thống quản lý hoạt động giao thông thông minh Trong đó, việc phát phương tiện giao thơng ảnh phần khơng thể thiếu giúp ta giám sát, phân tích hành vi người tham gia giao thơng, tính tốn lưu lượng giao thơng phục vụ cho lĩnh vực liên quan Song cách thức thu thập liệu hệ thống camera giám sát cố định bị hạn chế địa điểm, tầm nhìn, góc quay mà giải cách lắp đặt camera nhiều địa điểm khác Dù vậy, việc lắp đặt lại bị ảnh hưởng cơng trình xây dựng khu vực cần lắp Do đó, việc sử dụng khơng ảnh – hình ảnh thu từ thiết bị bay không người lái (UAV) ngày phổ biển Bởi với vài thiết bị bay, ta cho camera bay qua nhiều địa điểm, thu thập lượng lớn hình ảnh từ độ cao, góc quay, điều kiện thời tiết, ánh sáng khác nhau, từ giúp giảm chi phí thời gian thực Khơng ảnh có nhiều ứng dụng hệ thống giám sát an ninh, nơng nghiệp, vận chuyển hàng hóa [1], [2], [3], [4] Tuy nhiên, thực tế, đa dạng hình dạng phương tiện yếu tố góc quay, độ cao camera, thời tiết, ánh sáng thách thức ISBN 978-604-80-5958-3 339 Hình 1: Bài tốn phương tiện giao thơng khơng ảnh Bài tốn phát phương tiện giao thơng khơng ảnh ngày phổ biến giới nghiên cứu khoa học Nhiều liệu công bố UAVDT [5], VisDrone [6] thi ODAI [7], VisDrone Challenge [8] tổ chức để khuyến khích nhà nghiên cứu tìm phương pháp xử lý nhằm nâng cao xác, độ hiệu cho toán Bài toán nhận đầu vào ảnh chụp giao thơng trích xuất từ camera thiết bị bay không người lái cho thơng tin vị trí, tên tương ứng với phương tiện giao thơng có ảnh đầu vào Hình Nhiều khảo sát phương pháp phát đối tượng Faster RCNN [9], YOLO [10], SNIPER [11] không ảnh công bố gần [12], [13], [14], [15], [16] Phần lại báo tổ chức sau: nghiên cứu liên quan trình bày Chương II, Chương III trình bày thông tin thực nghiệm Chương IV đánh giá kết mơ hình, cuối cùng, chúng tơi đưa kết luận hướng nghiên cứu Chương V Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) II CÁC NGHIÊN CỨU LIÊN QUAN A Faster R-CNN Faster R-CNN [17] phương pháp phát đối tượng thuộc họ R-CNN công bố Ross Girshick cộng Ý tưởng Faster R-CNN tương tự với phương pháp họ R-CNN trước đó: lấy vùng có khả chứa đối tượng giai đoạn tiến hành phân loại xác định vị trí đối tượng dựa vùng giai đoạn Tuy nhiên, thay sử dụng thuật tốn Selective search phương pháp họ trước đó, Faster R-CNN đề xuất Region proposal network (RPN) để lấy vùng đề xuất có khả chứa đối tượng Kiến trúc mạng RPN nhận đầu vào feature map cho vùng đề xuất có khả chứa đối tượng Vì khơng sử dụng thuật tốn Selective search nên Faster R-CNN đưa định nghĩa anchor để xác định anchor box ban đầu region proposal Hình 3: Deformable RoI pooling [18] C D2Det D2Det [19] công bố hội nghị CVPR vào năm 2020 Jiale Cao cộng Đây phương pháp phát đối tượng giai đoạn dựa Faster R-CNN Giai đoạn D2Det dùng RPN để thu vùng đề xuất có khả chứa đối tượng Tại giai đoạn 2, D2Det đề xuất dense local regression discriminative RoI pooling thay cho bounding box regression object classification Faster R-CNN Trong đó, dense local regression xác định vị trí đối tượng discriminative RoI pooling xác định nhãn đối tượng Hình 4: Kiến trúc D2Det [19] Hình 2: RPN [17] B Deformable RoI pooling Deformable RoI pooling [18] công bố báo "Deformable convolutional networks" hội nghị ICCV vào năm 2017 dùng để thay cho RoI pooling thường dùng Deformable RoI pooling thực sau: Đầu tiên, nhánh trên, ta sử dụng RoI pooling (hoặc RoIAlign) để pool feature map thành ma trận có kích thước cố định cho trước Sau đó, lớp fully connected tạo thơng số chuẩn hóa ∆ˆ pij biến đổi thành ∆pij (phương trình hình 3) γ = 0.1 Cuối cùng, nhánh dưới, ta thực deformable RoI pooling Feature map đầu pool dựa vùng với thông số tăng cường (augmented offsets) xem Hình ISBN 978-604-80-5958-3 340 Dense local regression xem đặc trưng RoI k x k chiều (ma trận thu từ trình RoI pooling RoIAlign) k đặc trưng cục (local feature) liền kề không gian Mỗi đặc trưng cục biểu diễn pi Mỗi thông số li , ri , ti , bi ground-truth box G tương ứng với pi tính cơng thức (1), (2), (3), (4) với xi , yi tọa độ vị trí pi , xl , yt tọa độ góc trái xr , yb tọa độ góc phải ground-truth box G, wP , hP chiều rộng chiều cao proposal P Hình li = xi − xl wP (1) ri = xr − xi wP (2) ti = yi − yt hP (3) Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) bi = yb − yi hP (4) Số lượng đặc trưng cục proposal P thuộc ground-truth box G dựa vào phần giao proposal ground-truth tương ứng Tuy nhiên, dù trường hợp đa số đặc trưng cục P thuộc G tồn đặc trưng không cần thiết (đặc trưng thuộc nền) khiến cho kết khơng xác Để giải vấn đề đó, dense local regression dùng binary overlap prediction m ˆ i để phân loại đặc trưng cục thuộc ground-truth bounding box hay thuộc Như vậy, q trình tính tốn, dense local regression dự đoán thêm giá trị m ˆ i bên cạnh thông số dense box ˆli , rˆi , tˆi , ˆbi đặc trưng cục pi ∈ P Hình 6: Discriminative RoI pooling [19] tăng cường Sau thực offset prediction, thay sử dụng RoIAlign, discriminative RoI pooling dùng Adaptive weighted pooling (AWP) để gán trọng số cao cho điểm mẫu phân biệt Hình Hình 7: AWP [19] Hình 5: Dense local regression [19] Trong trình huấn luyện, m ˆ i truyền qua hàm chuẩn hóa sigmoid σ để tính tốn binary cross-entropy loss với nhãn mi với mi = đặc trưng cục pi thuộc phần giao proposal P ground-truth G, mi = đặc trưng cục thuộc Các thông số dense box vị trí σ(m ˆ i ) > 0.5 sử dụng để tính vị trí góc trái góc phải predicted box Cuối cùng, predicted box tính nhiều đặc trưng cục tính trung bình để thu bounding box cuối Discriminative RoI pooling lấy cảm hứng từ deformable RoI pooling [18] cải thiện để dùng cho toán phân lớp Ở nhánh trên, discriminative RoI pooling thực RoIAlign với kích thước k2 x k2 (light-weight offset prediction) thay RoIAlign với kích thước k x k deformable RoI pooling, truyền qua lớp fully connected để thu thông số ISBN 978-604-80-5958-3 341 Ở Hình 7, điểm mẫu ban đầu, F ∈ R2kx2k (tương ứng với giá trị ma trận đặc trưng k2 x k2 thu từ RoIAlign ta có điểm mẫu gốc) dùng để dự đoán trọng số tương ứng W ∈ R2kx2k Các trọng số cho biết khả phân biệt chúng tồn khơng gian vùng Sau đó, ma trận đặc trưng Weighted RoI F˜ tính cơng thức (5), với F ma trận điểm mẫu ban đầu, W (F ) ma trận trọng số tương ứng với điểm mẫu F tính thơng qua lớp convolutional, tích Hadamard F˜ = W (F ) F (5) Tiếp theo, AWP thực average pooling với stride F˜ thu ma trận đặc trưng discriminative RoI với kích thước k x k Cuối cùng, ma trận đặc trưng discriminative RoI xem véc-tơ toàn cục, Faster R-CNN, véc-tơ truyền qua lớp fully connected để thu classification score Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) III THỰC NGHIỆM Bảng I: Kết với backbone ResNet50 + FPN A Bộ liệu Bộ liệu UAVDT [5] chứa nhiều yếu tố thách thức thực tế bao gồm ánh sáng, độ cao, góc quay UAVDT gồm khoảng 80 nghìn ảnh lấy từ 100 video có tổng thời lượng 10 tiếng với khoảng 0.84 triệu bounding box, chia làm liệu, gồm 50 video: UAVDT-Benchmark-M gồm 40,735 ảnh dành cho toán phát đối tượng theo vết nhiều đối tượng, UAVDT-Benchmark-S gồm 37,085 ảnh dành cho toán theo vết đối tượng Trong phạm vi báo, sử dụng liệu UAVDT-Benchmark-M Chúng chọn tình cần khảo sát tổ chức thư mục gồm: train (20,536 ảnh), val (3,607 ảnh), test (16,592 ảnh), daylight (9,376 ảnh), low-alt (6,987 ảnh), bird-view (3,217 ảnh), daylight - lowalt - birdview (298 ảnh) Daylight Lowalt Birdview Daylight Lowalt Birdview AP AP@0.5 AP@0.75 14.6 23.0 17.1 43.7 59.6 53.6 11.1 17.8 12.0 57.4 76.9 75.0 B Độ đo Thực nghiệm đánh giá độ đo Average Precision (AP) theo tiêu chuẩn COCO API1 Cụ thể, chúng tơi tính giá trị AP trung bình 10 IoU từ 0.5 đến 0.95 với bước nhảy 0.05 Mặt khác, đánh giá độ xác giá trị IoU xác định (AP IoU = 0.5 AP IoU = 0.75) Ngồi ra, chúng tơi cịn đánh giá AP cho đối tượng với kích thước khác nhau: APs (AP dành cho đối tượng nhỏ, có diện tích < 322 ), APm (AP dành cho đối tượng trung bình, có diện tích khoảng từ 322 đến 962 ), APl (AP dành cho đối tượng lớn, có diện tích > 962 ) (a) Tập daylight C Thông tin thực nghiệm Chúng tơi tiến hành huấn luyện lại mơ hình D2Det liệu UAVDT-Benchmark-M cho phù hợp với phạm vi tốn mà giữ cấu hình backbone ResNet [20] tác giả dùng (ResNet50 ResNet101 kết hợp với FPN [21]) Chúng tơi chạy thực nghiệm máy tính có cấu hình Intel(R) Core(TM) i9-10900X CPU @ 3.70GHz, RAM 64GB, GPU 12GB RTX2080Ti, hệ điều hành Linux (b) Tập low-alt IV THẢO LUẬN A Kết mơ hình D2Det với ResNet50 kết hợp FPN Mơ hình D2Det sử dụng backbone ResNet50 kết hợp FPN huấn luyện khoảng 28 Theo bảng I, mơ hình cho kết tốt tập có thuộc tính daylight, low-alt, bird-view (AP = 57.4%, AP@0.5 = 76.9%, AP@0.75 = 75.0%) Khi so sánh thuộc https://cocodataset.org/#home ISBN 978-604-80-5958-3 342 (c) Tập bird-view Hình 8: Hình minh họa với backbone ResNet50 + RPN Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) Bảng II: Kết với backbone ResNet101 + FPN Daylight Lowalt Birdview Daylight Lowalt Birdview AP AP@0.5 AP@0.75 12.0 22.1 11.9 21.4 35.4 24.3 12.6 24.3 12.0 tính, tập bird-view có kết thấp (AP = 11.1% so với 14.6% daylight 43.7% low-alt) Hình 8a cho thấy mơ hình bỏ sót bị nhầm lẫn nhiều đối tượng với ảnh quay cao Hình 8b có kết tốt có đối tượng bị gán nhãn sai Hình 8c cho thấy quay cao điều kiện sương mù mơ hình khơng hiệu B Kết mơ hình D2Det với ResNet101 kết hợp FPN 45.5 71.1 Mơ hình D2Det sử dụng backbone ResNet101 kết hợp FPN huấn luyện khoảng 34 Theo bảng II, mơ hình D2Det có kết tốt tập có thuộc tính daylight, low-alt, bird-view với AP = 45.5%, AP@0.5 = 71.1%, AP@0.75 = 55.3% Còn với tập ảnh có thuộc tính mà chúng tơi lựa chọn kết tập daylight có kết thấp (AP = 12% so với 21.4% low-alt 12.6% bird-view) Hình 9a cho thấy mơ hình có vấn đề tương tự mơ hình sử dụng ResNet50 Hình 9b có kết tốt có đối tượng bị phát nhiều lần Trong hình 9c mơ hình nhận biết nhiều đối tượng mơ hình sử dụng ResNet50, song bỏ sót nhiều đối tượng 55.3 C Đánh giá (a) Tập daylight (b) Tập low-alt (c) Tập bird-view Hình 9: Hình minh họa mơ hình với ResNet101 + FPN ISBN 978-604-80-5958-3 343 Nhìn chung, mơ hình D2Det sử dụng ResNet50 có thời gian huấn luyện cho kết tốt so với mơ hình sử dụng ResNet101, riêng trường hợp bird-view mơ hình ResNet101 có kết cao mơ hình với ResNet50 Dù vậy, mơ hình chưa hiệu với với ảnh có thuộc tính daylight, low-alt, bird-view, trừ trường hợp low-alt mơ hình sử dụng ResNet50 cho kết AP = 43.7%, AP@0.5 = 59.6%, AP@0.75 = 53.6% Tuy nhiên, với tập ảnh có đặc điểm hai mơ hình cho kết tốt tập ảnh tránh hạn chế mà trường hợp gặp phải Xét riêng thuộc tính mà chúng tơi chọn, tập lowalt có kết tốt so với tập cịn lại Ngun nhân kích thước đối tượng quay độ cao thấp to nên dễ nhận diện Trong tập daylight, đối tượng chụp vào ban ngày nên yếu tố màu sắc, hình dạng phương tiện dễ phân biệt so với ảnh có thời tiết sương mù vào thời điểm ban đêm song bị hạn chế nhiều yếu tố kích thước đối tượng ảnh hưởng từ độ cao camera Còn với tập bird-view, tương quan đối tượng car, truck, bus với đối tượng chụp thẳng từ xuống điều kiện thời tiết, độ cao khác cao nên dễ nhầm lẫn Việc mơ hình cho kết tốt với low-alt cho thấy Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Cơng nghệ Thơng tin (REV-ECIT2021) yếu tố kích thước đối tượng ảnh hưởng từ độ cao camera tác động nhiều đến hiệu toán so với yếu tố lại V KẾT LUẬN Trong nghiên cứu này, chúng tơi tìm hiểu phương pháp D2Det cho tốn phát phương tiện giao thơng khơng ảnh Chúng tơi huấn luyện lại mơ hình liệu UAVDT-Benchmark-M đánh giá ảnh có thuộc tính daylight, low-alt, bird-view liệu Kết thực nghiệm cho thấy mơ hình chưa hiệu với riêng trường hợp mà chúng tơi chọn, song mơ hình D2Det sử dụng backbone ResNet50 kết hợp với FPN hiệu với tình độ cao camera thấp (AP = 43.7%, AP@0.5 = 59.6%, AP@0.75 = 53.6%) với tình có yếu tố ban ngày, độ cao camera thấp, góc chụp thẳng (AP = 57.4%, AP@0.5 = 76.9%, AP@0.75 = 75.0%) Ở nghiên cứu kế tiếp, hy vọng cải thiện kết trường hợp phức tạp tìm phương án giải tốn tốt hơn, áp dụng cho nhiều loại phương tiện giao thông LỜI CẢM ƠN Nghiên cứu tài trợ Trường Đại học Công nghệ Thông tin – ĐHQG-HCM khuôn khổ Đề tài mã số D2-2021-01 Nghiên cứu thực Phịng thí nghiệm Truyền thơng Đa phương tiện (MMLab), Trường đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh TÀI LIỆU THAM KHẢO [1] E Semsch, M Jakob, D Pavlicek, and M Pechoucek, “Autonomous uav surveillance in complex urban environments,” in 2009 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology, vol IEEE, 2009, pp 82–85 [2] P K R Maddikunta, S Hakak, M Alazab, S Bhattacharya, T R Gadekallu, W Z Khan, and Q.-V Pham, “Unmanned aerial vehicles in smart agriculture: Applications, requirements, and challenges,” IEEE Sensors Journal, 2021 [3] M Perreault and K Behdinan, “Delivery drone driving cycle,” IEEE Transactions on Vehicular Technology, 2021 [4] M Erdelj, E Natalizio, K R Chowdhury, and I F Akyildiz, “Help from the sky: Leveraging uavs for disaster management,” IEEE Pervasive Computing, vol 16, no 1, pp 24–32, 2017 [5] H Yu, G Li, W Zhang, Q Huang, D Du, Q Tian, and N Sebe, “The unmanned aerial vehicle benchmark: Object detection, tracking and baseline,” International Journal of Computer Vision, vol 128, no 5, pp 1141–1159, 2020 ISBN 978-604-80-5958-3 344 [6] P Zhu, L Wen, D Du, X Bian, Q Hu, and H Ling, “Vision meets drones: Past, present and future,” arXiv preprint arXiv:2001.06303, 2020 [7] J Ding, Z Zhu, G.-S Xia, X Bai, S Belongie, J Luo, M Datcu, M Pelillo, and L Zhang, “Icpr2018 contest on object detection in aerial images (odai-18),” in 2018 24th International Conference on Pattern Recognition (ICPR) IEEE, 2018, pp 1–6 [8] Y Cao, Z He, L Wang, W Wang, Y Yuan, D Zhang, J Zhang, P Zhu, L Van Gool, J Han et al., “Visdrone-det2021: The vision meets drone object detection challenge results,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp 2847–2854 [9] S Ren, K He, R Girshick, and J Sun, “Faster r-cnn: Towards real-time object detection with region proposal networks,” Advances in neural information processing systems, vol 28, pp 91–99, 2015 [10] J Redmon, S Divvala, R Girshick, and A Farhadi, “You only look once: Unified, real-time object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp 779–788 [11] B Singh, M Najibi, and L S Davis, “Sniper: Efficient multiscale training,” arXiv preprint arXiv:1805.09300, 2018 [12] Q M Chung, T D Le, T V Dang, N D Vo, T V Nguyen, and K Nguyen, “Data augmentation analysis in vehicle detection from aerial videos,” in 2020 RIVF International Conference on Computing and Communication Technologies (RIVF) IEEE, 2020, pp 1–3 [13] K Nguyen, N T Huynh, P C Nguyen, K.-D Nguyen, N D Vo, and T V Nguyen, “Detecting objects from space: An evaluation of deep-learning modern approaches,” Electronics, vol 9, no 4, p 583, 2020 [14] S Srivastava, S Narayan, and S Mittal, “A survey of deep learning techniques for vehicle detection from uav images,” Journal of Systems Architecture, p 102152, 2021 [15] J Wan, B Zhang, Y Zhao, Y Du, and Z Tong, “Vistrongerdet: Stronger visual information for object detection in visdrone images,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp 2820–2829 [16] P V Long, V D Nguyên, and N T T M Khang, “Phát đối tượng ảnh bị hạn chế tầm nhìn sương mù,” Hội nghị Quốc gia lần thứ 23 Điện tử, Truyền thông Công nghệ Thông tin, pp 44–49, 2020 [17] S Ren, K He, R Girshick, and J Sun, “Faster r-cnn: towards real-time object detection with region proposal networks,” IEEE transactions on pattern analysis and machine intelligence, vol 39, no 6, pp 1137–1149, 2016 [18] J Dai, H Qi, Y Xiong, Y Li, G Zhang, H Hu, and Y Wei, “Deformable convolutional networks,” in Proceedings of the IEEE international conference on computer vision, 2017, pp 764–773 [19] J Cao, H Cholakkal, R M Anwer, F S Khan, Y Pang, and L Shao, “D2det: Towards high quality object detection and instance segmentation,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2020, pp 11 485–11 494 [20] K He, X Zhang, S Ren, and J Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp 770–778 [21] T.-Y Lin, P Dollár, R Girshick, K He, B Hariharan, and S Belongie, “Feature pyramid networks for object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp 2117–2125 ... tác động nhiều đến hiệu toán so với yếu tố lại V KẾT LUẬN Trong nghiên cứu này, chúng tơi tìm hiểu phương pháp D2Det cho tốn phát phương tiện giao thơng khơng ảnh Chúng tơi huấn luyện lại mơ... tiếp, hy vọng cải thiện kết trường hợp phức tạp tìm phương án giải tốn tốt hơn, áp dụng cho nhiều loại phương tiện giao thông LỜI CẢM ƠN Nghiên cứu tài trợ Trường Đại học Công nghệ Thông tin – ĐHQG-HCM... nhận diện Trong tập daylight, đối tượng chụp vào ban ngày nên yếu tố màu sắc, hình dạng phương tiện dễ phân biệt so với ảnh có thời tiết sương mù vào thời điểm ban đêm song bị hạn chế nhiều yếu