.3 Minh họa cấu trúc của Guided Anchring

Một phần của tài liệu đồ án nâng cao hiệu suất phát hiện đối tượng trên bộ dữ liệu không ảnh chứa sương mờ (Trang 47 - 55)

4.2. Hàm mất mát

Hàm mất mát giữ một vai trò quan trọng trong nhiệm vụ phát hiện đối tượng. Một trong số những hàm mất mát được sử dụng phổ biến hiện nay đó chính là cross- entropy (CE). CE dựa trên ý tưởng phạt các dự đoán sai hơn là đề cao các dự đoán đúng. Hàm mất mát CE được định nghĩa theo công thức sau:

Trong đó 𝑝𝑡 là xác suất của lớp 𝑡. Bên cạnh đó, hàm Focal Loss (FL) với khả năng xử lý vấn đề mất cân bằng bằng cách gán nhiều trọng số hơn cho các mẫu khó hoặc dễ phân loại sai. Vì vậy FL được đề xuất như một phiên bản khác của hàm mất mát CE. Focal Loss được định nghĩa như sau:

ℒ𝐶𝐸(𝑝𝑡) = −𝛼(1 − 𝑝𝑡)𝛾𝑙𝑜𝑔(𝑝𝑡)

Trong đó 𝛼 là hệ số cân bằng của Focal Loss với giá trị mặc định là 0.25; và gamma 𝛾 được dùng để tính hệ số điều biến mặc định là 2.0.

4.3. Phương pháp đề xuất

Như mô tả ở trên, Double Heads đã đề xuất một mô-đun có thể dễ dàng gán cho các detector khác, tương tự như Faster RCNN. Do đó, nhóm quyết định gắn Double Heads vào Cascade RCNN và sau đó đánh giá phương pháp này trên tập dữ liệu UIT-DroneFog. Sau khi phân tích kết quả, nhóm tiếp tục thay đổi hàm mất mát mặc định là cross-entropy thành Focal Loss và gọi nó là phương pháp CasDou.

Chương 5. THỰC NGHIỆM VÀ KẾT QUẢ 5.1. Cài đặt thực nghiệm

Bộ dữ liệu UIT-DroneFog của nhóm được chưa thành 3 tập con: training (8,582 ảnh), validation (1,061 ảnh) và testing (5,729) như đã đề cập. Tồn bộ q trình thực nghiệm được thực hiện trên GPU GeForce RTX 2080 Ti với bộ nhớ 11018 MiB. Nhóm đã huấn luyện mơ hình bằng cách sử dụng framework MMDetection V2.10.0. Với mỗi model, nhóm đã sử dụng config điểm mAP cao nhất (được cung cấp trên trang MMDetection Github) có thể kết nối trên một GPU GeForce RTX 2080 Ti duy nhất. Trong phần Guided Anchoring, nhóm đã sử dụng config mặc định GA Faster RCNN với backbone X-101-32x4d-FPN trong 12 epoch và backbone R-50- RPN trong 12 epoch để so sánh với Double Heads mặc định.

5.2. Chỉ số đánh giá

Nhóm đã sử dụng những trọng số tốt nhất trên tập validation để dự đoán và báo cáo kết quả trên tập testing thông qua độ đo mAP để đánh giá hiệu suất của các mơ hình, tương tự như cuộc thi phát hiện đối tượng trên bộ dữ liệu MS COCO. Độ đo AP được tính

5.3. Phân tích

Nhìn chung, kết quả thực nghiệm ở Bảng 5.1 cho thấy Guided Anchoring có kết quả thấp hơn Double Heads. Về điểm mAP, Guided Anchoring đạt hiệu suất kém nhất với 31.39%, tuy nhiên, nó đạt kết quả tốt nhất khi phát hiện Pedestrian (2.60%) và Motor (35.10%). Trong khi đó, Double Heads cho thấy hiệu quả hơn khi phát hiện Car và Bus, đặc biệt kết quả với Bus là 39.20% (cao hơn 5.40% so với Guided Anchoring). Trực quan hóa được thực hiện trên Hình 5.1.

Phương pháp Pedestrian Motor Car Bus mAP AP50 AP75

Guided

Anchoring 2.60 35.10 56.10 33.80 31.90 46.50 36.70 Double Heads 1.60 33.20 58.70 39.20 33.20 47.50 38.90

Bảng 5.1 Kết quả thực nghiệm với config mặc định. Hiệu suất tốt nhất được in đậm.

(a) Guided Anchoring

(b) Double Heads

Hình 5.1 Ví dụ về các trường hợp dự đốn sử dụng cấu hình mặc định. Các bounding box màu cam là dự đoán và màu xanh là ground truth

Hơn nữa, vì Double Heads có kết quả phát hiện tốt hơn, nhóm quyết định cải thiện mơ hình này bằng cách kết hợp nó với Cascade và đặt tên là CasDou. Lý do nhóm thực hiện sự kết hợp này là Cascade RCNN có kiến trúc tương tự như Faster RCNN (cấu hình mặc định của Double Heads) và nó hiệu quả hơn Faster RCNN với cùng một backbone. Sau đó, nhóm tiến hành một thử nghiệm mở rộng với Double Heads và CasDou. Tuy nhiên, hai mơ hình này chỉ khác biệt 0.1% kết quả. Điều này có nghĩa khi nhóm gắn mơ hình Double Heads vào Cascade RCNN thay vì sử dụng

Faster RCNN như config mặc định, kết quả phát hiện đổi tượng khơng được cải thiện như mong đợi. Hơn nữa, nhóm nhận thấy rằng các mơ hình gặp khó khăn với tính chất mất cân bằng đặc trưng của bộ dữ liệu dữ liệu. Pedestrian và Motor chính là hai đối tượng chiếm tỉ lệ phân bố cao nhất (khoảng 13.31% và 77.84%) trên bộ dữ liệu UIT-DroneFog, thường dễ bị nhầm lẫn với nhau khi phát hiện trong hình ảnh. Ngồi ra, đối tượng Bus ít xuất hiện trong bộ dữ liệu nhất, sau khi sử dụng CasDou thay vì Guided Anchoring, đã tăng từ 33.80% lên 39.20%.

Do đó, nhóm tiếp tục từ việc thay đổi hàm mất mát từ CrossEntropy Loss (CE) (config mặc định) sang Focal Loss (FL) trong Double Heads và CasDou. Điều này chứng minh trong các nghiên cứu trước đây nhằm giảm nhầm lẫn giữa các lớp khi dự đốn đối tượng. Như dự đốn, cả hai mơ hình đều đạt hiệu suất cao hơn ở mỗi lớp và điểm mAP, đặc biệt điểm mAP của CasDou tăng lên 34.70%. Việc phát hiện sai các đối tượng kích thước nhỏ và phát hiện thiếu đối tượng Car, Bus đã giảm đáng kể (thể hiện trong Hình 5.2). Nhìn chung, nhóm đã cải thiện hiệu quả ở 3 lớp: Pedestrian, Car và Bus. Các kết quả và hình ảnh trực quan đã minh chứng rằng việc sử dụng hàm Focal Loss đạt kết quả tốt hơn trong vấn đề phát hiện đối tượng ở không ảnh giao thông chứa sương mờ.

Phương pháp

Hàm mất mát

Pedest

rian Motor Car Bus mAP AP50 AP75

Double Heads CE 1.60 33.20 58.70 39.20 33.20 47.50 38.90 FL 2.20 34.10 57.70 41.00 33.70 49.30 39.00 CasDou CE 2.30 34.50 57.20 39.20 33.30 47.80 39.00 FL 2.70 34.20 59.30 42.50 34.70 50.20 40.30

Bảng 5.2 Kết quả thực nghiệm khi thay đổi hàm mất mát. Hiệu suất tốt nhất được in đậm.

Hình 5.2 So sánh kết quả thử nghiệm Double Heads và CasDou với hàm mất mát Cross-entropy và Focal Loss. Các bounding box màu cam là dự đoán và

Chương 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1. Kết luận

Trong đồ án lần này, nhóm đã giới thiệu bộ dữ liệu không ảnh chứa sương mờ UIT-DroneFog gồm 4 lớp đối tượng Pedestrian, Motor, Car và Bus với tổng cộng 15,372 ảnh và khoảng 600.000 bounding box tương ứng. Nhóm đã tiến hành thử nghiệm trên hai phương pháp SOTA: Guided Anchoring, Double Heads và một phương pháp được đề xuất có tên CasDou trên bộ dữ liệu của nhóm. Qua các thử nghiệm mở rộng, CasDou đạt điểm mAP cao nhất là 34.70%.

6.2. Thuận lợi

Trong suốt quá trình thực hiện nghiên cứu nhận được sự giúp đỡ của giáo viên hướng dẫn, các phòng ban cũng như các thành viên trong nhóm nghiên cứu. Nhóm sử dụng GPU cung cấp bởi MMLab, điều này đã giúp thời gian huấn luyện mơ hình được tối ưu.

6.3. Khó khăn

Q trình chuẩn bị dữ liệu huấn luyện mất nhiều thời gian để tinh chỉnh mô phỏng sương mờ phù hợp, bên cạnh đó kích thước nhỏ cũng như mật độ đối tượng cao cũng gây cản trở việc phát hiện đối tượng.

6.4. Hướng phát triển

Trong tương lai, nhóm sẽ tiếp tục mở rộng và phát triển tập dữ liệu UIT- DroneFog lên số lượng lớn hơn và nhiều mức độ sương mờ khác nhau bằng cách áp dụng các thuật tốn khác. Hơn nữa, nhóm sẽ xây dựng một ứng dụng di động có thể phát hiện trực tiếp các phương tiện trong điều kiện thời tiết sương mờ và có thể sử dụng cho nhiều mục đích khác nhau.

TÀI LIỆU THAM KHẢO

[1] Codruta O Ancuti, Cosmin Ancuti, Radu Timofte, and Christophe De Vleeschouwer. “O-haze: a dehazing benchmark with real hazy and haze-free outdoor images”. In: Proceedings of the IEEE conference on computer vision and pattern recognition workshops. 2018, pp. 754–762.

[2] Zhaowei Cai and Nuno Vasconcelos. “Cascade r-cnn: Delving into high quality object detection”. In: Proceedings of the IEEE conference on computer vision and pattern recognition. 2018, pp. 6154–6162.

[3] Kai Chen et al. “Mmdetection: Open mmlab detection toolbox and benchmark”. In: arXiv preprint arXiv:1906.07155 (2019).

[4] Quynh M. Chung et al. “Data Augmentation Analysis in Vehicle Detection from Aerial Videos”. In: 2020 RIVF International Conference on Computing and Communication Technologies (RIVF). 2020, pp. 1–3. DOI: 10. 1109/RIVF48685.2020.9140740.

[5] Boyi Li et al. “Benchmarking single-image dehazing and beyond”. In: IEEE Transactions on Image Processing 28.1 (2018), pp. 492–505.

[6] Khang Nguyen et al. “Detecting Objects from Space: An Evaluation of Deep-Learning Modern Approaches”. In: Electronics 9.4 (2020), p. 583.

[7] Mario Pavlic, Gerhard Rigoll, and Slobodan Ilic. “Classification of images in fog and fog-free scenes for use in vehicles”.In: 2013 IEEE Intelligent Vehicles Symposium (IV). IEEE. 2013, pp. 481–486.

[8] XuQin,ZhilinWang,YuanchaoBai,XiaodongXie,and Huizhu Jia. “FFA- Net: Feature fusion attention network for single image dehazing”. In: Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 34. 07. 2020, pp. 11908–11915.

[9] Christos Sakaridis, Dengxin Dai, and Luc Van Gool. “Semantic foggy scene understanding with synthetic data”. In: International Journal of Computer Vision 126.9 (2018), pp. 973–992.

[10] Rita Spinneker, Carsten Koch, Su-Birm Park, and Jason JeongsukYoon.“Fastfogdetectionforcamerabasedadvanceddriverassistancesystems”. In:17thInternational IEEE Conference on Intelligent Transportation Systems (ITSC). IEEE. 2014, pp. 1369–1374.

[11] Jean-Philippe Tarel, Nicolas Hautiere, Aurélien Cord, Dominique Gruyer, and Houssam Halmaoui. “Improved visibility of road scene images under heterogeneous fog”. In: 2010 IEEE Intelligent Vehicles Symposium. IEEE. 2010, pp. 478–485.

[12] Jean-Philippe Tarel et al. “Vision enhancement in homogeneous and heterogeneous fog”. In: IEEE Intelligent Transportation Systems Magazine 4.2 (2012), pp. 6–20.

[13] Jiaqi Wang, Kai Chen, Shuo Yang, Chen Change Loy, and Dahua Lin. “Region Proposal by Guided Anchoring”. In: IEEE Conference on Computer Vision and Pattern Recognition. 2019.

[14] Yue Wu et al. “Rethinking Classification and Localization for Object Detection”. In: (2019). arXiv: 1904. 06493 [cs.CV].

Một phần của tài liệu đồ án nâng cao hiệu suất phát hiện đối tượng trên bộ dữ liệu không ảnh chứa sương mờ (Trang 47 - 55)

Tải bản đầy đủ (PDF)

(55 trang)