3.2.2.1. Cấu hình phần cứng
Toàn bộ quá trình thực nghiệm được triển khai trên GeForce RTX 2080 Ti GPU với bộ nhớ 11018MiB.
3.2.2.2. Cấu hình mô hình
Đối với tác vụ khử sươntg mờ, nhóm sử dụng mô hình pre-trained của FFA- Net được cung cấp bởi tác giả được huấn luyện trên bộ dữ liệu RESIDE Outdoor Training Set (OTS) mà không huấn luyện mô hình mới vì một số lý do không cho phép đã nêu ra.
Đối công đoạn phát hiện đối tượng, nhóm tiến hành huấn luyện mô hình PAA trên MMDetection framework V2.9.0 [15] sử dụng cấu hình mặc định với backbone R-101-FPN trong 36 epochs. Bởi vì, theo bảng kết quả huấn luyện PAA với nhiều config khác nhau được cung cấp bởi MMDetection Framework, kết quả của mô hình huấn luyện qua 36 epochs sử dụng backbone R-101-RPN cho kết quả trên độ đo AP tốt nhất10.
32
3.3. Phương pháp đánh giá 3.3.1. Intersection over Union 3.3.1. Intersection over Union
Intersection over Union (IoU) là một tiêu chuẩn tốt nhất dùng để đánh giá sự overlap (trùng lắp) giữa bouding box của ground truth và bounding box của mô hìn dự đoán trong các mô hình Phát hiện đối tượng . Để đánh giá độ đo IoU, ta sử dụng các giá trị sau:
• Ground-truth Bounding boxes: vị trí thực tế của đối tượng.
• Predicted Bounding boxes: vị trí dự đoán đối tượng của mô hình.
Hình 3-6: Công thức minh họa để tính IoU11. Trong đó:
• Area of Overlap là vùng overlap (giao) giữa ground-truth Bounding boxes
và predicted Bounding boxes.
• Area of Union là vùng được union (hợp) bởi cả 2 ground-truth Bounding
boxes và predicted Bounding boxes
Đối với các phương pháp chúng tôi thực nghiệm, kết quả IoU được cho là tốt khi có giá trị ≥ 0.5.
33
3.3.2. Average Precision (AP)
Chúng ta có thể đánh giá mô hình dựa trên việc thay đổi một ngưỡng và quan sát giá trị của Precision và Recall.
AP là đường cong Precision-Recall (Precision-Recall curve) và được tính bằng tổng của trọng số trung bình của các giá trị Precision ở mỗi ngưỡng và trọng số gia tăng của của Recall tại ngưỡng thứ 𝑛 so với ngưỡng trước đó (𝑛 − 1).
Công thức tính:
𝐴𝑃 = ∑(𝑅𝑛
𝑛
𝑖=0
− 𝑅𝑛−1)𝑃𝑛
Trong đó: 𝑃𝑛 và 𝑅𝑛 lần lượt là giá trị Precision và Recall tại ngưỡng thứ 𝑛. Precision là độ đo đánh giá độ tin cậy của dự đoán đưa ra. Nếu Precision cao đồng nghĩa độ chính xác của các điểm tìm được là cao. Recall là độ đo đánh giá khả năng tìm kiếm toàn bộ ground-truth mà mô hình dự đoán được đúng. Giá trị Recall càng cao thì tỉ lệ bỏ sót các điểm thực sự là đúng càng thấp. Ngoài ra, ta có định nghĩa các giá trị TP / FP / FN như sau:
• TP (True Positive): số lượng điểm dữ liệu đúng được model dự đoán đúng.
• FP (False Positive): số lượng điểm dữ liệu sai được model dự đoán đúng.
• FN (False Negative): số lượng điểm dữ liệu đúng được model dự đoán là sai.
34
Hình 3-7: Precision and recall12.
Precision và Recall luôn có giá tri trong đoạn [0,1]. Đối với từng bài toán, các giá trị sẽ mang ý nghĩa khác nhau. Vì vậy, ta không thể dựa vào chỉ mỗi Precission hay Recall cao để đánh giá mô hình.
3.3.3. Mean Average Precision (mAP)
Mean Average Precision (mAP) là trung bình điểm AP (AP score) của n class và được định nghĩa bằng công thức sau:
𝑚𝐴𝑃 = 1
𝑁∑ 𝐴𝑃𝑖
𝑁
𝑖=1
Độ đo mAP được nhóm sử dụng để đánh giá kết quả thực nghiệm lấy từ COCO API. mAP được tính toán cho 10 IoU thay đổi trong phạm vi từ 50% tới 95% với các bước là 5%, thường được viết dưới dạng AP@50:5:95. Giá trị điểm mAP càng cao cho thấy mô hình có hiệu quả dự đoán đúng cầng cao. Ngoài ra, để đánh giá với các giá trị đơn lẻ của IoU, nhóm sử dụng hai giá trị phổ biến nhất là IoU 50% và 75% lần lượt được viết dưới dạng AP@50 (AP𝟓𝟎) , AP@75 (AP𝟕𝟓). Chi tiết xem thêm tại MS-COCO (https://cocodataset.org/#detection-eval).
35
3.4. Kết quả thực nghiệm và đánh giá 3.4.1. Kết quả thực nghiệm 3.4.1. Kết quả thực nghiệm
Sau khi chạy thực nghiệm, nhóm thu được kết quả phát hiện đối tượng dựa trên độ đo mAP cho các lớp đối tượng. Kết quả chi tiết dược thể hiện ở bảng
Mô hình (PAA) AP
mAP mAP50 mAP75
Tập Train Tập Test Car Truck Bus
Raw Raw 19.6 17.1 0.7 12.5 26.7 9.7
Dehazing Raw 18.7 11.2 1.5 10.4 21.4 9.1
Bảng 3.1: Bảng kết quả thực nghiệm phương pháp phát hiện đối tượng PAA. Kết quả tốt nhất được in đậm.
3.4.1.1. Kết quả khử sương mờ
• Trường hợp khử sương mờ tốt (best case)
(a) Ảnh nguyên bản (b) Ảnh đã khử sương mờ Hình 3-8: Ảnh kết quả khử sương mờ tốt sử dụng FFA-Net
36
• Trường họp khử sương mờ kém (bad case)
(a) Ảnh nguyên bản (b) Ảnh đã khử sương mờ
Hình 3-9: Ảnh kết quả khử sương mờ xấu sử dụng FFA-Net (a) Ảnh nguyên bản, (b) Ảnh đã khử sương mờ.
Nhận xét: Sau khi sử dụng FFA-Net để khử sương, cả hai trường hợp đều chưa thực sự bỏ đi được lớp sương mờ. Tuy nhiên, trong điều kiện tối, hiệu quả khử sương thấp hơn khi trong ảnh kết quả, ta vẫn thấy có lớp sương khá dày ở khu vực gần cạnh phải và cạnh trái của ảnh.
3.4.1.2. Kết quả phát hiện đối tượng
• Trường hợp sử dụng tập dữ liệu huấn luyện gốc
Hình 3-10: Ảnh kết quả phát hiện đối tượng trường hợp sử dụng tập dữ liệu huấn luyện gốc.
37
• Trường hợp sử dụng tập dữ liệu huấn luyện khử sương mờ
Hình 3-11: Ảnh kết quả phát hiện đối tượng trường hợp sử dụng tập dữ liệu huấn luyện khử sương mờ.
Nhận xét: Đối với trường hợp đầu tiên, trong điều kiện ánh sáng tốt, kết quả phát hiện đối tượng khá tốt trong khi đối với trường hợp thứ hai, hiện tượng trùng lắp bounding boxes xảy ra với tần suất nhiều hơn. Kết quả kiểm tra trong điều kiện ánh sáng kém cho thấy cả hai cách huấn luyện đều cho kết quả khá tệ khi mô hình phát hiện sai đèn đường thành các đối tượng. Đặc biệt đối với trường hợp thứ nhất, việc trùng lặp bounding boxes diễn ra dày đặc.
3.4.2. Đánh giá kết quả
Trường hợp thứ nhất nhóm tiến hành thực nghiệm phương pháp PAA trên tập dữ liệu gốc để huấn luyện. Ở trường hợp thứ hai, nhóm sử dụng tập dữ liệu đã được khử sương mờ để huấn luyện mô hình phương pháp PAA. Khi thực hiện kiểm tra trên tập dữ liệu kiểm tra, nhóm đã nhận thấy sự cải thiện kết quả dự đoán đối với kết quả của lớp bus (tăng từ 0.7 lên 1.4).
Tuy nhiên, đối với hai lớp car và truck, kết quả dự đoán lại giảm sút đáng kể. Cụ thể, lớp car giảm từ 19.6 xuống 18.7 và lớp truck giảm mạnh từ 17.1 xuống chỉ còn 11.2. Từ đó, nhóm cho rằng việc khử sương dữ liệu gốc đã làm ảnh hưởng đến các đặc trưng của hai lớp (car và truck) dẫn đến kết quả bị giảm sút.
Mặt khác, khi dựa vào quan sát trực quan hóa kết quả và Ground truth, nhóm nhận thấy một số đối tượng có nhãn truck bị phát hiện nhầm thành đối tượng truck. Hơn nữa, trong điều kiện tối, kết quả phát hiện đối tượng của mô hình khá tệ đối với
38
cả hai cách huấn luyện. Vì vậy, nhóm đề xuất giải pháp ở Chương 4 nhằm cải thiện kết quả phát hiện đối tượng.
39
Chương 4. ĐỀ XUẤT CẢI TIẾN VÀ ĐÁNH GIÁ KÉT QUẢ
4.1. Đề xuất cải tiến
Bảng 3-1 cho thấy kết quả của lớp truck giảm sút đến 5.9 (lớn hơn nhiều so với độ giảm 0.9 của lớp car). Mặt khác, thông qua trực quan hóa kết quả, nhóm nhận thấy một số đối tượng lớp truck đã bị phát hiện sai thành lớp car nên nhóm đặt ra giả thuyết nếu giữ nguyên vùng ảnh bên trong bounding box của lớp truck và thực hiện khử sương trên toàn bộ vùng ảnh còn lại thì sự phát hiện sai đối tượng này có thể sẽ giảm xuống từ đó cải thiện kết quả phát hiện đối tượng của bài toán (giả thuyết truck_ex).
Cách thức để thực hiện giả thuyết này đó là nhóm sẽ thêm một bước tiền xử lý ảnh trước khi huấn luyện mô hình PAA. Trong bước tiền xử lý ảnh này, nhóm sử dụng cắt vùng ảnh bên trong bounding box của các đối tượng trong các ảnh của bộ dữ liệu gốc dựa trên annotation của chúng. Sau đó, dán các vùng ảnh này vào tọa độ tương ứng của chúng trong các ảnh tương ứng đã được khử sương mờ.
4.2. Đánh giá kết quả đề xuất 4.2.1. Kết quả đề xuất 4.2.1. Kết quả đề xuất
Mô hình (PAA) AP
mAP mAP50 mAP75
Tập Train Tập Test Car Truck Bus
Raw Raw 19.6 17.1 0.7 12.5 26.7 9.7
Dehazing Raw 18.7 11.2 1.5 10.4 21.4 9.1
Dehazing (truck_ex) Raw 21.9 11.3 4.4 12.5 26.5 9.8
Bảng 4.1: Bảng kết quả thực nghiệm với bộ dữ liệu huấn luyện được khử sương mờ loại trừ đối tượng truck phương pháp phát hiện đối tượng PAA.
40
4.2.2. Trực quan hóa kết quả
• Kết quả khử sương loại trừ truck
(a)Ảnh gốc (b)Khử sương toàn bộ (c)Khử sương loại trừ truck
(a)Ảnh gốc (b)Khử sương toàn bộ (c)Khử sương loại trừ truck Hình 4-1: Ảnh kết quả khử sương loại trừ đối tượng truck.
Nhận xét: Kết quả khử sương loại trừ đối tượng truck cho ta thấy được khu vực bên trong các bounding boxes của lớp đối tượng truck được giữ nguyên trong khi các vùng ảnh còn lại đều thực hiện khử sương mờ.
41
• Kết quả phát hiện đối tượng trên dữ liệu khử sương mờ loại trừ truck
(a)Ground truth (b)Khử sương toàn bộ ảnh (c)Khử sương loại trừ truck
(a)Ground truth (b)Khử sương toàn bộ ảnh (c)Khử sương loại trừ truck Hình 4-2: Ảnh kết quả phát hiện đối tượng trên dữ liệu khử sương mờ loại trừ truck
(a) Ground truth, (b) Khử sương toàn bộ ảnh, (c) Khử sương loài trừ truck.
Nhận xét: Nhìn vào hình ảnh trực quan hóa kết quả, ta thấy được rằng so với Ground truth, mô hình sử dụng dữ liệu khử sương loại trừ lớp đối tượng truck có kết quả dự đoán ít sai lệch với nhãn của Ground truth hơn và các đối tượng có điểm IoU cao hơn so với mô hình còn lại. Tuy nhiên, vẫn còn một số đối tượng car không được phát hiện ra trong điều kiện trời tối.
4.3. Đánh giá kết quả
42
• Đối với lớp truck, việc khử sương sẽ làm kết quả phát hiện đối tượng này giảm sút nhiều so với việc giữ nguyên lớp sương và coi lớp sương như là một phần của đối tượng.
• Ngược lại, đối với lớp car, việc khử sương đã giúp cho mô hình giảm tỉ lệ phát hiện sai lớp car thành lớp truck. Từ đó, kết quả phát hiện đối tượng củalớp này đã tăng lên đến 21.9% trên độ đo mAP. Hơn nữa, điểm IoU của từng đối tượng car riêng lẻ trong các điẻm dữ liệu cũng tăng lên trong khoảng 0.01% - 0.35%.
43
Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
5.1. Kết luận
Nội dung đề tài tập trung tìm hiểu bài toán Phát hiện đối tượng trong không ảnh chứa sương mờ, nghiên cứu và chạy thực nghiệm phương pháp khử sương mờ cũng như phát hiện đối tượng dựa trên học sâu. Dựa trên những mục tiêu đặt ra, đề tài này đã đạt được một số kết quả sau:
• Đề xuất việc kết hợp hai phương pháp tiên tiến FFANet (AAAI-2021) và PPA (ECCV-2020) cho việc pháp hiện phương tiện trong không ảnh chứa sương mờ trên bộ dữ liệu UAV DT Benchmark-M.
• Dựa trên kết quả phát hiện đối tượng của mô hình được huấn luyện trên bộ dữ liệu khử sương mờ, nhóm nhận thấy rằng việc khử sương dữ liệu gốc đã làm ảnh hưởng đến các đặc trưng của hai lớp (car và truck) dẫn đến kết quả kiểm tra bị giảm sút.
• Thông qua quá trình thực nghiệm mở rộng, nhóm đã nhận thấy sương mờ làm giảm kết quả phát hiện lớp car nhưng lại cho kết quả tốt khi xem sương mờ là một phần của lớp truck.
• Dựa vào kết quả nghiên cứu được, nhóm đã có một bài báo khoa học được đăng tại Hội nghị Khoa học Trẻ và nghiên cứu sinh năm 2021 được tổ chức bởi trường Đại học Công nghệ thông tin: “MỘT PHƯƠNG PHÁP PHÁT HIỆN ĐỐI TƯỢNG TRONG KHÔNG ẢNH CHỨA SƯƠNG MỜ”13.
5.2. Thuận lợi
Trong suốt quá trình tìm hiểu, nhóm nhận được sự giúp đỡ của thầy, các anh chị và các bạn trong nhóm nghiên cứu.
13 https://khoahoctre.uit.edu.vn/trien-lam-khoa-hoc-cong-nghe-hoi-nghi-khoa-hoc-tre-va-nghien- cuu-sinh-nam-2021
44
Nhóm được sử dụng GPU cung cấp bới phòng MMLab, giúp thời gian huấn luyện mô hình được giảm tối đa.
5.3. Khó khăn
Nhóm gặp phải một số khó khăn khi tìm hiểu các bài toán khử sương mờ và phát hiện đối tượng do kiến thực nền tảng chưa đủ.
Nhóm vẫn còn phải sử dụng mô hình pre-trained của FFA-Net do không đủ thời gian thu thập dữ liệu mới.
Việc huấn luyện mô hình dựa trên phương pháp PAA tốn khá nhiều thời gian và gặp một số khó khăn khi thiết lập cấu hình chạy thực nghiệm.
5.4. Hướng phát triển
Trong tương lai, nhóm sẽ thu thập dữ liệu không ảnh chứa sương mờ để huấn luyện mô hình FFA-Net để tạo ra phân phối dữ liệu phù hợp với góc nhìn từ trên không.
Thực hiên tinh chỉnh tham số mô hình phương pháp PAA cho phù hợp với bộ dữ liệu không ảnh.
45
TÀI LIỆU THAM KHẢO
[1] D. Chen et al., “Gated context aggregation network for image dehazing and deraining,” in 2019 IEEE winter conference on applications of computer vision (WACV), 2019, pp. 1375–1383.
[2] K. He, J. Sun, and X. Tang, “Single image haze removal using dark channel prior,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 33, no. 12, pp. 2341–2353, 2010.
[3] B. Li, X. Peng, Z. Wang, J. Xu, and D. Feng, “Aod-net: All-in-one dehazing network,” in Proceedings of the IEEE international conference
on computer vision, 2017, pp. 4770–4778.
[4] D. Yang and J. Sun, “Proximal dehaze-net: A prior learning-based deep network for single image dehazing,” in Proceedings of the european conference on computer vision (ECCV), 2018, pp. 702–717.
[5] X. Qin, Z. Wang, Y. Bai, X. Xie, and H. Jia, “FFA-Net: Feature fusion attention network for single image dehazing,” in Proceedings of the AAAI
Conference on Artificial Intelligence, 2020, vol. 34, no. 07, pp. 11908–
11915.
[6] D. Du et al., “The unmanned aerial vehicle benchmark: Object detection and tracking,” in Proceedings of the European conference on computer vision (ECCV), 2018, pp. 370–386.
[7] K. Kim and H. S. Lee, “Probabilistic anchor assignment with iou prediction for object detection,” in European Conference on Computer Vision, 2020, pp. 355–371.
[8] P. Poirson, P. Ammirato, C.-Y. Fu, W. Liu, J. Kosecka, and A. C. Berg, “Fast single shot detection and pose estimation,” in 2016 Fourth International Conference on 3D Vision (3DV), 2016, pp. 676–684.
[9] E. J. McCartney, “Optics of the atmosphere: scattering by molecules and particles,” New York, 1976.
[10] S. G. Narasimhan and S. K. Nayar, “Chromatic framework for vision in bad weather,” in Proceedings IEEE Conference on Computer Vision and
Pattern Recognition. CVPR 2000 (Cat. No. PR00662), 2000, vol. 1, pp.
598–605.
46
Comput. Vis., vol. 48, no. 3, pp. 233–254, 2002.
[12] B. Cai, X. Xu, K. Jia, C. Qing, and D. Tao, “Dehazenet: An end-to-end system for single image haze removal,” IEEE Trans. Image Process., vol. 25, no. 11, pp. 5187–5198, 2016.
[13] W. Ren, S. Liu, H. Zhang, J. Pan, X. Cao, and M.-H. Yang, “Single image dehazing via multi-scale convolutional neural networks,” in European conference on computer vision, 2016, pp. 154–169.
[14] B. Li et al., “Benchmarking single-image dehazing and beyond,” IEEE Trans. Image Process., vol. 28, no. 1, pp. 492–505, 2018.
[15] K. Chen et al., “MMDetection: Open mmlab detection toolbox and
47