5.2.1. Kết quả đề xuất Kiến trúc Hàm mất mát Pedest
rian Motor Car Bus mAP AP𝟓𝟎 AP𝟕𝟓
Double- Head CE 1.60 33.20 58.70 39.20 33.20 47.50 38.90 FL 2.20 34.10 57.70 41.00 33.70 49.30 39.00 CasDou CE 2.30 34.50 57.20 39.20 33.30 47.80 39.00 FL 2.70 34.20 59.30 42.50 34.70 50.20 40.30
Bảng 5.1: Bảng kết quả thực nghiệm mở rộng khi thay đổi hàm mất mát. Kết quả tốt nhất được in đậm (%).
5.2.2. Trực quan hóa kết quả
CE
FL
(a) Double-Head (b) CasDou
Hình 5.1 Ảnh kết quả dự đoán thử nghiệm Double-Head và CasDou với hàm mất mát Cross Entropy và Focal Loss.
54
5.2.3. Đánh giá kết quả
Khi tiến hành thực nghiệm phương pháp CasDou với hàm CE mặc định, kết quả lớp đối tượng Motor được cải thiện tới 34.50% nhưng kết quả 𝑚𝐴𝑃 chỉ tăng thêm được 0.1%. Điều này đã được lý giải bởi vì mô hình gặp khó khăn với sự mất cân bằng giữa các lớp đối tượng trong bộ dữ liệu UIT-DroneFog.
Sau khi tiến hành thay thế hàm CE thành hàm FL, cả hai mô hình Double- Head và CasDou đều đạt hiệu quả cao hơn ở mỗi lớp và điểm 𝑚𝐴𝑃, đặc biệt điểm
𝑚𝐴𝑃 của CasDou tăng lên 34.70% (cao hơn 1.00% so với cấu hình mặc định của phương pháp này, hơn 1.50% so với Double-Head mặc định và hơn 1.8% so với Cascade R-CNN). Việc phát hiện sai các đối tượng kích thước nhỏ và phát hiện thiếu đối tượng Car, Bus đã giảm đáng kể (thể hiện trong Hình 5.1). Nhìn chung, chúng tôi đã cải thiện hiệu quả ở ba lớp: Pedestrian, Car và Bus. Các kết quả và hình ảnh trực quan đã minh chứng rằng việc sử dụng hàm Focal Loss đạt kết quả tốt hơn trong vấn đề phát hiện đối tượng ở không ảnh giao thông chứa sương mờ.
Cuối cùng, dựa trên một số nghiên cứu về các phương pháp khử sương, chúng tôi quyết định thực hiện đề xuất thêm bước tiền xử lý dữ liệu bằng cách khử sương mờ sử dụng mô hình pre-trained của hai phương pháp FFA-Net và DW-GAN với ảnh của bộ dữ liệu UIT-DroneFog trước khi thực hiện huấn luyện phương pháp có kết quả cao nhất hiện tại - CasDou. Kết quả thực nghiệm mở rộng được trình bày như sau:
Phương pháp
khử sương Pedestrian Motor Car Bus mAP AP𝟓𝟎 AP𝟕𝟓
Ảnh sương mờ 2.70 34.20 59.30 42.50 34.70 50.20 40.30 FFA-Net 2.10 33.40 58.40 46.20 35.00 49.60 41.90
DW-GAN 2.30 32.70 58.30 39.60 33.20 47.80 38.10
Bảng 5.2: Bảng kết quả thực nghiệm mở rộng với phương pháp CasDou khi thêm bước khử sương. Kết quả tốt nhất được in đậm (%).
55 (a) Ảnh gốc
(b) FFA-Net
(c) DW-GAN
Hình 5.2: Ảnh kết quả dự đoán thử nghiệm mở rộng với phương pháp CasDou khi thêm bước khử sương.
56
Kết quả thực nghiệm cho thấy FFA-Net có khả năng tăng hiệu quả phát hiện đối tượng, đặc biệt là các đối tượng Bus với điểm 𝐴𝑃 được tăng thêm tới 3.7% giúp điểm 𝑚𝐴𝑃 đạt 35.00% - cao nhất trong thử nghiệm. FFA-Net giúp CasDou hạn chế được các phát hiện nhầm các đối tượng không liên quan thành đối tượng Bus (ví dụ như xe bồn bị phát hiện nhầm thành đối tượng Bus thể hiện trong Hình 5.4) cũng như sinh ra các Bounding box hoàn hảo hơn cho đối tượng này. Mặt khác, phương pháp DW-GAN lại làm giảm giá trị tất cả các điểm 𝐴𝑃. Hơn nữa, khi trực quan hóa kết quả, ta có thể thấy rằng ảnh được khử sương bằng FFA-Net có màu sắc chân thực hơn và các chi tiết ảnh không bị biến đổi quá nhiều như ảnh được khử sương bằng DW-GAN. Điều này xảy ra có thể bởi vì mô hình pre-trained DW-GAN được huấn luyện trên bộ dữ liệu NH-HAZE [33][34] và NH-HAZE2 [18] – bộ dữ liệu ảnh sương thật, trong khi mô hình pre-trained FFA-Net được huấn luyện trên bộ dữ liệu ảnh sương nhân tạo RESIDE [28] – cùng đặc trưng với bộ sương nhân tạo UIT- DroneFog.
5.3. Ứng dụng Phát hiện đối tượng trong không ảnh chứa sương mờ 5.3.1. Giới thiệu 5.3.1. Giới thiệu
Ứng dụng Phát hiện đối tượng trong không ảnh chứa sương mờ (Aerial Object Detection) là ứng dụng cho phép người dùng sử dụng ảnh (được chụp hoặc tải từ thiết bị) để phát hiện đối tượng trong không ảnh gồm: Pedestrian, Motor, Car, Bus. Ứng dụng có thể được sử dụng trên nền tảng web hoặc nền tảng di động (Android và IOS).
Công nghệ sử dụng:
• Di động: Flutter, MobX. • Web: ReactJs.
• Back-end: Python 3, Flask.
Ứng dụng có thể được sử dụng thông qua đường link URL sau: https://aerialobjectdetection.netlify.app/
57
5.3.2. Phân tích thiết kế
5.3.2.1. Thiết kế usecase
Hình 5.3: Mô tả usecase tổng quát ứng dụng Aerial Object Detection.
5.3.2.2. Thiết kế user-flow
58
5.3.2.3. Thiết kế kiến trúc
Ứng dụng được xây dựng trên kiến trúc client-server. Ở phía client, người dùng có thể sử dụng ứng dụng trên cả nền tảng di động và web. Phía server, hệ thống sử dụng Flask cùng Python 3 để các yêu cầu từ API, sau đó xử lý tác vụ phát hiện đối tượng và các chức năng liên quan.
Hình 5.5: Kiến trúc ứng dụng Aerial Object Detection.
5.3.2.4. Thiết kế giao diện
Chức năng 1: Dự đoán đối tượng.
Màn hình Tên màn hình
(a) Màn hình trang chủ
(b) Màn hình chụp/chọn ảnh
(c) Màn hình ảnh cần dự đoán
(d) Màn hình chờ dự đoán
(e) Màn hình kết quả dự đoán
(f) Màn hình chi tiết kết quả dự đoán
59
60
Hình 5.7: Chức năng Dự đoán đối tượng trên web.
Chức năng 2: Xem lịch sử ảnh dự đoán
Màn hình Tên màn hình
(a) Màn hình danh sách lịch sử ảnh
(b) Màn hình thông tin chi tiết của 1 ảnh trong lịch sử ảnh
61
Hình 5.8: Chức năng Xem lịch sử ảnh dự đoán trên di động.
62
Chức năng 3: Xem thông tin ứng dụng
Hình 5.10: Chức năng Xem thông tin ứng dụng trên di động.
Hình 5.11: Chức năng Xem thông tin ứng dụng trên web.
5.3.3. Cài đặt và kiểm thử
63
• Hệ điều hành: Android 10 trở lên, trình duyệt Chrome. • Bộ nhớ tối thiểu: >80MB (được đề xuất)
64
Chương 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1. Kết luận
6.1.1. Kết quả
Nội dung khóa luận tập trung tìm hiểu bài toán Phát hiện đối tượng trong không ảnh chứa sương mờ, nghiên cứu và chạy thực nghiệm các phương pháp phát hiện đối tượng SOTA dựa trên học sâu. Dựa trên những mục tiêu đã đặt ra, khóa luận đã đạt được một số kết quả như sau.
− Chúng tôi đã xây dựng thành công bộ dữ liệu không ảnh chứa sương mờ UIT-DroneFog cho bài toán Phát hiện đối tượng trong không ảnh chứa sương mờ với 4 lớp đối tượng Pedestrian, Motor, Car và Bus với tổng cộng 15,372 ảnh và khoảng 600,000 Bounding box tương ứng. Bộ dữ liệu không chỉ có tính đa dạng cao về bối cảnh, chất lượng hình ảnh tốt mà còn chứa thách thức đặc trưng ở mật độ giao thông cao so với các bộ dữ liệu khác đã được công bố trên thế giới.
− Chúng tôi đã tiến hành khảo sát các hướng tiếp cận liên quan tới bài toán, xu hướng pát triển của các phương pháp phát hiện đối tượng được ứng dụng vào bài toán. Thông qua kết quả khảo sát, có ba phương pháp phát hiện đối tượng SOTA được sử dụng để chạy thực nghiệm trên bộ dữ liệu UIT-DroneFog đó là: Guided Anchoring, Double-Head, và Cascade R-CNN. Kết quả đánh giá trên độ đo 𝐴𝑃 cho thấy Double-Head có kết quả tốt nhất với điểm AP là 33.20%. Tuy nhiên các mô hình gặp nhiều khó khăn khi phải đối mặt với sự mất cân bằng dữ liệu, đặc biệt lớp lớp Motor và Pedestrian.
− Chúng tôi cũng đã tiến hành khảo sát và nghiên các hướng tiếp cận đối với vấn đề khử sương mờ trong ảnh và chọn lọc ra được hai phương pháp phù hợp bao gồm: FFA-Net và DW-GAN để tiến hành các thực nghiệm mở rộng. − Chúng tôi cung cấp được bảng đánh giá đầy đủ chi tiết về bộ dữ liệu UIT-
65
− Từ kết quả thực nghiệm, chúng tôi đã đề xuất phương pháp CasDou được tạo ra bằng cách kết hợp cải tiến của Double-Head, mô hình nhiều giai đoạn của Cascade R-CNN và thay đổi hàm mất mát từ Cross Entropy thành Focal Loss để cải thiện kết quả so với mô hình mặc định. Ngoài ra, chúng tôi cũng tiến hành thực nghiệm để đánh giá hiệu quả khử sương đối với không ảnh chứa sương mờ đối với tác vụ phát hiện đối tượng của phương pháp CasDou. Kết quả thực nghiệm cho thấy, CasDou đã cải thiện kết quả đáng kể với điểm số
𝑚𝐴𝑃 tăng từ 1.2% đến 2.2% so với mô hình mặc định và kết quả độ đo 𝐴𝑃 ở các tiêu chuẩn IoU được chúng tôi sử dụng để đánh giá cũng cải thiện hơn so với mô hình mặc định. Cuối cùng, kết quả thực nghiệm sau khi khử sương, kết quả tiếp tục được tăng lên tới 35.00%.
− Tôi đã sử dụng mô hình huấn luyện để xây dựng ứng dụng minh họa phát hiện đối tượng Aerial Object Detection đa nền tảng (IOS/Android và Web). − Dựa vào kết quả nghiên cứu được, chúng tôi có một bài báo đăng tại Can
Tho University Journal of Science (https://ctujs.ctu.edu.vn/):
• Trần, M. T., Tran, B. V., Vo, N. D., & Nguyen, K. (2022). An object detection method for aerial hazy images. Can Tho University Journal of Science, 14(1), 91-98. https://doi.org/10.22144/ctu.jen.2022.010
− Một bài báo đăng tại NAFOSTED Conference on Information and Computer Science (NICS) (http://nafosted-nics.org/#/):
• Tran, M. T., Tran, B. V., Vo, N. D., & Nguyen, K. (2021, December). UIT-DroneFog: Toward High-performance Object Detection Via High- quality Aerial Foggy Dataset. In 2021 8th NAFOSTED Conference on Information and Computer Science (NICS) (pp. 290-295). IEEE. https://doi.org/10.1109/NICS54270.2021.9701538
− Và một bài báo được nhận đăng tại tạp chí International Journal of Advanced
Computer Science and Applications (IJACSA)
66
• Khang Nguyen, Nguyen D. Vo, Minh T. Tran, Doanh C. B, Phuc Nguyen (2022, June). Analysis of the Influence of De-Hazing Methods on Vehicle Detection in Aerial Images. International Journal of Advanced Computer Science and Applications (IJACSA), 13(6). (Accepted)
6.1.2. Khó khăn
− Tìm hiểu về cách hoạt động của các bài toán Phát hiện đối tượng còn gặp nhiều khó khăn do chưa có đủ kiến thức nền tảng.
− Việc xây dựng bộ dữ liệu mất nhiều thời gian để khảo sát, tinh chỉnh mô phỏng sương mờ phù hợp.
− Việc huấn luyện dữ liệu bằng Guided Anchoring, Double-Head, Cascade R- CNN tốn khá nhiều thời gian và gặp một số khó khăn khi thiết lập cấu hình chạy thực nghiệm.
6.1.3. Thuận lợi
− Trong suốt quá trình thực hiện nghiên cứu nhận được sự giúp đỡ của giáo viên hướng dẫn, các phòng ban cũng như các bạn trong nhóm nghiên cứu. − Quá trình thực nghiệm nhận được sự hỗ trợ sử dụng GPU của phòng MMLab
giúp giảm đáng kể thời gian huấn luyện.
6.2. Hướng phát triển
Một số hướng phát triển cho khóa luận bao gồm:
− Tiếp tục mở rộng và phát triển tập dữ liệu UIT-DroneFog lên số lượng lớn hơn và nhiều mức độ sương mờ khác nhau bằng cách áp dụng các thuật toán khác.
− Tìm hiểu về các kỹ thuật kết hợp giữa phương pháp two-stage và one-stage để cải thiện mô hình về độ chính xác và thời gian tính toán.
67
− Hỗ trợ thêm các chức năng mở rộng khác cho ứng dụng Aerial Object Detection như: đếm số lượng đối tượng, sử dụng đa mô hình… và cải thiện về mặt giao diện cũng như hiệu suất của ứng dụng.
68
TÀI LIỆU THAM KHẢO
[1] J. Wang, K. Chen, S. Yang, C. C. Loy, and D. Lin, “Region proposal by guided anchoring,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 2965–2974.
[2] Z. Cai and N. Vasconcelos, “Cascade r-cnn: Delving into high quality object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 6154–6162.
[3] Y. Wu et al., “Rethinking classification and localization for object detection,”
in Proceedings of the IEEE/CVF conference on computer vision and pattern
recognition, 2020, pp. 10186–10195.
[4] P. Poirson, P. Ammirato, C.-Y. Fu, W. Liu, J. Kosecka, and A. C. Berg, “Fast single shot detection and pose estimation,” in 2016 Fourth International Conference on 3D Vision (3DV), 2016, pp. 676–684.
[5] H. Dridi and K. Ouni, “Towards Robust Combined Deep Architecture for Speech Recognition : Experiments on TIMIT,” Int. J. Adv. Comput. Sci. Appl., vol. 11, 2020.
[6] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards real-time object detection with region proposal networks,” Adv. Neural Inf. Process. Syst., vol. 28, 2015.
[7] R. Girshick, “Fast r-cnn,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1440–1448.
[8] K. He, G. Gkioxari, P. Dollár, and R. Girshick, “Mask r-cnn,” in Proceedings
of the IEEE international conference on computer vision, 2017, pp. 2961–
2969.
[9] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and
69
[10] E. J. McCartney, “Optics of the atmosphere: scattering by molecules and particles,” New York, 1976.
[11] S. G. Narasimhan and S. K. Nayar, “Chromatic framework for vision in bad weather,” in Proceedings IEEE Conference on Computer Vision and Pattern Recognition. CVPR 2000 (Cat. No. PR00662), 2000, vol. 1, pp. 598–605.
[12] S. G. Narasimhan and S. K. Nayar, “Vision and the atmosphere,” Int. J. Comput. Vis., vol. 48, no. 3, pp. 233–254, 2002.
[13] K. He, J. Sun, and X. Tang, “Single image haze removal using dark channel prior,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 33, no. 12, pp. 2341–
2353, 2010.
[14] B. Cai, X. Xu, K. Jia, C. Qing, and D. Tao, “Dehazenet: An end-to-end system for single image haze removal,” IEEE Trans. Image Process., vol. 25, no. 11, pp. 5187–5198, 2016.
[15] W. Ren, S. Liu, H. Zhang, J. Pan, X. Cao, and M.-H. Yang, “Single image dehazing via multi-scale convolutional neural networks,” in European conference on computer vision, 2016, pp. 154–169.
[16] X. Qin, Z. Wang, Y. Bai, X. Xie, and H. Jia, “FFA-Net: Feature fusion attention network for single image dehazing,” in Proceedings of the AAAI Conference on Artificial Intelligence, 2020, vol. 34, no. 07, pp. 11908–11915.
[17] M. Fu, H. Liu, Y. Yu, J. Chen, and K. Wang, “DW-GAN: A Discrete Wavelet Transform GAN for NonHomogeneous Dehazing,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021,
pp. 203–212.
[18] C. O. Ancuti, C. Ancuti, F.-A. Vasluianu, and R. Timofte, “NTIRE 2021 nonhomogeneous dehazing challenge report,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021,
70
[19] S. G. Mallat, “A theory for multiresolution signal decomposition: the wavelet representation,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 11, no. 7, pp.
674–693, 1989.
[20] S.-H. Gao, M.-M. Cheng, K. Zhao, X.-Y. Zhang, M.-H. Yang, and P. Torr, “Res2net: A new multi-scale backbone architecture,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 43, no. 2, pp. 652–662, 2019.
[21] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei, “Imagenet: A large-scale hierarchical image database,” in 2009 IEEE conference on computer vision and pattern recognition, 2009, pp. 248–255.
[22] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, “Image quality assessment: from error visibility to structural similarity,” IEEE Trans. image
Process., vol. 13, no. 4, pp. 600–612, 2004.
[23] J. Johnson, A. Alahi, and L. Fei-Fei, “Perceptual losses for real-time style transfer and super-resolution,” in European conference on computer vision,
2016, pp. 694–711.
[24] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros, “Unpaired image-to-image translation using cycle-consistent adversarial networks,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 2223–2232.
[25] J.-P. Tarel, N. Hautiere, A. Cord, D. Gruyer, and H. Halmaoui, “Improved visibility of road scene images under heterogeneous fog,” in 2010 IEEE intelligent vehicles symposium, 2010, pp. 478–485.
[26] J.-P. Tarel, N. Hautiere, L. Caraffa, A. Cord, H. Halmaoui, and D. Gruyer, “Vision enhancement in homogeneous and heterogeneous fog,” IEEE Intell. Transp. Syst. Mag., vol. 4, no. 2, pp. 6–20, 2012.
[27] C. Sakaridis, D. Dai, and L. Van Gool, “Semantic foggy scene understanding with synthetic data,” Int. J. Comput. Vis., vol. 126, no. 9, pp. 973–992, 2018. [28] B. Li et al., “Benchmarking single-image dehazing and beyond,” IEEE Trans.
71
Image Process., vol. 28, no. 1, pp. 492–505, 2018.