Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 55 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
55
Dung lượng
20,51 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA PHAN TẤN PHÚC LCCYCLEGAN: ĐIỀU CHỈNH ĐỘ SÁNG ẢNH HỖ TRỢ TĂNG CƯỜNG DỮ LIỆU Chuyên ngành : Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2021 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học : Tiến sĩ Nguyễn Đức Dũng Cán chấm nhận xét : Tiến sĩ Lê Thành Sách Cán chấm nhận xét : Phó Giáo sư, Tiến sĩ Huỳnh Trung Hiếu Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 22 tháng 01 năm 2021 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Phó Giáo sư, Tiến sĩ Dương Tuấn Anh Tiến sĩ Nguyễn Tiến Thịnh Tiến sĩ Lê Thành Sách Phó Giáo sư, Tiến sĩ Huỳnh Trung Hiếu Phó Giáo sư, Tiến sĩ Nguyễn Thanh Hiên Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Phan Tấn Phúc MSHV: 1870434 Ngày, tháng, năm sinh: 27/03/1995 Nơi sinh: Lâm Đồng Chuyên ngành: Khoa Học Máy Tính Mã số : 8480101 I TÊN ĐỀ TÀI: LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu II NHIỆM VỤ VÀ NỘI DUNG: Xây dựng hệ thống tăng cường liệu cho ảnh nhằm hỗ trợ mơ hình học sâu khác Ứng dụng hệ thống mạng GAN Có báo khoa học III NGÀY GIAO NHIỆM VỤ : 24/02/2020 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 20/12/2020 V CÁN BỘ HƯỚNG DẪN : Tiến sĩ Nguyễn Đức Dũng Tp HCM, ngày 17 tháng 02 năm 2021 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO TRƯỞNG KHOA Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Lời cảm ơn Để đến thời điểm này, muốn gửi lời cảm ơn chân thành đến Ban giám hiệu thầy cô Trường Đại học Bách Khoa Thành phố Hồ Chí Minh, hướng dẫn suốt năm học vừa qua Trong trình thực luận văn, nhận hỗ trợ kiến thức, tài nguyên, ý tưởng từ bạn bè, đồng nghiệp mình, tơi xin chân thành cảm ơn người giúp vượt qua giai đoạn luận văn Trên tất cả, lời cảm ơn chân thành sâu sắc xin gửi đến thầy hướng dẫn đề tài - Tiến sĩ Nguyễn Đức Dũng Cảm ơn thầy theo sát, hỗ trợ định hướng công việc cho Cuối cùng„ hạn chế mặt thời gian khả cách trình bày viết báo cáo nên khơng thể tránh khỏi thiếu sót, mong nhận thông cảm ý kiến đóng góp từ q thầy bạn để giúp tơi hồn thiện Chân thành cảm ơn Hồ Chí Minh, ngày 25 tháng 12 năm 2020 Học viên thực Phan Tấn Phúc LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu Trang 2/53 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Tóm tắt luận văn Luận văn giới thiệu đề xuất mơ hình mạng LCcycleGAN, hệ thống mạng học sâu giúp chuyển ảnh buổi sáng thành tối ngược lại nhằm tăng cường liệu huấn luyện cho toán phát vật thể Trong luận văn này, Chương giới thiệu tổng quan để tài nghiên cứu Phần trình bày lý đời hệ thống LCcycleGAN giới thiệu toán chuyển kiểu ảnh Ở Chương tập trung thảo luận nghiên cứu có liên quan chủ đề này, đồng thời tập trung phần tích ưu nhược điểm cách tiếp cận nhằm đưa giải pháp phù hợp cho tốn Giải pháp đề xuất trình bày cụ thể phần Chương thảo luận phân tích chi tiết mơ hình LCcycleGAN Trong Chương 4, trình thực đề tài bao gồm chuẩn bị tập liệu huấn luyện hệ thống tập trung thảo luận Chương đưa đánh giá định tính định lượng cho LCcycleGAN Và cuối cùng, tổng kết kết đạt phân tích mơ hình LCcycleGAN định hướng nghiên cứu trình bày Chương LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu Trang 3/53 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Thesis outline In this thesis, I propose LCcycleGAN, a deep learning system that helps transforming images from day to night an vice versa The purpose of This system is to augmenting more training data for detecting model In this thesis Chapter Introduces the main topic, in this part, I will explain the purpose of LCcycleGAN in detail and briefly describe the style transfer problem Chapter briefly show some popular style transfer method, I will also analyse advantages and disadvantages of those systems Chapter will describe and analyse the architecture of LCcycleGAN in detail In chapter 4, focus on the dataset preparation and implement process In chapter 5, we will evaluate LCcycleGAN qualitively and quantitatively And finally, in chapter 6, we sum up the result and analyse pros and cons of LCcycleGAN as well as future works LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu Trang 4/53 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Lời cam đoan Luận văn nhóm có tham khảo tài liệu từ nhiều nguồn khác nguồn tham khảo trích dẫn rõ ràng phần tài liệu tham khảo Ngoài phần trích dẫn, tơi xin cam đoan tồn nội dung báo cáo tự soạn thảo dựa tìm hiểu kết thực tế thí nghiệm mà có Tơi hồn tồn chịu xử lý theo quy định có sai phạm xảy liên quan đến cam đoan Hồ Chí Minh, ngày 25 tháng 12 năm 2020 Học viên thực Phan Tấn Phúc LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu Trang 5/53 Mục lục Mục lục Danh sách hình vẽ Danh sách bảng Chương Giới thiệu Giới thiệu đề tài Lý chọn đề tài Phạm vi đề tài Quá trình thực 10 10 11 11 12 Chương Cơng trình liên quan Hệ thống mạng GAN [1] Chuyển kiểu ảnh với tập liệu huấn luyện theo cặp - Pix2pix Chuyển kiểu ảnh với tập liệu huấn luyện không theo cặp - CycleGAN Chuyển kiểu ảnh sử dụng mạng học sâu[2] Tiểu kết 13 13 14 15 17 18 20 20 21 21 21 23 24 Chương Hiện thực Chuẩn bị liệu Huấn luyện 26 26 29 Chương Đánh giá Đánh giá định tính Đánh giá định lượng 31 31 37 Chương Tổng kết Kết luận Đánh giá ưu, nhược điểm 2.1 Ưu điểm 2.2 Nhược điểm Hướng phát triển tương lai 41 41 41 41 41 42 Chương Mơ hình đề xuất Tổng quan Cấu trúc hệ thống LCcycleGAN 2.1 Thành phần sở từ CycleGAN 2.2 Thành phần cải tiến 2.3 Luồng chạy LCcycleGAN 2.4 Hàm lỗi Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Tài liệu LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu 44 Trang 7/53 Danh sách hình vẽ 10 11 12 13 14 15 16 17 18 19 20 21 22 Các ảnh chụp điều kiện khó nhận diện Một ảnh chụp vào buổi tối Cấu trúc hệ thống GAN Cấu trúc mạng UNET Cấu trúc hệ thống CycleGAN Cấu trúc nguyên lý hoạt động hệ thống chuyển giao kiểu ảnh sử dụng mạng CNN [3] Mơ hình hệ thống mạng LCcycleGAN Cấu trúc khối trích xuất histogram Sơ đồ mô tả cấu trúc mạng trung gian Mơ hình hệ thống mạng LCcycleGAN Một số hình ảnh buổi sáng tập liệu VNstreetcam Một số hình ảnh buổi tối tập liệu VNstreetcam Luồng liệu theo thực cũ Luồng liệu theo thực Hiện tượng lật ảnh Một số hình ảnh buổi tối sinh LCcycleGAN Một số hình ảnh buổi sáng sinh LCcycleGAN Một số hình ảnh sinh LCcycleGAN với điều kiện ảnh khác Một số ảnh đầu với ảnh kiểu tương ứng So sánh kết sinh ảnh hệ thống chuyển kiểu ảnh sử dụng mạng học sâu LCcycleGAN So sánh kết phát vật thể YoloV3 LCcycleGAN So sánh kết phát vật thể YoloV3 LCcycleGAN 10 12 14 15 16 18 20 22 23 23 26 27 29 29 30 32 33 34 35 36 39 40 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính cịn hay mất, tồn nhãn giữ lại ảnh tăng cường Điều vơ tình khiến cho tập liệu huấn luyện có thêm nhiễu, từ làm cho khả phát vật thể YoloV3 giảm xuống trường hợp Vì giai đoạn này, hệ thống LCcycleGAN đánh giá thông qua YoloV3 với tập liệu bao gồm ảnh thật ảnh tăng cường buổi tối Cách chọn ảnh kiểu cho LCcycleGAN giai đoạn tương tự giai đoạn 1, với ảnh buổi sáng tập liệu ban đầu sinh ảnh buổi tối với kiểu ngẫu nhiên Việc chia tập huấn luyện, đánh giá tương tự, với 22 video buổi tối 19 nằm tập huấn luyện video nằm tập đánh giá Kết đánh giá giai đoạn tóm lược bảng 3, ta thấy dù tập huấn luyện có đủ buổi sáng tối khơng có tăng cường liệu YoloV3 đạt độ xác trung bình 0.3916 Bên cạnh LCcycleGAN tỏ vượt trội mạng CycleGAN giúp mạng phát tăng độ xác từ 0.5005 lên 0.5639 Bên cạnh tính tốn độ xác mạng YoloV3 ứng với tập huấn luyện, kết so sánh kết phát vật thể phiên huấn luyện tập liệu tăng cường CycleGAN LCcycleGAN thể hình21 hình 22 Hình 21: So sánh kết phát vật thể YoloV3 sau luấn luyện với liệu tăng cường CycleGAN (bên trái) LCcycleGAN (bên phải) LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu Trang 39/53 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Hình 22: So sánh kết phát vật thể YoloV3 sau luấn luyện với liệu tăng cường CycleGAN (bên trái) LCcycleGAN (bên phải) LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu Trang 40/53 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Chương Tổng kết Kết luận Trong luận văn đề xuất LCcycleGAN, hệ thống giúp tăng cường liệu huấn luyện cho hệ thống khác, cụ thể tạo ảnh ban đêm từ tập ảnh ban ngày có sẵn LCcycleGAN hệ thống sử dụng điều kiện ánh sáng để chuyển kiểu ảnh với tập liệu huấn luyện không theo cặp14 , hệ thống kết hợp CycleGAN nguyên thủy GAN có điều kiện Việc đánh giá LCcycleGAN dựa khả phát phương tiện giao thông YoloV3 sau huấn luyện với tập liệu khác (được tăng cường LCcycleGAN, tăng cường CycleGAN không tăng cường) Ngồi luận văn cịn so sánh định tính kết ảnh sinh LCcycleGAN với hệ thống chuyển kiểu ảnh sử dụng mạng học sâu Bên cạnh đó, tơi cịn đề xuất tập liệu VNStreetcam để đánh giá hệ thống mình, tập liệu chứa ảnh trích xuất từ video quay từ camera hành trình ban ngày ban đêm, phần ảnh tập gắn nhãn số phương tiện giao thơng nhằm phục vụ cho tốn huấn luyện hệ thống phát vật thể Phương pháp tăng cường liệu LCcycleGAN giúp cải thiện khả phát vật thể YoloV3 từ độ xác trung bình (AP) 0.5 lên 0.56 Đánh giá ưu, nhược điểm 2.1 Ưu điểm • Hệ thống tạo thêm ảnh huấn luyện tăng độ xác YoloV3 tốn nhận diện số phương tiện giao thơng • Hệ thống thay đổi mức sáng ảnh đầu cách sử dụng ảnh kiểu khác mà không cần huấn luyện với tập liệu có cặp • Tốc độ sinh ảnh tương đối nhanh khơng địi hỏi hạ tầng máy tính mạnh để vận hành 2.2 Nhược điểm • Ảnh đầu chưa nhạy với ảnh kiểu, ảnh kiểu cần phải có thay đổi lớn để ảnh đầu thật thay đổi rõ rệt • Ảnh đầu có tượng nhịe, mờ gây số vật thể ảnh 14 Lightness conditional Unpaired Image-to-ImageTranslation LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu Trang 41/53 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Hướng phát triển tương lai Đến thời điểm kết thúc luận văn, hệ thống mà nhóm xây dựng cịn tồn khuyết điểm cịn nhiều thành phần cải tiến để hệ thống hoạt động hiệu nữa: • Thứ nghiệm thêm nhiều hàm trích xuất đặc trưng khác histogram: Hiện histogram mức sáng sử dụng để làm điều kiện cho mạng sinh tạo ảnh Trong tương lai, thử hàm trích đặc trưng khác (histogram kênh màu khác, phân bố màu sắc, mảng vật thể ảnh, ) làm điều kiện, chí ta cịn giải tốn khác khơng chuyển từ ngày sang đêm ta chọn vector điều kiện phù hợp • Hiện ảnh sinh bị mờ vài vật thể ảnh bị biến mất, nhiên đưa ảnh tăng cường vào huấn luyện khơng có chế kiểm tra xe vật thể ban đầu chứa ảnh hay không Điều khiến cho số ảnh bị nhiễu gây khó khăn q trình huấn luyện mạng phát vật thể • Hướng tăng cường ảnh từ tối sang sáng gặp nhiều vấn đề, cần phải cải thiện tương lai LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu Trang 42/53 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Kết lời Trong q trình thực luận văn, tơi học thêm nhiều điều, biết khó khăn đưa sản phẩm sử dụng thực tiễn cần yêu cầu khó khăn nào, hiểu xây dựng hệ thống trí tuệ nhân tạo cần có chiến thuật tránh sai lầm Những kiến thức hành trang cho đường nghiệp tới Để thay cho lời kết, xin cảm ơn quý thầy cô trường đại học Bách Khoa Thành Phố Hồ Chí Minh, đặc biệt Tiến Sĩ Nguyễn Đức Dũng, người dẫn dắt qua giai đoạn luận văn Chân thành cảm ơn LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu Trang 43/53 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Tài liệu [1] I Goodfellow, J Pouget-Abadie, M Mirza, B Xu, D Warde-Farley, S Ozair, A Courville, and Y Bengio, “Generative adversarial nets,” in Advances in neural information processing systems, pp 2672–2680, 2014 [2] F Luan, S Paris, E Shechtman, and K Bala, “Deep photo style transfer,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 4990– 4998, 2017 [3] L Gatys, A S Ecker, and M Bethge, “Texture synthesis using convolutional neural networks,” in Advances in neural information processing systems, pp 262–270, 2015 [4] J.-Y Zhu, T Park, P Isola, and A A Efros, “Unpaired image-to-image translation using cycle-consistent adversarial networks,” in Proceedings of the IEEE international conference on computer vision, pp 2223–2232, 2017 [5] L A Gatys, A S Ecker, and M Bethge, “Image style transfer using convolutional neural networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2414–2423, 2016 [6] A Hertzmann, “A survey of stroke-based rendering,” Institute of Electrical and Electronics Engineers, 2003 [7] P Isola, J.-Y Zhu, T Zhou, and A A Efros, “Image-to-image translation with conditional adversarial networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1125–1134, 2017 [8] O Ronneberger, P Fischer, and T Brox, “U-net: Convolutional networks for biomedical image segmentation,” in International Conference on Medical image computing and computer-assisted intervention, pp 234–241, Springer, 2015 [9] Y Li, C Fang, J Yang, Z Wang, X Lu, and M.-H Yang, “Universal style transfer via feature transforms,” in Advances in neural information processing systems, pp 386– 396, 2017 [10] M Arjovsky, S Chintala, and L Bottou, “Wasserstein gan,” arXiv preprint arXiv:1701.07875, 2017 [11] P Isola, J.-Y Zhu, T Zhou, and A A Efros, “Image-to-image translation with conditional adversarial networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1125–1134, 2017 [12] T Kim, M Cha, H Kim, J K Lee, and J Kim, “Learning to discover cross-domain relations with generative adversarial networks,” arXiv preprint arXiv:1703.05192, 2017 LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu Trang 44/53 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính [13] Z Yi, H Zhang, P Tan, and M Gong, “Dualgan: Unsupervised dual learning for image-to-image translation,” in Proceedings of the IEEE international conference on computer vision, pp 2849–2857, 2017 [14] Y Choi, M Choi, M Kim, J.-W Ha, S Kim, and J Choo, “Stargan: Unified generative adversarial networks for multi-domain image-to-image translation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 8789–8797, 2018 [15] K Simonyan and A Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv preprint arXiv:1409.1556, 2014 [16] A Levin, D Lischinski, and Y Weiss, “A closed-form solution to natural image matting,” IEEE transactions on pattern analysis and machine intelligence, vol 30, no 2, pp 228–242, 2007 [17] D Ulyanov, V Lebedev, A Vedaldi, and V S Lempitsky, “Texture networks: Feedforward synthesis of textures and stylized images.,” in ICML, vol 1, p 4, 2016 [18] D Ulyanov, A Vedaldi, and V Lempitsky, “Instance normalization: The missing ingredient for fast stylization,” arXiv preprint arXiv:1607.08022, 2016 [19] H Wang, X Liang, H Zhang, D.-Y Yeung, and E P Xing, “Zm-net: Real-time zeroshot image manipulation network,” arXiv preprint arXiv:1703.07255, 2017 [20] D Ulyanov, A Vedaldi, and V Lempitsky, “Improved texture networks: Maximizing quality and diversity in feed-forward stylization and texture synthesis,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 6924–6932, 2017 [21] L A Gatys, A S Ecker, M Bethge, A Hertzmann, and E Shechtman, “Controlling perceptual factors in neural style transfer,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 3985–3993, 2017 [22] M Mirza and S Osindero, “Conditional generative adversarial nets,” arXiv preprint arXiv:1411.1784, 2014 [23] J.-Y Zhu, T Park, P Isola, and A A Efros, “Unpaired image-to-image translation using cycle-consistent adversarial networks,” in Proceedings of the IEEE international conference on computer vision, pp 2223–2232, 2017 [24] J Redmon and A Farhadi, “Yolov3: An incremental improvement,” arXiv preprint arXiv:1804.02767, 2018 LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu Trang 45/53 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Phụ Lục LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu Trang 46/53 An Alternative Lightness Control with GAN for Augmenting Camera Data Tan Phuc Phan Duc Dung Nguyen University of Technology - VNUHCM Ho Chi Minh city, Vietnam 1870434@hcmut.edu.vn University of Technology - VNUHCM Ho Chi Minh city, Vietnam nddung@hcmut.edu.vn Abstract—To build an autonomous car, many technologies have to be taken into application The most important component of a fully self-driving car is the object detection system This system is responsible for detecting obstacles on the street However, these detection models still face many difficulties such as unable to work on extreme conditions (storm, night, chaotic road, ) To tackle one aspect of this problem, in this paper we propose an augmentation method that creates more data by generating night images from day images and vice versa using LCcycleGAN, a Lightness conditional Unpaired Image-to-Image Translation approach, this framework is the fusion of CycleGAN [1] and conditional GAN [2] To evaluate our method, we measure performance of YoloV3 [3] on our collected dataset (and augmented data) consists of day and night images of Vietnamese streets which are often highly chaotic and extreme Our method increases AP of base vehicle detection model’s performance from 0.5 to 0.56 Index Terms—CycleGAN, data augmentation, conditional CycleGAN I I NTRODUCTION Detecting cars, motorbikes, and pedestrians is a critical task for most autonomous systems on modern vehicles It is, however, hard to achieve the accuracy of human perception, even with state-of-the-art techniques That being said, there is something we can to improve the detection accuracy Modern systems nowadays rely a lot on the deep learning approaches, which requires a huge amount of data The reason why human perception is so good is that we observed way too many situations throughout our lifetime We can distinguish objects and also infer the appearance of that object in other situations, especially in some extreme cases like night scenes This is the shortage of modern autonomous systems that often perform poorly in Asia countries where the streets are very chaotic and crowded with many vehicles The lack of nighttime datasets makes the detection task even harder The lack of lighting or noise from the opposite vehicle’s front light or even noise created by the dash camera itself needs to be considered in the dataset Many works have tried various ways to deal with this problem such as using specialize modified models [4], [5], or by enhancing input images [6] or by augmenting images for more train data using a traditional method like geometric transformation (random flip, crop, rotate, shift), adding noise However, these approaches require datasets contain both day and night images with suitable notations (bounding boxes, segmentation color) but most datasets for traffic detection contain only daytime images Furthermore, some models require high quality or special cameras, this can be a roadblock for the model to be applied to mass production in the future Another augmentation approach that has just appeared in recent years is creating more training data with suitable style from existing images using generative models, this process is often implemented using GAN or complex generative models to transfer a specific style into a given image This method helps the base detection models achieve much higher performance than the traditional augment methods [7] However, this approach still has some unsolved problems like: • For conditional GAN [2] based image to image translation frameworks such as [8], generated images of these frameworks are guided by conditions or target outputs Therefore, the training data for the augmenting model must be prepared in a paired structure Since most dataset for object detection problem is unpaired, using this method is nearly impossible • For unpaired image-to-image translation frameworks like CycleGAN [1], these methods not require paired dataset, however, the generated images are fixed because the models are trying to generate images that as fit to target domain as possible and there is no condition or target to guide the models to create outputs in different styles For example, Hongjun Lee [9] and Che-Tsung Lin [10] propose using CycleGAN [1] based models Fig Some extreme images: lack of lighting, high beam from opposite vehicles, blurry images to generate both day and night images and improve the overall performance of the base detection models However, these generated images are fixed to a specific time of day (for example output images are fixed at midnight time) Besides, a complicated GAN framework like [10] is often very hard to train and requires powerful machines to operate on, this could be difficult when applying on a car’s operation system • Non-GAN style transfer models [11], [12] can overcome fixed output by changing style images and the structures are not very complicated, however, they don’t have saved weight like GANs When a new image needs to have its style transferred, its pixel values are being updated to match the style image like weights in a neural network does This process has to run on powerful machines and take much more time compared to GAN for generating an image, this leads to an unsolvable problem if we need to generate images quickly or generate a huge amount of images In this work, we propose LCcycleGAN (lightness conditional CycleGAN), an un-paired conditional image-to-image translation method that lets the user customize the time of the output images without any training pair required during training time, all we need is a dataset with images divided into day and night domain The model will extract the lightness of the style images which are random images in the opposite domain to use as the condition for input images We evaluate our model on the Vietnamese street dataset which was created from sampled frames from dash-cam videos The evaluation process is divided into two phases: In the first phase, we set up our problem under assumption that there is no night image, this assumption is based on the fact that most of the available traffic object detection datasets not have any night images We then compare the performance of the YoloV3 model trained on three different datasets: the original, the augmented by CycleGAN dataset, and the augmented by our model In the second phase, both day and night images will be used for training YoloV3, we once again measure the performance of YoloV3 trained on the original dataset and augmented dataset by CycleGAN and LCcycleGAN II LC CYCLE GAN A Network Architecture Our goal is to create a framework that can transform images between day (X) and night (Y) domain, the images must be un-pair because most dataset doesn’t have matching images from different domains Therefore, we employ CycleGAN for our base model CycleGAN is an Unpaired image-toimage Translation Framework that fits our first requirement However, CycleGAN only generates one fixed output for each image, to create multiple images with different styles, we have to modify the structure of CycleGAN to add a condition “socket” for style images Still, most conditional GANs have to be trained on a paired dataset, which means for each input image and condition, there must be a label image to Fig Histogram calculation process Fig Architecture of intermediate layers and how Generators merge their two inputs (Histogram vector and input image) guide the training process We overcome this obstacle by assuming that “images taken at the same time have the same lightness value distribution” For detail, each image can be represented in HSL color space where H, S, L represent hue, saturation, lightness value, we assume that the histogram of L channels is the same between images taken in the same time (despite location difference) Derives from this assumption, we modify the Generator so that it receives an input image x and a conditional histogram lcx calculated from a style image Besides the training goal inherited from CycleGAN, our framework LCcycleGAN also has to generate images y which has L channel ly that match lcx After being fed into the generator, the l histogram must first travel through “intermediate layers” The l histogram is first being calculated from the L channel of this image The histogram is a 128 dimensions vector with values range from −1 to This histogram is then being passed through four consecutive fully connected layers to the size 2048 × before being reshaped into a 32 × 64 × tensor This tensor then goes through the other three deconvolution layers to up-size to 256 × 512 × 13 tensor This tensor is being concatenated to the input image (which has the size 256 × 512 × 3) to create a 256 × 512 × 16 tensor to feed into Generator To guide the generator to create output images that have lightness distributions match the style images, we add lightness loss term into loss function For G is the mapping function Fig Data flow of LCcycleGAN from domain X to Y , lightness loss of G can be written as: Llightness (G) = Ex∼p(x) [ H(G(x, ls )) − ls ] (1) With ls = H(i) is the histogram of L channel of given image i, s is the style image, x ∼ p(x) and y ∼ p(y) denote the data distribution For G to generate images that match Y domain, the style images s should be fitted in Y domain as well So, the lightness loss of G can be re-written as: Llightness (G) = Ex∼p(x),y∼p(y) [ H(G(x, H(y))) − H(y) ] (2) B Network Implementation To train the generator and discriminator, we follow the original configuration of CycleGAN in [1] We use Adam algorithm for optimizer with learning rate 0.0002 and λ1 = 1, λ2 = During the training stage, we took advantage of the styles of real images from both domains are being loaded in each iteration to reduce memory requirement Each loaded image will serve two purposes: being fed to the generator and discriminator as the input image and being fed to the generator as a style image III E XPERIMENT Therefore, the full combined loss function can be express as: L(G, F, DX , DY ) =LGAN (G, DY , X, Y ) + LGAN (F, DX , Y, X) + λ1 Lcyc (G, F ) + λ2 Llightness (G, F ) (3) where LGAN is the adversarial loss [1] and Lcyc (G, F ) is the cycle consistency loss [1] and Llightness (G, F ) is combined lightness loss: The experiment process will be divided into two stages: • In the first stage, we train the LCcycleGAN and check the output image qualitatively • In the second stage, we will test our method’s performance by measure how well YoloV3 will work if being train on the original dataset, augmented by original CycleGAN, and augmented by LCcycleGAN A Dataset TABLE I VN STREETCAM DATASET Llightness (G, F ) = Ex∼p(x),y∼p(y) [ H(G(x, H(y))) − H(y) ] + Ex∼p(x),y∼p(y) [ H(F (y, H(x))) − H(x) ] (4) And as generators are now accepting two inputs (input image and lightness histogram), the adversarial loss and cycle consistency loss must be updated as follow: LGAN (G, DY , X, Y ) = Ey∼p(y) [log DY (y)] + Ex∼p(x),y∼p(y) [log(1 − DY (G(x, H(y)))] (5) Lcyc (G, F ) = Ex∼p(x),y∼p(y) [ F (G(x, H(y)), H(x)) − x ] + Ex∼p(x),y∼p(y) [ G(F (y, H(x)), H(y)) − y ] (6) Domain Image source Collected frames (after sampling) Day Night 20 dash-cam videos 22 dash-cam videos 18946 19971 38917 We call our dataset “VNstreetcam1”, this dataset is collected from 42 dash-cam videos in Vietnam from the internet To prevent too many similar images, we just take one in every five consecutive frames in the video Detail of the dataset is presented in Table I The collected frames are preprocessed by first removing meaningless areas like a car hood, if the remaining area’s aspect ratio is not : 2, a black area will be TABLE II E VALUATION RESULT Phase I II Evaluated on Real day Real night Real day, real night Original (Not augmented) Trained on AP Real 0.7643 day 0.1375 Real day, 0.3916 real night Augmented with original CycleGAN Trained on AP Real day, 0.7477 generated night 0.3532 Real day, 0.5005 real night, generated night Augmented with LCcycleGAN Trained on AP Real day, 0.8331 generated night 0.3844 Real day, 0.5639 real night, generated night Fig Results generated from LCcycleGAN Fig Two sets of images generated by LCcycleGAN using different conditions padded equally on top and bottom of the image Finally, all images are resized to 256 × 512 This dataset is sufficient for training LCcycleGAN, however, it’s hard to quantitatively evaluate the quality of generated images as well as the performance of a detection model on augmented data Therefore, we decided to take 10000 images from the above dataset by sampling the first one in every four consecutive images and labeled vehicles in these images We consider all vehicles such as bus, car, truck are the same and create a one-class dataset to test YoloV3 performance on a different dataset We named this dataset “VNstreetcam2” B Experiment result 1) Stage 1: During experiment, we did try some other conditions to feed into the generator such as histogram of RGB channels, the mean value of RGB color, histogram of all channels of HSL However, the outputs of those conditions are often very bad because of the “color flip” phenomenon, when trying to fit the condition of input and output image, the framework found the best solution is just flip the color to achieve target color distribution Fig Bad choice of condition histogram lead to “color flip” phenomenon Switching condition to histogram of L channel can solve the “color flip” problem, however, the generated images still have some problem that most GAN network face: blurry images and lost objects in output images 2) Stage 2: To test how effective LCcycleGAN generate augmented data, we conducted two different phases: • • Phase 1: We hypothesize that only day images are available and we measure how well YoloV3 detect objects in night images after training with only day images and augmented images Phase 2: In this phase, both day and night images are available, we will generate even more day and night images to augment and evaluate performance of YoloV3 on each dataset that CNN framework is much more sensitive to style image, however, it does not work well with style that is too different from input image Moreover, CNN framework seemed can not solve day-night transfer problem very well (the bright sky is still visible and traffic light is not generated) With those results, we can go to conclusion that our framework: LCcycleGAN can generate a better dataset for traffic detection problem, especially for night images To generate more data, for each image in VNstreetcam2, we first create more images using different styles, then randomly select two of those and add to training set To prevent overfit, the train set is split into approximately : ratio and all images in one video must stay in only one partition We use AP (Average Precision) as the metric to evaluate YoloV3 performance on different dataset as well as evaluate the effectiveness of augmenting process We use this evaluation metric because or ultimate goal is to improve the performance of the base detection model The evaluation results is briefly present in table II: • • In phase 1, we can clearly see that without night images, YoloV3 detectability drop dramatically from 0.7643 AP to 0.1375 AP After training with augmented images using original CycleGAN, YoloV3 can detect night objects much better but still suffer minor AP decreasement on predicting real day dataset Our model LCcycleGAN out perform original CycleGAN on both day and night dataset In phase 2, we can see that even being trained on original dataset with both original day and night images, YoloV3 can achieve 0.3916 AP, which is just a little better than training on only day and generated night data (0.3844 AP) Furthermore, LCcycleGAN out performed original CycleGAN by generated dataset that helps YoloV3 reach AP of 0.5639 In term of performance comparison with some other nonGAN frameworks, taking [11] and [12], we recognize that it’s hard for those models to generate big number of images due to generation speed Our Generator is pretrained and after being loaded, it can generate about 4720 images in minutes using just one single generator (about 13 images per seconds) (on Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz, 128Gb RAM, GPU: GeForce GTX 1080 Ti) while style transfer using convolutional neural networks [11] on the same computer takes about 40 seconds to generate one image (about 0.025 images per second) We also tried using different style images and inspect the results We recognized that the style images can be any scenery, this is logical because we only used the lightness information of the style (this can be seen in Figure 9) However, the framework is not very sensitive to style images, the lightness level must be differed greatly from each other for the framework to generate output with noticeable changes Finally, we tried comparing between output images of ours framework and a non-GAN framework (image style transfer using convolutional neural networks [11]), we recognized Fig Compare performance between YoloV3 trained on dataset augmented by original CycleGAN (left) and on dataset augmented by LCcycleGAN (right) Fig Generated images and their corresponded style images • • Fig 10 Using style images with similar lightness level will generate similar outputs (slightly changes in color, lightness) Fig 11 Result comparison between our model and non-GAN approach (image style transfer using convolutional neural networks (CNN) [11])) We can see that CNN framework is much more sensitive to style image, however, it does not work well with condition that is too different from input image IV D ISCUSSION AND L IMITATION During research time, there are some notes that may help improve the framework in the future: • When generating fake images, we keep all notated bound- ing box despite the vehicles are still visible or not (they may be removed or completely blurred after go through the generators) Therefore, if there is a method to decide which bounding box to keep, the augmentation framework will work even more effectively In the phase of evaluation stage 2, we did try training YoloV3 with dataset consists of real day, real night, generated day and generated images However, the trained model performed badly on all validation set (about 0.25 AP), the reason of this could be the extremeness of night images The original night images contain many difficult cases such as blurry vehicles in the dark, opposite vehicles with high beam on, faraway vehicles which only their light are visible, therefore, the generated day images often miss most of those extreme cases that lead to wrong bounding box notation Detecting opposite vehicles with their front light on (even on original images) seems to be a very difficult problem especially for faraway cars R EFERENCES [1] J.-Y Zhu, T Park, P Isola, and A A Efros, “Unpaired image-to-image translation using cycle-consistent adversarial networks,” in Proceedings of the IEEE international conference on computer vision, pp 2223– 2232, 2017 [2] M Mirza and S Osindero, “Conditional generative adversarial nets,” arXiv preprint arXiv:1411.1784, 2014 [3] J Redmon and A Farhadi, “Yolov3: An incremental improvement,” arXiv preprint arXiv:1804.02767, 2018 [4] C.-E Wu, Y.-M Chan, C.-H Chen, W.-C Chen, and C.-S Chen, “Immvp: An efficient daytime and nighttime on-road object detector,” in 2019 IEEE 21st International Workshop on Multimedia Signal Processing (MMSP), pp 1–5, IEEE, 2019 [5] Y Cai, X Sun, H Wang, L Chen, and H Jiang, “Night-time vehicle detection algorithm based on visual saliency and deep learning,” Journal of Sensors, vol 2016, 2016 [6] A Bhandari, A Kafle, P Dhakal, P R Joshi, and D B Kshatri, “Image enhancement and object recognition for night vision surveillance,” arXiv preprint arXiv:2006.05787, 2020 [7] C Shorten and T M Khoshgoftaar, “A survey on image data augmentation for deep learning,” Journal of Big Data, vol 6, no 1, p 60, 2019 [8] P Isola, J.-Y Zhu, T Zhou, and A A Efros, “Image-to-image translation with conditional adversarial networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1125–1134, 2017 [9] H Lee, M Ra, and W.-Y Kim, “Nighttime data augmentation using gan for improving blind-spot detection,” IEEE Access, vol 8, pp 48049– 48059, 2020 [10] C.-T Lin, S.-W Huang, Y.-Y Wu, and S.-H Lai, “Gan-based dayto-night image style transfer for nighttime vehicle detection,” IEEE Transactions on Intelligent Transportation Systems, 2020 [11] L A Gatys, A S Ecker, and M Bethge, “Image style transfer using convolutional neural networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2414–2423, 2016 [12] F Luan, S Paris, E Shechtman, and K Bala, “Deep photo style transfer,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 4990–4998, 2017 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính LÝ LỊCH TRÍCH NGANG Họ tên Ngày, tháng, năm sinh: Nơi sinh: Địa liên lạc: Phan Tấn Phúc 27/03/1995 Lâm Đồng 21 Nguyễn Công Trứ, Bảo Lộc, Lâm Đồng Quá trình đào tạo 2013 - 2017 2018 - 2020: Sinh viên Đại Học Bách Khoa TPHCM Học viên cao học Đại Học Bách Khoa TPHCM Q trình cơng tác 2017 - 2020 Nhà khoa học liệu Zalo Group LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu Trang 53/53 ... 2018 LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu Trang 45/53 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Phụ Lục LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ. .. Mã số : 8480101 I TÊN ĐỀ TÀI: LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu II NHIỆM VỤ VÀ NỘI DUNG: Xây dựng hệ thống tăng cường liệu cho ảnh nhằm hỗ trợ mơ hình học sâu khác Ứng... Khi huấn luyện với tập liệu tăng cường CycleGAN nguyên gốc, YoloV3 hoạt động tốt với ảnh vào 13 Average Precision LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường liệu Trang 37/53 Trường