Luận văn thạc sĩ Khoa học máy tính: LCcycleGAN : Điều chỉnh độ sáng ảnh hỗ trợ tăng cường dữ liệu

Ví dụtoàn bộ dữ liệu ban đầu được thu thập ở Nhật Bản, thì ta buộc phải thu thập dữliệu buổi tối cũng ở Nhật Bản, không thể thay thế bằng dữ liệu ở Việt Nam.• Sau khi thu thập xong dữ li

Mô hình đề xuất 20

Thành phần cơ sở từ CycleGAN

Các mạng G,F, DX,DY có nhiệm vụ tương tự như ở mạng CycleGAN cơ bản: Giả sử khi huấn luyện để chuyển ảnh thuộc tập X sang tập Y:

• Ban đầu một ảnh x được đưa vào hệ thống, ảnh này sẽ lập tức được dùng để huấn luyện D X trong việc phân biệt một ảnh có thuộc tập X hay không.

• Ảnhx sau đó được đi qua mạng G tạo ra ảnhy x và tiếp tục đi qua mạng F để biến thànhx 0 , mục tiêu huấn luyện của hệ thống là y x phải thuộc tập Y vàx 0 phải tương đồng vớix Ảnh y x sau đó đi qua mạngD Y để tính độ lỗi đối kháng 8 và ảnhx 0 được so sánh với ảnh đầu vào x để đảm bảo tính toàn vẹn dữ liệu (một ảnh khi lần lượt chuyển sang kiểu khác và chuyển về kiểu ban đầu thì ảnh mới được tạo ra phải tương đồng với ảnh ban đầu).

Thành phần cải tiến

Khối trích xuất histogram có nhiệm vụ xác định vector histogram của một ảnh cho trước. Ảnh đầu vào ban đầu sẽ được chuyển sang hệ màu HSB (Hue - Màu sắc, Saturation - Độ bão hòa màu, Brightness - Mức Sáng) Kênh màu B của ảnh HSB sau đó được trích ra và tính phân phối xác suất mức sáng của từng giá trị của điểm ảnh, sự phân phối này được thể hiện trong giá trị của vector histogram l cx Vector histogram này có kích thước 128 chiều và có miền giá trị [0,1].

Mạng trung gian Ở hệ thống CycleGAN cơ bản, mạng sinh G chỉ nhận một thông tin đầu vào là ảnh cần chuyển đổi thuộc tập X, đầu ra khi đó là ảnh có cấu trúc giống ban đầu nhưng có kiểu ảnh thuộc tập Y Tuy nhiên mạng CycleGAN gặp nhược điểm lớn là không thể tùy chỉnh ảnh đầu ra một cách tùy ý Để khắc phục nhược điểm này, cần phải chỉnh sửa mạng sinh sao cho mạng này nhận hai thông tin đầu vào:

• Ảnh đầu vào thuộc tập X: Tương tự như ở hệ thống CycleGAN cơ sở.

• Histograml cx của một ảnh thuộc tậpY Khi đó,l cx được xem là “điều kiện” của ảnh đầu ra, hệ thống có nhiệm vụ phải học sao cho với một ảnh đầu vào x thuộc tập X và một vector histogram điều kiện l cx thì ảnh đầu ray x phải thuộc tậpY và có vector histogram l cy tương đồng với l cx (Nguyên lý để hiện thực ràng buộc này sẽ được mô tả kỹ hơn ở phần sau). Để đưa thông tin về mức sáng vào mạng sinh, vector l cx ban đầu phải đi qua 4 lớp mạng fully-connected để tăng kích thước vector lên 2048 chiều Vector này sau đó được biến đổi thành một ma trận kích thước32×62×1 Ma trận này tiếp tục được đưa qua 3 lớp tích chập hoán vị 910 để thu được một khối dữ liệu có kích thước 256×512×3 Khối dữ liệu này do đã có kích thước đúng bằng ảnh đầu vào nên hệ thống có thể gộp cả hai thành một khối 256×512×6 và dữ liệu này tiếp tục đi qua mạng sinh như bình thường để tạo ảnh đầu ra.

9 Hoặc còn được gọi với tên mạng tích chập nghịch đảo.

10 Tiếng anh: Deconvolution layer, transposed convolutional layer

Hình 9: Sơ đồ mô tả cấu trúc của mạng trung gian và các hệ thống LCcycleGAN đưa thông tin điều kiện (là vector histogram) vào ảnh.

Luồng chạy của LCcycleGAN

Hình 10 thể hiện luồng chạy của hệ thống LCcycleGAN, theo đó:

• Ứng với mỗi hướng ánh xạ (giả sử xét tới hướng chuyển từ ngày sang đêm), mỗi ảnh đầu vào x được kèm với một ảnh kiểus.

Hình 10: Mô hình hệ thống mạng LCcycleGAN.

• Mạng sinh sau đó tạo ra một ảnh mới y x là ảnh buổi tối (hoặc ảnh buổi sáng nếu đang xét hướng ánh xạ tối sang sáng) Ảnh mới tạo này cũng được đi qua một bộ phận trích xuất histogram để thu đượcl cy x đặc trưng cho phân bố mức sáng của ảnh sinh ra.

• Lúc này hai histogram l cx và l cy x sẽ được so sánh với nhau để tính độ lỗi mức sáng.

• Ảnh được sinh ra y x tiếp tục được đưa qua mạng sinh F, mục tiêu là thu lại ảnhx 0 tương đồng với ảnh đầu vào x ban đầu Hai ảnh này được so sánh với nhau để tính độ lỗi nhất quán.

Hàm lỗi

Để hướng dẫn hệ thống LCcycleGAN trong quá trình huấn luyện, thành phần độ lỗi mức sáng L lightness được thêm vào hàm lỗi để phạt mạng sinh khi sinh ảnh có mức sáng không theo ý muốn theo công thức:

• L GAN là độ lỗi đối kháng của hệ thống GAN (hệ thống chuyển kiểu từ tập X sang tậpY và hệ thống ngược lại) Độ lỗi đối kháng này đánh giá khả năng phân biệt ảnh thật hay giả của mạng phân biệt và đánh giá khả năng đánh lừa của mạng sinh.

• L cyc (G, F) là độ lỗi nhất quán Đối với CycleGAN, một ảnh bất kỳ sau khi đi qua liên tiếp hay hàm ánh xạ thì phải tương đồng với ảnh ban đầu.

11 Tiếng anh: Fully connected Layer

• Llightness(G, F) là độ lỗi về mức sáng Đánh giá ảnh được sinh ra có mức sáng đạt yêu cầu hay không.

• λ 1 và λ 2 là các trọng số của độ lỗi mức sáng và độ lỗi nhất quán.

Theo như mục trên đã trình bày, độ lỗi về mức sáng được tính bằng độ sai khác giữa vector điều kiện l cx trích xuất từ ảnh đầu vào x và vectorl cy được trích xuất từ ảnh được sinh ra y x vậy nếu quy ước H(i) là hàm trích xuất vector histogram từ ảnh đầu vào i và x∼px(x) biểu thị sự phân phối dữ liệu ảnh xnằm trong tậpp(x), khi đó ta có công thức tính lỗi mức sáng đối với mạng sinh G (chuyển kiểu ảnh từ tậpX sang Y) như sau:

Llightness(G) = Ex∼px(x),y∼py(y)[kH(G(x, H(y)))−H(y)k] (10) Tổng quát hơn thì ta có:

L lightness (G, F) = Ex∼px(x),y∼py(y)[kH(G(x, H(y)))−H(y)k]

Ngoài việc thêm một hạng tử vào hàm lỗi, các hạng tử có sẵn cũng cần phải được chỉnh sửa do mạng sinh phải nhận thêm thông tin đầu vào:

L cyc (G, F) = Ex∼px(x),y∼py(y)[kF(G(x, H(y)), H(x))−xk 1 ]

+ Ex∼px(x),y∼py(y)[kG(F(y, H(x)), H(y))−yk 1 ] (13) tập dữ liệu vừa phục vụ cho việc huấn luyện mạng LCcycleGAN, vừa phục vụ cho công đoạn đánh giá kết quả Tập dữ liệu này có tên VNstreetcam1 và VNstreetcam2:

Hình 11: Một số hình ảnh buổi sáng trong tập dữ liệu VNstreetcam.

Hình 12: Một số hình ảnh buổi tối trong tập dữ liệu VNstreetcam.

Tập dữ liệu này dùng để huấn luyện LCcycleGAN, nó bao gồm 2 nhóm ảnh buổi tối và buổi sáng và được mô tả sơ lược trong bảng 1 và được xây dựng qua các công đoạn sau:

1 Thu thập video từ Youtube: Để phù hợp với bài toán đang giải quyết, các video thu từ camera hành trình của xe ô tô, xe tải chạy ở đường phố nội thành Việt Nam được lựa chọn và trích xuất ảnh Tổng cộng 20 video được ghi vào buổi sáng và 22 video buổi tối được sử dụng cho tập dữ liệu này.

2 Các video được tách thành các khung ảnh: Để hạn chế dữ liệu quá trùng lặp, chỉ một trong mỗi năm khung ảnh liên tiếp được lấy ra Bằng cách đó, tập dữ liệu thu được gồm 18946 ảnh buổi sáng và 19971 buổi tối. nắp capô, nếu phần ảnh còn lại có tỉ lệ ảnh không phải 1 : 2 thì sẽ được chèn thêm vùng ảnh màu đen ở cả bên trên và dưới ảnh, sau đó ảnh sẽ được thay đổi kích thước thành 256×512

Tập dữ liệu VNstreetcam2 được thừa kế từ VNstreetcam1 và được dùng để đánh giá kết quả sinh ảnh của hệ thống LCcycleGAN Tập dữ liệu này được xây dựng bằng cách lấy khoảng 10000 ảnh từ tập ban đầu và gắn nhãn xe cơ giới trừ xe máy cho từng ảnh đó (bao gồm xe ô tô, xe tải, xe bus).

• Để hạn chế trùng lặp dữ liệu, chỉ một ảnh trong bốn ảnh liên tiếp của tập VNstreet- cam1 được chọn (như vậy cứ mỗi 20 khung ảnh trong video thì có một ảnh được lấy, gắn nhãn và đưa vào tập VNstreetcam2).

• Nhãn được gắn là khung giới hạn 12 của các phương tiện giao thông trong ảnh (chỉ bao gồm phương tiện lớn như xe ô tô, xe bus, xe tải, ) Từ các nhãn đã được gắn này, ta có thể đánh giá khả năng tăng cường dữ liệu của hệ thống LCcycleGAN thông qua việc so sánh khả năng phát hiện vật thể của một mạng cơ sở khi được huấn luyện bằng tập dữ liệu trong các trường hợp không được tăng cường, tập dữ liệu được tăng cường bằng phương pháp cũ và tập dữ liệu được tăng cường bằng LCcycleGAN (chi tiết sẽ được trình bày rõ trong mục đánh giá).

Khi huấn luyện hệ thống LCcycleGAN, các cấu hình ban đầu của mạng CycleGAN cơ bản được giữ nguyên, giải thuật tối ưu Adam được chọn và hệ số học là 0.0002, λ 1 = 1 và λ 2 = 1 Trong quá trình huấn luyện, do hệ thống phải nạp số lượng ảnh gấp đôi so với trước, nên hiện tượng tràn bộ nhớ rất dễ xãy ra, để tối ưu bộ nhớ, thay vì phải nạp 4 ảnh vào bộ nhớ cho mỗi vòng lặp huấn luyện (2 ảnh đầu vào x, y và 2 ảnh điều kiện cx, cy), tôi đã tận dụng ảnh đầu vào của nhánh huấn luyện này làm ảnh điều kiện cho nhánh huấn luyện kia (2 nhánh huấn luyện x−→ y và y −→x) Khi đó cxvà y là một và cy và x là một.

Hình 13: Nếu không tối ưu về mặt bộ nhớ thì với mỗi vòng lặp huấn luyện, hệ thống phải tải 4 ảnh lên hệ thống (gấp đôi so với mạng CycleGAN cơ bản).

Hình 14: Nếu tận dụng ảnh đầu vào làm ảnh điều kiện thì hệ thống có thể giảm được một nữa bộ nhớ sử dụng khi huấn luyện.

Hình 15: Hiện tượng lật ảnh xãy ra khi lựa chọn vector điều kiện không hợp lý.

Quá trình đánh giá hệ thống LCcycleGAN thành hai bước: định tính và định lượng:

• Đánh giá định tính: phương pháp này được chọn khi so sánh LCcycleGAN với hệ thống chuyển kiểu ảnh sử dụng mạng học sâu[5] Lý do là để tạo một bức ảnh bằng phương pháp nêu trên phải mất khoảng 40, như vậy sẽ mất rất nhiều thời gian để sinh đủ ảnh để đánh giá định lượng (mạng LCcycleGAN có thể sinh khoảng 13 ảnh trong 1 giây khi cùng chạy trên máy tính có cấu hình Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz, 128Gb RAM, GPU: GeForce GTX 1080 Ti)

Đánh giá 31

Quá trình đánh giá hệ thống LCcycleGAN thành hai bước: định tính và định lượng:

• Đánh giá định tính: phương pháp này được chọn khi so sánh LCcycleGAN với hệ thống chuyển kiểu ảnh sử dụng mạng học sâu[5] Lý do là để tạo một bức ảnh bằng phương pháp nêu trên phải mất khoảng 40, như vậy sẽ mất rất nhiều thời gian để sinh đủ ảnh để đánh giá định lượng (mạng LCcycleGAN có thể sinh khoảng 13 ảnh trong 1 giây khi cùng chạy trên máy tính có cấu hình Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz, 128Gb RAM, GPU: GeForce GTX 1080 Ti)

• Đánh giá định lượng: phương pháp này được dùng để so sánh tác động của tập dữ liệu trong các trường hợp không được tăng cường, được tăng cường bằng CycleGAN và được tăng cường bằng LCcycleGAN Phương pháp này được thực hiện bằng cách huấn luyện một mạng cơ sở YoloV3[24]) bẳng các tập huấn luyện khác nhau, qua đó dựa vào khả năng phát hiện vật thể để đánh giá mức độ hiệu quả của việc tăng cường dữ liệu.

Một số hình ảnh sinh bằng LCcycleGAN được thể hiện trong hình 16 Ta có thể nhận thấy kết quả đầu ra tương đối tốt, ảnh được sinh ra tương đối chân thật và khó nhận thấy bất thường nếu chỉ nhìn lướt qua Hệ thống đã học được cách thêm đèn đường, đèn xe vào buổi tối và thêm bầu trời, cây xanh vào buổi sáng Tuy nhiên ảnh đầu ra vẫn chứa một số lỗi như một số phần lem màu hoặc một số vật thể bị làm mờ.

Hình 16: Một số hình ảnh buổi tối được sinh ra bằng LCcycleGAN.

Hình 17: Một số hình ảnh buổi sáng được sinh ra bằng LCcycleGAN.

Hình 18 và hình 19 thể hiện một số ảnh đầu ra được tạo từ cùng một ảnh đầu vào nhưng với các ảnh điều kiện khác nhau Ta có thể thấy được rằng hệ thống LCcycleGAN đã có thể điều khiển được mức sáng cho ảnh đầu ra.

Hình 18: Một số hình ảnh được sinh ra bằng LCcycleGAN với các điều kiện ảnh khác nhau

Hình 19: Với cùng một ảnh đầu vào nhưng với các điều kiện khác nhau thì LCcycleGAN có thể sinh được các ảnh có mức sáng khác nhau

Một số hình ảnh đánh giá định tính để so sánh được thể hiện trong hình 20, chúng ta có thể thấy được với hệ thống chuyển kiểu ảnh sử dụng mạng học sâu, ảnh đầu ra thường nhợt nhạt hoặc màu sắc lẫn lộn, hệ thống này có xu hướng chuyển những mảng màu từ ảnh kiểu sang ảnh đầu ra Bên cạnh đó, ảnh đầu ra thường không đạt yêu cầu về kiểu ảnh, dù mục tiêu là tạo ảnh buổi tối từ ảnh buổi sáng, nhưng ta cần phải thử sai rất nhiều ảnh kiểu khác nhau để đạt được kết quả mong muốn, các ảnh kiểu khác đều cho ra các ảnh không rõ buổi tối hay sáng hoặc hoàn toàn buổi buổi sáng (ảnh mờ, nhợt nhạt, bầu trời sáng vẫn còn thấy rõ, đèn điện không được bật lên, ) Ngược lại với những ảnh được tạo bằng hệ thống LCcycleGAN được thể hiện rõ là ảnh buổi tối, thậm chí hệ thống còn học được cách thêm đèn đường, đèn xe, ánh đèn trên đường,

Tuy nhiên chúng ta cũng có thể thấy được khả năng thay đổi mức sáng ở ảnh đầu ra

Hình 20: So sánh kết quả sinh ảnh giữa hệ thống chuyển kiểu ảnh sử dụng mạng học sâu vàLCcycleGAN.

Công đoạn đánh giá định lượng cũng được chia làm hai giai đoạn:

• Giai đoạn 1: Đánh giá tập ảnh tăng cường với giả định tập dữ liệu ban đầu chỉ chứa ảnh buổi sáng và không có ảnh buổi tối, khi đó nhiệm vụ của LCcycleGAN là tạo thêm ảnh buổi tối.

• Giai đoạn 2: Đánh giá tập ảnh tăng cường với giả định tập dữ liệu ban đầu chứa cả ảnh buổi sáng và buổi tối, khi đó nhiệm vụ của LCcycleGAN là tạo thêm cả ảnh buổi sáng và buổi tối.

Việc đánh giá được thực hiện thông qua khả năng phát hiện phương tiện giao thông của một mạng cơ sở sau khi được huấn luyện bằng các tập dữ liệu khác nhau Tôi chọn mạng YoloV3 làm mạng cơ sở và dùng độ đo AP 13 để đánh giá định lượng Bài toán mạng cơ sở cần phải giải quyết là phát hiện phương tiện giao thông trên 4 bánh xe (trong trường hợp với tập dữ liệu VNStreetcam2 thì bao gồm xe ô tô, xe tải, xe bus).

Giai đoạn này đánh giá mức độ hiệu quả của tập dữ liệu được tăng cường bằng LCcycleGAN với điều kiện tập dữ liệu ban đầu chỉ chứa ảnh buổi sáng Trường hợp này thường xãy ra hơn so với giả định ở giai đoạn 2 vì hầu hế các tập dữ liệu về giao thông hiện tại thường chỉ chứa ảnh buổi sáng hoặc chứa rất ít ảnh buổi tối. Để tăng cường dữ liệu, 5 ảnh kiểu khác nhau được chọn để sinh ảnh mới, và tăng cường tập ảnh ban đầu tạo ra một tập ảnh bao gồm cả ảnh buổi sáng và tối Tuy nhiên trong tập ảnh mới tạo ra, số lượng ảnh buổi tối lúc này lại quá áp đảo số lượng ảnh buổi sáng (do sử dụng 5 ảnh kiểu để tăng cường dữ liệu, số lượng ảnh buổi tối lúc này là gấp 5 lần số lượng ảnh buổi sáng), để cân bằng tập dữ liệu, với mỗi ảnh trong tập ban đầu (buổi sáng), hệ thống chỉ chọn ngẫu nhiên một ảnh kiểu và từ đó tạo ra một ảnh buổi tối Với phương án trên, tập dữ liệu thu được thu được là một tập ảnh mới có số lượng ảnh buổi sáng và buổi tối bằng nhau.

Trong quá trình huấn luyện mạng YoloV3, để tránh hiện tượng overfit, tập ảnh ban đầu được chia thành các tập huấn luyện, đánh giá theo video thay vì chia ngẫu nhiên theo ảnh Từ các ảnh tạo từ 20 video ban đầu, ảnh lấy từ 17 video ngẫu nhiên được chọn làm tập huấn luyện, 3 video còn lại được dùng để đánh giá, khi đó thì ảnh trong tập huấn luyện và đánh giá sẽ có khung cảnh khác nhau.

Kết quả đánh giá giai đoạn này được tóm lược trong bảng 2, ta có thể thấy được rằng trong trường hợp tập huấn luyện chỉ có ảnh buổi sáng thì khi mạng YoloV3 gặp một ảnh buổi tối, độ chính xác đã giảm mạnh từ 0.7643 xuống còn 0.1375, dù YoloV3 là một trong những mạng mạnh nhất ở thời điểm hiện tại, nhưng khi gặp những trường hợp nằm ngoài tập huấn luyện thì hệ thống này gần như mù Khi được huấn luyện với tập dữ liệu được tăng cường bằng CycleGAN nguyên gốc, YoloV3 đã hoạt động tốt hơn với những ảnh vào

Bảng 2: Kết quả đánh giá định lượng giai đoạn 1

Nguyên gốc Tăng cường bằng Tăng cường bằng Đánh giá (Không tăng cường) CycleGAN LCcycleGAN trên Tập huấn AP Tập huấn AP Tập huấn AP luyện luyện luyện Ảnh thật Ảnh thật Ảnh thật Ảnh thật 0.3916 (sáng, tối), 0.5005 (sáng, tối), 0.5639

(sáng, tối) (sáng, tối) Ảnh tăng Ảnh tăng cường (tối) cường (tối) Bảng 3: Kết quả đánh giá định lượng giai đoạn 2 buổi tối, tuy nhiên khả năng phát hiện vật thể buổi sáng lại rơi từ 0.7643 xuống còn 0.7477. Đối với tập dữ liệu được tăng cường bằng LCcycleGAN, ta có thể thấy được YoloV3 đã hoạt động hiệu quả hơn cả trong trường hợp tập ảnh không được tăng cường và tập ảnh được tăng cường bằng CycleGAN nguyên gốc Bên cạnh đó LCcycleGAN khi hoạt động vào buổi sáng không bị giảm độ chính xác như CycleGAN mà tăng mạnh từ 0.7643 lên 0.8331.

Giai đoạn này đánh giá mức độ hiệu quả của tập dữ liệu được tăng cường bằng LCcycleGAN với điều kiện tập dữ liệu ban đầu chứa cả ảnh buổi sáng và buổi tối Trong quá trình đánh giá, khi sử dụng tập dữ liệu chỉ được tăng cường thêm ảnh buổi tối sẽ hiệu quả hơn sử dụng tập dữ liệu được tăng cường cả ảnh buổi sáng và buổi tối Những ảnh tăng cường buổi sáng có chất lượng kém hơn nhiều so với ảnh tăng cường buổi tối, lý do là ở các phương tiện giao thông vào buổi tối trong những ảnh thiếu điều kiện chiếu sáng (nhiều phương tiện ngược chiều chỉ có thể thấy đèn xe hoặc xe ở những đoạn đường không có đèn thường khó có thể nhìn thấy ngay cả bằng mắt thường) sau khi được chuyển kiểu ảnh sẽ bị nhòe hoặc mất hoàn toàn Bên cạnh đó, chưa có cơ chế nào để xác định một vật thể còn hay mất, vì vậy toàn bộ nhãn đều được giữ lại trong ảnh tăng cường Điều này vô tình đã khiến cho tập dữ liệu huấn luyện có thêm nhiễu, từ đó làm cho khả năng phát hiện vật thể của YoloV3 giảm xuống trong trường hợp này Vì vậy trong giai đoạn này, hệ thống LCcycleGAN chỉ được đánh giá thông qua YoloV3 với tập dữ liệu bao gồm ảnh thật và ảnh tăng cường buổi tối.

Cách chọn ảnh kiểu cho LCcycleGAN ở giai đoạn này cũng tương tự như ở giai đoạn

1, với mỗi ảnh buổi sáng trong tập dữ liệu ban đầu sẽ sinh ra một ảnh buổi tối với kiểu ngẫu nhiên Việc chia tập huấn luyện, đánh giá cũng tương tự, với 22 video buổi tối thì 19 nằm trong tập huấn luyện và 3 video nằm trong tập đánh giá.

Tổng kết 41

Ưu điểm

• Hệ thống đã tạo được thêm ảnh huấn luyện và tăng được độ chính xác của YoloV3 trong bài toán nhận diện một số phương tiện giao thông.

• Hệ thống thay đổi được mức sáng của ảnh đầu ra bằng cách sử dụng các ảnh kiểu khác nhau mà không cần huấn luyện với một tập dữ liệu có cặp.

• Tốc độ sinh ảnh tương đối nhanh và không đòi hỏi hạ tầng máy tính quá mạnh để vận hành.

Nhược điểm

• Ảnh đầu ra vẫn chưa nhạy với ảnh kiểu, ảnh kiểu cần phải có thay đổi lớn để ảnh đầu ra thật sự thay đổi rõ rệt.

• Ảnh đầu ra vẫn có hiện tượng nhòe, mờ gây mất một số vật thể trong ảnh.

14 Lightness conditional Unpaired Image-to-ImageTranslation thậm chí ta còn có thể giải quyết các bài toán khác không chỉ chuyển từ ngày sang đêm nếu ta có thể chọn một vector điều kiện phù hợp.

• Hiện tại ảnh khi được sinh ra có thể bị mờ hoặc một vài vật thể trong ảnh bị biến mất, tuy nhiên khi đưa ảnh tăng cường vào huấn luyện thì không có một cơ chế kiểm tra xe vật thể ban đầu còn chứa trong ảnh hay không Điều này khiến cho một số ảnh bị nhiễu gây khó khăn trong quá trình huấn luyện mạng phát hiện vật thể.

• Hướng tăng cường ảnh từ tối sang sáng vẫn còn gặp nhiều vấn đề, cần phải cải thiện trong tương lai.

Trong quá trình thực hiện luận văn, tôi đã học thêm được rất nhiều điều, biết được những khó khăn khi đưa một sản phẩm ra sử dụng thực tiễn cần yêu cầu khó khăn thế nào, hiểu được khi xây dựng một hệ thống trí tuệ nhân tạo cần có chiến thuật thế nào và tránh những sai lầm ra sao Những kiến thức này sẽ là hành trang cho con đường sự nghiệp sắp tới. Để thay cho lời kết, tôi xin cảm ơn quý thầy cô trong trường đại học Bách Khoa Thành Phố Hồ Chí Minh, đặc biệt là Tiến Sĩ Nguyễn Đức Dũng, người đã dẫn dắt tôi đi qua giai đoạn luận văn này.

[3] L Gatys, A S Ecker, and M Bethge, “Texture synthesis using convolutional neural networks,” inAdvances in neural information processing systems, pp 262–270, 2015.

[4] J.-Y Zhu, T Park, P Isola, and A A Efros, “Unpaired image-to-image translation using cycle-consistent adversarial networks,” in Proceedings of the IEEE international conference on computer vision, pp 2223–2232, 2017.

[5] L A Gatys, A S Ecker, and M Bethge, “Image style transfer using convolutional neural networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2414–2423, 2016.

[6] A Hertzmann, “A survey of stroke-based rendering,” Institute of Electrical and Elec- tronics Engineers, 2003.

[7] P Isola, J.-Y Zhu, T Zhou, and A A Efros, “Image-to-image translation with conditional adversarial networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1125–1134, 2017.

[8] O Ronneberger, P Fischer, and T Brox, “U-net: Convolutional networks for biomed- ical image segmentation,” in International Conference on Medical image computing and computer-assisted intervention, pp 234–241, Springer, 2015.

[9] Y Li, C Fang, J Yang, Z Wang, X Lu, and M.-H Yang, “Universal style transfer via feature transforms,” in Advances in neural information processing systems, pp 386–

[10] M Arjovsky, S Chintala, and L Bottou, “Wasserstein gan,” arXiv preprint arXiv:1701.07875, 2017.

[11] P Isola, J.-Y Zhu, T Zhou, and A A Efros, “Image-to-image translation with conditional adversarial networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1125–1134, 2017.

[12] T Kim, M Cha, H Kim, J K Lee, and J Kim, “Learning to discover cross-domain re- lations with generative adversarial networks,” arXiv preprint arXiv:1703.05192, 2017.

[13] Z Yi, H Zhang, P Tan, and M Gong, “Dualgan: Unsupervised dual learning for image-to-image translation,” in Proceedings of the IEEE international conference on computer vision, pp 2849–2857, 2017.

[14] Y Choi, M Choi, M Kim, J.-W Ha, S Kim, and J Choo, “Stargan: Unified generative adversarial networks for multi-domain image-to-image translation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 8789–8797, 2018.

[15] K Simonyan and A Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv preprint arXiv:1409.1556, 2014.

[16] A Levin, D Lischinski, and Y Weiss, “A closed-form solution to natural image mat- ting,” IEEE transactions on pattern analysis and machine intelligence, vol 30, no 2, pp 228–242, 2007.

[17] D Ulyanov, V Lebedev, A Vedaldi, and V S Lempitsky, “Texture networks: Feed- forward synthesis of textures and stylized images.,” in ICML, vol 1, p 4, 2016.

[18] D Ulyanov, A Vedaldi, and V Lempitsky, “Instance normalization: The missing in- gredient for fast stylization,” arXiv preprint arXiv:1607.08022, 2016.

[19] H Wang, X Liang, H Zhang, D.-Y Yeung, and E P Xing, “Zm-net: Real-time zero- shot image manipulation network,” arXiv preprint arXiv:1703.07255, 2017.

[20] D Ulyanov, A Vedaldi, and V Lempitsky, “Improved texture networks: Maximizing quality and diversity in feed-forward stylization and texture synthesis,” inProceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 6924–6932, 2017.

[21] L A Gatys, A S Ecker, M Bethge, A Hertzmann, and E Shechtman, “Controlling perceptual factors in neural style transfer,” inProceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 3985–3993, 2017.

[22] M Mirza and S Osindero, “Conditional generative adversarial nets,” arXiv preprint arXiv:1411.1784, 2014.

[23] J.-Y Zhu, T Park, P Isola, and A A Efros, “Unpaired image-to-image translation using cycle-consistent adversarial networks,” in Proceedings of the IEEE international conference on computer vision, pp 2223–2232, 2017.

[24] J Redmon and A Farhadi, “Yolov3: An incremental improvement,” arXiv preprint arXiv:1804.02767, 2018.

Tan Phuc Phan University of Technology - VNUHCM

Ho Chi Minh city, Vietnam 1870434@hcmut.edu.vn

Duc Dung Nguyen University of Technology - VNUHCM

Ho Chi Minh city, Vietnam nddung@hcmut.edu.vn

Abstract—To build an autonomous car, many technologies have to be taken into application The most important component of a fully self-driving car is the object detection system This system is responsible for detecting obstacles on the street However, these detection models still face many difficulties such as unable to work on extreme conditions (storm, night, chaotic road,

) To tackle one aspect of this problem, in this paper we propose an augmentation method that creates more data by generating night images from day images and vice versa using

LCcycleGAN, a Lightness conditional Unpaired Image-to-Image

Translation approach, this framework is the fusion of CycleGAN

[1] and conditional GAN [2] To evaluate our method, we measure performance of YoloV3 [3] on our collected dataset (and augmented data) consists of day and night images of Vietnamese streets which are often highly chaotic and extreme Our method increases AP of base vehicle detection model’s performance from

Index Terms—CycleGAN, data augmentation, conditional Cy- cleGAN.

Detecting cars, motorbikes, and pedestrians is a critical task for most autonomous systems on modern vehicles It is, however, hard to achieve the accuracy of human perception, even with state-of-the-art techniques That being said, there is something we can do to improve the detection accuracy.

Modern systems nowadays rely a lot on the deep learning approaches, which requires a huge amount of data The reason why human perception is so good is that we observed way too many situations throughout our lifetime We can distinguish objects and also infer the appearance of that object in other situations, especially in some extreme cases like night scenes.

This is the shortage of modern autonomous systems that often perform poorly in Asia countries where the streets are very chaotic and crowded with many vehicles The lack of night- time datasets makes the detection task even harder The lack of lighting or noise from the opposite vehicle’s front light or even noise created by the dash camera itself needs to be considered in the dataset.

Many works have tried various ways to deal with this problem such as using specialize modified models [4], [5], or by enhancing input images [6] or by augmenting images for more train data using a traditional method like geometric transformation (random flip, crop, rotate, shift), adding noise

However, these approaches require datasets contain both day and night images with suitable notations (bounding boxes, segmentation color) but most datasets for traffic detection contain only daytime images Furthermore, some models require high quality or special cameras, this can be a roadblock for the model to be applied to mass production in the future. Another augmentation approach that has just appeared in recent years is creating more training data with suitable style from existing images using generative models, this process is often implemented using GAN or complex generative models to transfer a specific style into a given image This method helps the base detection models achieve much higher performance than the traditional augment methods [7] However, this approach still has some unsolved problems like:

• For conditional GAN [2] based image to image translation frameworks such as [8], generated images of these frameworks are guided by conditions or target outputs. Therefore, the training data for the augmenting model must be prepared in a paired structure Since most dataset for object detection problem is unpaired, using this method is nearly impossible.

• For unpaired image-to-image translation frameworks like CycleGAN [1], these methods do not require paired dataset, however, the generated images are fixed because the models are trying to generate images that as fit to target domain as possible and there is no condition or target to guide the models to create outputs in different styles For example, Hongjun Lee [9] and Che-Tsung Lin [10] propose using CycleGAN [1] based models

Fig 1 Some extreme images: lack of lighting, high beam from opposite vehicles, blurry images to generate images quickly or generate a huge amount of images.

Tiêu đề	LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường dữ liệu
Tác giả	Phan Tấn Phúc
Người hướng dẫn	Tiến sĩ Nguyễn Đức Dũng
Trường học	Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2020
Thành phố	Hồ Chí Minh

Định dạng
Số trang	55
Dung lượng	2,39 MB