Đối với ảnh được khởi tạo không có điều kiện, mang phân biệt của StackGAN-v2 sẻ được huấn luyện để phân biệt xem ảnh là thật hay phát sinh, điều này sẽ giúp cho mảng phân biệt xấp xỉ được với phân phối của ảnh không có điều kiện. Đối với ảnh được khởi tạo có điều kiện, ảnh và biến điều kiện tương ứng sẽ là đầu vào của mạng phân biệt để xác định xem tập ảnh và đoạn văn mô tả của ảnh có khớp với nhau hay không, điều này sẽ giúp cho mạng phân biệt xấp xỉ được với phân phối của ảnh có điều kiện. Đối với việc khởi tạo ảnh có điều kiện, mảng F0 và Fi của các mảng phát sinh sẽ được chuyển đổi để có thể nhận thêm vector điều kiện
c làm đầu vào như sau h0=F0 (c, z)và hi= Fi(hi−1, c). Trong mảng Fi, vector điều kiện c sẽ thay thế vector nhiễu z để làm cho mảng phát sinh có thể sinh ra ảnh có nhiều chi tiết hơn dựa vào đoạn văn mô tả cho trước. Do đó, những ảnh có tỉ lệ khác nhau được khởi tạo bởi Gi sẽ như sau si =
Gi(hi) và hàm mục tiêu của việc huấn luyện phân biệtDisẽ cho việc phân biệt ảnh có điều kiện sẽ bao gồm 2 phần là hàm mất mác có điều kiện
(conditional loss) và hàm mất mác không có điều kiện (unconditional
loss).
Hàm mất mác không điều kiện sẽ giúp xác định rằng ảnh là ảnh thật hay giả, hàm mất mác có điều kiện sẽ giúp xác định ảnh được khởi tạo với đoạn văn bạn mô tả có trùng khớp với nhau hay không.
Hàm mất mát của các mảng phát sinh Gisẽ được chuyển đổi thành như sau:
Các mảng phát sinh Gisẽ đồng thời xấp xỉ phân phối của ảnh có điều kiện và không có điều kiện.
Hình 4.2: Mô hình xấp xỉ phân phối hình ảnh