LỜI CẢM ƠN ........................................................................................................................... 2 Tóm tắt ...................................................................................................................................... 4 I. GIỚI THIỆU ..................................................................................................................... 4 II. CÔNG TRÌNH LIÊN QUAN ........................................................................................... 6 III. CÔNG THỨC ................................................................................................................... 8 1. Mất mát ........................................................................................................................... 8 2. Mất mát tính nhất quán của chu kỳ ................................................................................. 8 3. Mục tiêu hoàn chỉnh........................................................................................................ 9 4. Triển khai ...................................................................................................................... 10 IV. KẾT QUẢ ........................................................................................................................ 11 1. Đánh giá ........................................................................................................................ 11 1.1. Số liệu đánh giá ..................................................................................................... 11 1.2. Cơ sở ...................................................................................................................... 12 1.3. So sánh với cơ sở ................................................................................................... 13 1.4. Phân tích hàm mất mát ......................................................................................... 14 1.5. Chất lượng tái tạo hình ảnh ................................................................................... 14 1.6. Kết quả bổ sung trên bộ dữ liệu được ghép nối ..................................................... 15 2. Ứng dụng ...................................................................................................................... 16 V. NHỮNG GIỚI HẠN: ..................................................................................................... 21 VI. ĐÁNH GIÁ .................................................................................................................. 22 Tài liệu tham khảo ................................................................................................................. 26
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TIỂU LUẬN Các vấn đề đại ngành Kỹ thuật máy tính ĐỀ TÀI: Unpaired Image-to-Image Translation using CycleGAN Giảng viên đánh giá Cán đồng hướng dẫn Sinh viên Mã sinh viên Mã mơn : TS.Hồng Gia Hưng : TS Phạm Hùng Mạnh, ThS Trần Hiếu : Lê Minh Kiên : 20020170 : ELT3241_1 HÀ NỘI, ngày 28 tháng 11 năm 2023 MỤC LỤC LỜI CẢM ƠN Tóm tắt I GIỚI THIỆU II CƠNG TRÌNH LIÊN QUAN III CÔNG THỨC Mất mát Mất mát tính quán chu kỳ Mục tiêu hoàn chỉnh Triển khai 10 IV KẾT QUẢ 11 Đánh giá 11 1.1 Số liệu đánh giá 11 1.2 Cơ sở 12 1.3 So sánh với sở 13 1.4 Phân tích hàm mát 14 1.5 Chất lượng tái tạo hình ảnh 14 1.6 Kết bổ sung liệu ghép nối 15 Ứng dụng 16 V NHỮNG GIỚI HẠN: 21 VI ĐÁNH GIÁ 22 Tài liệu tham khảo 26 LỜI CẢM ƠN Lời đầu tiên, em gửi lời cảm ơn chân thành đến Trường Đại học Công Nghệ - ĐHQGHN đưa môn học “Các vấn đề đại Kỹ thuật máy tính” vào chương trình giảng dạy Đặc biệt em xin gửi lời cảm ơn sâu sắc đến giảng viên mơn – TS.Hồng Gia Hưng, thầy Hiếu thầy Mạnh dạy dỗ, truyền đạt kiến thức quý báu cho chúng em suốt thời gian học tập vừa qua Trong thời gian tham gia lớp học, em có thêm cho nhiều kiến thức bổ ích, đảm bảo cung cấp đầy đủ kiến thức, gắn liền với thức tế hành trang quan trọng cho chúng em làm việc Xin gửi lời tri ân em điều mà thầy cô dành cho sinh viên chúng em Mặc dù cố gắng hoàn thành tiểu luận với tất nỗ lực cố gắng thân, hạn chế kiến thức kinh nghiệm thực tiễn giới hạn thời gian, tiểu luận em không tránh khỏi thiếu sót nội dung hình thức Em mong nhận bảo góp ý thầy để giúp cho tiểu luận em thêm hoàn thiện Em xin chân thành cảm ơn! Bảng thuật ngữ viết tắt GAN Generative Adversarial Networks CycleGAN Cycle-Consistent Adversarial Networks StarGAN Star Generative Adversarial Networks AMT Amazon Mechanical Turk FCN Fully Convolutional Network SimGAN Simulated+Unsupervised Generative Adversarial Networks CoGAN Coupled Generative Adversarial Networks Tóm tắt Dịch từ hình ảnh sang hình ảnh loại vấn đề thị giác đồ họa mục tiêu tìm hiểu ánh xạ hình ảnh đầu vào hình ảnh đầu cách sử dụng tập huấn luyện cặp hình ảnh chỉnh Tuy nhiên, nhiều tác vụ, liệu tranning ghép nối khơng khả dụng Chúng tơi trình bày cách tiếp cận để học cách dịch hình ảnh từ miền nguồn X sang miền đích Y khơng có ví dụ ghép nối Mục tiêu chúng tơi tìm hiểu ánh xạ G : X → Y cho phân phối hình ảnh từ G(X) phân biệt với phân phối Y cách sử dụng mát đối nghịch Bởi ánh xạ bị hạn chế nhiều, kết hợp với ánh xạ ngược F : Y → X đưa tính quán chu kỳ để thực thi F(G(X)) ≈ X (và ngược lại) Kết định tính trình bày số tác vụ không tồn liệu đào tạo ghép nối, bao gồm chuyển kiểu sưu tập, biến đổi đối tượng, chuyển mùa, nâng cao ảnh, So sánh định lượng với số phương pháp trước chứng tỏ tính ưu việt phương pháp tiếp cận chúng tơi I GIỚI THIỆU Hình 1: Với hai sưu tập ảnh không tuân thủ thứ tự X Y, thuật tốn chúng tơi học cách "dịch" tự động ảnh từ sưu tập sang sưu tập khác ngược lại: (bên trái) tranh Monet ảnh phong cảnh từ Flickr; (ở giữa) ngựa vằn ngựa từ ImageNet; (bên phải) ảnh Yosemite mùa hè mùa đơng từ Flickr Ứng dụng ví dụ (ở dưới): cách sử dụng sưu tập tranh nghệ sĩ tiếng, phương pháp học cách biến đổi ảnh tự nhiên thành phong cách tương ứng Claude Monet nhìn thấy đặt giá vẽ bên bờ sơng Seine gần Argenteuil vào ngày mùa xuân đẹp trời năm 1873 (Hình 1,top-left)? Một ảnh màu, ghi lại bầu trời xanh dịng sơng thủy tinh phản chiếu Monet truyền tải ấn tượng cảnh thông qua nét cọ mỏng manh bảng màu tươi sáng Điều xảy Monet xảy bến cảng nhỏ Cassis vào buổi tối mùa hè mát mẻ (Hình 1, phía bên trái)? Dạo vòng qua phòng trưng bày tranh Monet, bạn hình dung cách ông thể cảnh này: có lẽ màu phấn nhạt, với vệt sơn đột ngột dải động phẳng Chúng ta tưởng tượng tất điều chưa nhìn thấy ví dụ tranh Monet bên cạnh ảnh cảnh anh vẽ Thay vào đó, có kiến thức tranh Monet ảnh phong cảnh Chúng ta suy luận khác biệt phong cách hai bối cảnh này, từ hình dung cảnh trông “translate” từ bối cảnh sang bối cảnh khác Trong báo này, chúng tơi trình bày phương pháp học để làm điều tương tự: nắm bắt đặc điểm đặc biệt sưu tập hình ảnh tìm cách đặc điểm dịch sang sưu tập hình ảnh khác, tất khơng có ví dụ đào tạo ghép nối Vấn đề mơ tả rộng dịch hình ảnh sang hình ảnh [22], chuyển đổi hình ảnh từ biểu diễn cảnh định, x, sang cảnh khác, y, ví dụ: thang độ xám thành màu, hình ảnh thành nhãn ngữ nghĩa, đồ cạnh thành ảnh chụp Nhiều năm nghiên cứu thị giác máy tính, xử lý hình ảnh, chụp ảnh điện toán đồ họa tạo hệ thống dịch mạnh mẽ môi trường giám sát, nơi có sẵn cặp hình ảnh mẫu {𝑥𝑖, 𝑦𝑖}𝑁 𝑖=1 (Hình 2, bên trái), ví dụ: [ 11, 19, 22, 23, 28, 33, 45, 56, 58, 62] Tuy nhiên, việc thu thập liệu đào tạo ghép nối khó khăn tốn Ví dụ: có số liệu tồn cho tác vụ phân đoạn ngữ nghĩa (ví dụ: [4]) chúng tương đối nhỏ Có cặp đầu vào-đầu cho tác vụ đồ họa cách điệu nghệ thuật cịn khó khăn đầu mong muốn phức tạp, thường yêu cầu tác giả nghệ thuật Đối với nhiều tác vụ, chẳng hạn biến đổi đối tượng (ví dụ: ngựa vằn↔ngựa, Hình giữa), đầu mong muốn chí cịn khơng xác định rõ Hình 2: Dữ liệu huấn luyện ghép cặp (bên trái) bao gồm ví dụ huấn luyện {𝑥𝑖, 𝑦𝑖}𝑁 𝑖=1 , có tương ứng xi yi xác định [22] Thay vào đó, chúng tơi xem xét liệu huấn luyện không ghép cặp (bên phải), bao gồm 𝑁 tập nguồn {𝑥𝑖}𝑁 𝑖=1 (xi ∈ X) tập đích {𝑦𝑗}𝑗=1 (yi ∈ Y), khơng có thơng tin việc xi tương ứng với yj Do đó, chúng tơi tìm kiếm thuật tốn học cách dịch miền mà khơng cần ví dụ đầu vào-đầu ghép nối (Hình 2, bên phải) Chúng tơi cho có số mối quan hệ miền – ví dụ: chúng hai kết xuất khác cảnh – tìm cách tìm hiểu mối quan hệ Mặc dù chúng tơi thiếu giám sát dạng ví dụ ghép nối, chúng tơi khai thác giám sát cấp độ tập hợp: chúng tơi cung cấp tập hợp hình ảnh miền X tập hợp khác miền Y Chúng ta huấn luyện ánh xạ G : X → Y cho đầu yˆ = G(x), x ∈ X, phân biệt với ảnh y ∈ Y đối thủ huấn luyện để phân loại yˆ y Về lý thuyết, mục tiêu tạo phân phối đầu yˆ khớp với phân phối thực nghiệm pdata(y) (nói chung, điều yêu cầu G phải ngẫu nhiên) [16] Do đó, G tối ưu chuyển miền X thành miền Yˆ phân phối đồng với Y Tuy nhiên, phép dịch không đảm bảo đầu vào riêng lẻ x đầu y ghép nối theo cách có ý nghĩa – có vơ số ánh xạ G tạo phân phối giống yˆ Hơn nữa, thực tế, chúng tơi thấy khó để tối ưu hóa mục tiêu đối nghịch cách lập: quy trình tiêu chuẩn thường dẫn đến vấn đề sụp đổ chế độ tiếng, tất hình ảnh đầu vào ánh xạ tới hình ảnh đầu q trình tối ưu hóa khơng đạt tiến [15] Những vấn đề kêu gọi bổ sung thêm cấu trúc cho mục tiêu chúng tơi Do đó, chúng tơi khai thác thuộc tính dịch phải “nhất quán theo chu kỳ”, theo nghĩa dịch, chẳng hạn, câu từ tiếng Anh sang tiếng Pháp, dịch ngược lại từ tiếng Pháp sang tiếng Anh, chúng tơi quay lại câu gốc [3] Về mặt toán học, có phép dịch G : X → Y phép dịch khác F : Y → X, G F phải nghịch đảo hai ánh xạ phải phép loại Chúng áp dụng giả định cấu trúc cách đào tạo đồng thời ánh xạ G F, đồng thời thêm vào suy giảm tính qn chu trình [64] để khuyến khích F(G(x)) ≈ x G(F(y)) ≈ y Kết hợp tổn thất với tổn thất đối nghịch miền X Y mang lại mục tiêu đầy đủ cho việc dịch hình ảnh sang hình ảnh chưa ghép nối Chúng tơi áp dụng phương pháp cho nhiều ứng dụng, bao gồm chuyển kiểu sưu tập, chuyển đổi đối tượng, chuyển mùa nâng cao ảnh Chúng so sánh với phương pháp trước dựa yếu tố xác định tay kiểu dáng nội dung dựa chức nhúng chia sẻ cho thấy phương pháp vượt trội đường sở Chúng cung cấp triển khai PyTorch Torch Xem thêm kết trang web chúng tơi II CƠNG TRÌNH LIÊN QUAN Hình 3: (a) Mơ hình chúng tơi bao gồm hai hàm ánh xạ G: X → Y F: Y → X, phân biệt đối kháng DY DX tương ứng DY khuyến khích G chuyển đổi X thành đầu phân biệt với miền Y, ngược lại với DX F Để kiểm sốt việc ánh xạ, chúng tơi giới thiệu hai hàm mát liên quan đến tính quán chu kỳ, với ý tưởng chuyển đổi từ miền sang miền khác quay trở lại, đến nơi xuất phát: • (b) mát quán chu kỳ chuyển tiếp: x → G(x) → F(G(x)) ≈ x, • (c) mát quán chu kỳ ngược: y → F(y) → G(F(y)) ≈ y Generative Adversarial Networks (GAN) [16, 63] đạt kết ấn tượng việc tạo hình ảnh [6, 39], chỉnh sửa hình ảnh [66] học đại diện [39, 43, 37] Các phương pháp gần áp dụng ý tưởng tương tự cho ứng dụng tạo hình ảnh có điều kiện, chẳng hạn text2image [41], inpainting hình ảnh [38] dự đốn tương lai [36], miền khác video [54] liệu 3D [57] Chìa khóa thành cơng GAN ý tưởng mát đối thủ buộc hình ảnh tạo nguyên tắc phân biệt với ảnh thực Sự mát đặc biệt nghiêm trọng tác vụ tạo hình ảnh, xác mục tiêu mà phần lớn đồ họa máy tính nhắm đến để tối ưu hóa Chúng tơi chấp nhận đối thủ để tìm hiểu ánh xạ cho hình ảnh dịch khơng thể phân biệt với hình ảnh miền mục tiêu Image-to-Image Translation: Ý tưởng dịch từ hình ảnh sang hình ảnh có từ Image Analogies Hertzmann cộng [19], người sử dụng mơ hình kết cấu phi tham số [10] cặp hình ảnh huấn luyện đầu vào-đầu đơn lẻ Các cách tiếp cận gần sử dụng tập liệu gồm ví dụ đầu vào-đầu để tìm hiểu hàm dịch tham số cách sử dụng CNN (ví dụ: [33]) Cách tiếp cận dựa khuôn khổ “pix2pix” Isola et al [22], sử dụng mạng đối nghịch tạo điều kiện [16] để tìm hiểu ánh xạ từ hình ảnh đầu vào đến hình ảnh đầu Những ý tưởng tương tự áp dụng cho tác vụ khác chẳng hạn tạo ảnh từ phác thảo [44] từ bố cục thuộc tính ngữ nghĩa [25] Tuy nhiên, khơng giống cơng việc trước trên, chúng tơi tìm hiểu ánh xạ mà khơng cần ví dụ đào tạo ghép nối Dịch hình ảnh sang hình ảnh không ghép nối Unpaired Image-to-Image Translation: Một số phương pháp khác xử lý cài đặt không ghép nối, mục tiêu liên kết hai miền liệu: X Y Rosales et al [42] đề xuất khung Bayesian bao gồm trường ngẫu nhiên Markov dựa vá tính tốn từ hình ảnh nguồn thuật ngữ khả thu từ nhiều hình ảnh kiểu Gần hơn, CoGAN [32] mạng cảnh đa phương thức [1] sử dụng chiến lược chia sẻ trọng số để tìm hiểu biểu diễn chung miền Đồng thời với phương pháp chúng tôi, Liu et al [31] mở rộng khuôn khổ với kết hợp mã hóa tự động đa dạng [27] mạng đối nghịch chung [16] Một dịng cơng việc đồng thời khác [46, 49, 2] khuyến khích đầu vào đầu chia sẻ tính “nội dung” cụ thể chúng khác “phong cách“ Các phương pháp sử dụng mạng đối nghịch, với thuật ngữ bổ sung để buộc đầu phải gần với đầu vào không gian số liệu xác định trước, chẳng hạn không gian nhãn lớp [2], khơng gian pixel hình ảnh [46] khơng gian đặc trưng hình ảnh [49] Khơng giống cách tiếp cận trên, công thức không dựa vào chức tương tự xác định trước, dành riêng cho nhiệm vụ đầu vào đầu ra, không giả định đầu vào đầu phải nằm khơng gian nhúng có chiều thấp Điều làm cho phương pháp trở thành giải pháp có mục đích chung cho nhiều tác vụ hình ảnh đồ họa Chúng so sánh trực tiếp với số cách tiếp cận trước đại Phần 5.1 Cycle Consistency: Ý tưởng sử dụng tính bắc cầu cách để chuẩn hóa liệu có cấu trúc có lịch sử lâu dài Trong theo dõi trực quan, việc thực thi tính quán tiến-lùi đơn giản thủ thuật tiêu chuẩn nhiều thập kỷ [24, 48] Trong lĩnh vực ngôn ngữ, xác minh cải thiện dịch thông qua “dịch ngược đối chiếu” kỹ thuật sử dụng người dịch [3] (bao gồm Mark Twain [51]), máy [17] Gần đây, tính quán chu kỳ bậc cao sử dụng cấu trúc từ chuyển động [61], đối sánh hình dạng 3D [21], phân đoạn [55], chỉnh ngữ nghĩa dày đặc [65, 64] ước tính độ sâu [14] Trong số này, Zhou et al [64] Godard et al [14] tương tự với công việc chúng tơi, họ sử dụng suy giảm tính quán chu kỳ cách sử dụng tính bắc cầu để giám sát đào tạo CNN Trong công việc này, giới thiệu tổn thất tương tự để đẩy G F quán với Đồng thời với công việc chúng tôi, trình tố tụng này, Yi et al [59] sử dụng độc lập mục tiêu tương tự cho dịch hình ảnh sang hình ảnh chưa ghép nối, lấy cảm hứng từ học kép dịch máy [17] Neural Style Transfer [13, 23, 52, 12]: cách khác để thực chuyển đổi hình ảnh sang hình ảnh, tổng hợp hình ảnh lạ cách kết hợp nội dung hình ảnh với phong cách hình ảnh khác (thường tranh) dựa phù hợp thống kê ma trận Gram tính sâu đào tạo trước Mặt khác, trọng tâm chúng tơi tìm hiểu ánh xạ hai sưu tập hình ảnh, thay hai hình ảnh cụ thể, cách cố gắng nắm bắt tương ứng cấu trúc ngoại hình cấp cao Do đó, phương pháp chúng tơi áp dụng cho tác vụ khác, chẳng hạn vẽ → ảnh, biến đổi đối tượng, v.v phương pháp truyền mẫu đơn lẻ không hoạt động tốt Chúng so sánh hai phương pháp Phần 5.2 III CƠNG THỨC Mục tiêu tìm hiểu hàm ánh xạ hai miền X Y cho mẫu 𝑁 huấn luyện {𝑥𝑖}𝑁 𝑖=1 xi ∈ X {𝑦𝑗}𝑗=1 yj ∈ Y Chúng biểu thị phân phối liệu x ∼ pdata(x) y ∼ pdata(y) Như minh họa Hình (a), mơ hình bao gồm hai ánh xạ G : X → Y F : Y → X Ngoài ra, giới thiệu hai phân biệt đối nghịch DX DY , DX nhằm mục đích phân biệt hình ảnh {x} dịch ảnh {F(y)}; theo cách tương tự, DY nhằm mục đích phân biệt {y} {G(x)} Mục tiêu bao gồm hai loại thuật ngữ: tổn thất đối thủ [16] để đối sánh việc phân phối hình ảnh tạo với phân phối liệu miền mục tiêu; tính qn chu trình để ngăn ánh xạ học G F mâu thuẫn với Mất mát Chúng áp dụng mát [16] cho hai hàm ánh xạ Đối với hàm ánh xạ G: X → Y phân biệt tương ứng DY, biểu diễn mục tiêu sau: LGAN(G, DY, X, Y) = Ey∼pdata(y) [log DY(y)] + Ex∼pdata(x) [log(1 - DY(G(x)))], (1) G cố gắng tạo hình ảnh G(x) giống hình ảnh từ miền Y, DY nhằm phân biệt mẫu dịch chuyển G(x) mẫu thực y G cố gắng tối thiểu hóa mục tiêu trước đối thủ D cố gắng tối đa hóa nó, tức minG maxDY LGAN(G, DY, X, Y) Chúng giới thiệu mát đối kháng tương tự cho hàm ánh xạ F: Y → X phân biệt tương ứng DX: minF maxDX LGAN(F, DX, Y, X) Mất mát tính quán chu kỳ Về lý thuyết, đào tạo đối thủ học ánh xạ G F tạo đầu phân phối giống hệt miền mục tiêu Y X tương ứng (nói ra, điều yêu cầu G F hàm ngẫu nhiên) [15] Tuy nhiên, với dung lượng đủ lớn, mạng ánh xạ tập hợp ảnh đầu vào tới hoán vị ngẫu nhiên ảnh miền đích, ánh xạ học tạo phân phối đầu khớp với phân phối đích Do đó, riêng tổn thất đối nghịch đảm bảo hàm học ánh xạ đầu vào xi riêng lẻ thành đầu mong muốn yi Để tiếp tục giảm không gian hàm ánh xạ có thể, chúng tơi lập luận hàm mappin học phải quán theo chu kỳ: Hình (b), ảnh x từ miền X, chu kỳ dịch ảnh mang x trở lại hình ảnh ban đầu, tức x → G(x) → F(G(x)) ≈ x Chúng gọi tính quán chu kỳ chuyển tiếp Tương tự, minh họa Hình (c), ảnh y từ miền Y , G F phải thỏa mãn tính quán chu trình ngược: y → F(y) → G(F(y)) ≈ y Chúng tơi khuyến khích hành vi cách giảm tính quán chu kỳ: Lcyc(G, F) = Ex∼pdata(x) [kF(G(x)) − xk1] + Ey∼pdata(y) [kG(F(y)) − yk1] (2) Trong thử nghiệm sơ bộ, thử thay định mức L1 tổn thất tổn thất đối kháng F(G(x)) x G(F(y)) y, không quan sát thấy hiệu suất cải thiện Hành vi gây tính qn chu kỳ quan sát Hình hình ảnh tái tạo F(G(x)) cuối khớp chặt với hình ảnh đầu vào x Hình 4: Các hình ảnh đầu vào x, hình ảnh đầu G(x) hình ảnh tái tạo F(G(x)) từ thí nghiệm khác Từ xuống dưới: hình ảnh thực tế ↔ hình ảnh phong cách Cezanne, hình ảnh ngựa ↔ hình ảnh ngựa vằn, mùa đơng → mùa hè Yosemite, hình ảnh từ máy bay ↔ Google maps Mục tiêu hoàn chỉnh Mục tiêu đầy đủ : L(G, F, DX, DY ) = LGAN(G, DY , X, Y ) + LGAN(F, DX, Y, X) + λLcyc(G, F), (3) Trong λ điều khiển mức độ quan trọng tương đối hai mục tiêu Chúng nhằm giải quyết: Table 3: Classification performance of photo→labels for different methods on cityscapes 1.4 Phân tích hàm mát Trong Bảng Bảng 5, so sánh với phiên thử nghiệm hàm mát đầy đủ Việc loại bỏ hàm mát GAN làm suy giảm đáng kể kết quả, việc loại bỏ hàm mát cycle-consistency Do đó, chúng tơi kết luận hai thành phần quan trọng kết Chúng đánh giá phương pháp với hàm mát cycle hướng: GAN + hàm mát chu kỳ thuận (GAN + forward cycle loss) Ex∼pdata(x) [kF(G(x))-xk1], GAN + hàm mát chu kỳ nghịch (GAN + backward cycle loss) Ey∼pdata(y) [kG(F(y))-yk1] (Công thức 2) thấy thường gặp phải khơng ổn định trình huấn luyện gây sụp đổ chế độ (mode collapse), đặc biệt hướng ánh xạ bị loại bỏ Hình cho thấy số ví dụ chất lượng Loss Per-pixel acc Per-class acc Class IOU Cycle alone 0.22 0.07 0.02 GAN alone 0.51 0.11 0.08 GAN + forward cycle 0.55 0.18 0.12 GAN + backward 0.39 0.14 0.06 cycle CycleGAN (ours) 0.52 0.17 0.11 Table 4: Ablation study: FCN-scores for different variants of our method, evaluated on Cityscapes labels→photo Loss Per-pixel acc Cycle alone 0.10 GAN alone 0.53 GAN + forward cycle 0.49 GAN + backward cycle 0.01 CycleGAN (ours) 0.58 Table 5: Ablation study: classification different losses, evaluated on Cityscape Per-class acc Class IOU 0.05 0.02 0.11 0.07 0.11 0.07 0.06 0.01 0.22 0.16 performance of photo→labels for 1.5 Chất lượng tái tạo hình ảnh Trong Hình 4, chúng tơi hiển thị số mẫu ngẫu nhiên hình ảnh tái tạo F(G(x)) Chúng nhận thấy hình ảnh tái tạo thường gần giống với đầu vào ban đầu x, trình huấn luyện kiểm tra, trường hợp miền biểu thị thông tin đa dạng đáng kể, đồ ↔ ảnh hàng khơng 14 Hình 7: Các biến thể khác phương pháp để ánh xạ nhãn↔ảnh huấn luyện liệu thành phố Từ trái qua phải: ảnh đầu vào, sử dụng mát tuân thủ chu kỳ, sử dụng mát đối địch, GAN + mát tuân thủ chu kỳ tiến (F(G(x)) ≈ x), GAN + mát tuân thủ chu kỳ lùi (G(F(y)) ≈ y), CycleGAN (phương pháp đầy đủ chúng tôi), ảnh mục tiêu thực tế Cả Cycle đơn lẻ GAN + lùi khơng tạo hình ảnh tương tự với miền đích GAN đơn lẻ GAN + tiến gặp phải tượng sụp đổ chế độ, tạo đồ nhãn giống ảnh đầu vào 1.6 Kết bổ sung liệu ghép nối Hình 8: Kết ví dụ CycleGAN liệu ghép cặp sử dụng "pix2pix" [22], chẳng hạn nhãn kiến trúc ↔ ảnh đường viền ↔ giày dép.ng sụp đổ chế độ, tạo đồ nhãn giống ảnh đầu vào Hình hiển thị số kết ví dụ liệu ghép cặp khác sử dụng "pix2pix" [22], chẳng hạn nhãn kiến trúc ↔ ảnh từ Cơ sở liệu Facade CMP [40], cạnh ↔ giày dép từ liệu UT Zappos50K [60] Chất lượng hình ảnh kết chúng tơi gần với kết tạo pix2pix toàn diện 15 huấn luyện dựa ghép cặp, phương pháp học phân ánh mà không cần giám sát ghép cặp Ứng dụng Hình 10: Bộ sưu tập biến đổi phong cách II: biến đổi ảnh gốc thành phong cách nghệ thuật Monet, Van Gogh, Cezanne, Ukiyo-e 16 Hình 11: Bộ sưu tập biến đổi phong cách II: Bộ sưu tập biến đổi phong cách II: biến đổi ảnh gốc thành phong cách nghệ thuật Monet, Van Gogh, Cezanne, Ukiyo-e Chuyển đổi phong cách sưu tập (Hình 10 Hình 11) Chúng tơi huấn luyện mơ hình ảnh phong cảnh tải từ Flickr WikiArt Khác với nghiên cứu gần "chuyển đổi phong cách neural" [13], phương pháp học cách bắt chước phong cách sưu tập tồn tác phẩm nghệ thuật, thay chuyển đổi phong cách tác phẩm nghệ thuật lựa chọn Do đó, chúng tơi học cách tạo ảnh theo phong cách của, ví dụ, Van Gogh, thay phong cách Tuyết Rơi Đêm Thánh Kích thước liệu cho nghệ sĩ/phong cách 526, 1073, 400 563 cho Cezanne, Monet, Van Gogh Ukiyo-e 17 Hình 12: Kết tương đối thành công việc ánh xạ tranh Monet sang ảnh chụp Tạo ảnh từ tranh (Hình 12) Đối với q trình painting→photo, chúng tơi nhận thấy việc áp dụng hàm mát bổ sung để khuyến khích việc ánh xạ đầu vào đầu bảo tồn cấu trúc màu sắc hữu ích Cụ thể, áp dụng kỹ thuật Taigman et al [49] điều chỉnh mơ hình generator gần với ánh xạ đơn vị nhận đầu vào mẫu thực tế thuộc lĩnh vực mục tiêu: Lidentity(G, F) = Ey∼pdata(y) [||G(y) − y||1] + Ex∼pdata(x) [||F(x) − x||1] Mà khơng có Lidentity, generator G F thay đổi màu sắc hình ảnh đầu vào mà khơng cần thiết Ví dụ, học ánh xạ tranh Monet ảnh Flickr, generator thường ánh xạ tranh ban ngày vào ảnh chụp vào hồng hơn, ánh xạ hoàn toàn hợp lệ mát đối nghịch quán vòng lặp Hiệu ứng hàm mát ánh xạ đơn vị hiển thị Hình Trong Hình 12, chúng tơi hiển thị kết bổ sung chuyển đổi tranh Monet thành ảnh Hình Hình hiển thị kết tranh bao gồm tập huấn luyện, tất thí nghiệm khác báo, đánh giá hiển thị kết tập liệu kiểm tra Bởi tập huấn luyện không bao gồm liệu ghép, việc tạo phiên dịch hợp lý cho tranh tập huấn luyện nhiệm vụ khơng đơn giản Thực tế, Monet khơng cịn khả 18 tạo tranh mới, việc tổng qt hóa cho tranh chưa nhìn thấy tập liệu "test set" vấn đề cấp thiết Hình 13: Phương pháp áp dụng cho số vấn đề dịch thuật Những hình ảnh chọn kết tương đối thành cơng - vui lịng xem trang web để biết thêm kết toàn diện ngẫu nhiên Trong hai hàng đầu tiên, cho thấy kết chuyển đổi đối tượng ngựa ngựa vằn, huấn luyện 939 hình ảnh từ lớp ngựa hoang dã 1177 hình ảnh từ lớp ngựa vằn Imagenet [5] Hãy xem video minh họa chuyển đổi từ ngựa sang ngựa vằn Hai hàng cho thấy kết chuyển mùa, huấn luyện ảnh mùa đông mùa hè Yosemite từ Flickr Trong hai hàng cuối cùng, huấn luyện phương pháp 996 hình ảnh táo 1020 hình ảnh cam từ ImageNet Chuyển đổi đối tượng (Hình 13) Mơ hình huấn luyện để chuyển đổi lớp đối tượng từ ImageNet [5] sang lớp khác (mỗi lớp chứa khoảng 1000 hình ảnh huấn luyện) Turmukhambetov đồng nghiệp [50] đề xuất mơ hình khơng gian để chuyển đổi đối tượng thành đối tượng khác danh mục, phương pháp tập trung vào việc chuyển đổi đối tượng hai danh mục tương tự mặt hình ảnh 19 Chuyển đổi mùa (Hình 13) Mơ hình huấn luyện 854 ảnh mùa đông 1273 ảnh mùa hè Yosemite tải từ Flickr Hình 14: Cải thiện ảnh chụp: ánh xạ từ tập hợp ảnh chụp điện thoại thông minh thành ảnh chụp máy ảnh chuyên nghiệp, hệ thống thường học tạo hiệu ứng tiêu điểm nông Ở đây, cho thấy số kết thành công tập kiểm tra chúng tơi - hiệu suất trung bình thường thấp nhiều Cải thiện ảnh (Hình 14) Chúng tơi cho thấy phương pháp chúng tơi sử dụng để tạo ảnh với độ sâu trường sâu Chúng tơi huấn luyện mơ hình ảnh hoa tải xuống từ Flickr Miền nguồn bao gồm ảnh hoa chụp điện thoại thơng minh, thường có độ sâu trường sâu độ nhỏ Miền đích chứa ảnh chụp máy ảnh DSLR với độ lớn Mơ hình chúng tơi thành cơng việc tạo ảnh với độ sâu trường sâu từ ảnh chụp điện thoại thông minh Hình 15: Chúng tơi so sánh phương pháp với phương pháp truyền tải phong cách neural [13] việc trang trí ảnh Từ trái sang phải: ảnh đầu vào, kết từ Gatys et al [13] sử dụng hai tác phẩm nghệ thuật đại diện khác hình 20 mẫu phong cách, kết từ Gatys et al [13] sử dụng toàn bộ sưu tập nghệ sĩ CycleGAN (của chúng tôi) So sánh với Gatys et al [13] Trong Hình 15, so sánh kết với phương pháp chuyển đổi phong cách mạng nơ-ron [13] việc trình bày phong cách cho ảnh Đối với hàng, sử dụng hai tác phẩm nghệ thuật đại diện làm hình ảnh phong cách cho [13] Phương pháp chúng tơi, cách khác, tạo ảnh theo phong cách toàn bộ sưu tập Để so sánh với việc chuyển đổi phong cách tồn bộ sưu tập, chúng tơi tính ma trận Gram trung bình miền đích sử dụng ma trận để chuyển đổi "phong cách trung bình" với Gatys et al [13] Hình 16: Chúng tơi so sánh phương pháp với neural style transfer [13] ứng dụng khác Từ xuống dưới: táo → cam, ngựa → ngựa vằn Monet → ảnh Từ trái sang phải: hình ảnh đầu vào, kết từ Gatys et al [13] sử dụng hai hình ảnh khác làm hình ảnh phong cách, kết từ Gatys et al [13] sử dụng tất hình ảnh từ miền mục tiêu, CycleGAN (của chúng tơi) Hình 16 thể so sánh tương tự cho nhiệm vụ chuyển đổi khác Chúng quan sát Gatys et al [13] yêu cầu tìm hình ảnh phong cách đích phù hợp với kết mong muốn, thường tạo kết trực quan chân thực, phương pháp thành công việc tạo kết tự nhiên, tương tự miền đích V NHỮNG GIỚI HẠN: Mặc dù phương pháp chúng tơi đạt kết thuyết phục nhiều trường hợp, nhiên kết chưa đồng Hình 17 cho thấy số trường hợp thất bại điển hình Trên nhiệm vụ dịch ảnh liên quan đến thay đổi màu sắc kết cấu, nhiều trường hợp báo cáo trên, phương pháp thường thành công Chúng nhận nhiệm vụ yêu cầu thay đổi hình học kết cấu có tính khả thi thấp Ví dụ, biến đổi chó thành mèo, kết phép dịch chúng tơi thay đổi (khơng đáng kể) so với đầu vào ban đầu (Hình 17) Thất bại kiến trúc máy khởi tạo 21 thiết kế để đạt hiệu suất tốt thay đổi bên Xử lý biến đổi đa dạng cực đoan hơn, đặc biệt thay đổi hình học, vấn đề quan trọng cho công việc tương lai Một số trường hợp thất bại gây đặc tính phân phối tập liệu huấn luyện Ví dụ, phương pháp chúng tơi nhầm lẫn ví dụ chuyển đổi ngựa → ngựa vằn (Hình 17, bên phải), mơ hình chúng tơi huấn luyện synset ngựa hoang ngựa vằn ImageNet, mà ImageNet khơng chứa hình ảnh người cưỡi ngựa ngựa vằn Chúng quan sát thấy khoảng cách tồn kết đạt với liệu huấn luyện ghép đôi kết đạt phương pháp không ghép đôi Trong số trường hợp, khoảng cách khó chí khơng thể - để thu hẹp: ví dụ, phương pháp chúng tơi đơi hốn vị nhãn cho tịa nhà đầu tác vụ photos → nhãn Giải khơng rõ ràng u cầu dạng giám sát ngữ nghĩa yếu Kết hợp liệu yếu bán giám sát dẫn đến dịch mạnh mẽ đáng kể, giảm chi phí thích so với hệ thống giám sát đầy đủ Tuy nhiên, nhiều trường hợp, liệu hồn tồn khơng ghép cặp có sẵn nên sử dụng Bài báo đẩy giới hạn làm bối cảnh "khơng giám sát" Hình ảnh 17: Những trường hợp thất bại điển hình phương pháp chúng tơi Trái: nhiệm vụ biến đổi chó thành mèo, CycleGAN thực thay đổi tối thiểu đầu vào Phải: CycleGAN thất bại ví dụ ngựa → ngựa vằn mơ hình chúng tơi chưa huấn luyện với hình ảnh người cưỡi ngựa Lời cảm ơn: Chúng cảm ơn Aaron Hertzmann, Shiry Ginosar, Deepak Pathak, Bryan Russell, Eli Shechtman, Richard Zhang, Tinghui Zhou góp ý bổ ích Dự án hỗ trợ phần NSF SMA1514512, NSF IIS=1633310, Google Rếarch Award, Tập đoàn Intel tài trợ phần cứng đến từ NVIDIA JYZ hỗ trợ bới Facebook Graduate Fellowship TP hỗ trợ bới Samsung Scholarship Những ảnh dùng cho biến đổi phong cách chụp AE, hầu hết Pháp VI ĐÁNH GIÁ Phương pháp Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN) phương pháp sử dụng để chuyển đổi hình ảnh từ miền khơng có sẵn cặp liệu huấn luyện tương ứng Nó sử dụng mạng 22 neural đối nghịch (GAN) để học cách chuyển đổi từ miền nguồn sang miền đích thơng qua việc tối ưu hóa mục tiêu liên quan đến độ tin cậy ảnh chuyển đổi tính chất đồng chu kỳ cặp ảnh Một phương pháp liên quan khác mà ta xem xét StarGAN (Star Generative Adversarial Networks) StarGAN phương pháp Unpaired Image-to-Image Translation, cho phép chuyển đổi nhiều miền hai miền CycleGAN Điều cho phép StarGAN thực chuyển đổi đa miền, ví dụ chuyển đổi loại khuôn mặt nhiều người khác ảnh Một điểm khác biệt quan trọng CycleGAN StarGAN cách chúng định nghĩa hàm mục tiêu Trong CycleGAN, hàm mục tiêu bao gồm hai thành phần chính: thành phần đối nghịch mạng chuyển đổi mạng phân biệt, thành phần đồng chu kỳ hai trình chuyển đổi ngược lại Trong đó, StarGAN sử dụng hàm mục tiêu kết hợp thành phần đối nghịch thành phần đồng để đảm bảo tính chất đa miền chuyển đổi Chúng ta đến so sánh chi tiết CycleGan StarGan sau: Khái niệm CycleGAN CycleGAN mơ hình Unpaired Image-to-Image Translation, cho phép chuyển đổi hình ảnh hai miền khơng có sẵn cặp liệu huấn luyện tương ứng Ví dụ, chuyển đổi hình ảnh từ miền ảnh ngựa thành miền ảnh ngựa vằn mà không cần cặp ảnh ngựa ảnh ngựa vằn trình huấn luyện Mạng chuyển đổi Quá trình hoạt động Mơ hình gồm hai mạng chuyển đổi riêng biệt, cho miền Với miền, mạng chuyển đổi cố gắng học cách chuyển đổi hình ảnh từ miền nguồn sang miền đích Ví dụ, mạng chuyển đổi A-to-B học cách chuyển đổi ảnh từ miền A sang miền B StarGAN StarGAN phương pháp Unpaired Image-to-Image Translation mở rộng CycleGAN, cho phép chuyển đổi nhiều miền Điều cho phép StarGAN thực chuyển đổi đa miền, ví dụ chuyển đổi loại khuôn mặt nhiều người khác ảnh StarGAN có mạng chuyển đổi chung cho tất miền Nó học cách chuyển đổi từ miền sang miền khác Ví dụ, với tập liệu chứa loại khn mặt khác nhau, mạng chuyển đổi StarGAN học cách chuyển đổi từ loại khuôn mặt sang loại khuôn mặt khác 23 Mạng phân biệt Mỗi miền có mạng phân biệt riêng, sử dụng để đánh giá tính thực tế ảnh chuyển đổi Ví dụ, mạng phân biệt B đánh giá độ tin cậy ảnh chuyển đổi từ miền A sang miền B Mục tiêu đối nghịch Mục tiêu mạng chuyển đổi tạo ảnh chuyển đổi có tính thực tế tương tự ảnh miền đích Đồng thời, mạng phân biệt cố gắng phân biệt ảnh chuyển đổi từ ảnh thật miền đích Q trình tạo thành phần đối nghịch, mạng chuyển đổi cố gắng đánh lừa mạng phân biệt ngược lại Mục tiêu đồng Tương tự mạng chuyển đổi, StarGAN có mạng phân biệt chung cho tất miền Mạng phân biệt sử dụng để đánh giá tính thực tế ảnh chuyển đổi từ tất miền Nó phân biệt ảnh chuyển đổi ảnh thật từ miền khác Mục tiêu mạng chuyển đổi tạo ảnh chuyển đổi có tính thực tế tương tự ảnh thật từ miền Đồng thời, mạng phân biệt cố gắng phân biệt ảnh chuyển đổi từ ảnh thật từ miền khác Tương tự CycleGAN, trình tạo thành phần đối nghịch, mạng chuyển đổi cố gắng đánh lừa mạng phân biệt ngược lại Để đảm bảo tính chất đa miền chuyển đổi, StarGAN sử dụng thành phần mục tiêu đồng Điều đảm bảo ảnh chuyển đổi từ miền chuyển đổi trở lại thành ảnh ban đầu miền Ví dụ, chuyển đổi từ khn mặt người đến khn mặt mèo sau chuyển đổi ngược lại, mục tiêu đồng đảm bảo kết chuyển đổi tương đương với khuôn mặt người ban đầu 24 Thành phần đồng chu kỳ Để đảm bảo tính chất đồng chu kỳ hai miền, CycleGAN sử dụng thành phần đồng chu kỳ Nó bao gồm việc chuyển đổi ảnh từ miền nguồn sang miền đích sau chuyển đổi lại Thành phần đồng chu kỳ bổ sung mục tiêu bổ sung vào trình huấn luyện Sau ảnh chuyển đổi từ miền nguồn sang miền đích, CycleGAN thực trình chuyển đổi ngược lại từ miền đích sang miền nguồn cách sử dụng mạng chuyển đổi ngược (ví dụ: từ B sang A) Mục tiêu tạo ảnh chuyển đổi "đồng chu kỳ" gần giống với ảnh nguồn ban đầu Điều giúp đảm bảo tính chất đồng chu kỳ giúp mơ hình học biểu diễn tổng quát cách chuyển đổi hai miền Tổng hợp mát Để huấn luyện mơ hình, CycleGAN kết hợp thành phần đối nghịch đồng chu kỳ thành hàm mục tiêu tổng hợp Mục tiêu tối thiểu hóa mát mạng chuyển đổi, mát mạng phân biệt mát thành phần đồng chu kỳ Quá trình tối ưu giúp cải thiện khả chuyển đổi tính thực tế mơ hình Tương tự CycleGAN, StarGAN kết hợp thành phần đối nghịch, đồng thành phần phân biệt thành hàm mục tiêu tổng hợp Mục tiêu tối thiểu hóa mát mạng chuyển đổi, mát mạng phân biệt mát thành phần đồng Quá trình tối ưu giúp mơ hình học cách chuyển đổi miền cách đa dạng thực tế 25 Tài liệu tham khảo [1] Y Aytar, L Castrejon, C Vondrick, H Pirsiavash, and A Torralba Cross-modal scene networks PAMI, 2016 [2] K Bousmalis, N Silberman, D Dohan, D Erhan, and D Krishnan Unsupervised pixellevel domain adap- tation with generative adversarial networks In CVPR, 2017 [3] R W Brislin Back-translation for cross-cultural research Journal of cross-cultural psychology, 1(3):185–216, 1970 2, [4] M Cordts, M Omran, S Ramos, T Rehfeld, M En-zweiler, R Benenson, U Franke, S Roth, and B Schiele The cityscapes dataset for semantic urbanscene understanding In CVPR, 2016 2, 5, 6, 18 [5] J Deng, W Dong, R Socher, L.-J Li, K Li, and L Fei-Fei Imagenet: A largescale hierarchical im-age database In CVPR, 2009 8, 13, 18 [6] E L Denton, S Chintala, R Fergus, et al Deep generative image models using a laplacian pyramid of adversarial networks In NIPS, 2015 [7] J Donahue, P Krahenb ̈ uhl, and T Darrell Adversarial ̈feature learning In ICLR, 2017 6, [8] A Dosovitskiy and T Brox Generating images withperceptual similarity metrics based on deep networks.In NIPS, 2016 [9] V Dumoulin, I Belghazi, B Poole, A Lamb, M Ar-jovsky, O Mastropietro, and A Courville Adversarially learned inference In ICLR, 2017 6, [10] A A Efros and T K Leung Texture synthesis by non-parametric sampling In ICCV, 1999 [11] D Eigen and R Fergus Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture In ICCV, 2015 [12] L A Gatys, M Bethge, A Hertzmann, and E Shecht-man Preserving color in neural artistic style transfer arXiv preprint arXiv:1606.05897, 2016 [13] L A Gatys, A S Ecker, and M Bethge Image style transfer using convolutional neural networks CVPR,2016 3, 8, 9, 14, 15 [14] C Godard, O Mac Aodha, and G J Brostow Un-supervised monocular depth estimation with left-right consistency In CVPR, 2017 [15] I Goodfellow NIPS 2016 tutorial: Generative adversarial networks arXiv preprint arXiv:1701.00160, 2016 2, 4, [16] I Goodfellow, J Pouget-Abadie, M Mirza, B Xu,D Warde-Farley, S Ozair, A Courville, and Y Ben-gio Generative adversarial nets In NIPS, 2014 2, 3,4, [17] D He, Y Xia, T Qin, L Wang, N Yu, T Liu, and W.-Y Ma Dual learning for machine translation In NIPS, 2016 [18] K He, X Zhang, S Ren, and J Sun Deep residual learning for image recognition In CVPR, 2016 [19] A Hertzmann, C E Jacobs, N Oliver, B Curless, and D H Salesin Image analogies In SIGGRAPH, 2001 2, [20] G E Hinton and R R Salakhutdinov Reducing the dimensionality of data with neural networks Science, 313(5786):504–507, 2006 [21] Q.-X Huang and L Guibas Consistent shape maps via semidefinite programming In Symposium on Geometry Processing, 2013 [22] P Isola, J.-Y Zhu, T Zhou, and A A Efros Image-to-image translation with conditional adversarial networks In CVPR, 2017 2, 3, 5, 6, 7, 8, 18 [23] J Johnson, A Alahi, and L Fei-Fei Perceptual losses for real-time style transfer and super-resolution In ECCV, 2016 2, 3, 5, 7, 18 [24] Z Kalal, K Mikolajczyk, and J Matas Forward-backward error: Automatic detection of tracking fail-ures In ICPR, 2010 26 [25] L Karacan, Z Akata, A Erdem, and E Erdem Learning to generate images of outdoor scenes from attributes and semantic layouts arXiv preprint arXiv:1612.00215, 2016 [26] D Kingma and J Ba Adam: A method for stochastic optimization In ICLR, 2015 [27] D P Kingma and M Welling Auto-encoding variational bayes ICLR, 2014 [28] P.-Y Laffont, Z Ren, X Tao, C Qian, and J Hays Transient attributes for high-level understanding and editing of outdoor scenes ACM TOG, 33(4):149, 2014 [29] C Ledig, L Theis, F Huszar, J Caballero, A Cun-ningham, A Acosta, A Aitken, A Tejani, J Totz,Z Wang, et al Photo-realistic single image super-resolution using a generative adversarial network In CVPR, 2017 [30] C Li and M Wand Precomputed real-time texture synthesis with markovian generative adversarial net-works ECCV, 2016 [31] M.-Y Liu, T Breuel, and J Kautz Unsupervised image-to-image translation networks In NIPS, 2017.3 [32] M.-Y Liu and O Tuzel Coupled generative adversarial networks In NIPS, 2016 3, 6, [33] J Long, E Shelhamer, and T Darrell Fully convolutional networks for semantic segmentation In CVPR, 2015 2, 3, [34] A Makhzani, J Shlens, N Jaitly, I Goodfellow, and B Frey Adversarial autoencoders In ICLR, 2016 [35] X Mao, Q Li, H Xie, R Y Lau, Z Wang, and S P Smolley Least squares generative adversarial net-works In CVPR IEEE, 2017 [36] M Mathieu, C Couprie, and Y LeCun Deep multi-scale video prediction beyond mean square error In ICLR, 2016 [37] M F Mathieu, J Zhao, A Ramesh, P Sprechmann, and Y LeCun Disentangling factors of variation in deep representation using adversarial training In NIPS, 2016 [38] D Pathak, P Krahenbuhl, J Donahue, T Darrell, and A A Efros Context encoders: Feature learning by inpainting CVPR, 2016 [39] A Radford, L Metz, and S Chintala Unsupervised representation learning with deep convolutional generative adversarial networks In ICLR, 2016 [40] R S Radim Tyle ˇ cek Spatial pattern templates for recognition of objects with regular structure In Proc.GCPR, Saarbrucken, Germany, 2013 8, 18 [41] S Reed, Z Akata, X Yan, L Logeswaran, B Schiele,and H Lee Generative adversarial text to image syn-thesis In ICML, 2016 [42] R Rosales, K Achan, and B J Frey Unsupervised image translation In ICCV, 2003 [43] T Salimans, I Goodfellow, W Zaremba, V Cheung,A Radford, and X Chen Improved techniques for training GANs In NIPS, 2016 [44] P Sangkloy, J Lu, C Fang, F Yu, and J Hays Scrib-bler: Controlling deep image synthesis with sketch and color In CVPR, 2017 [45] Y Shih, S Paris, F Durand, and W T Freeman Data-driven hallucination of different times of day from a single outdoor photo ACM TOG, 32(6):200, 2013 [46] A Shrivastava, T Pfister, O Tuzel, J Susskind, W Wang, and R Webb Learning from simulated and unsupervised images through adversarial training In CVPR, 2017 3, 5, 6, [47] K Simonyan and A Zisserman Very deep convolu-tional networks for large-scale image recognition In ICLR, 2015 [48] N Sundaram, T Brox, and K Keutzer Dense point trajectories by gpu-accelerated large displacement op-tical flow In ECCV, 2010 27 [49] Y Taigman, A Polyak, and L Wolf Unsupervised cross-domain image generation In ICLR, 2017 3, [50] D Turmukhambetov, N D Campbell, S J Prince, and J Kautz Modeling object appearance using context-conditioned component analysis In CVPR, 2015 [51] M Twain The jumping frog: in english, then in french, and then clawed back into a civilized language once more by patient Unremunerated Toil, 3, 1903 [52] D Ulyanov, V Lebedev, A Vedaldi, and V Lempit- sky Texture networks: Feedforward synthesis of tex-tures and stylized images In ICML, 2016 [53] D Ulyanov, A Vedaldi, and V Lempitsky Instance normalization: The missing ingredient for fast styliza- tion arXiv preprint arXiv:1607.08022, 2016 [54] C Vondrick, H Pirsiavash, and A Torralba Generat-ing videos with scene dynamics In NIPS, 2016 [55] F Wang, Q Huang, and L J Guibas Image co-segmentation via consistent functional maps In ICCV,2013 [56] X Wang and A Gupta Generative image model-ing using style and structure adversarial networks InECCV, 2016 [57] J Wu, C Zhang, T Xue, B Freeman, and J Tenen-baum Learning a probabilistic latent space of ob-ject shapes via 3d generative-adversarial modeling InNIPS, 2016 [58] S Xie and Z Tu Holistically-nested edge detection.In ICCV, 2015 [59] Z Yi, H Zhang, T Gong, Tan, and M Gong Dual-gan: Unsupervised dual learning for image-to-image translation In ICCV, 2017 [60] A Yu and K Grauman Fine-grained visual compar-isons with local learning In CVPR, 2014 8, 18 [61] C Zach, M Klopschitz, and M Pollefeys Disam-biguating visual relations using loop constraints In CVPR, 2010 [62] R Zhang, P Isola, and A A Efros Colorful image colorization In ECCV, 2016 [63] J Zhao, M Mathieu, and Y LeCun Energy-based generative adversarial network In ICLR, 2017 [64] T Zhou, P Krahenbuhl, M Aubry, Q Huang, and A A Efros Learning dense correspondence via 3d-guided cycle consistency In CVPR, 2016 2, [65] T Zhou, Y J Lee, S Yu, and A A Efros Flowweb:Joint image set alignment by weaving consistent,pixel-wise correspondences In CVPR, 2015 [66] J.-Y Zhu, P Krahenbuhl, E Shechtman, and A A ̈Efros Generative visual manipulation on the natural image manifold In ECCV, 2016 28