FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING

THÔNG TIN TÀI LIỆU

Image inpainting là một quá trình hồi phục trong đó các phần bị hư hỏng hoặc thiếu của một hình ảnh được điền vào để tạo ra một hình ảnh hoàn chỉnh. Image inpainting có thể được chia chủ yếu thành hai nhóm. ▪ Nhóm đầu tiên đại diện cho phương pháp truyền thống dựa trên khuếch tán hoặc dựa trên bản vá (patch – base method) với các feature cấp thấp. Phương pháp này chỉ sử dụng low level features, do đó không mang lại hiệu quả cao. ▪ Nhóm thứ hai cố gắng giải quyết inpainting bằng cách tiếp cận dựa trên learningbased.

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO MÔN HỌC MÁY HỌC Đề tài : PEPSI++: FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING Dựa báo : PEPSI++: Fast and Lightweight Network for Image Inpainting (Yong-Goo Shin, Min-Cheol Sagong, Yoon-Jae Yeo, SeungWook Kim, and Sung-Jea Ko) GIẢNG VIÊN HƯỚNG DẪN : HỌC VIÊN THỰC HIỆN TS Trần Thái Sơn : Phan Minh Toàn – 20C11057 Võ Thanh Trúc – 20C11058 Nguyễn Thủy Tiên – 20C12032 KHĨA : 30 NGÀNH : Khoa học máy tính TP.HCM, 05-2021 Mục Lục Mục Lục Bảng tóm tắt Danh sách bảng Danh sách hình ảnh minh họa .2 Giới thiệu Image Inpainting Nghiên cứu liên quan Mở đầu 3.1 Generative adversarial networks 3.2 Generative Image Inpainting Network 3.2.1 Encoder – Decoder Network 3.2.2 Encoder – Decoder Network 3.3 Contextual Attention Module (CAM) Phương pháp đề xuất 4.1 Kiến trúc Parallel Extended-decoder Path for Semantic Inpainting Network (PEPSI) 4.2 Kiến trúc Diet-PEPSI 10 4.3 Region Ensemble Discriminator (RED) 11 4.4 Chỉnh sửa từ CAM .12 4.5 Hàm lỗi 13 Thực nghiệm 14 5.1 Chi tiết triển khai 14 5.1.1 Free-Form Mask 14 5.1.2 Quá trình huấn luyện .15 5.2 Đánh giá hiệu suất 15 5.2.1 So sánh định tính 15 5.2.2 So sánh định lượng 18 Kết luận 20 Demo code 21 References 22 Bảng phân công nhiệm vụ Họ tên Phan Minh Toàn Võ Thanh Trúc Nguyễn Thủy Tiên Mã số 20C11057 20C11058 20C12032 Bảng tóm tắt GAN CAM GCA PEPSI : : : : PEPSI++ RED CE GL TTUR CPU GPU SSIM PSNR : : : : : : : : : Nhiệm vụ Generative Adversarial Network Contextual Attention Module Generator with Contextual Attention Parallel Extended-decoder Path for Semantic Inpainting Network Diet-PEPSI Region Ensemble Discriminator Context Encoder Globally and Locally completion network Two-Timescale Update Rule Central Processing Unit Graphics Processing Unit Structural Similarity Index Peak Signalto-Noise Ratio Danh sách bảng Bảng Chi tiết kiến trúc RED 12 Bảng Kết độ đo PSNR (vùng trống, toàn ảnh) SSIM loại mặt nạ, thời gian tính tốn, số lượng tham số các phương pháp liệu CelebAHQ 19 Bảng Kết thực nghiệm giảm số lượng tham số kỹ thuật tích chập nhóm .20 Bảng Kết độ đo PSNR (vùng trống, toàn ảnh) SSIM loại mặt nạ các phương pháp liệu Place2 20 Danh sách hình ảnh minh họa Hình 1-1 Ví dụ training deep convolutional neural networks để dự đoán pixel cho vùng ảnh bị thiếu sót Hình 2-1 Sơ đồ cơng trình nghiên cứu liên quan Hình 3-1 Hình minh họa chế hoạt động Generative adversarial networks (GAN) Hình 3-2 Hàm lost Discriminator Generator .6 Hình 3-3 Encoder – Decoder Network HìnhHình 3-4 Coarse-to-fine Network (two-stage network) Hình 3-5 Coarse-to-fine Network Hình 3-6 Hình minh họa cho việc thay Refinement network Contextual attention module (CAM) Hình 3-7 Hình minh họa contextual attention layer .8 Hình 4-1 Kiến trúc PEPSI Hình 4-2 Kiến trúc DietPEPSI .10 Hình 4-3 Rate-adaptive scaling and shifting operations .10 Hình 4-4.Minh họa kỹ thuật để tổng hợp thông tin global contextual giảm số lượng tham số 11 Hình 4-5 Tổng quan RED 12 Hình 5-1 Ví dụ cho mặt nạ ảnh (a) Ảnh gốc (b) Ảnh với mặt nạ thông thường (c) Ảnh với mặt nạ dạng tự .14 Hình 5-2 Kết so sánh mặt nạ vuông với liệu CelebA-HQ (a) Ảnh gốc (b) Ảnh cần hoàn thiện (c) Kết CE [4] (d) Kết GL [5] (e) Kết GatedConv [6] (f) Kết PEPSI [7] (g) Kết Diet-PEPSI .16 Hình 5-3 Kết so sánh mặt nạ dạng tự với liệu CelebA-HQ (a) Ảnh gốc (b) Ảnh cần hoàn thiện (c) Kết CE [4] (d) Kết GL [5] (e) Kết GatedConv [6] (f) Kết PEPSI [7] (g) Kết Diet-PEPSI .16 Hình 5-4 Kết so sánh với liệu Place2 (a) Ảnh gốc (b) Ảnh cần hoàn thiện (c) Kết PatchMatch [13] (d) Kết GatedConv [6] (e) Kết PEPSI [7] (f) Kết Diet-PEPSI 18 Giới thiệu Image Inpainting Image inpainting q trình hồi phục các phần bị hư hỏng thiếu hình ảnh điền vào để tạo hình ảnh hồn chỉnh Image inpainting chia chủ yếu thành hai nhóm ▪ Nhóm đầu tiên đại diện cho phương pháp truyền thống dựa khuếch tán dựa vá (patch – base method) với feature cấp thấp Phương pháp sử dụng low level features, khơng mang lại hiệu cao ▪ Nhóm thứ hai cố gắng giải inpainting cách tiếp cận dựa learning-based Ví dụ: Training deep convolutional neural networks để dự đoán pixel cho vùng ảnh bị thiếu sót tham khảo Hình 1-1 Hình 1-1 Ví dụ training deep convolutional neural networks để dự đoán pixel cho vùng ảnh bị thiếu sót Nghiên cứu liên quan Hình 2-1 Sơ đồ cơng trình nghiên cứu liên quan Năm 2014, Generative Adversarial Network (GAN) đời, tạo nên thay đổi lớn Neural Network GAN phương pháp học tạo liệu dựa phân bố có sẵn liệu gốc Từ GAN đời, nhiều paper sử dụng đến GAN xuất Từ năm 2014 trở đi, GAN áp dụng vào tốn Image Inpainting Song song đó, nhiều mơ hình đưa để giải toán Image Inpainting Vào năm 2018, cải tiến GAN cho toán Image Inpainting Contextual Attention Module (CAM) đời CAM cải tiến số vấn đề cho toán Image Inpainting số hạn chế mặt hiệu suất resource computing Do vào năm 2019, Parallel Extended decoder Path for Semantic Inpainting Network (PEPSI) đời, cải thiện đáng kể mặt hiệu suất, nhiên số lượng tham số mạng Neural Network khá cao Vì lý này, năm 2020, Diet-PEPSI (PEPSI++) đời, PEPSI++ giữ nguyên hiệu suất nhừ PEPSI giảm số lượng tham số mạng Neural Network đáng kể Mở đầu 3.1 Generative adversarial networks Hình 3-1 Hình minh họa chế hoạt động Generative adversarial networks (GAN) GAN gồm network Generator Discriminator Bên giải thích ký hiệu mơ tả Hình 3-1 trên: ▪ z: feature đầu vào Generator ▪ x: liệu thật từ dataset (real sample) ▪ G(z): ảnh sinh ta từ Generator (fake sample) ▪ D(x): dự đoán Discriminator cho real sample (P(y|real sample)) → {0,1} ▪ D(G(z)): dự đoán Discriminator cho fake sample (P(y|fake sample)) → {0,1} Cơ chế hoạt động Generator cố gắng tạo fake sample để đánh lừa Discriminator (G(z)), chế hoạt động Discriminator cố gắng xác định real sample (x) từ fake sample tạo bới Generator (G(z)) Generator Discriminator khơng thực song song, Generator hoạt động Discriminator đóng băng ngược lại Cũng chế hoạt động đối đầu Generator Discriminator nên có tên gọi mạng chống đối (adversarial networks) at Discriminator D D(x) → should be maximized D(G(z)) → should be minimized Real sample: y = Fake sample: y = at Generator G D(G(z)) → should be maximized Cơ chế hoạt động Discriminator cố gắng xác định real sample (x) từ fake sample tạo bới Generator (G(z)) Do đó, Discriminator muốn tối đa hóa D(x) tối thiểu hóa D(G(z)) Ngược lại, Generator lại muốn tối đa hóa D(G(z)) để Discriminator khơng phân biệt thật giả Do đó, hàm lost hai network Discriminator Generator thể Hình 3-2 Hình 3-2 Hàm lost Discriminator Generator Từ hai hàm lost hai network Discriminator Generator, ta có hàm lost tổng hợp sau: max [𝐸𝑥~𝑝𝑑𝑎𝑡𝑎 𝑙𝑜𝑔𝐷𝜃𝑑 (𝑥) + 𝐸𝑧~𝑝(𝑧) 𝑙𝑜𝑔 (1 − 𝐷𝜃𝑑 (𝐺𝜃𝑔 (𝑧)))] 𝜃𝑔 𝜃𝑑 3.2 Generative Image Inpainting Network Sau đời, GAN áp dụng rộng rãi vào tốn Image Inpainting Trong đó, Encoder – Decoder Network Coarse-to-fine Network (two-stage network) hai mạng phổ biến áp dụng GAN 3.2.1 Encoder – Decoder Network Hình 3-3 Encoder – Decoder Network Encoder – Decoder Network extract features thông qua Generator cho Inpainting result Từ Inpainting result qua Discriminator là: Global Discriminator Local Discriminator Local Discriminator tập trung phân biệt thật giả cho vùng sinh Global Discriminator nhìn vào tồn ảnh (tham khảo Hình 3-3) 3.2.2 Encoder – Decoder Network HìnhHình 3-4 Coarse-to-fine Network (two-stage network) Khác với Encoder – Decoder Network, Coarse-to-fine Network (tham khảo HìnhHình 3-4) có hai gian đoạn, giai đoạn sử dụng mạng Generator khác Giai đoạn thứ nhất, Input mask qua mạng Generator thứ để extract Corase result (kết thô) Ở giai đoạn hàm lost L1 Ở giai đoạn hai, Corase result tiếp tục qua mạng Generator thứ hai Inpainting result Sau Discriminator thực để phân biệt thật giả Việc chia làm hai giai đoạn Corase result Inpainting result giúp có kết tốt so với Encoder – Decoder Network 3.3 Contextual Attention Module (CAM) Hình 3-5 Coarse-to-fine Network Vì Coarse-to-fine Network không đạt hiệu cho việc lấy feature từ vị trí xa ảnh nên Contextual attention layer đời để khắc phục vấn đề Giai đoạn đầu Coarse Network giữ nguyên, giai đoạn hai Refinement network thay Contextual attention module (CAM) Contextual attention layer học chép feature thông tin từ background patches dùng để sinh phần bị thiếu Hình 3-6 Hình minh họa cho việc thay Refinement network Contextual attention module (CAM) Dựa Coarse result từ mạng encoder-decoder giai đoạn đầu, giai đoạn sau, hai mạng decoders song song thực sau hợp lại thành single decoder để có Inpainting result Để trực quan hóa attention map, màu sắc cho biết vị trí tương đối background patch cho pixel foreground Ví dụ: màu trắng (trung tâm đồ mã hóa màu) có nghĩa pixel tự tập trung vào nó, màu hồng bên trái, màu xanh lá có nghĩa bên phải Hình 3-7 Hình minh họa contextual attention layer Input feature chia làm hai phần Foreground Background Sau sử dụng cosine similarity để tính tốn matching score foreground background Tiếp theo làm áp dụng softmax để lấy giá trị lớn tính từ bước làm attention score cho pixel Cuối hồi phục lại foreground với background cách thực Deconvolution dựa attention score CAM đạt hiệu cho việc lấy feature từ vị trí xa ảnh, nhiên, phương pháp sử dụng tài nguyên tính toán đáng kể sử dụng kiến trúc two-stage network Do Parallel Extended - decoder Path for Semantic Inpainting Network (PEPSI) đời để cải thiện vấn đề Phương pháp đề xuất 4.1 Kiến trúc Parallel Extended-decoder Path for Semantic Inpainting Network (PEPSI) Hình 4-1 Kiến trúc PEPSI Ở PEPSI, two-stage network thay single-stage encoderdecoder network PEPSI bao gồm single encoding network parallel decoding networks bao gồm coarse and inpainting paths PEPSI trích xuất feature thông qua single encoding network, parallel decoding networks tiến hành Ở giai đoạn theo parallel decoding networks: ▪ Coarse path tạo kết thô từ encoded features ▪ Song song bên cạnh đó, Inpainting path lấy encoded features làm input hồi phục feature map cách sử dụng CAM ▪ Sau đó, feature map hồi phục decoded để tạo kết higher-quality inpainting ▪ Bằng cách chia sẻ trọng số path (Coarse path Inpainting path) giúp cho việc điều chỉnh trọng số inpainting path Decoding network ▪ Coarse path sử dụng L1 loss Inpainting path sử dụng L1 loss GAN loss Nhờ thay two-stage network single-stage encoder-decoder network, PEPSI mạng lại hiệu suất cao so với các phương pháp thơng thường Tuy nhiên, cần nhớ đáng kể sử dụng loạt dilated convolutional layers encoding network, chiếm gần 67% tham số mạng Cách trực quan để giảm tiêu thụ nhớ cắt bớt channels dilated convolutional layers, nhiên phương pháp thường mang lại kết Để giải vấn đề Diet-PEPSI (PEPSI++) đời, làm giảm đáng kể số tham số mạng giữ nguyên hiệu suất 4.2 Kiến trúc Diet-PEPSI Diet-PEPSI (PEPSI++) cải tiến PEPSI nhằm giảm số lượng parameters mà giữ nguyên hiệu suất Hình 4-2 Kiến trúc DietPEPSI Để giảm số lượng parameters mà giữ nguyên hiệu suất, PEPSI++ thay multiple dilated convolutional layers với Diet-PEPSI units (DPUs) Trong DPUs, rate-adaptive convolution layers chia sẻ trọng số chúng x standard convolutional layers không chia sẻ trọng số chúng Hình 4-3 Rate-adaptive scaling and shifting operations 10 Rate-adaptive scaling and shifting operations 𝛽𝑑 and 𝛾𝑑 có giá trị khác phụ thuộc vào tỉ lệ cho Tensor broadcasting bao gồm hoạt động scaling and shifting 𝛽𝑑 ∈ ℝ1×1×𝐶𝑖𝑛 ×𝐶𝑜𝑢𝑡 𝛾𝑑 ∈ ℝ1×1×𝐶𝑖𝑛×𝐶𝑜𝑢𝑡 𝑊𝑑 = 𝛾𝑑 ∗ 𝑊 + 𝛽𝑑 𝑊𝑑 ∈ ℝ𝑘×𝑘×𝐶𝑖𝑛 ×𝐶𝑜𝑢𝑡 Hình 4-4.Minh họa kỹ thuật để tổng hợp thông tin global contextual giảm số lượng tham số Sử dụng kết nối tắt (Skip connection/Resedual block): layer phía trước có thơng tin trực tiếp từ layer phía sau nên cập nhật trọng số hiệu thực bước lan truyền ngược Sử dụng Convolution với kernel size 1x1: giúp giảm số lượng parameter mà giữ feature feature map trước 4.3 Region Ensemble Discriminator (RED) Mạng GCA [1] sử dụng global local discriminators để xác định xem hình ảnh hồn thành cách quán hay chưa Tuy nhiên, local 11 discriminator phân biệt vùng trống có hình dạng hình vng với kích thước cố định, khó khăn với hình dạng tùy ý thực tế Để giải vấn đề này, RED đời lấy cảm hứng từ mạng region ensemble [2] phát vùng thật giả với hình dáng đâu ảnh cách xử lý riêng lẻ nhiều vùng đặc trưng Hình 4-5 Tổng quan RED Bảng Chi tiết kiến trúc RED Như mơ tả Hình 4-5, RED phân chia đặc trưng lớp cuối thành pixel-wise block phân biệt đặc trưng thật hay giả lớp fully-connected Trái ngược với local discriminator, RED xử lý vùng trống khác xuất đâu hình ảnh kích thước Kiến trúc chi tiết RED liệt kê Bảng 4.4 Chỉnh sửa từ CAM CAM [1] sử dụng cosine để đo similarity scores đặc trưng foreground background Tuy nhiên, cosin, độ lớn foreground background bị bỏ qua, cách tính trả kết bị biến dạng Để giảm bớt vấn đề này, CAM sửa đổi sử dụng khoảng cách Euclidean để đo similarity scores (𝑑(𝑥,𝑦),(𝑥′,𝑦′) ) mà khơng cần quy trình chuẩn hóa Vì khoảng 12 cách Euclidean xem xét đồng thời góc hai vectơ độ lớn, nên thích hợp để tái tạo lại mảng đặc trưng Tuy nhiên, phạm vi khoảng cách Euclidean [0, ∞), nên khó áp dụng trực tiếp cho softmax Để xử lý với vấn đề này, thực rút ngắn khoảng cách similarity scores sau: 𝑑̃(𝑥,𝑦),(𝑥′,𝑦′) = 𝑡𝑎𝑛ℎ (− ( 𝑑(𝑥,𝑦),(𝑥′,𝑦′ ) − 𝑚 (𝑑(𝑥,𝑦),(𝑥′,𝑦′) ) 𝜎(𝑑(𝑥,𝑦),(𝑥′,𝑦′) ) )), với 𝑑(𝑥,𝑦),(𝑥′ ,𝑦′) = ‖𝑓𝑥,𝑦 − 𝑏𝑥′ ,𝑦′ ‖,𝑓𝑥,𝑦 mảng foreground 𝑏𝑥′ ,𝑦′ mảng background Vì 𝑑̃(𝑥,𝑦),(𝑥′,𝑦′ ) có giá trị giới hạn [−1,1], hoạt động giống ngưỡng để chọn distance scores nhỏ giá trị trung bình Nói cách khác, 𝑑̃(𝑥,𝑦),(𝑥′ ,𝑦′) hỗ trợ chia background thành hai nhóm có khơng liên quan đến foreground 4.5 Hàm lỗi Do PEPSI Diet-PEPSI có kiến trúc parallel decoding nên thực tối ưu hóa inpainting path coarse path Đối với inpainting path, chúng tơi sử dụng khung tối ưu hóa GAN [3] 𝐿𝐺 = −𝐸𝑥~𝑃𝑋 [𝐷(𝑥)], 𝑖 𝐿𝐷 = 𝐸𝑥~𝑃𝑌 [𝑚𝑎𝑥(0,1 − 𝐷 (𝑥))] + 𝐸𝑥~𝑃𝑋 [𝑚𝑎𝑥(0,1 + 𝐷 (𝑥))], 𝑖 𝑃𝑋𝑖 𝑃𝑌 lần lượt biểu thị phân bố liệu kết inpainting hình ảnh đầu vào Áp dụng spectral normalization [32] cho tất lớp RED để ổn định việc huấn luyện GAN Vì mục tiêu inpainting path để khơi phục phần bị thiếu hình ảnh gốc cách xác, nên tác giả thêm hàm 𝐿1 vào hàm lỗi GAN: 𝑁 𝜆𝑖 (𝑛) 𝐿𝐺 = ∑‖𝑋𝑖 − 𝑌 (𝑛) ‖1 − 𝜆𝑎𝑑𝑣 𝐸𝑥~𝑃𝑋 [𝐷(𝑥)], 𝑖 𝑁 𝑛=1 (𝑛) 𝑋𝑖 (𝑛) 𝑌 đại diện cho cặp hình ảnh thứ n hình ảnh tạo thơng qua inpainting path hình ảnh gốc tương ứng minibatch, tương ứng N số cặp hình ảnh mini-batch, 𝜆𝑖 𝜆𝑎𝑑𝑣 hyper-parameter kiểm soát tính quan trọng hàm loss Mặt khác, coarse path cần tối ưu hóa cách sử dụng hàm 𝐿1 sau: 𝑁 (𝑛) 𝐿𝐶 = ∑‖𝑋𝑐 − 𝑌 (𝑛) ‖1 , 𝑁 𝑛=1 (𝑛) 𝑋𝑐 cặp ảnh thứ n ảnh tạo qua coarse path minibatch Vậy hàm lỗi tổng mạng PEPSI Diet-PEPSI sau: 13 𝐿𝑡𝑜𝑡𝑎𝑙 = 𝐿𝐺 + 𝜆𝑐 (1 − 𝑘 )𝐿 , 𝑘𝑚𝑎𝑥 𝐶 với 𝜆𝑐 hyper-parameter kiểm soát nhằm tránh lấn át hai hàm loss Và 𝑘 𝑘𝑚𝑎𝑥 lần lượt số lần lặp số lần lặp tối đa trình học Khi trình huấn luyện diễn ra, 𝐿𝐶 giảm dần đóng góp để tập trung vào inpainting 𝑘 )nhằm để giảm đóng góp 𝐿𝐶 path Cụ thể hơn, (1 − 𝑘𝑚𝑎𝑥 Thực nghiệm 5.1 Chi tiết triển khai 5.1.1 Free-Form Mask Đối với các phương pháp inpainting ảnh truyền thống CE [4], GL [5], GCA [1] thường sử dụng mặt nạ thơng thường (ví dụ vùng trống có dạng hình chữ nhật) Hình 5-1 (b) trình huấn luyện Tuy nhiên, mạng huấn luyện với mặt nạ thơng thường thưởng có hiệu suất thấp việc hồn thiện vùng trống có hình dạng tạo khác biệt màu sắc độ mờ Để giải vấn đề này, mơ tả Hình (c), Yu cộng [6] sử dụng thuật toán mặt nạ dạng tự (free-form mask) trình huấn luyện Về chất, mặt nạ lấy mẫu phải giống với mặt nạ vẽ các trường hợp sử dụng thực tế, đa dạng để tránh over-fitting, hiệu tính toán lưu trữ, kiểm sốt linh hoạt Thuật toán tự động tạo nhiều vùng trống với số lượng, kích thước, hình dạng vị trí thay đổi lấy ngẫu nhiên lần lặp Cụ thể hơn, thuật toán vẽ đường thẳng góc quay lặp lặp lại Để đảm bảo trơn tru hai đường, thực vẽ vòng tròn khớp hai đường Để công bằng, thử nghiệm, tác giả sử dụng thuật toán tạo mặt nạ dạng tự để huấn luyện PEPSI Diet-PEPSI (a) (b) (c) Hình 5-1 Ví dụ cho mặt nạ ảnh (a) Ảnh gốc (b) Ảnh với mặt nạ thông thường (c) Ảnh với mặt nạ dạng tự 14 5.1.2 Quá trình huấn luyện PEPSI [7] Diet-PEPSI huấn luyện cho triệu vịng lặp với kích thước batch Mơ hình đề xuất tối ưu hóa sử dụng giải thuật Adam với tham số 𝛽1 𝛽2 tương ứng 0,5 0,9 Áp dụng TTUR [8] tỷ lệ học discriminator generator lần lượt × 10−4 × 10−4 Ngồi ra, sau 0,9 triệu vịng lặp tỷ lệ học tập giảm xuống 1⁄10 Các hyperparameters phương pháp đề xuất gán giá trị 𝜆𝑖 = 10, 𝜆𝑐 = 𝜆𝑎𝑑𝑣 = 0,1 Tiến trình huấn luyện thực máy chủ có cấu hình CPU Intel(R) Xeon(R) CPU E3-1245 v5, GPU TITAN X (Pascal), cài đặt TensorFlow v1.8 Trong phần thực nghiệm sử dụng liệu CelebA-HQ [9], [10], ImageNet [11] Place2 [12] bao gồm mặt người, vật cảnh vật Đối với tập liệu CelebA-HQ lấy ngẫu nhiên 27.000 hình ảnh làm tập huấn luyện 3.000 hình ảnh làm tập thử nghiệm Bên cạnh sử dụng tất hình ảnh liệu ImageNet Place2 lần lượt làm tập huấn luyện tập thử nghiệm để đo hiệu suất huấn luyện liệu khác Các thực nghiệm thực để xác nhận khả tổng quát hóa phương pháp đề xuất Để kiểm chứng tác giả so sánh định tính, định lượng, tốc độ tính tốn số lượng tham số PEPSI [7] Diet-PEPSI với phương pháp khác: CE [4], GL [5], GCA [1], GatedConv [6] 5.2 Đánh giá hiệu suất 5.2.1 So sánh định tính Đối với liệu CelebA-HQ, thực so sánh hiệu suất PEPSI [7] Diet-PEPSI với các phương pháp thông thường: CE [4], GL [5], GatedConv [6] mặt nạ vuông mặt nạ dạng tự Các phương pháp thông thường thực theo quy trình huấn luyện báo Kết thực nghiệm thể Hình 5-2 mặt nạ vng Hình 5-3 mặt nạ dạng tự 15 (g) (a) (b) (c) (d) (e) (f) Hình 5-2 Kết so sánh mặt nạ vuông với liệu CelebA-HQ (a) Ảnh gốc (b) Ảnh cần hoàn thiện (c) Kết CE [4] (d) Kết GL [5] (e) Kết GatedConv [6] (f) Kết PEPSI [7] (g) Kết Diet-PEPSI (g) (a) (b) (c) (d) (e) (f) Hình 5-3 Kết so sánh mặt nạ dạng tự với liệu CelebA-HQ (a) Ảnh gốc (b) Ảnh cần hoàn thiện (c) Kết CE [4] (d) Kết GL [5] (e) Kết GatedConv [6] (f) Kết PEPSI [7] (g) Kết Diet-PEPSI Trong Hình 5-2 Hình 5-3, CE [4] GL [5] cịn hiển thị bóng mờ vùng mặt nạ mặt nạ dạng tự hình ảnh bị biến dạng vùng mặt nạ, nên áp dụng cho ứng dụng thực tế GatedConv [6] có hiệu suất tốt so với CE [4] GL [5], thiếu liên quan vùng trống vùng xung quanh chẳng hạn đối xứng mắt Trong đó, PEPSI [7] cho kết tốt hẳn có liên quan vùng trống vùng xung quanh Bên cạnh kết Diet-PEPSI so sánh tương đương với PEPSI mà số lượng tham số giảm đáng kể Từ kết 16 này, cho thấy phương pháp đề xuất có hiệu vượt trội so với các phương pháp thơng thường, đồng thời giảm đáng kể chi phí phần cứng Ngoài tác giả huấn luyện thực nghiệm liệu khó ImageNet Place2 để chứng minh các phương pháp đề xuất áp dụng cho ứng dụng thực tế Thực so sánh hiệu suất phương pháp đề xuất với phương pháp GatedConv [6] phương pháp PatchMatch [13] Tác giả chọn kích thước ảnh 256 × 256 Hình ảnh kết mô tả (a) (b) (c) (e) (f) (d) Hình 5-4 Kết so sánh với liệu Place2 (a) Ảnh gốc (b) Ảnh cần hoàn thiện (c) Kết PatchMatch (d) Kết GatedConv (e) Kết PEPSI (f) Kết Diet-PEPSI 17 (a) (b) (c) (e) (f) (d) Hình 5-4 Kết so sánh với liệu Place2 (a) Ảnh gốc (b) Ảnh cần hoàn thiện (c) Kết PatchMatch [13] (d) Kết GatedConv [6] (e) Kết PEPSI [7] (f) Kết DietPEPSI PatchMatch [13] cho kết thấp nhất, đặc biệt rìa hình ảnh khơng thể xem xét bối cảnh chung hình ảnh GatedConv [6] cho kết tốt khơng có khác biệt màu sắc biến dạng cạnh so với PatchMatch [13] Tuy nhiên, tạo hình ảnh có kết cấu sai ảnh kết hàng đầu tiên hàng thứ ba Hình 5-4 Ngược lại với các phương pháp thông thường, PEPSI Diet-PEPSI tạo hình ảnh tự nhiên mà khơng có tượng giả tạo biến dạng nội dung khác cảnh phức tạp Vì vậy, phương pháp đề xuất áp dụng cho ứng dụng thực tế để hồn thiện hình ảnh 5.2.2 So sánh định lượng Trong nghiên cứu này, tác giả sử dụng các độ đo chất lượng ảnh PSNR cho vùng trống toàn ảnh SSIM [14] cho toàn ảnh để đo chất lượng phương pháp đề xuất với các phương pháp inpainting khác Các phương pháp so sánh phát triển trước gồm CE [4], GL [5], GCA [1] GatedConv [6] Các giá trị cụ thể thể Bảng 18 Bảng Kết độ đo PSNR (vùng trống, toàn ảnh) SSIM loại mặt nạ, thời gian tính tốn, số lượng tham số phương pháp dữNhư liệu số CelebA-HQ liệu Bảng 2, CE [4] GCA [1] cho thấy hiệu suất mặt nạ vuông mặt nạ dạng tự GL [5] đạt hiệu suất tương đương với các phương pháp đề xuất mặt nạ Tuy nhiên, giống CE GCA, GL cho thấy hiệu suất huấn luyện thực nghiệm mặt nạ dạng tự GatedConv [6] cho thấy hiệu suất tốt vùng trống hình vng vùng trống dạng tự so với các phương pháp có khác, cần nhiều thời gian tính tốn số lượng tham số nhiều hẳn so với phương pháp đề xuất PEPSI Diet-PEPSI cho thấy hiệu tốt mặt nạ vuông mặt nạ tự Đặc biệt, so với GatedConv, PEPSI DietPEPSI hiệu suất PSNR SSIM tốt mà cịn u cầu thời gian tính tốn chi phí phần cứng Ngồi ra, Diet-PEPSI đạt hiệu suất tương đương với PEPSI giảm gần 30% số lượng tham số Do đó, quan sát các phương pháp đề xuất hồn thiện ảnh với chất lượng cao chi phí phần cứng so với kỹ thuật hồn thiện ảnh thơng thường Bên cạnh tác giả huấn luyện PEPSI mà không dùng coarse path Các kết cho thấy PEPSI không dùng coarse path có hiệu suất giảm dù thời gian tính toán số lượng tham số Coarse path giúp rút trích các đặc trưng bị thiếu cách thích hợp cho CAM Nói cách khác, cấu trúc giai đoạn PEPSI khắc phục hạn chế mạng coarse-to-fine hai giai đoạn thông qua việc chia sẻ trọng số Để giảm chi phí phần cứng Diet-PEPSI, tác giả huấn luyện Diet-PEPSI cách sử dụng kỹ thuật tích chập nhóm [15] cho hai lớp sử dụng kỹ thuật xáo trộn kênh hai lớp tích chập DPU Như thơng số Bảng 3, Diet-PEPSI sử dụng số lượng tham số đáng kể, đạt hiệu suất tương đương với PEPSI cho thấy hiệu suất vượt trội so với các phương pháp thông thường khác Những kết 19 xác nhận Diet-PEPSI tạo hình ảnh chất lượng cao với chi phí phần cứng thấp Bảng Kết thực nghiệm giảm số lượng tham số kỹ thuật tích chập nhóm Để chứng minh khả tổng qt hóa PEPSI Diet-PEPSI, tiến hành thực nghiệm khác cách sử dụng liệu khó hơn, ImageNet [11] Place2 [12] so sánh với phương pháp GatedConv [6] Trong Bảng 4, PEPSI đạt hiệu suất tốt GatedConv tập liệu Place2 Hơn nữa, Diet-PEPSI thể hiệu vượt trội so với GatedConv PEPSI Những kết các phương pháp đề xuất tạo kết chất lượng cao cách quán cách sử dụng nhiều nội dung khác hình ảnh phức tạp Bảng Kết độ đo PSNR (vùng trống, toàn ảnh) SSIM loại mặt nạ phương pháp liệu Place2 Kết luận Như thây kết thực nghiệm, PEPSI phương pháp inpainting ảnh đề xuất không đạt hiệu suất vượt trội so với phương pháp thơng thường mà cịn giảm đáng kể thời gian hoạt động cách thiết kế lại mạng coarse-to-fine hai giai đoạn thành mạng giai đoạn áp dụng chia sẻ trọng số hiệu để huấn luyện Bên cạnh Diet-PEPSI đề xuất cải tiến từ PEPSI sử dụng lớp tích chập rate-adaptive để giảm đáng kể số lượng tham số Diet-PEPSI bảo toàn hiệu suất PEPSI giảm đáng kể chi phí phần cứng, tạo điều kiện thuận lợi cho việc triển khai phần cứng Cả PEPSI Diet-PEPSI cải tiến Local Global Discriminator thành RED để phân biệt ảnh tạo vùng trống hình vng các vùng trống 20 có hình dạng Do đó, các phương pháp đề xuất sử dụng rộng rãi ứng dụng khác bao gồm tạo hình ảnh, chuyển kiểu chỉnh sửa hình ảnh Demo code Clip thực demo code: https://youtu.be/2rbV6faYcio Source code: https://github.com/phanminhtoan/image-inpainting 21 References [1] J Yu, Z Lin, J Yang, X Shen, X Lu, and T S Huang, "Generative image inpainting with contextual attention," arXiv preprint, 2018 [2] H Guo, G Wang, X Chen, C Zhang, F Qiao, and H Yang, “Region ensemble network: Improving convolutional network for hand pose estimation,” in Image Processing (ICIP), 2017 IEEE International Conference on IEEE, pp 45124516, 2017 [3] I Goodfellow, J Pouget-Abadie, M Mirza, B Xu, D Warde-Farley, S Ozair, A Courville, and Y Bengio, “Generative adversarial nets,” in Advances in neural information processing systems, pp 2672-2680, 2014 [4] D Pathak, P Krahenbuhl, J Donahue, T Darrell, and A A Efros, “Context encoders: Feature learning by inpainting,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 2536-2544, 2016 [5] S Iizuka, E Simo-Serra, and H Ishikawa, "Globally and locally consistent image completion," ACM Transactions on Graphics (TOG), vol 36, no 4, p 107, 2017 [6] J Yu, Z Lin, J Yang, X Shen, X Lu, and T S Huang, “Free-form image inpainting with gated convolution,” arXiv preprint arXiv:1806.03589, 2018 [7] M.-C Sagong, Y.-G Shin, S.-W Kim, S Park, and S.-J Ko, “Pepsi: Fast image inpainting with parallel decoding network,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition [8] M Heusel, H Ramsauer, T Unterthiner, B Nessler, and S Hochreiter, “Gans trained by a two time-scale update rule converge to a local nash equilibrium,” in Advances in Neural Information Processing Systems, pp 6626-6637, 2017 [9] T Karras, T Aila, S Laine, and J Lehtinen, “Progressive growing of gans for improved quality, stability, and variation,” arXiv preprint arXiv:1710.10196, 2017 [10] Z Liu, P Luo, X Wang, and X Tang, “Deep learning face attributes in the wild,” in Proceedings of the IEEE International Conference on Computer Vision, pp 3730-3738, 2015 [11] A Krizhevsky, I Sutskever, and G E Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in neural information processing systems, pp 1097-1105, 2012 [12] B Zhou, A Lapedriza, A Khosla, A Oliva, and A Torralba, “Places: A 10 million image database for scene recognition,” IEEE transactions on pattern analysis and machine intelligence, tập 40, số 6, pp 1452-1464, 2018 22 [13] C Barnes, E Shechtman, A Finkelstein, and D B Goldman, "Patchmatch: A randomized correspondence algorithm for structural image editing," ACM Transactions on Graphics (ToG), vol 28, no 3, p 24, 2009 [14] Z Wang, A C Bovik, H R Sheikh, and E P Simoncelli, “Image quality assessment: from error visibility to structural similarity,” IEEE transactions on image processing, tập 13, số 4, pp 600-612, 2004 [15] X Zhang, X Zhou, M Lin, and J Sun, “Shufflenet: An extremely efficient convolutional neural network for mobile devices,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 6848-6856, 2018 23

Ngày đăng: 21/06/2023, 23:57

Xem thêm: