Như đã được đề cập trong Phần 3, nghiên cứu có thể tìm thấy vectơ ngữ nghĩa đại diện cho hình ảnh đầu vào trong không gian ngữ nghĩa của StyleGan và sử dụng vectơ pháp tuyến của siêu phẳng làm phương chỉnh sửa, với mỗi phương có thể chỉnh sửa theo hai
được thể hiện trong Hình 4.1.
Hình 4.1: Kết quả của phép chỉnh sửa kiểu tóc đơn thuộc tính
Kết quả cho thấy kiểu tóc đã thay đổi thuộc tính. Tuy nhiên, một số thuộc tính tương quan với thuộc tính khác, ví dụ như Hình 4.2 cho thấy giới tính của người trong ảnh đã bị thay đổi khi chỉnh sửa độ xoăn tóc quá nhiều. Vấn đề này có thể được khắc phục với phương pháp chỉnh sửa có điều kiện, đã được miêu tả trong Phần 2.6.2.
Một vấn đề khác của phương pháp này đó là việc sử dụng khuôn mặt của người châu Á. Trong Hình 4.3, cho thấy với tính chất tóc mái, kết quả cho thấy khuôn mặt đã thay đổi và có tính chất của người châu Âu. Vấn đề có thể đến từ tập dữ liệu đào tạo của InterFaceGan thiếu hình ảnh người châu Á. Phương pháp có thể cải thiện bằng cách đào
Hình 4.2: Chỉnh sửa quá nhiều về tính chất tóc xoăn kéo theo sự thay đổi về giới tính
tạo riêng dữ liệu của người châu Á.
Hình 4.3: Chỉnh sửa tính chất kiểu tóc của người châu Á cho kết quả giống với người châu Âu
Kết quả cho thấy các tính chất của tóc đã được chỉnh sửa theo ý muốn, và bức ảnh sinh ra có độ tự nhiên cao. Tuy nhiên một số tính chất của khuôn mặt bị thay đổi cùng với kiểu tóc ví dụ như khi chỉnh sửa quá nhiều về độ xoăn có thể thay đổi về giới tính, sử dụng ảnh đầu vào của người châu Á dễ chuyển tính chất về người châu Âu. Kết quả cho thấy phương pháp phụ thuộc vào phân phối của tập dữ liệu đào tạo. Do đó cần phải chỉnh sửa tập dữ liệu đào tạo cho từng bài toán và mục đích sử dụng khác nhau.
Chương 5
Tổng kết
Nghiên cứu này đã trình bày một số phương pháp dựa trên các kỹ thuật GAN cho bài toán chỉnh sửa thuộc tính khuôn mặt. Nghiên cứu cũng xây dựng một hệ thống áp dụng lý thuyết trên cho bài toán chỉnh sửa một thuộc tính khuôn mặt ví dụ - kiểu tóc. Hệ thống sử dụng một giả định về siêu phẳng tách biệt mất kỳ thuộc tính nhị phân nào trong miền không gian ngữ nghĩa của GAN. Nghiên cứu cũng chỉ ra điểm mạnh và điểm yếu của hệ thống này khi áp dụng vào hình ảnh thực tế, và đưa ra một số biện pháp cải thiện vấn đề. Do thời gian thực nghiệm có hạn, nghiên cứu còn nhiều thiếu sót. Trong tương lai, học viên sẽ tiếp tục phát triển hệ thống theo các hướng: Sử dụng thao tác có điều kiện để xử lý một thuộc tính tương quan với các thuộc tính khác; Bổ xung tập dữ liệu châu Á, Cải thiện mô hình Resnet để có thể sinh ra vectơ ngữ nghĩa tốt hơn nhằm cải thiện tốc độ.
Tài liệu tham khảo
[1] Rameen Abdal, Yipeng Qin, and Peter Wonka. Image2stylegan: How to embed images into the stylegan latent space? CoRR, abs/1904.03189, 2019.
[2] Johann Brehmer, Felix Kling, Irina Espejo, and Kyle Cranmer. Madminer: Machine learning-based inference for particle physics, 2019.
[3] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale GAN training for high fidelity natural image synthesis. CoRR, abs/1809.11096, 2018.
[4] Giuseppe Carleo, Ignacio Cirac, Kyle Cranmer, Laurent Daudet, Maria Schuld, Naftali Tishby, Leslie Vogt-Maranto, and Lenka Zdeborová . Machine learning and the physical sciences. Reviews of Modern Physics, 91(4), dec 2019.
[5] Zezhou Cheng, Qingxiong Yang, and Bin Sheng. Deep colorization. CoRR, abs/1605.00075, 2016.
[6] Chao Dong, Chen Change Loy, Kaiming He, and Xiaoou Tang. Image super- resolution using deep convolutional networks. IEEE Transactions on Pattern Anal-
ysis and Machine Intelligence, 38(2):295–307, 2016.
[7] David Eigen and Rob Fergus. Predicting depth, surface normals and semantic la- bels with a common multi-scale convolutional architecture. CoRR, abs/1411.4734, 2014.
[8] Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. A neural algorithm of artistic style. CoRR, abs/1508.06576, 2015.
[9] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde- Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial
[10] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. CoRR, abs/1512.03385, 2015.
[11] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen. Progressive growing of gans for improved quality, stability, and variation. CoRR, abs/1710.10196, 2017. [12] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for
generative adversarial networks. CoRR, abs/1812.04948, 2018.
[13] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. In 2015 IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), pages 3431–3440, 2015.
[14] Aravindh Mahendran and Andrea Vedaldi. Understanding deep image representa- tions by inverting them. CoRR, abs/1412.0035, 2014.
[15] Rafał Mantiuk, Kil Joong Kim, Allan G. Rempel, and Wolfgang Heidrich. Hdr- vdp-2: A calibrated visual metric for visibility and quality predictions in all lumi- nance conditions. ACM Trans. Graph., 30(4), jul 2011.
[16] Anh Mai Nguyen, Jason Yosinski, and Jeff Clune. Multifaceted feature visual- ization: Uncovering the different types of features learned by each neuron in deep neural networks. CoRR, abs/1602.03616, 2016.
[17] Frank Noé, Simon Olsson, Jonas K¨ohler, and Hao Wu. Boltzmann generators – sampling equilibrium states of many-body systems with deep learning, 2018. [18] P. Patel, N. Kumari, M. Singh, and B. Krishnamurthy. Lt-gan: Self-supervised gan
with latent transformation detection. In2021 IEEE Winter Conference on Applica-
tions of Computer Vision (WACV), pages 3188–3197, Los Alamitos, CA, USA, jan
2021. IEEE Computer Society.
[19] Elad Richardson, Yuval Alaluf, Or Patashnik, Yotam Nitzan, Yaniv Azar, Stav Shapiro, and Daniel Cohen-Or. Encoding in style: a stylegan encoder for image-to- image translation. CoRR, abs/2008.00951, 2020.
[20] Lars Ruthotto and Eldad Haber. An introduction to deep generative modeling.
[21] Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. Interpreting the latent space of gans for semantic face editing. CoRR, abs/1907.10786, 2019.
[22] Z. Wang, E.P. Simoncelli, and A.C. Bovik. Multiscale structural similarity for image quality assessment. InThe Thrity-Seventh Asilomar Conference on Signals,
Systems Computers, 2003, volume 2, pages 1398–1402 Vol.2, 2003.
[23] Zhou Wang, A.C. Bovik, H.R. Sheikh, and E.P. Simoncelli. Image quality assess- ment: from error visibility to structural similarity. IEEE Transactions on Image
Processing, 13(4):600–612, 2004.
[24] Lin Zhang, Lei Zhang, Xuanqin Mou, and David Zhang. Fsim: A feature similar- ity index for image quality assessment. IEEE Transactions on Image Processing, 20(8):2378–2386, 2011.