NGHIÊN CỨU LIÊN QUAN
2.3. Các hướng tiếp cận phổ biến cho bài toán image
2.3.1.1 Thuật toán dựa trên khuếch tán
Các kỹ thuật này được coi là một trong những thuật toán đầu tiên tiếp cận bài toán image inpainting. Các thuật toán này chủ yếu phụ thuộc vào Partial differential equation (PDE). Cách hoạt động đó là hoàn thiện hay điển vào khu vực thiếu bằng cách sử dụng nội dung của hình ảnh từ khu vực xung quanh vào khu vực mat mát. Nghiên cứu quan trọng trong lĩnh vực này đã được trình bày bởi Bertalmio, Sapiro [11] đưa ra mô hình huấn luyện sử dung PDE phi tuyến
28
2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
tính để bắt chước cách thức sử dụng bởi những nghệ sĩ chuyên khôi phục bức tranh được sử dụng trong các viện bảo tàng. Tuy nhiên, kỹ thuật này dẫn đến hình ảnh bị mờ và kết quả cho ra không hài hòa. Kĩ thuật này cho kết quả tốt khi vùng bị mat mát có kích thước nhỏ như cham nhỏ, đường thang và những vùng mang thông tin đơn giản, khi áp dụng cho những trường hợp vùng mất mát lớn
hay chưa những thông tin phức tạp kĩ thuật này cho ra hình ảnh bị mờ và không
mang lại sự hài hòa về tổng thể bức ảnh.
Hình 2.17: Trường hợp kĩ thuật inpaint dựa trên khuếch tán cho kết quả tốt (Nguồn:
Wikipedial).
!https://en.wikipedia.org/wiki/Inpainting
29
2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
Hình 2.18: Trường hợp kĩ thuật inpaint dựa trên khuếch tán cho kết quả không tốt (Nguồn: Deep learning for image inpainting: A survey[4]).
2.3.1.2 Kĩ thuật dựa trên lay mau
Ki thuật lay mẫu hay con được biết đến là kĩ thuật dựa trên mảnh và là một trong những kĩ thuật phổ biến nhất hiện nay. Kỹ thuật inpainting dựa trên mẫu được xây dụng để tạo ra kết quả tốt hơn so với các kỹ thuật dựa trên khuếch
tán. Quá trình inpainting được thực hiện như sau: Trong khu vực xung quanh
lỗ hỏng, chọn các mảnh tốt nhất. Quá trình chọn này được tính toán thông qua việc gán độ ưu tiên cho mỗi mảnh xung quanh trong bước đầu tiên, sau đó các mảnh này được sử dụng để điền vào các mảnh bị thiếu theo độ ưu tiên đã định trước như được dé cập trong các bai báo (Criminisi, Pérez and Toyama 2004) [12], (Daisy, et al. 2014) [13]và (Wong and Orchard 2008) [14]. Tuy nhiên, van
dé quan trong nhất trong các kỹ thuật nay là phải tim ra mảnh tốt nhất. Vi vậy,
để điền vào một mảnh bị thiếu, nó sẽ tìm kiếm các mảnh gần nhất và mượn một trong số đó để điền vào mảnh bị thiếu mục tiêu theo thứ tự ưu tiên giảm dần. Mặc dù đã giải quyết được vấn dé vùng mat mát có kích thước lớn của kĩ thuật khuếch tán, tuy nhiên trong những trường hợp vùng mat mát có thông tin quan trọng hoặc thì phương pháp này vẫn chưa giải quyết được.
30
2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
Hình 2.19: Ảnh được inpainting bởi kĩ thuật dựa trên lấy mẫu (Nguồn: Deep learning
for image inpainting: A survey[4]).
2.3.2. Phương pháp sử dung mang sinh
Với những kết qua ấn tượng mang lại, ta hoàn toàn có thé nghĩ đến việc
sử dụng mang sinh cho bài toán image inpainting. Với phương pháp này ta có
thể giải quyết cả hai van dé về kích thước vùng mat mát cũng như kết quả cho
ra không bị mờ và phù hợp với nhận thức con người. Hiên nay mô hình mạng
sinh ngày càng nhiều, có thể kể đến như: GAN-based, VAEs-based, flow-based,
autoregressive model-based va diffusion model-based. Tuy nhiên ở đây chúng
tôi chỉ đề cập đến ba phương pháp tiêu biểu trong mạng sinh là: GAN-based,
VAEs-based và diffusion model-based.
'https://digitalcommons.aaru.edu.jo/cgi/viewcontent.cgi?article=1019
31
2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
GAN: Adversarial
training
VAE: maximize variational lower bound
Diffusion models:
Gradually add Gaussian noise and then reverse
Hình 2.20: Biểu diễn cấu trúc của GAN-based, VAE-based va diffuon model-based
(Nguồn: What are Diffusion Models?').
Những mô hih GAN-based đã không còn xa lạ gi với chúng ta bởi những kết quả ấn tượng và trở thành State-of-the-art của nhiều bài toán sinh ảnh, một số mô hình có thể kể đến như: [15], [16], [1]. GAN-based có cấu trúc gồm hai mạng:
mạng sinh và mạng phân biệt. Mạng phân biệt D: R” — |0, 1] có chức năng dự
đoán xác xuất của ảnh mà được tạo ra từ phân phối dữ liệu x ~ pg(x) và mang
sinh G: R” —› R" với một biến "ẩn" cho trước z ~ p;(z), tạo ra pg bằng cách đánh lừa mạng phân biệt rằng ảnh mới tạo ra này là ảnh thật. GAN-based được huấn luyện bằng cách tối ưu kết quả mạng sinh sao cho có thể đánh lừa được mạng phân biệt, trong khi mạng phân biệt phải tối ưu quá trình đánh giá thật hoặc giả để không bị mạng sinh đánh lừa. Những mô hình GAN-based cho kết quả tốt, nhưng đòi hỏi phải được hiệu chỉnh tốt, và không ổn định. Một hướng tiếp cận khác cho mạng sinh là VAEs-based, một số mô hình VAEs-based nổi bật như: [17], [18], [2]. [19]. Về cách hoạt động VAEs-based đưa dữ liệu vào một không gian tiền ẩn z ta thu được p(x|z), nếu chúng ta tính được p(z|x) thì chúng
ta có thể biểu diễn một điểm bất kì trong không gian tiềm ẩn thành kết quả cần
!https://lilianweng.github.io/posts/2021-07-1 1-diffusion-models/
32
2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
tìm. Tuy nhiên việc tính toán p(z|x) thì rất khó khăn, do đó ta sử dụng một mạng nơ-ron để dự đoán (z|x) sao cho gần p(z|x) nhất có thể. Vì vậy VAEs-based tìm cách giảm sự khác nhau giữa hai phân phối này. Những mô hình VAEs-based thường dễ huấn luyện, không đòi hỏi quá nhiều sự hiệu chỉnh tuy nhiên kết quả
cho ra thường bị mờ và không đủ sự hài hòa của bức ảnh. Mô hình diffusion
model-based có thể giải quyết được cả hai điểm yếu của GAN-based và VAEs- based. Diffusion model-based gồm 2 quá trình: làm nhiễu và khử nhiễu. Tắm ảnh đầu vào sẽ được làm nhiễu bằng cách thêm lần lượt từng bước phân phối
Gaussian, sau T bước làm nhiễu ta sử dụng một mạng nơ-ron để học quá trình khử nhiễu. Khác với GAN-based và VAEs-based học cách hiệu chỉnh phân phối
dữ liệu huấn luyện, diffusion model-based học cách khử nhiễu từng bước, để dữ liệu tiến lại gần với phân phối dit liệu huấn luyện. Mặc dù diffusion model-based cho ra kết quả ấn tượng, dễ dàng huấn luyện nhưng cần rất nhiều thời gian và tài
nguyên tính toán bởi phải lặp đi lặp lại hàng nghìn bước làm nhiễu và khử nhiễu.
33
2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
Generative Denoising Adversarial 9 *xx Diffusion Networks *, Models
Fast
Sampling
Variational Autoencoders,
Normalizing Flows
Hình 2.21: Bộ ba bat khả thi trong mang sinh (Nguồn: NVIDIA is Late to Party but
Solves Key Issues with Diffusion Models!).
'https://analyticsindiamag.com/nvidia-is-late-to-party-but-solves-key-issues-with-diffusion-
models/
34
Chương 3