Thuật toán dựa trên khuếch tán

NGHIÊN CỨU LIÊN QUAN

2.3. Các hướng tiếp cận phổ biến cho bài toán image

2.3.1.1 Thuật toán dựa trên khuếch tán

Các kỹ thuật này được coi là một trong những thuật toán đầu tiên tiếp cận bài toán image inpainting. Các thuật toán này chủ yếu phụ thuộc vào Partial differential equation (PDE). Cách hoạt động đó là hoàn thiện hay điển vào khu vực thiếu bằng cách sử dụng nội dung của hình ảnh từ khu vực xung quanh vào khu vực mat mát. Nghiên cứu quan trọng trong lĩnh vực này đã được trình bày bởi Bertalmio, Sapiro [11] đưa ra mô hình huấn luyện sử dung PDE phi tuyến

2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

tính để bắt chước cách thức sử dụng bởi những nghệ sĩ chuyên khôi phục bức tranh được sử dụng trong các viện bảo tàng. Tuy nhiên, kỹ thuật này dẫn đến hình ảnh bị mờ và kết quả cho ra không hài hòa. Kĩ thuật này cho kết quả tốt khi vùng bị mat mát có kích thước nhỏ như cham nhỏ, đường thang và những vùng mang thông tin đơn giản, khi áp dụng cho những trường hợp vùng mất mát lớn

hay chưa những thông tin phức tạp kĩ thuật này cho ra hình ảnh bị mờ và không

mang lại sự hài hòa về tổng thể bức ảnh.

Hình 2.17: Trường hợp kĩ thuật inpaint dựa trên khuếch tán cho kết quả tốt (Nguồn:

Wikipedial).

!https://en.wikipedia.org/wiki/Inpainting

2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

Hình 2.18: Trường hợp kĩ thuật inpaint dựa trên khuếch tán cho kết quả không tốt (Nguồn: Deep learning for image inpainting: A survey[4]).

2.3.1.2 Kĩ thuật dựa trên lay mau

Ki thuật lay mẫu hay con được biết đến là kĩ thuật dựa trên mảnh và là một trong những kĩ thuật phổ biến nhất hiện nay. Kỹ thuật inpainting dựa trên mẫu được xây dụng để tạo ra kết quả tốt hơn so với các kỹ thuật dựa trên khuếch

tán. Quá trình inpainting được thực hiện như sau: Trong khu vực xung quanh

lỗ hỏng, chọn các mảnh tốt nhất. Quá trình chọn này được tính toán thông qua việc gán độ ưu tiên cho mỗi mảnh xung quanh trong bước đầu tiên, sau đó các mảnh này được sử dụng để điền vào các mảnh bị thiếu theo độ ưu tiên đã định trước như được dé cập trong các bai báo (Criminisi, Pérez and Toyama 2004) [12], (Daisy, et al. 2014) [13]và (Wong and Orchard 2008) [14]. Tuy nhiên, van

dé quan trong nhất trong các kỹ thuật nay là phải tim ra mảnh tốt nhất. Vi vậy,

để điền vào một mảnh bị thiếu, nó sẽ tìm kiếm các mảnh gần nhất và mượn một trong số đó để điền vào mảnh bị thiếu mục tiêu theo thứ tự ưu tiên giảm dần. Mặc dù đã giải quyết được vấn dé vùng mat mát có kích thước lớn của kĩ thuật khuếch tán, tuy nhiên trong những trường hợp vùng mat mát có thông tin quan trọng hoặc thì phương pháp này vẫn chưa giải quyết được.

2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

Hình 2.19: Ảnh được inpainting bởi kĩ thuật dựa trên lấy mẫu (Nguồn: Deep learning

for image inpainting: A survey[4]).

2.3.2. Phương pháp sử dung mang sinh

Với những kết qua ấn tượng mang lại, ta hoàn toàn có thé nghĩ đến việc

sử dụng mang sinh cho bài toán image inpainting. Với phương pháp này ta có

thể giải quyết cả hai van dé về kích thước vùng mat mát cũng như kết quả cho

ra không bị mờ và phù hợp với nhận thức con người. Hiên nay mô hình mạng

sinh ngày càng nhiều, có thể kể đến như: GAN-based, VAEs-based, flow-based,

autoregressive model-based va diffusion model-based. Tuy nhiên ở đây chúng

tôi chỉ đề cập đến ba phương pháp tiêu biểu trong mạng sinh là: GAN-based,

VAEs-based và diffusion model-based.

'https://digitalcommons.aaru.edu.jo/cgi/viewcontent.cgi?article=1019

2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

GAN: Adversarial

training

VAE: maximize variational lower bound

Diffusion models:

Gradually add Gaussian noise and then reverse

Hình 2.20: Biểu diễn cấu trúc của GAN-based, VAE-based va diffuon model-based

(Nguồn: What are Diffusion Models?').

Những mô hih GAN-based đã không còn xa lạ gi với chúng ta bởi những kết quả ấn tượng và trở thành State-of-the-art của nhiều bài toán sinh ảnh, một số mô hình có thể kể đến như: [15], [16], [1]. GAN-based có cấu trúc gồm hai mạng:

mạng sinh và mạng phân biệt. Mạng phân biệt D: R” — |0, 1] có chức năng dự

đoán xác xuất của ảnh mà được tạo ra từ phân phối dữ liệu x ~ pg(x) và mang

sinh G: R” —› R" với một biến "ẩn" cho trước z ~ p;(z), tạo ra pg bằng cách đánh lừa mạng phân biệt rằng ảnh mới tạo ra này là ảnh thật. GAN-based được huấn luyện bằng cách tối ưu kết quả mạng sinh sao cho có thể đánh lừa được mạng phân biệt, trong khi mạng phân biệt phải tối ưu quá trình đánh giá thật hoặc giả để không bị mạng sinh đánh lừa. Những mô hình GAN-based cho kết quả tốt, nhưng đòi hỏi phải được hiệu chỉnh tốt, và không ổn định. Một hướng tiếp cận khác cho mạng sinh là VAEs-based, một số mô hình VAEs-based nổi bật như: [17], [18], [2]. [19]. Về cách hoạt động VAEs-based đưa dữ liệu vào một không gian tiền ẩn z ta thu được p(x|z), nếu chúng ta tính được p(z|x) thì chúng

ta có thể biểu diễn một điểm bất kì trong không gian tiềm ẩn thành kết quả cần

!https://lilianweng.github.io/posts/2021-07-1 1-diffusion-models/

2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

tìm. Tuy nhiên việc tính toán p(z|x) thì rất khó khăn, do đó ta sử dụng một mạng nơ-ron để dự đoán (z|x) sao cho gần p(z|x) nhất có thể. Vì vậy VAEs-based tìm cách giảm sự khác nhau giữa hai phân phối này. Những mô hình VAEs-based thường dễ huấn luyện, không đòi hỏi quá nhiều sự hiệu chỉnh tuy nhiên kết quả

cho ra thường bị mờ và không đủ sự hài hòa của bức ảnh. Mô hình diffusion

model-based có thể giải quyết được cả hai điểm yếu của GAN-based và VAEs- based. Diffusion model-based gồm 2 quá trình: làm nhiễu và khử nhiễu. Tắm ảnh đầu vào sẽ được làm nhiễu bằng cách thêm lần lượt từng bước phân phối

Gaussian, sau T bước làm nhiễu ta sử dụng một mạng nơ-ron để học quá trình khử nhiễu. Khác với GAN-based và VAEs-based học cách hiệu chỉnh phân phối

dữ liệu huấn luyện, diffusion model-based học cách khử nhiễu từng bước, để dữ liệu tiến lại gần với phân phối dit liệu huấn luyện. Mặc dù diffusion model-based cho ra kết quả ấn tượng, dễ dàng huấn luyện nhưng cần rất nhiều thời gian và tài

nguyên tính toán bởi phải lặp đi lặp lại hàng nghìn bước làm nhiễu và khử nhiễu.

2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

Generative Denoising Adversarial 9 *xx Diffusion Networks *, Models

Fast

Sampling

Variational Autoencoders,

Normalizing Flows

Hình 2.21: Bộ ba bat khả thi trong mang sinh (Nguồn: NVIDIA is Late to Party but

Solves Key Issues with Diffusion Models!).

'https://analyticsindiamag.com/nvidia-is-late-to-party-but-solves-key-issues-with-diffusion-

models/

Chương 3

Ap dung Denoising Diffusion Probabilistic Models cho bai

Các độ đo được sử dụng