Trong chương này, sinh viên thực hiện trình bày tổng quan về lý thuyết về
DDPM và các hướng áp dụng DDPM để giải quyết bài toán image .
3.1 Tổng quan về Denoising Diffusion Probabilistic Mod-
els
Ở phan trước, ta đã nắm được cơ bản các kiến thức liên quan đến Generative
Adversarial Networks (GAN) va Variational Autoencoders (VAEs). Có thể tóm
tắt ưu nhược của các phương pháp trên như sau: (1) Mang GAN cho kết quả
giống với ảnh gốc nhưng khó huấn luyện và không ổn định. (2) Trái ngược
với GAN, việc huấn luyện VAE dễ dàng và ổn định hơn tuy nhiên kết quả thu
được không tốt bằng GAN. Một hướng tiếp cận mới có thể kết hợp những ưu
điểm của GAN và VAE là diffusion models. Ý tưởng về diffusion models đã có
từ lâu, tuy nhiên việc ứng dụng diffusion models cho mô hình sinh mới được
35
3.ÁP DỤNG DENOISING DIFFUSION PROBABILISTIC MODELS CHO BAI
TOAN IMAGE INPAINTING
giới thiệu vào năm 2015 của bài báo với tiêu dé "Deep Unsupervised Learning using Nonequilibrium Thermodynamics". Nhưng phải đến năm 2019 với bài báo
"Generative Modeling by Estimating Gradients of the Data Distribution" và một
năm sau đó là bài "Denoising Diffusion Probabilistic Models" đã cai tiến hướng tiếp cận này trở nên đầy hấp dẫn với cộng đồng nghiên cứu. Cho đến thời điểm này, số lượng bài báo sử dụng liên quan đến diffusion model ngày càng nhiễu, những mô hình dựa trên diffusion model trở thành state-of-the-art có thể kể đến
như bài "Diffusion Models Beat GANs on Image Synthesis", ngoài ra còn có
các mô hình được biết rộng rãi như: GLIDE, DALL-E 2...
3.11 Kiến trúc tổng quan
Ý tưởng chính của diffusion model bắt nguồn từ vật lý thống kê không cân bằng, là phá hủy cấu trúc của phân phối dữ liệu một các từ từ và có hệ thống bằng cách lặp đi lặp lại quá trình khuếch tán. Sau đó sẽ cho mô hình học lại quá trình đảo ngược khuếch tán.
Hình 3.1: Minh họa về quá trình khếch tán và đảo ngược khuếch tấn của giọt nước màu trong ly nước (Nguồn: Internet).
Giả sử ta nhỏ một giọt nước màu vào một ly nước trong suốt, sau một thời
!https://mayvesinhmienbac.com.vn/hien-tuong-khuech-tan/
36
3.ÁP DỤNG DENOISING DIFFUSION PROBABILISTIC MODELS CHO BAI
TOAN IMAGE INPAINTING
gian ta thay màu của giọt nước đã lan ra toán bộ ly nước. Vậy nếu ta có thể đảo ngược quá trình khuếch tán giọt nước từng bước nhỏ một, ta sẽ thu được giọt nước ban đầu. Do đó, diffusion model gồm 2 quá trình: làm nhiễu và khử nhiễu. Trong quá trình làm nhiễu, ta lần lượt thêm phân phối gaussian vào tam ảnh đầu vào từng bước một với số bước T. Sau đó, ta sử dụng một mạng nơ-ron học quá trình khử nhiễu để tái tạo lại ảnh ban đầu.
3.1.2 Quá trình làm nhiễu
G bước này, ta có thể cài đặt quá trình này dưới dạng một markov chain và do
đó, khác với encoder của VAE quá trình này không được huấn luyện. Một ảnh đầu vào sẽ được thêm phân phối gaussian lần lượt từng bước với số bước T mà trong đó phân phối xác suất tại thời điểm t chỉ phụ thuộc vào phân phối xác suất liền trước nó thời điểm t-1. Do đó, ta có công thức phân phối xác suất có điều
kiện như sau:
q(|X:—1) :=N (2: V I=Bx.-.B1)
Trung bình và phương sai của hàm mật độ trong mô hình Denoising Diffu-
sion Probabilistic Models được điều chỉnh bởi một siêu tham số ,. Giá trị của
B, có thể được lay là một hằng số trong quá trình hoặc có thể được thay đổi dần trong các bước tiếp theo. Để điều chỉnh giá trị của ,, có nhiều hàm khác nhau
có thể được sử dung, chang hạn như sigmoid, tanh, và tuyến tính.
Vậy xác suất của toàn bộ quá trình có thể tính bằng công thức:
—]ơ
q(xị :T | xo) := | |2 | 1-1)
i=l
Công thức trên giúp ta tinh được xác xuất của từng bước trong quá trình làm nhiễu. Tuy nhiên, giả sử chúng ta có t=1000 nếu sử dụng công thức trên, ta cần
tính 1000 lần thì mới có thể tính được xác suất tại x;. Tuy nhiên bằng một vài các
37
3.ÁP DỤNG DENOISING DIFFUSION PROBABILISTIC MODELS CHO BAI
TOAN IMAGE INPAINTING
phép biến đổi toán học có thé đã giải quyết được van dé nay. Ta có thể hiểu cơ bản
về thủ thuật này bằng phương pháp đệ quy: giả sử ta có œ = 1— By, &% = []¿_~of0
trong đó €o,...,&—2,& 1 ~ N(0,D, do đó ta có: