Dựa vào nhược điểm có hữu của những mô hình đó, một trong những hướng tiếp cận đó là mô phỏng quá trình suy giảm chất lượng ảnh bằng cách ước tính các đại lượng khiến cho anh bị giảm độ
Trang 1HOANG VIEN DUY
KHOA LUAN TOT NGHIEP
UOC TINH KERNEL DUA TREN
MO HINH KHUECH TAN CHO BAI TOAN
SIEU PHAN GIAI
DIFFUSION-BASED KERNEL PRIOR
FOR SUPER RESOLUTION
CU NHÂN NGANH KHOA HOC MAY TÍNH
TP HO CHÍ MINH, 2021
Trang 2HOÀNG VIÊN DUY - 18520033
KHÓA LUẬN TOT NGHIỆP
UOC TÍNH KERNEL DỰA TREN
MO HÌNH KHUECH TAN CHO BÀI TOÁN
SIEU PHAN GIAI
DIFFUSION-BASED KERNEL PRIOR
FOR SUPER RESOLUTION
CU NHÂN NGANH KHOA HOC MAY TÍNH
GIANG VIEN HUONG DAN
TS NGUYEN VINH TIEP
TP HO CHÍ MINH, 2021
Trang 3DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
35/QD-DHCNTT ngày 17 tháng 01 năm 2022 của Hiệu trưởng Trường Dai học Công nghệ Thông tin.
1 Chủ tịch: TS Lê Minh Hưng
2 Thư ký: ThS Đỗ Văn Tiến
3 Phản biện: TS Mai Tiến Dũng
Trang 4LỜI CẢM ƠN
Đằng sau một đề tài khóa luận tốt nghiệp luôn có bóng dáng của những người
Thầy, người anh và người bạn đã giúp đỡ tôi hoàn thành xong đề tài này Dovậy, sẽ rất thiếu sót nếu như chúng ta không dành những lời cảm ơn cho những
con người tuyệt vời đó.
Đầu tiên, tôi muốn bày tỏ lòng biết ơn sâu sắc tới người đã truyền cảm hứng,giúp đỡ tôi hoàn thành khóa luận tốt nghiệp này - TS Nguyễn Vinh Tiệp Thay
đã cho tôi nhiều lời khuyên, những bài học đắt giá trong hành trình nghiên cứunói chung và đề tài này nói riêng xuyên suốt quá trình thực hiện khóa luận tốt
nghiệp này.
Bên cạnh đó, tôi cũng muốn gửi lời cảm ơn chân thành tới khoa Khoa học
Máy tính - Trường Đại học Công nghệ Thông tin, là nơi đã giúp hình thành nên
tôi của bây giờ, và là bệ phóng để tôi phát triển trong tương lai trong lĩnh vực
Khoa học Máy tính Tôi cũng muốn gửi một lời cảm ơn to lớn tới Phòng Thí
nghiệm Truyền thông Da phương tiện (MMLab-UTT), những người anh, người
bạn đã cho tôi những góp ý và giúp tôi giải quyết được những vấn đề khó khăntrong quá trình thực hiện đề tài
Đặc biệt hơn cả, tôi thể hiện lòng biết ơn tới Khánh, một người bạn đã đồng
hành cùng tôi trong suốt quá trình nghiên cứu về Super-resolution Tuy chúng
tôi không thể cùng thực hiện đề tài này, nhưng những gì tôi học được từ Khánh
xuyên suốt thời gian nghiên cứu Super-resolution là rất nhiều Hy vọng chúng
tôi có thể lại cùng nghiên cứu với nhau trong tương lai.
Cuối cùng nhưng không kém phan quan trọng, tôi xin gửi lời cảm ơn tới giađình Nếu không có sự động viên và tình yêu của mọi người thì có lẽ tôi đã không
thể ở đây để hoàn thành xong luận văn này Cảm ơn tất cả mọi người.
Trang 5ĐẠI HỌC QUOC GIA TP HO CHI MINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP
TÊN DE TÀI: TAI TAO ANH ĐỘ PHAN GIẢI CAO TỪ ANH DON BANG
CÁCH UOC TÍNH KERNEL BLUR SU DỤNG MO HÌNH KHUECH TAN
TEN DE TAI TIENG ANH: DIFFUSION MODEL KERNEL PRIOR FOR
SINGLE IMAGE SUPER-RESOLUTION
Ngôn ngữ thực hiện: Tiếng Việt
Cán bộ hướng dẫn: TS Nguyễn Vinh Tiệp
Thời gian thực hiện: Từ ngày 09/2021 đến ngày 01/2022.
Sinh viên thực hiện:
Hoàng Viễn Duy - 18520033 Lớp: KHMT2018
Email: 18520033 @ gm.uit.edu.vn Dién thoai: 0914542457
Nội dung dé tài:
Giới thiệu:
Single Image Super Resolution (SISR) là một phương pháp làm tăng độ phân giải của
hình ảnh, biến một hình ảnh có độ phân giải thấp (Low Resolution) thành hình ảnh có độ
phân giải cao (High Resolution) Chủ đề này nhận được nhiều sự quan tâm trong cộng
đồng nghiên cứu vì khả năng ứng dụng của nó trong nhiều bài toán về thị giác máy tính
khác như: nhận dạng/ tái nhận dạng, phân lớp dữ liệu, phân đoạn SISR giúp cho dữ
liệu đầu vào (ảnh) của những bài toán đó trở nên rõ ràng, có độ nét cao phần nào đó sẽ
góp phần nâng cao hiệu quả học của mô hình và từ đó đưa ra các dự đoán chính xác hơn.
Phương pháp:
Một trong những phương pháp tái tạo ảnh LR là sử dụng mạng học sâu (deep-learning
model) dé học cách ánh xạ từ không gian LR sang không gian HR Tuy nhiên, phần lớn
các mô hình hiện nay đều chỉ tập trung vào tái tạo ảnh HR với giả thiết là ảnh LR tương
ứng bị làm hỏng bởi phép nội suy bicubic Điều này giới hạn khả năng tái tao ảnh của
mô hình khi ảnh LR trong thực tế có thé bị làm hỏng bởi nhiều yếu tố khác như nhiễu,
Trang 6mo,
Dựa vào nhược điểm có hữu của những mô hình đó, một trong những hướng tiếp cận đó
là mô phỏng quá trình suy giảm chất lượng ảnh bằng cách ước tính các đại lượng khiến
cho anh bị giảm độ phân giải như kernel blur, nhiễu Từ đó có thé tái tao dé dang anh HR
giúp và một mô hình SISR có khả năng khôi phục ảnh HR tốt hơn.
Kết quả mong đợi:
— Một mô hình mạng học sâu mới để tái tạo ảnh HR từ một ảnh LR đầu vào sử dụng
Diffusion Model đê ước tinh kernel blur
— Hiện thực va thi nghiệm để so sánh mô hình mới với các mô hình hiện có
— Một bài luận vê mô hình và các thí nghiệm liên quan
Kế hoạch thực hiện:
e Tuần | — 3: Tìm hiểu, khảo sát các công trình liên quan gần đây về bài toán tái tao
ảnh HR sử dụng một ảnh đầu vào
e Tuần 4 — 10: Cài đặt và tiến hành các thí nghiệm đánh giá hiệu năng các mô hình
tiên tiền hiện nay.
e Tuần 6 — 12: Nghiên cứu cải tiến mô hình dé tăng cao hiệu năng
e Tuan 12 — 16: Viết báo cáo và hoàn thiện dé tài luận với các nội dung đã thực
hiện
Xác nhận của CBHD TP HCM, ngày tháng 09 năm 2021
(Ký tên và ghi rõ họ tên) Sinh viên
(Ký tên và ghi rõ họ tên)
Nguyễn Vinh Tiệp Hoàng Viễn Duy
Trang 7TÓM TẮT
Super-Resolution (Tăng độ phan giải của hình ảnh), hoặc tdi tao ảnh có độ
phân giải cao từ ảnh có độ phân giải thấp là một bài toán xử lý cấp thấp tronglĩnh vực Thị giác Máy tính Mục tiêu giải quyết của vấn đề này là tạo ra ảnh có
độ phân giải rất cao (5) từ một hoặc nhiều ảnh có độ phân giải thấp tương
ứng Gần đây những phương pháp Blind Super-resolution ra đời để giải quyết
vấn đề giảm hiệu suất khi suy diễn trên những bức ảnh độ phân giải thấp trongthực tế dựa vào khả năng tái tạo tốt trên những ảnh bị làm hư hỏng bởi nhữngyếu tố chưa biết Trong những phương pháp Blind-SR, ta cần phải có thêm mộtgiai đoạn phụ là phải ước tính được kernel (Điều này giúp cho bài toán này loại
bỏ những kernel không phù hợp) Vì vậy, việc ước tính kernel là một bước quan
trọng.
Những công trình nghiên cứu gần đây về mô-đun ước tính kernel cho kết quảđầy hứa hẹn như Double-DIP và KernelGAN Tuy nhiên vẫn còn rất nhiều hạnchế về khả năng ước tính kernel Gần đây nhất là sự ra đời của DIP-FKP nhằmgiải quyết những vấn đề trước đó của một mô hình ước tính kernel Tuy nhiên,
vì dựa trên Normalizing Flows, mô hình thường huấn luyện khá khó khăn bởi vì
kiến trúc ràng buộc chặt chẽ để giữ khả năng ánh xạ giữa không gian ngầm và không gian dữ liệu Ngoài ra kernel tạo bởi DIP-FKP vẫn có thể gây ra nhiễu,
dẫn tới việc tái tạo lại ảnh HR kém chính xác.
Để giải quyết những van dé đó, chúng tôi đề xuất sử dụng mô hình DIP-DKP
(Deep Image Prior - Diffusion-based Kernel Prior), mô hình ước tính kernel với
tiên nghiệm kernel dựa trên “Mô hình Khuếch tán” Mô hình Khuếch tán hoạt
động dựa trên chuỗi Markov để từ từ chuyển đổi từ một phân phối Gaussian
thành kernel Trong đề tài này, chúng tôi sẽ chứng minh răng: 1) Mô hình tiên nghiệm kernel DKP cho kết quả uớc tính kernel tốt hơn so với FKP Từ đó giúp
cho kết quả tái tạo ảnh HR được cải thiện tốt nhất và kết luận DIP-DKP chính
là mô hình tiên tiến nhất (SOTA) trong nhánh blind-SR 2) Việc huấn luyện
DKP dễ dàng và nhanh hơn mô hình tiên nghiệm kernel FKP 3) DIP-DKP hội
tụ trong ít vòng lặp hơn so với mô hình của DIP-FKP.
Trang 82.2 Tổng quan về Siêu phân
giải -2.2.1 Siêu phân giải co 2.2.2 Blind Super-resolution
2.3 Tổng quan về mô hình tạo sinh
-2.3.1 Variational Autoencoders uc.
2.3.2 Mạng đối kháng tạo sinh
2.3.3 Normalizing Plows so
M6 hình đề xuất DIP-DKP
3.2 Tiên nghiệm Kernel dựa trên Mô hình Khuéch tán
3.2.1 Lý thuyết về Mô hình Khuếch tan
3.2.2 Tiên nghiệm kernel dựa trên Mô hình Khuếch tan
3.3 Kết hợp DKP với
Double-DIP -3.3.1 Mô hình Double-DIP
3.3.2 Dề xuất mô hình DIP-DKP
ii
Trang 94 Thực nghiệm
42 Dữ liệu Quà và và
4.2.1 Dữ liệu huấn luyện cho DKP
4.2.2 Dữ liệu cho mô hình DIP-DKP
43 Sinh kernel từ DKP 2 0 ee
4.3.1 Càiđặt DKP 0 es 4.4 Sinh ảnh SR từ mô hình DIP-DKP
441 Độ đo đánh giá so
44.2 Kết quả thínghiệm
5 Kết luận
5.1 Kết quả đạt được của đề tài
5.2 Hướng phát triển trong tương lai
Tài liệu tham khảo
11
49
49 49 49
90 52
52 59
59 ov
64
64
65
66
Trang 10Danh sách hình vẽ
1.1
1.2
1.3
1.4
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
3.1
3.2
3.3
3.4
3.5
3.6
41
42
3.9
Mô tả bài toán SR 2 Q2 3
Cải thiện chất lượng trong ảnh vệ tỉnh 4
So sánh độ phan giải trong ảnh ytế 5
Mô tả bài toán ee bì Nhược điểm của phương pháp nội suy 10
Kiến trúc SRC v6 é ”.À 10
Minh họa hướng tiếp cận có Kernel Estimation hay khong 12
Kiến trúc của SRMD_ Ặ ee 13 Kiến trúc của IKC và DAN 14
Kiến trúc của KMSR và RealSR 16
Kiến tric của DGDML-SR 16
Kiến trúc của ZS8R ‹ 17
So sánh supervised learning va self-learning 18
Kiến trúc của CinCGAN 2 2 Q 20 Nhược điểm của những hình ảnh tạo ra bởi GANs 20
Kiến trúc của VAES va 22 Kiến trúc của GANS va 25 Kiến trúc đề xuất DIP-DKP 29
Kiến trúc Mô hình Khuéch tan 30
Minh họa quá trình lan truyền tiến và quả trình bỏ nhiéu 32
Kiến trúc UNet được sử dụng trong mô hình khuếch tán 34
Thuật toán huấn luyện và lấy mẫu của mô hình khuếch tán [13] 35
Minh họa một vai kernel trong datap 39
Mạng no-ron DIP tao ra tri thức tiên nghiệm như thé nào 42
1V
Trang 113.11
3.12
3.13
3.14
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
DIP huấn luyện như thế nào
Hiệu qua của việc sử dụng DIP làm tri thức tiên nghiệm
Kiến trúc của Double-DIP
Kiến trúc đề xuất DIP-DKP
Kiến trúc của USRNet Ặ
Truc quan hóa kernel anisotropic Gaussian
Bộ dữ liệu Set5 và Setl4 2 ee Bộ dữ liệu BSD100 va Ủrban10U0
Sự khác biệt giữa quá trình thêm nhiễu ảnh hưởng tới khả năng phục hồi ảnh của mô hình
Thay đổi miền giá trị của kernel về khoảng [-1,1]
Minh họa kết quả sinh kernel trong thời gian huấn luyện
Sự khác biệt khi ta cập nhật DIP trước DKP
Minh họa một số kết quả của các phương pháp khác nhau với tỉ lệ x4 Qe" x6" .UGUẻcÀ
So sánh ảnh SR được tạo bởi DIP-FKP và DIP-DKP với nhãn.
Trang 12So sánh định lượng về độ phức tap va thời gian huấn luyện của
FKP và DKP Cả hai đều được cau hình giống nhau và huấn luyện
Trang 13Danh mục từ viết tắt
SR Super Resolution
HR High Resolution
LR Low Resolution
PSNR Peak Signal-to-noise Ratio
SSIM Structural Similarity Index Measure
DKP Diffusion-based Kernel Prior
FKP Flow-based Kernel Prior
DIP Deep Image Prior
GAN Generative Adversarial Network
VAE Variational Autoencoders
NF Normalizing Flows
MSE Mean Squared Error
GT Ground-truth
SOTA State-of-the-art
Trang 14được mô tả trong hình ảnh Vì vậy nhu cầu cần những bức ảnh có độ phân giảicao (High Resolution) là rất cần thiết trong hầu hết các ứng dụng ngày nay Do
đó, kỹ thuật siêu phân giải (Super-resolution) ra đời Cụ thể, Super-resolution
(từ đây xin phép được gọi tắt là SR) là tập hợp các phương pháp giúp cải thiệnchất lượng ảnh hoặc video so với chất lượng ban đầu của nó Định nghĩa của SR
rất dé bị nhầm lẫn với “Image enhancement” họăc “Image reconstruction” Trái
ngược với hai định nghĩa đó, SR chứa một vài thông tin bổ sung so với hình ảnh
ban đầu của nó Việc thêm những thông tin đó dựa trên đa số thông tin chứatrong ảnh ban đầu Minh họa bài toán ở hình 1.1
Việc ảnh có độ phân giải thấp (Low Resolution) xảy ra ở bất kỳ mức độ nào
- từ máy ảnh điện thoại di động đến hệ thống chụp ảnh bằng kính thiên văn
Trong một số ngành đặc biệt như y tế hay không gian ngoài vũ trụ, một bức
ảnh sạch sẽ và sắc nét sẽ giúp đỡ rất nhiều cho việc ghi nhận thông tin trở nên
tốt hơn Hãy cùng tìm hiểu về một vài ví dụ điển hình để hiểu được rõ tầm quan
trọng của hình ảnh có độ phân giải cao trong cuộc sống ngày nay
Trang 15SR MODULE
Input
output
Hình 1.1: Mô ta bài toán SR.
Lĩnh vực vũ trụ Day là một lĩnh vực tốn kém vì nó tiêu tốn một lượng lớn
ngân sách và nỗ lực để có thể phóng được một vệ tinh lên không gian Một điều đáng nói là vệ tỉnh chủ yếu được sử dụng để ghi lại bối cảnh của trái đất từ trên
cao, nơi cách xa chúng ta hàng nhìn kilomet Khoảng cách lớn này đã dẫn đến
việc không thể nắm bắt hết những thông tin quan trọng trong ảnh vệ tỉnh vì các vật thể bị thay đổi với những kích thước khác nhau, thậm chí còn chồng chéo lên nhau khiến chúng khó có thể nhận biế một cách đầy đủ Tương tự với những gì
chúng tôi đã nói về nhu cầu cấp thiết của ảnh độ phân giải cao (từ đây xin phépgọi tắt là HR) trong phát hiện đối tượng, nhưng lí do chúng tôi chia ra phầnảnh vệ tỉnh thành một đoạn riêng biệt vì đơn giản muốn nhấn mạnh tác độngcủa ảnh độ phân giải cao vào một lĩnh vực tốn kém như hàng không vũ trụ
Lĩnh vực y tế Sự cần thiết của ảnh HR trong y tế, vốn mang những trọng
trách đặc biệt liên quan trực tiếp đến nhu cầu chăm sóc sức khoẻ cao của conngười Trong y học, có những kỹ thuật về hình ảnh như CT hay MRI giúp có
thể nhìn thấy quá trình giải phẫu và sinh lý của cơ thể Máy quét MRI tạo ra
một từ trường mạnh xung quanh khu vực đối tượng được chụp ảnh Nhìn chung,ảnh MRI là một bức ảnh đen trắng và thường có chất lượng khá thấp Độ phân
giải mong muốn của ảnh MRI phải lớn hơn 1mm, nhưng để có thé đạt được điều
đó thì phải trả giá bằng việc tín hiệu trên nhiễu thấp và thời gian quét lâu hơn
(điều này là không được phép vì con người có thể bị ảnh hưởng bởi những tia
phóng xạ nếu tiếp xúc thời gian dài) Vậy nên với những phương pháp SR, nó sẽ
Trang 16giúp tạo ảnh HR, từ đó có thể giúp cho các chuyên gia đưa ra các quyết định
tốt hơn trong quá trình phân tích tình trạng bệnh nhân và giảm tải khối lượngcông việc Hơn nữa, các bài toán sử dụng ảnh y tế như phân lớp (classification)
và phân đoạn (segmentation) trỗ nên dé dang hơn Cho nên, nó đã tạo ra một
động lực trong việc tìm kiếm các phương pháp có thể giúp cho việc nâng cao chất lượng ảnh MRI để đạt được chất lượng như người ta mong muốn.
1.1.2 Dat van dé
Nhận thay sự quan trong của anh siêu phân giải trong các lĩnh vực trên, chúng
tôi sẽ tập trung áp dụng phương pháp có thể làm tăng độ phân giải ảnh, đặc
biệt là những bức ảnh trong thực tế Nhờ vậy, hiệu suất trong các bài toán khác
sẽ cải thiện đáng kể khi chất lượng dữ liệu ảnh đã được tăng lên.
Có rất nhiều hướng tiếp cận để giải quyết bài toán SR, tuy nhiên chủ yếu
tập trung vào hai hướng chính là learning-based và model-based (chúng tôi sẽ phân tích kỹ trong Chương 2) Tuy nhiên ở phạm vi khóa luận này, chúng tôi sẽ
tập trung nghiên cứu hướng tiếp cận model-based Trong quá trình tìm hiểu về
những công trình liên quan trước đó về chủ đề này, dù có những phương pháp
đã đem lại kết quả khả quan, tuy nhiên vẫn còn những hạn chế nhất định trongviệc ước tính kernel Việc ước tính kernel là điều kiện tiên quyết giúp cho mô
hình có thực sự tái tạo lại được ảnh SR từ ảnh LR hay không Do vậy trong
khóa luận tốt nghiệp này, chúng tôi quyết định thực hiện xây dựng một mô
Trang 17Hình 1.3: So sánh sự khác nhau giữa những bức ảnh y tế khi độ phan giải thay
đổi Nguồn: internet
hình có khả năng ước tính kernel chính xác sao cho nó có thể giúp tạo ảnh
SR tốt nhất Vai trò của ước tính kernel được mô tả ở 1.4 với đầu vào là mộtbức ảnh LR, và đầu ra là một bức ảnh SR, và điều này phụ thuộc vào mô hình
có khả năng ước tính kernel tốt hay không
Trang 181.1.3 "Thách thức
Với hướng tiếp cận là blind-sr, một trong những khó khăn mà chúng tôi gặp phải
là có rất nhiều tác nhân có thể làm suy giảm chất lượng ảnh, vậy nên sẽ rất khó khăn để phục hồi ảnh SR nếu ta không có những ràng buộc hợp lí cho ảnh SR
và kernel dự đoán.
Ngoài ra, trong mô-đun ước tính kernel, chúng tôi sẽ tiếp cận theo hướng dựatrên “Mô hình Khuéch tán” (Diffusion Models) (chi tiết ở Chương 3) Day là một
trong những thách thức lớn của bài toán này Mô hình Khuếch tán là một mô
hình tạo sinh khá mới trong lĩnh vực Thi giác Máy tính Nó này được nghiên
cứu từ năm 2020, vì vậy đây là cơ hội, cũng như là thách thức để chúng tôi có thể nghiên cứu vì vốn tài liệu và các công trình liên quan còn khá hạn chế.
Vì tính mới này cho nên chưa có một công trình nào nghiên cứu và đánh giá
khả năng tạo sinh kernel (hầu hết các công trình trước đó chỉ tập trung trên việctạo ảnh) Vậy nên đây là đề tài đầu tiên nghiên cứu về khả năng hoạt động của
Mô hình Khuếch tán trong việc tạo ra các kernel và nó cũng là một thách thức
lớn mà chúng tôi phải vượt qua.
1.2 Mục tiêu
Trong đề tài này, chúng tôi tập trung vào giải quyết vấn đề ước tính kernel
-nguyên nhân làm mờ bức ảnh HR Nhận thấy những mô hình ước tính kernel
hiện tại chưa thực sự làm tốt việc dự đoán kernel, kết hợp với việc Mô hìnhKhuếch tán hiện tại cho kết quả rất tốt trong bài toán tạo sinh ảnh, vượt trội
hơn han so với những mô hình tao sinh khác Với ý tưởng rằng Mô hình Khuếch
tán cũng có khả năng cải thiện chất lượng ước tính kernel, chúng tôi đề xuất
một phương pháp sử dụng Mô hình Khuếch tán để có thể tạo ra những kernel sao cho chúng giống với thực tế nhất, và từ đó kết hợp với một mô hình SR để
có thể tái tạo ảnh SR từ kernel vừa tính toán được.
1.3 Đóng góp chính của đề tài
Những đóng góp chính của chúng chúng tôi trong đề tài này bao gồm:
Trang 19e Dề xuất mô hình tiên nghiệm cho kernel dựa trên Mô hình Khuếch tán
(Diffusion-based Kernel Prior) với khả năng ước tính kernel sao cho gần với
kernel GT nhất.
e Kết hợp thành một mô hình hoàn chỉnh DIP-DKP để có thể tăng độ phân
giải ảnh đơn bang cách sử dụng Mô hình Khuéch tán để ước tính kernel và
Deep Image Prior để tối ưu độ phân giải ảnh từ kernel đã ước tính Với khả
năng tạo ra các kernel đa dạng và gần giống với kernel thực tế, DIP-DKPcho kết quả ảnh đầu ra có độ chính xác vượt trội so với các phương pháp
blind-SR trước day.
e Tính ổn định và hiệu quả nhờ vào quá trình khuếch tán trong huấn luyện
giúp cho mô hình có thể huấn luyện nhanh hơn so với những mô hình trước
đây Hơn nữa, mô hình DIP-DKP có thể tạo ra ảnh độ phân giải cao với ít
vòng lặp hơn so với mô hình của DIP-FKP.
1.4 Bo cục dé tài
Khóa luận của chúng tôi bao gồm 5 chương:
e Chương 1: Giới thiệu Chương này sẽ giới thiệu một cách tổng quan nhất
về đề tài của chúng tôi cũng như các mục tiêu và đóng góp trong đề tài này
e Chương 2: Các công trình liên quan Chương này sẽ giới thiệu những
kiến thức và những công trình liên quan tới từng phần trong đề tài của
chúng tôi.
e Chương 3: Phương pháp đề xuất Chương này sẽ trình bày chỉ tiết về
phương pháp mà chúng tôi đã đề xuất
e Chương 4: Thực nghiệm Chương này chúng tôi sẽ đưa ra những kết quả
thực nghiệm và quá trình chúng tôi cả thiện kết quả của mô hình
e Chương 5: Kết luận Ở chương này, chúng tôi sẽ tổng kết những gì đã
làm trong đề tài và đưa ra một số cải tiến có thể thực hiện trong tương lai
Trang 20Chương 2
Các công trình liên quan
2.1 Tổng quan
Chương này sẽ thực hiện tổng hợp về những công trình liên quan tới đề tài của
chúng tôi Có hai phần chính bao gồm: SR và các mô hình tạo sinh Đầu tiênchúng tôi sẽ giới thiệu về SR, bao gồm định nghĩa về SR nói chung, tiếp theo
là hướng tiếp cận Blind-SR - đây chính là phần liên quan trực tiếp tới đề tài,
gồm các công trình liên quan từ trước tới nay và các ưu nhược điểm của những
hướng tiếp cận, phương pháp đó Phần tiếp theo, chúng tôi sẽ giới thiệu ngắngon về các Generative Models bao gồm VAEs, GANs va Normalizing Flows, cơ
sở lý thuyết và so sánh khả năng của những mô hình đó Day chính là nền tang
để ta có thể so sánh chúng với Mô hình Khuếch tán - mô hình được đề xuất để
giải quyết bài toán SR trong chương 3
ep?e
2.2 Tổng quan về Siêu phân giải
2.2.1 Siêu phân giải
Gần đây, Siêu phân giải (Super-resolution) là một chủ đề được quan tâm rấtnhiều trong giới nghiên cứu Thị giác Máy tính Dù vậy, SR đã được nghiên cứu
rất sớm vì tính ứng dụng thực tiễn của nó Diễn hình như Tsai và Huang 1984
[33], Borman và Stevenson 1998 [3] và Park cùng cộng sự 2003 [26].
Trang 21Hình ảnh kỹ thuật số bao gồm các phần tử được gọi là điểm ảnh Độ phân giải không gian hình ảnh, dùng để chỉ các điểm ảnh trên một đơn vị khoảng cách.
Ví dụ: hình ảnh hai chiều (2D) có độ phân giải 0.1 x 0.1mm? có 5 cặp đường trên
mỗi đơn vị khoảng cách (mm) cho mỗi hướng Hình ảnh có độ phân giải cao có
thể cải thiện chất lượng hình ảnh để giải thích con người và cảm nhận của máy
do thể hiện nhiều chi tiết hơn Tuy nhiên, thiết bị thu nhận hình ảnh, bao gồm các cảm biến hình ảnh, hoặc cách tạo ra bức ảnh (nhiễu JPEG, ) có thể giới
hạn độ phân giải hình ảnh Về mặt lý thuyết, mật độ cảm biến cao hơn trong
thiết bị hình ảnh kỹ thuật số có thể tạo ra hình ảnh có độ phân giải cao hơn Trên thực tế, không dé để tăng số lượng cảm biến trên một diện tích cố định của thiết bị vì giá thành sản phẩm tăng và hạn chế của mạch tích hợp hiện nay Các phương pháp xử lý hậu kỳ như siêu phân giải (SR) có thể khắc phục các hạn
chế vật lý và cũng cải thiện độ phân giải hình ảnh
SR là quá trình ước tính hình ảnh có độ phân giải cao (HR) từ một hoặc một
số hình ảnh có độ phân giải thấp (LR) Hình ảnh HR chưa biết có thể được tái
tạo bằng các phương pháp siêu phân giải đa hình ảnh bằng cách sử dụng một
số hình anh LR tương quan với nhau liên quan đến một bộ phương trình xác
định (ví dụ: các ràng buộc tuyến tính) Trong đề tài này, chúng tôi tập trung
vào một hình ảnh siêu độ phân giải (SR) ước tính hình ảnh HR từ một hình ảnh
LR tương ứng Một số phương pháp truyền thống trước đây tập trung vào việc
nội suy từ ảnh LR ban đầu như Bicubic Tuy nhiên, kết quả của phương pháp
nội suy một hình ảnh quá trơn tru vì không có thông tin bổ sung bù đắp cho sự mất mát của các thành phần tần số cao Ta có thể xem hình 2.1 để thấy rõ việc
sử dụng phương pháp nội suy khiến cho ảnh SR bị làm mượt như thế nào
Gần đây, với ki nguyên hoc sâu bùng nổ, rất nhiều phương pháp được dựa trên CNN điển hình như Dong và cộng sự [6] giới thiệu kiến trúc đầu tiên sử dụng mô hình học sâu để giải quyết vấn đề tái tạo ảnh HR, hướng tiếp cận học máy của bài toán này được mở rộng đáng kể, các kỹ thuật cũng tăng lên một
cách đáng kinh ngạc Kim và cộng sự [16] đề xuất mô hình trong đó ứng dụng
mạng nơ ron tích chập rất sâu để tái tạo ảnh HR Sau này, nhờ vào sự ra đời của
mô hình mạng học sâu sử dụng kỹ thuật nối tắt (residual network) trong lĩnh
vực phân loại hình ảnh trong bài báo [11], Ledig và cộng sự [19] đã giới thiệu
kiến trúc SRResNet, một phương pháp ứng dụng mạng nối tắt để giải quyết bài
toán tái tạo ảnh HR Hơn nữa, SRResNet còn được dùng làm thành phần củamạng sinh trong kiến trúc SRGAN - mạng GAN đầu tiên được áp dụng trongbài toán này, với mục đích tạo ra ảnh HR không chỉ có chất lượng tốt mà còn
cho cảm nhận về mặt thị giác tốt hơn với người xem RNN cũng được áp dụng
9
Trang 22Hình 2.1: Nhược điểm của phương pháp nội suy Nguồn: [19].
bởi [20] và [10] để tối ưu khả năng biểu diễn các ma trận đặc trưng cấp cao và giảm số lượng tham số sử dụng trong mạng Những phương pháp kể trên chủ
yêu sử dụng cặp ảnh LR-HR làm dữ liệu huấn luyện với LR thường được tạo ra
bằng cách áp dụng các phép toán lấy mẫu xuống trên ảnh HR, mà tiêu biểu là
phép nội suy bicubic Tuy nhiên, theo bài báo [30], họ muốn tạo ra dữ liệu huấnluyện mà ảnh LR bị làm giảm chất lượng bởi các yếu tố thực tế trong tự nhiên,
vì vậy họ đề xuất một phương pháp tương đối phức tạp hơn bằng cách ghép hai
mạng GAN với nhau.
10
Trang 23yếu khác nhau để có thể tái tạo ảnh SR từ ảnh LR, ngoài ra còn rất nhiều yếu
tố chưa biết có thể làm giảm chất lượng ảnh sinh ra Ta gọi nhóm bài toán đó
là blind-SR, đây là một nhánh nhỏ trong bài toán SR nói chung Trong phần
tiếp theo, chúng tôi sẽ cung cấp những hiểu biết cơ bản về những hướng tiếp cận
blind-SR, bao gồm ý nghĩa và những kiến trúc tiêu biểu cho từng hướng tiếp cận
đó.
2.2.2 Blind Super-resolution
Như đã nói ở phần trước, các công trình SR trước đây đề cập trong 2.2.1 tập
trung vào giải quyết bài toán với nguyên nhân gây suy giảm độ phân giải đãđược định nghĩa từ trước (ví dụ lấy mẫu xuống Bicubic) từ một ảnh HR tạo
thành ảnh LR tương ứng Quá trình đó được diễn giải theo công thức dưới đây:
ý (2.1)
Tuy nhiên, điều này lại không đúng với những gì xẩy ra trong thực tế, đơn
giản là bởi vì có rất nhiều yếu tố có thể giảm suy giảm độ phân giải ảnh trong
thế giới thực ví dụ như: Nhiễu cảm biến máy ảnh, mờ do quá trình nén ảnh,
hay đơn giản là chụp bởi những thiết bị camera chất lượng thấp Ta có thể hình dung những yếu tố trên có thể là một kernel blur và được mô tả bởi công thức
sau đây:
=(œ@R) bs +n, (2.2)
Su khác biệt này đã tao ra khoảng cách giữa những phương pháp nghiên cứu
trước đây khi đối với những hình ảnh trong thực tế Khiến cho các mô hìnhtrước đây dự đoán rất tệ với đầu vào là một ảnh độ phân giải thấp trong thế
giới thực Điều này khiến cho giới nghiên cứu buộc phải thay đổi hướng tiếp cận
thì mới có thể giải quyết được khoảng cách về miền dữ liệu đầu vào này Từ đây blind-SR ra đời để có thể phá vỡ khoảng cách đó Tới đến thời điểm hiện tại, có
rất nhiều hướng tiếp cận nhưng chủ yếu là ba hướng tiếp cận sau:
e Mô hình hóa sự suy giảm cu thể (Explicit degradation Modelling)
e Mô hình hóa sự suy giảm an dụ (Implicit Modeling)
Trong “Mô hình hóa sự suy giảm cu thé” được chia thành ba hướng tiếp cận
khác:
11
Trang 24e Nâng cao độ phân giải hình ảnh cu thể mà với mô-đun ước tính kernel
(Image-specific Adaption with Kernel Estimation)
e Nâng cao độ phan giải hình ảnh cu thể mà không có mô-đun ước tinh kernel
(Image-specific Adaption without Kernel Estimation)
e Mô hình hóa anh đơn lẻ với thông tin thống kê bên trong anh (Single Image
Modelling with Internal Statistics)
Bây giờ chúng ta sẽ tìm hiểu lần lượt từng hướng tiếp của của blind-SR.
Explicit degradation Modelling Hướng tiếp cận này tận dung tập dữ liệu
bên ngoài để huấn luyện mô hình SR sao cho chúng có thể thích nghỉ tốt với
nhiều loại kernel & và nhiễu n Thông thường, mô hình SR được xây dựng từ
một mạng nơ ron tích chập và chúng sẽ ước tinh kernel k và nhiễu n cho từng
ảnh LR cụ thể Sau quá trình huấn luyện, mô hình có thể tạo ra những kết quả
chính xác với những tác nhân nó đã được học ở tập huấn luyện Tùy thuộc vàocấu trúc của phương pháp nên chúng được chia ra hai loại nhỏ: “Image-specific
adaptation without kernel estimation” và “Image-specific adaptation with kernel
Trang 25Image-specific Adaption without Kernel Estimation Super-resolution
for Multiple Degradations [36] (SRMD) đưa ra đề xuất là trực tiếp ghép ảnh
LR với một ban đồ suy giảm như một đầu vào thống nhất cho mô hình SR, nhờ
đó cho phép điều chỉnh đặc trưng theo tác nhân làm giảm chất lượng ảnh cụ
thể và bao gồm nhiều kiểu suy giảm trong một mô hình duy nhất Để có thể
tạo ra những ban đồ suy giảm cùng kích thước với ảnh LR, một phương pháp
được đề xuất được gọi là kéo giãn kích thước Cu thể, kernel với kích thước r x r
được trải thành một vector có độ dài z2 và sử dung PCA để giảm xuống t-chiéu
để có được mã hóa của kernel Sử dụng vector mã hóa của kernel để thực hiện
kéo dãn cả chiều dài và chiều rộng thành một bản đồ suy giảm có kích thước
Hx W xt—dim với H,W là chiều dài và chiều rộng của ảnh LR Mô hình tái tạo
ảnh SR của SRMD tương tự như những mô hình được áp dụng trong non-blind
SR Mô hình được minh hoa cu thể trong hình bên dưới:
Degradation Map
Ø Noise Level (Estimated) |
rất hạn chế vì việc mã hóa một kernel tùy ý và xử lý nó với một mô hình đơn lẻ
thường kém hiệu quả, đặc biệt là đối với những các mô hình như chuyển động
mờ Do đó, một nhóm phương pháp khác đã được đề xuất dựa trên lý thuyếtCực đại hóa hậu nghiệm (Maximum A Posteriori) , không yêu cầu mã hóa kernel
dé degradation map Cu thể, mạng DPSR [37] được kết hợp với một mang SR
vào một sơ đồ tối uu hóa lặp dựa trên lý thuyết cực đại hóa hau nghiệm Phương
pháp này chủ yếu tái tạo ảnh HR bằng cách tối thiểu hóa hàm mục tiêu sau,
bao gồm thành phần ràng buộc về dữ liệu D (data term) và tri thức tiên nghiệm
P được hiệu chỉnh bởi tham số ):
1
E(a) = 55 lly— #3: @k||Ï + A®() = D + AP, (2.3)
Nhược điểm: Phu thuộc quá nhiều vào đầu vào bổ sung của ước tính suygiảm (đặc biệt là kernel k) Tuy nhiên, việc ước tính kernel k từ một ảnh LR bất
15
Trang 26kì không phải là một điều dễ dàng Quá trình này ảnh hưởng trực tiếp tới kếtquả đầu ra của ảnh HR Vì vậy, hướng tiếp cận mới với sự kết hợp giữa mô hình
SR và kernel estimation ra đời để làm mô hình SR trở nên tốt hơn.
Image-speciñc Adaption with Kernel Estimation Mô hình tiêu biểu của
hướng tiếp cận này là Iteractive Kernel Correction (IKC) [9] Phương pháp nay
đề xuất thực hiện quá trình ước tính kernel lặp đi lặp lại cho tới khi đạt kết
quả tốt Điểm nổi bat của phương pháp này là để là tan dụng các kết qua SR
trung gian, vì nhiễu trong ảnh SR tạo bởi việc kernel không chính xác Đặc biệt,
Corrector Netuork được sử dụng để ước tính phần dư của kernel khi ảnh SR là điều kiện cho kernel hiện tại Sau đó cập nhật kernel và dùng nó để tạo ra ảnh
SR mới với ít nhiễu hơn Mạng SR bao gồm lớp chuyển đổi đặc trưng không gian trong mỗi Residual-block va kernel blur hiện tại được sử dụng để tao các tham số biến đổi để thích ứng với đặc trưng, điều này hiệu qủa hơn việc cộng
concatenate đầu vào như SRMD Ngoài ra, một mô hình dự đoán được áp dụng
để khởi tao kernel blur chi dựa trên hình ảnh LR đầu vào và việc kéo giãn chiều
được áp dụng cho mã hóa kernel blur Một nghiên cứu gần đây hơn là DeepAlternating Network (DAN) [23] - là phiên ban nang cấp của IKC DAN kết hợp
bộ correcter và mang SR trở thành một bộ hợp nhất để có thé huấn luyện từ
đầu đến cuối thay vì huấn luyện rời rac hai mô-đun như IKC Cách huấn luyện
này giúp cho hai mô-đun tương thích với nhau hơn Hơn nữa, mô-đdun Correctors
và sử dụng ảnh LR gốc để ước tính kernel với điều kiện dựa trên kết quả SR
trung gian, điều này giúp cho khả năng ước lượng kernel tốt hơn
(a) IKC : (b) DAN
Kernel ho Kernel hị Kernel his, SR Output 3"
ee ` Network : i Corrector
LR Input = A Network
SR Output LỆ ' LR Input
Hình 2.5: Kiến trúc của IKC va DAN Nguồn: [22]
Trên thực tế, phương pháp dựa trên lặp của IKC và DAN có thể diễn giải
cho khả năng hoạt động tốt dựa vào độ thích ứng miền: thay vì tạo ra ảnh SRđầu ra trong theo một đường đi duy nhất như trong mô hình SRMD, những mô
hình IKC và DAN sẽ sử dụng những kết quả SR trung gian như một trạm trung
14
Trang 27chuyển trong suốt quá trình ánh xạ từ miền LR tới miền HR, điều này phần nào
giúp những mô hình này vượt qua được van đề về khoảng cách của hai miền dữ
liệu Do vậy, những phương pháp này cho hiệu suất tốt hơn hắn so với SRMD
dựa vào khả năng ước tính kernel.
Tuy nhiên, nhược điểm của những phương pháp lặp này là thời gian suy diễn
cho mỗi bức ảnh khá lâu, ngoài ra còn phải tùy chỉnh số vòng lặp sao cho kết
quả tối ưu nhất (đây là một điều khó khăn) Để giải quyết những van đề đó, một
số phương pháp không lặp được đề xuất với khả năng ước tính suy giảm chínhxác hơn hoặc các chiến lược thích ứng tính năng hiệu quả hơn Unsupervised
Degradation Representation Learning for blind SR (DASR) [31] ưóc tính thông
tin suy giảm cùng với một bộ mã hóa đã được huấn luyện trong không gian đặc
trưng ngầm và bộ giải mã được huấn luyện theo chiến lược Contrastive learning
như trong học không giám sát Cụ thể, với những ảnh LR có cùng tác nhân làm
suy giảm chất lượng ảnh giống ảnh LR đầu vào thì được xem xét là các mẫudương, ngược lại nếu khác tác nhân thì xem là các mẫu âm Sau đó, thông tin
lẫn nhau giữa tất cả các mau được tối da hóa trong không gian tiềm an, dẫn đến các biểu diễn suy giảm nội dung bất biến Do đó những mô hình như thế này có thể đạt được kết quả ảnh SR tốt chỉ với một lần lan truyền tiến.
Có một số hướng tiếp cận khác đề xuất học một mô hình SR bằng cách gomnhiều tác nhân gây suy giảm ảnh trong tập dữ liệu huấn luyện, đặc biệt là các
kernel trong thực tế được ước tinh từ hình ảnh trong thé giới thực Ví dụ, Kernel
Modelling Super-resolution (KMSR) [38] xây dung một lượng lớn kernel với phân
phối được dựa trên kernel thực được ước tính trong ảnh LR thực tế Kernel ước
tính được dùng để tạo các cặp ảnh HR-LR và thực hiện huấn luyện các mô hình non-blind SR như học có giám sát Thông thường, một bộ dữ tổng quát hơn
giúp cho mô hình SR tăng khả năng phân biệt và xử lý tốt với các đầu vào LR
có mức độ suy giảm khác nhau Nói cách khác, mô hình SR sẽ có khả năng ước
lượng kernel tốt hơn trong quá trình huấn luyện, do đó tránh ước tính kernel
cụ thể trong một loại nhất định Tuy nhiên, cách tiếp cận này không giúp mô
hình có kết quả không quá tốt Một cách tiếp cận tương tự là RealSR [4] và
RealSRGAN [32] dé tạo ra các tập dit liệu với các kernel thực tế hơn nhiều Hình
minh họa của phương pháp được trình bày bên dưới:
Nhược điểm: So với các phương pháp tiếp cận không có ước lượng kernel,
các phương pháp này thực tế giúp chúng ta không phải tìm kiếm các thuật toán
phức tạp để ước tính hạt nhân, đặc biệt trong quá trình suy diễn, và đã thể hiện
hiệu suất ấn tượng Tuy nhiên, những mô hình đó vẫn không tránh khỏi nhược
điểm cố hữu của những mô hình cu thể: Kết qua đầu ra sẽ không tốt nếu yêu
15
Trang 28Noise Pool
aa Degraded LR
Hình 2.6: Kiến trúc của KMSR và RealSR Nguồn: [38]
tố gây suy giảm chất lượng mô hình không bao gồm trong tập đã học của môhình Hạn chế này thực sự là vấn đề lớn đối với những hình ảnh phức tạp trong
thế giới thực, ngay cả khi chúng ta cố gắng huấn luyện mô hình với nhiều kiểu
tác nhân suy giảm Tiếp theo, chúng ta hãy bước sang một hướng tiếp cận khác,
trong đó mô hình sẽ sử dụng một hình ảnh đầu vào duy nhất để tạo ra ảnh SR
tương ứng.
Single Image Modelling with Internal Statistics Đúng như tên gọi của
nó, những mô hình này chỉ nhận đầu vào là một bức ảnh duy nhất Nhóm môhình này hoạt động dựa theo tính chất nội thống kê của ảnh tự nhiên: Nhữngvùng nhỏ ở trên ảnh thường có xu hướng lặp lại ở trong cũng như nhiều kíchthước nhỏ hơn của bức ảnh đó Tích chất này đã được chứng minh có khả năng
dự đoán tốt hơn thông tin thống kê bên ngoài của tập dữ liệu đối với nhiều hình
Một số công trình ví dụ như NPBSR [24] hay KernelGAN [1] dựa vào tính
chất này để giải quyết bài toán của mình Cụ thể, nó đề xuất một sử dụng lý thuyết cực đại hóa hậu nghiệm để có thể tối u kernel blur, dựa trên tính chất rằng kernel k tốt nhất là kernel mà nó có thể tối đa hóa sự tương đồng giữa các
vùng ảnh lặp lại trong các kích thước khác nhau Với KernelGAN, nó giả sử rằngảnh lấy mẫu xuống của ảnh LR mà được tạo bởi kernel k thì có cùng phân phối
16
Trang 29vùng ảnh với ảnh LR gốc Nhờ vào khả năng của GAN [8], một mạng tuyến tính
sâu được dùng để tham số hóa để tạo ra kernel blur, và sử dụng mạng phân biệt
để có thể phân biệt được sự khác nhau giữa ảnh LR vừa được tạo từ trình tạo và
một vùng ảnh của ảnh LR gốc Khi quá trình huấn luyện kết thúc, ta thu được
kernel blur bằng cách nhân tích chập tất cả các kernel tích chập với nhau trongmạng tạo sinh Điều này chứng tỏ rằng quá trình huấn luyện chỉ phụ thuộc vào
mỗi ảnh LR đầu vào mà không cần bất cứ những dữ liệu nào khác, có thể được
xem là cơ chế “tu học có giám sát” (self-supervised learning)
i Fake Fake Real
Hình 2.8: Kiến trúc của ZSSR Nguồn: [5]
Ý tưởng về tự học có giám sát dựa trên tính chất lặp lại của các vùng ảnh nhỏ
có thẻ trực tiếp được áp dung để giải quyết bài toán Super-resolution Zero-shot
super-resolution (ZSSR) [ð] là công trình đầu tiên huấn luyện mang CNN với
đầu vào là ảnh LR cu thể để tạo ảnh SR mà không cần bất kỳ việc huấn luyện
trước nào Việc huấn luyện được thực hiện dựa trên các cặp HR-LR, chúng đượctạo ra từ một đầu vào LR duy nhất y, trong đó y được coi là HR và ảnh LR
tương ứng là ảnh được tạo ra từ bằng cách lấy mẫu xuống kernel k Mang được
huấn luyện với các cặp hình ảnh này sẽ có khả năng suy ra các mối quan hệ cụ
thể trên các kích thước khác nhau của ø, sau đó được sử dụng tạo ảnh dé SR
của y Ngoài ra, ZSSR có khả năng loại bỏ nhiễu rất tốt bằng cách thêm một sốnhiễu vào các mẫu huấn luyện LR, vì nó lập luận rằng chỉ nội dung trong ảnh
tương quan mới có xu hướng lặp lại trên các kích thước hơn là nhiễu.
Trên thực tế, ZSSR vẫn chưa quá phù hợp cho blind-SR: nó yêu cau kernel k
được ước tính như một đầu vào để có thể tạo ra ảnh LR tương ứng quá trình
huấn luyện Do đó, Depth Guided Degradation Model for Learning-based SR(DGDML-SR) ra đời DGDML-SR kết hợp mạng suy giảm và mang SR thành
một kiến trúc thống nhất, trong đó mạng suy giảm được huấn luyện để mô phỏng
quá trình suy giảm chất lượng ảnh, tương tự như hàm mục tiêu của KernelGAN,
17
Trang 30(a) Externally trained network (b) Internally trained network
supervised SR An image-specific CNN Train on many HR-LR pairs Train on HR-LR pairs extracted from
the test image itself
Training Test image I
Testing
Hình 2.9: So sánh hai hướng tiếp cận huấn luyện có giám sát và tự học Nguồn:[22]
và mang SR được thiết kế tương tự Z9SR Sự kết hợp này cho phép sử dụng anh
LR vừa được tạo bởi quá trình suy giảm làm đầu vào cho mạng SR mà không
cần bất cứ quá trình trích xuất để tạo ra kernel blur.
Nhược điểm: Ý tưởng của cơ chế tự học có giám sát với thông tin thống
kê trong ảnh thực sự là một hướng tiếp cận hấp dẫn, sử dụng ảnh LR, với các
tác nhân làm giảm chất lượng bất kì để giải quyết bài toán SR Việc này giúp
cho mô hình không cần phải thu thập một lượng lớn dữ liệu để huấn luyện Tuy
nhiên, ý tưởng đó hoàn toàn có thể thát bại nếu ta gặp một số hình ảnh không
có tính chất lặp lại các vùng ảnh Ví dụ một số hình ảnh có nội dung đơn điệu,
bởi vì rất khó để ta có thể khai thác thông tin lặp lại Do đó, những cách tiếp cận này chỉ có thể tạo ra kết quả SR tốt cho một tập hợp ảnh rất hạn chế với
nội dung thường xuyên lặp lại trên các tỷ lệ.
Trên day là tổng quan về những hướng tiếp cận của Explicit degradation Modelling Hướng tiếp cận này khá rõ ràng và dễ hiểu Tuy nhiên, có thể qua đơn giản để mô hình hóa các sự suy giảm phức tạp trong thực tế, chang hạn
như sự suy giảm chất lượng ảnh trong thế giới thực bắt nguồn từ cảm biến máy
ảnh Diều này khiến ta khó có thể mô phỏng lại bằng một hàm xác định cụ thể
được Do đó, một nhóm phương pháp khác đề xuất mô hình hóa ngầm định sựsuy thoái thông qua việc học phân phối dữ liệu
18
Trang 31Implicit Modeling Hướng tiếp cận này không chủ đích xây dựng một mô
hình có thể giải quyết bài toán SR, mà nó chỉ tập trung xây dựng một phương pháp tiếp cận giúp giảm bớt khoảng cách về phân phối giữa dữ liệu tổng hợp
và dữ liệu trong thế giới thực Tại vì sao ta cần phải giảm khoảng cách về miền
giữa hai miền dữ liệu đó? Để giải thích câu hỏi này, ta cần quay về thời điểm các
phương pháp non-blind SR đang nhận được nhiều sự chú ý của giới nghiên cứu,lúc này đa số hướng tiếp cận chủ yếu là học có giám sát, sử dụng các mô hình
mạng nơ-ron để huấn luyện các cặp HR-LR được tạo từ phép lẫy mẫu xuống
Bicubic từ anh HR Vì sự đơn giản trong cách tao anh LR nên các mô hình
thường đạt kết quả rất tốt Tuy nhiên những mô hình này không thực sự hoạt
động tốt khi gặp những trường hợp ảnh LR trong thực tế Để giải quyết được
van đề này, những mô hình học có giám sát cần phải có những cặp dữ liệu hoc
gồm các cặp HR-LR từ thực tế, tuy nhiên điều này là không thể Vì vậy, các nhà
nghiên cứu cố gắng tạo ra ảnh LR sao cho chúng giống với ảnh LR thật nhất
Nhờ vào sự phát triển của GANs và các mô hình tạo sinh khác, việc ánh xạ giữa
các miền dữ liệu đã trở nên dé dàng Tận dụng khả năng của GANs, CinGAN
[34] được ra đời với nhiệm vụ là có thể tạo ra một ảnh LR ở miền đơn giản như
làm mờ chỉ bởi phép lấy mẫu Bicubie từ một đầu vào LR trong thực tế bất kì,
sau đó ta sử dụng các mạng non-blind SR đã được huấn luyện để dự đoán với đầu vào ảnh LR bicubic CinGAN [34] dựa trên kiến trúc CycleGAN [39] nổi tiếng, với hai mạng tạo sinh và mạng phân biệt để có thể chuyển đổi miền dữ
liệu ảnh LR thực tế sang ảnh LR sạch như Bicucbic LR Nhu vậy trong mô hìnhnày, không hề có các cặp ảnh HR-LR trong suất quá trình huấn luyện, đây là
một phương pháp học không giám sát Tuy nhiên, học không giám sát vẫn là
một nhiệm vụ khó khi ta khó có thể tìm được một mặt phẳng có thể phân tách
hai miền dữ liệu này
Nhược điểm: Mặc dù có vẻ linh hoạt và mạnh mẽ, nhưng những phương
pháp này vẫn chưa thể có thể giải quyết được những khó khăn trong bài toán
blind-SR Bên cạnh đó, các phương pháp này phải dựa vào bộ dữ liệu lớn bên
ngoài để học được mô hình SR thông qua phân phối dữ liệu ngầm định, nhưng
việc thiếu dữ liệu khiến cho phương pháp này không phù hợp hoàn toàn vớimột số bài toán, ví dụ như khôi phục ảnh cũ Mặt khác, hầu hết phương pháp
sử dụng mô hình hướng GANs để học phân phối dữ liệu không được giám sát GANs có thể khó huấn luyện và nó sẽ thường xuyên tạo ra các lỗi nghiêm trọng
trong kết quả SR, ví dụ như nhiễu do việc mô hình GANs cố gắng tạo ra các
cấu trúc sao cho giống thật nhất Ta có thể xem hình ở bên dưới để hiểu rõ hơn
về nhiễu do những mô hình GANs tạo ra
19
Trang 32(a) CinCGAN
Clean Sample
CorrectionNetwork
Input Output Input Output
Hình 2.11: Nhiéu do GANs tạo ra Nguồn: [22]
20
Trang 332.3 Tong quan về mô hình tao sinh
Mô hình tạo sinh sử dụng mạng nơ-ron có nguồn gốc từ những năm 1980 với
mục đích tìm hiểu về phân phối của dữ liệu mà không cần giám sát, có khả năng
mang lại lợi ích cho các bài toán phân loại, thu thập dữ liệu huấn luyện cho việc học không có giám sát đương nhiên là tốn ít công sức hơn nhiều so với thu thập
dit liệu được dán nhãn nhưng chúng van đem lại kết quả tốt cho thấy rõ ràng
rằng các mô hình tạo sinh có ứng dụng rất nhiều trong các lĩnh vực về học máyngày nay Ngoài ra, mô hình tạo sinh có nhiều ứng dụng trực tiếp bao gồm tổng
hợp hình ảnh: siêu độ phân giải, chuyển văn bản sang hình ảnh và hình ảnh thành hình ảnh, tô màu, ước lượng tư thế; âm thanh: tổng hợp lời nói, bài hát;
văn bản: tóm tắt và dịch thuật; học tăng cường
Y tưởng chính của các mô hình tạo sinh là huấn luyện một mô hình có thể lấy
mau từ cùng một phân phối ví dụ như phân phối của dữ liệu được huấn luyện
Các mô hình tạo sinh thường phải đánh đổi về thời gian thực thi hoặc kiến trúc Việc chọn ưu tiên những tiêu chí nào để tối ưu hóa có ý nghĩa đối với chất lượng
mẫu, với khả năng tối ưu hóa trực tiếp thường dẫn đến chất lượng mẫu kém hơn
so với các lựa chọn thay thế
Gan đây có những nghiên cứu tiêu biểu về mô hình tao sinh ví dụ như VAEs, GANs hay Normalizing Flows Ta sẽ lần lượt tìm hiểu về cơ sở lý thuyết, cũng như là ưu nhược điểm của từng loại mô hình.
2.3.1 Variational Autoencoders
Ý tưởng về Variational Autoencoder [17] (Kingma va Welling, 2014), viết tắt của
VAE, thực sự ít giống với tất cả các mô hình autoencoder, nhưng bắt nguồn sâu
xa từ các phương pháp của mô hình đồ họa và mô hình Bayes biến thể.
Thay vì ánh xạ đầu vào thành một vectơ cố định, chúng tôi muốn ánh xạ nóthành một phân phối Ví dụ phân phối này là pg, được tham số hóa bởi 6 Mối
quan hệ giữa đầu vào dữ liệu z và vectơ mã hóa tiềm an z có thể được xác định
Trang 34Giả sử rằng chúng ta biết tham số thực 6* cho phân phối này Dé tạo một mẫu trông giống như một điểm dữ liệu thực 2’, chúng tôi làm theo các bước sau:
1 Đầu tiên, lấy mẫu z từ một phân phối tiên nghiệm pg: (z)
2 Sau đó, một giá tri 2’ được sinh ra từ phân phối có điều kiện pạ(z | z = z')
_ An compressed low dimensional
z=um+ơ@ec representation of the input
Hình 2.12: Minh họa về mô hình tự động mã hóa biến thiên với giả thiết Gaussian
Bay giờ, hãy cập nhật phương trình để chứng minh tốt hon quá trình tao ditt
liệu liên quan đến vectơ mã hóa:
Trang 35giữa hai xác suất, ta có:
Dkr(đø(z | #) || po(z | #))) = log pe(x) + Dex (de(z | 3) || pa(2)) — Ez~4„logpa(z | 2)
(2.6)
Tương đương với:
log po(x) — Dr(q¿(2 | x) || pa(z | #))) = E:~¿„logpa(# | z) — Dr(q¿(z | 2) || pol)
(2.7)
LHS của phương trình chính xác là những gì chúng ta muốn tối đa khi học cácphân phối thực: Chúng ta muốn cực đại hóa khả năng của việc tạo ra nhữngmau dữ liệu thật (về trái) Ta có hàm mat mát cho VAEs:
£vAr(0,ð) = — log po(x) + Dr(q¿( | z) || po(z | #))) (2.8)
= —E¿~q„logpg(# | z) + r(qa(z | x) || pa(2)) (2.9)
0”,@” = argming gLv AE (2.10)
Trong các phương pháp Bayes biến đổi, ham mat mát này được gọi là "giới hạn dưới biến đổi", hoặc "giới hạn dưới bằng chứng" Phần "giới hạn dưới" trong
tên gọi xuất phát từ thực tế là phân kỳ KL luôn không âm và do đó —Lyag là
giới hạn dưới của log po(x).
Ly ag = logpa() — =Dwr(q¿(2 | 2) || pøŒ | #))) Š log pol) (2.11)
Do đó, bằng cách giảm thiểu tổn that, chúng ta đang tối đa hóa giới hạn dưới
của xác suất tạo ra các mẫu dữ liệu thực
Ưu điểm của VAEs Do mô hình được tối ưu bằng log-likelihood, vậy nên ta
có thể dễ dàng đánh giá chất lượng mô hình thông qua log-likelihood.
Nhược điểm của VAEs Do VAEs sử dụng bộ giải mã thông thường và khi
tối ưu bằng maximum log-likelihood, đầu ra của VAEs thường cho kết quả mờ
hơn GANs.
Phần tiếp theo, ta sẽ đi sang một mô hình tạo sinh được xem là phổ biến nhất
và được ứng dụng nhiều nhất trong các loại mô hình tạo sinh chính là GANs
23
Trang 362.3.2 Mạng đối kháng tạo sinh
Mạng đối kháng tạo sinh (Generative adversarial network) (GAN) [8] đã chothấy kết quả tuyệt vời trong nhiều nhiệm vụ chung nhằm tái tạo nội dung phong
phú trong thế giới thực như hình ảnh, ngôn ngữ con người và âm nhạc Nó được
lấy cảm hứng từ lý thuyết trò chơi: hai mô hình, một người cô gắng tao ra những
sản phẩm sao cho nó nhìn giống sản phẩm thật nhất, một người cố gắng phan biệt được những sản phẩm thật và sản phẩm do người còn lại tái tạo, hai người
đó đồng thời cạnh tranh với nhau để nâng cao khả năng của nhau hơn Tuy
nhiên, việc huấn luyện một mô hình GAN là một thách thức khá lớn, vì mọi
người đang phải đối mặt với các vấn đề như huấn luyện không ổn định hoặc
không hội tụ.
GAN bao gồm hai mô hình:
e Mô hình Discriminators phân biệt ước tính xác suất của một mau nhất định
đến từ tập dữ liệu thực Nó hoạt động như một nhà người kiểm tra và được tối ưu hóa để phân biệt các mẫu giả với mẫu thật.
e Mô hình Generator tạo ra các mẫu tổng hợp được cung cấp đầu vào biến
nhiễu z (z mang lại sự đa dạng đầu ra tiềm năng) No được huấn luyện để nắm bắt phân phối dữ liệu thực để các mẫu tổng hợp của nó có thể giống thật nhất có thể, hay nói cách khác, có thể đánh lừa người phân biệt để đưa
ra xác suất cao
Hai mô hình này cạnh tranh với nhau trong quá trình huấn luyện: Generator
cố gắng hết sức để đánh lừa Discriminator, trong khi Discriminator cố gắng hết sức để không bị lừa Trò chơi thúc đẩy cả hai cải thiện chức năng của chúng.
Một mặt, chúng ta muốn đảm bảo các quyết định của Discriminator phân biệt
đối với dữ liệu thực là chính xác bằng cách tối đa hóa E,W», (7) [IogD(z)] Đồng
thời, với dữ liệu giả được tạo bởi Generator, z ~ p,(z), Disciminator được kỳ
vọng đầu ra của nó khi phân biệt dữ liệu giả là xấp xỉ 0 bằng cách tối đa hóa
Trang 37Real Samples
| | — Learn how to tell apart
Latent fake data from true data
mẽ ¡_ Fine Tune Training 5”.
Hình 2.13: Minh hoa kiến trúc mang GAN[8]
trong đó chúng ta cần phải tối ưu hàm mất mát:
min max L(D, G) = Lew pr( a2) [log D(x)] + 2p (2) (log(1 — D(G(z)))] (2.12)
= Ey xp,(a)llog D@)] + Ex~p,(2)[log(l — D(z)] (2.13)
(Ey xp,(«) log 2(z)] không anh hưởng tới đạo ham của G trong quá trình cập nhật)
Ưu điểm của GANs GANs ngày này được sử dụng rộng rãi trong những
ứng dụng ngày nay bởi vì các lý do sau:
e GANs được huấn luyện không giám sát, do đó nó không yêu cầu các cặp dit
liệu - nhãn Điều này giảm bớt công đoạn gán nhãn dữ liệu, giúp cho mô hình trở nên hữu ích hơn vì gán nhãn là một giai đoạn khá tốn kém.
e GANs có thể tao ra những bức ảnh sắc nét bở vì GANs được huấn luyện
đối nghịch và những bức ảnh mờ được tạo bởi MSE thường không thể xuất
hiện trong GANs.
e Cài đặt dễ dang vi cả mạng G và mang D đều được huấn luyện thông qua
lan truyền ngược hàm mất mát
25
Trang 38Những vấn đề của GANs Mặc dù GAN đã rất thành công trong bài toán
cần tạo ra hình ảnh thực tế, nhưng việc huấn luyện không hề dễ dàng: Quá trình
này được biết là chậm và không ổn định Cụ thể là:
e Khó đạt được cân bang Nash.
e Tiêu biến đạo hàm có thẻ khiến mạng không thể học được
e Tạo ra các ảnh đơn điệu (Mode collapse) Dây chính là nhược điểm lớn nhất
của mô hình này.
e Khó có thể đánh giá mô hình nào tốt hơn ngoài cách trực quan hóa các mẫu
đữ liệu lên và so sánh
2.3.3 Normalizing Flows
Khác với VAEs hay GANs, Normalizing Flows (NFs) [18] được xây dựng bởi một
chuỗi phép biến đổi nghịch đảo, mô hình nay hoc phan phối dit liệu p(x) cho nên
hàm mất mát đơn giản là negative log-likelihood
NF biến phân phối đơn giản thành phức tạp bằng cách áp dụng một chuỗicác hàm biến đổi khả nghịch Trong một chuỗi các phép biến đổi, nó liên tục
thay thế biến mới cho biến mới theo định lý thay đổi biến và cuối cùng thu được
phân phối xác suất của biến mục tiêu cuối cùng
Dựa vào ví dụ trên, ta có:
Zi-1 ~ Pi-1(Zi-1) (2.14)
Z¿ = fi(zi-1), thus 2-1 = f; ' (zi) (2.15)
-1 df
pi(zi) = pi-1(f; (2¿)) |det 1a (2.16)
Sau đó, chuyển phương trình thành một hàm của z; để chúng ta có thể suy
luận với phân phối cơ sở
26
Trang 39-1 df,"
pi(zi) = pi-r(f; (zi) |det =.— (2.17)
_ on xứ, LAN = pi-1(Zi-1) |det (=~) (2.18)
Một lưu ý về "Jacobians của hàm khả nghịch": Định thức nghịch đảo của
ma trận khả nghịch là nghịch đảo của định thức: det(M~') = (det(M))~1 vìdet(M) det(M—1) = det(M - M7!) = det(I) = 1
Với một chuỗi các hàm mật độ xác suất như vậy, chúng ta biết mối quan hệ
giữa từng cặp biến liên tiếp Chúng ta có thể mở rộng phương trình của đầu ra
x từng bước cho đến khi truy tìm trở lại phân phối ban đầu zp
= log0(Z0) — 2- log |det đc (2.26)
Đường đi qua các biến ngẫu nhiên z; = ƒ,(z¿_¡) là dòng và chuỗi day đủ được
hình thành bởi sự phân bố liên tiếp x; được gọi là Normalizing Flows Để có thể
27
Trang 40tính toán được phương trình này, một hàm biến đổi ƒ; cần phải thỏa mãn hai
tính chất sau đây: 1) Có hàm nghịch đảo 2) Dễ dàng tính định thức Jacobian
Ưu điểm của NEs Uu điểm của NE chính là tính chính xác likelihood của
từng mẫu dữ liệu mô hình sinh ra thay vì tính log-likelihood của cả mô hình như
VAEs hay dựa trên mạng phân biệt D như GANs Diều này hoàn toàn giúp cho
mô hình cho kết quả đầu ra tốt hơn những mô hình trước đó
Nhược điểm của NEs Nhược điểm của mô hình này là do sự ràng buộc phức
tạp, phụ thuộc bởi cách tính định thức Jacobian khiến cho mô hình huấn luyện
rất khó khăn, điều này khiến cho NFs ngày nay tuy hiệu suất có thể vượt trội
GANs, tuy nhiên GANs vẫn được sử dụng rộng rãi trong các bài toán ngày nay.
Vừa rồi ta đã đi qua ba mô hình tạo sinh tiêu biểu nhất trong kỷ nguyên học sâu, tuy nhiên kể từ năm 2020, có một mô hình nổi lên với khả năng tao ra các
mau dữ liệu có chất lượng vượt trội GANs, được giới nghiên cứu quan tâm trongthời gian gần đây chính là “Mô hình Khuéch tán” (Diffusion Models) Day chính
là mô hình chính của chúng tôi sử dung trong bài toán SR Chi tiết về cd sở lý
thuyết cũng như cách vận dụng mô hình khuếch tán áp dụng vào bài toán SR sẽ
được đề cập ở trong Chương 3 của cuốn khóa luận này
28