Khóa luận tốt nghiệp Khoa học máy tính: Tái tạo ảnh độ phân giải cao từ ảnh đơn bằng cách ước tính Kernel Blur sử dụng mô hình khuếch tán

Dựa vào nhược điểm có hữu của những mô hình đó, một trong những hướng tiếp cận đó là mô phỏng quá trình suy giảm chất lượng ảnh bằng cách ước tính các đại lượng khiến cho anh bị giảm độ

Trang 1

HOANG VIEN DUY

KHOA LUAN TOT NGHIEP

UOC TINH KERNEL DUA TREN

MO HINH KHUECH TAN CHO BAI TOAN

SIEU PHAN GIAI

DIFFUSION-BASED KERNEL PRIOR

FOR SUPER RESOLUTION

CU NHÂN NGANH KHOA HOC MAY TÍNH

TP HO CHÍ MINH, 2021

Trang 2

HOÀNG VIÊN DUY - 18520033

KHÓA LUẬN TOT NGHIỆP

UOC TÍNH KERNEL DỰA TREN

MO HÌNH KHUECH TAN CHO BÀI TOÁN

SIEU PHAN GIAI

DIFFUSION-BASED KERNEL PRIOR

FOR SUPER RESOLUTION

CU NHÂN NGANH KHOA HOC MAY TÍNH

GIANG VIEN HUONG DAN

TS NGUYEN VINH TIEP

TP HO CHÍ MINH, 2021

Trang 3

DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

35/QD-DHCNTT ngày 17 tháng 01 năm 2022 của Hiệu trưởng Trường Dai học Công nghệ Thông tin.

1 Chủ tịch: TS Lê Minh Hưng

2 Thư ký: ThS Đỗ Văn Tiến

3 Phản biện: TS Mai Tiến Dũng

Trang 4

LỜI CẢM ƠN

Đằng sau một đề tài khóa luận tốt nghiệp luôn có bóng dáng của những người

Thầy, người anh và người bạn đã giúp đỡ tôi hoàn thành xong đề tài này Dovậy, sẽ rất thiếu sót nếu như chúng ta không dành những lời cảm ơn cho những

con người tuyệt vời đó.

Đầu tiên, tôi muốn bày tỏ lòng biết ơn sâu sắc tới người đã truyền cảm hứng,giúp đỡ tôi hoàn thành khóa luận tốt nghiệp này - TS Nguyễn Vinh Tiệp Thay

đã cho tôi nhiều lời khuyên, những bài học đắt giá trong hành trình nghiên cứunói chung và đề tài này nói riêng xuyên suốt quá trình thực hiện khóa luận tốt

nghiệp này.

Bên cạnh đó, tôi cũng muốn gửi lời cảm ơn chân thành tới khoa Khoa học

Máy tính - Trường Đại học Công nghệ Thông tin, là nơi đã giúp hình thành nên

tôi của bây giờ, và là bệ phóng để tôi phát triển trong tương lai trong lĩnh vực

Khoa học Máy tính Tôi cũng muốn gửi một lời cảm ơn to lớn tới Phòng Thí

nghiệm Truyền thông Da phương tiện (MMLab-UTT), những người anh, người

bạn đã cho tôi những góp ý và giúp tôi giải quyết được những vấn đề khó khăntrong quá trình thực hiện đề tài

Đặc biệt hơn cả, tôi thể hiện lòng biết ơn tới Khánh, một người bạn đã đồng

hành cùng tôi trong suốt quá trình nghiên cứu về Super-resolution Tuy chúng

tôi không thể cùng thực hiện đề tài này, nhưng những gì tôi học được từ Khánh

xuyên suốt thời gian nghiên cứu Super-resolution là rất nhiều Hy vọng chúng

tôi có thể lại cùng nghiên cứu với nhau trong tương lai.

Cuối cùng nhưng không kém phan quan trọng, tôi xin gửi lời cảm ơn tới giađình Nếu không có sự động viên và tình yêu của mọi người thì có lẽ tôi đã không

thể ở đây để hoàn thành xong luận văn này Cảm ơn tất cả mọi người.

Trang 5

ĐẠI HỌC QUOC GIA TP HO CHI MINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP

TÊN DE TÀI: TAI TAO ANH ĐỘ PHAN GIẢI CAO TỪ ANH DON BANG

CÁCH UOC TÍNH KERNEL BLUR SU DỤNG MO HÌNH KHUECH TAN

TEN DE TAI TIENG ANH: DIFFUSION MODEL KERNEL PRIOR FOR

SINGLE IMAGE SUPER-RESOLUTION

Ngôn ngữ thực hiện: Tiếng Việt

Cán bộ hướng dẫn: TS Nguyễn Vinh Tiệp

Thời gian thực hiện: Từ ngày 09/2021 đến ngày 01/2022.

Sinh viên thực hiện:

Hoàng Viễn Duy - 18520033 Lớp: KHMT2018

Email: 18520033 @ gm.uit.edu.vn Dién thoai: 0914542457

Nội dung dé tài:

Giới thiệu:

Single Image Super Resolution (SISR) là một phương pháp làm tăng độ phân giải của

hình ảnh, biến một hình ảnh có độ phân giải thấp (Low Resolution) thành hình ảnh có độ

phân giải cao (High Resolution) Chủ đề này nhận được nhiều sự quan tâm trong cộng

đồng nghiên cứu vì khả năng ứng dụng của nó trong nhiều bài toán về thị giác máy tính

khác như: nhận dạng/ tái nhận dạng, phân lớp dữ liệu, phân đoạn SISR giúp cho dữ

liệu đầu vào (ảnh) của những bài toán đó trở nên rõ ràng, có độ nét cao phần nào đó sẽ

góp phần nâng cao hiệu quả học của mô hình và từ đó đưa ra các dự đoán chính xác hơn.

Phương pháp:

Một trong những phương pháp tái tạo ảnh LR là sử dụng mạng học sâu (deep-learning

model) dé học cách ánh xạ từ không gian LR sang không gian HR Tuy nhiên, phần lớn

các mô hình hiện nay đều chỉ tập trung vào tái tạo ảnh HR với giả thiết là ảnh LR tương

ứng bị làm hỏng bởi phép nội suy bicubic Điều này giới hạn khả năng tái tao ảnh của

mô hình khi ảnh LR trong thực tế có thé bị làm hỏng bởi nhiều yếu tố khác như nhiễu,

Trang 6

mo,

Dựa vào nhược điểm có hữu của những mô hình đó, một trong những hướng tiếp cận đó

là mô phỏng quá trình suy giảm chất lượng ảnh bằng cách ước tính các đại lượng khiến

cho anh bị giảm độ phân giải như kernel blur, nhiễu Từ đó có thé tái tao dé dang anh HR

giúp và một mô hình SISR có khả năng khôi phục ảnh HR tốt hơn.

Kết quả mong đợi:

— Một mô hình mạng học sâu mới để tái tạo ảnh HR từ một ảnh LR đầu vào sử dụng

Diffusion Model đê ước tinh kernel blur

— Hiện thực va thi nghiệm để so sánh mô hình mới với các mô hình hiện có

— Một bài luận vê mô hình và các thí nghiệm liên quan

Kế hoạch thực hiện:

e Tuần | — 3: Tìm hiểu, khảo sát các công trình liên quan gần đây về bài toán tái tao

ảnh HR sử dụng một ảnh đầu vào

e Tuần 4 — 10: Cài đặt và tiến hành các thí nghiệm đánh giá hiệu năng các mô hình

tiên tiền hiện nay.

e Tuần 6 — 12: Nghiên cứu cải tiến mô hình dé tăng cao hiệu năng

e Tuan 12 — 16: Viết báo cáo và hoàn thiện dé tài luận với các nội dung đã thực

hiện

Xác nhận của CBHD TP HCM, ngày tháng 09 năm 2021

(Ký tên và ghi rõ họ tên) Sinh viên

(Ký tên và ghi rõ họ tên)

Nguyễn Vinh Tiệp Hoàng Viễn Duy

Trang 7

TÓM TẮT

Super-Resolution (Tăng độ phan giải của hình ảnh), hoặc tdi tao ảnh có độ

phân giải cao từ ảnh có độ phân giải thấp là một bài toán xử lý cấp thấp tronglĩnh vực Thị giác Máy tính Mục tiêu giải quyết của vấn đề này là tạo ra ảnh có

độ phân giải rất cao (5) từ một hoặc nhiều ảnh có độ phân giải thấp tương

ứng Gần đây những phương pháp Blind Super-resolution ra đời để giải quyết

vấn đề giảm hiệu suất khi suy diễn trên những bức ảnh độ phân giải thấp trongthực tế dựa vào khả năng tái tạo tốt trên những ảnh bị làm hư hỏng bởi nhữngyếu tố chưa biết Trong những phương pháp Blind-SR, ta cần phải có thêm mộtgiai đoạn phụ là phải ước tính được kernel (Điều này giúp cho bài toán này loại

bỏ những kernel không phù hợp) Vì vậy, việc ước tính kernel là một bước quan

trọng.

Những công trình nghiên cứu gần đây về mô-đun ước tính kernel cho kết quảđầy hứa hẹn như Double-DIP và KernelGAN Tuy nhiên vẫn còn rất nhiều hạnchế về khả năng ước tính kernel Gần đây nhất là sự ra đời của DIP-FKP nhằmgiải quyết những vấn đề trước đó của một mô hình ước tính kernel Tuy nhiên,

vì dựa trên Normalizing Flows, mô hình thường huấn luyện khá khó khăn bởi vì

kiến trúc ràng buộc chặt chẽ để giữ khả năng ánh xạ giữa không gian ngầm và không gian dữ liệu Ngoài ra kernel tạo bởi DIP-FKP vẫn có thể gây ra nhiễu,

dẫn tới việc tái tạo lại ảnh HR kém chính xác.

Để giải quyết những van dé đó, chúng tôi đề xuất sử dụng mô hình DIP-DKP

(Deep Image Prior - Diffusion-based Kernel Prior), mô hình ước tính kernel với

tiên nghiệm kernel dựa trên “Mô hình Khuếch tán” Mô hình Khuếch tán hoạt

động dựa trên chuỗi Markov để từ từ chuyển đổi từ một phân phối Gaussian

thành kernel Trong đề tài này, chúng tôi sẽ chứng minh răng: 1) Mô hình tiên nghiệm kernel DKP cho kết quả uớc tính kernel tốt hơn so với FKP Từ đó giúp

cho kết quả tái tạo ảnh HR được cải thiện tốt nhất và kết luận DIP-DKP chính

là mô hình tiên tiến nhất (SOTA) trong nhánh blind-SR 2) Việc huấn luyện

DKP dễ dàng và nhanh hơn mô hình tiên nghiệm kernel FKP 3) DIP-DKP hội

tụ trong ít vòng lặp hơn so với mô hình của DIP-FKP.

Trang 8

2.2 Tổng quan về Siêu phân

giải -2.2.1 Siêu phân giải co 2.2.2 Blind Super-resolution

2.3 Tổng quan về mô hình tạo sinh

-2.3.1 Variational Autoencoders uc.

2.3.2 Mạng đối kháng tạo sinh

2.3.3 Normalizing Plows so

M6 hình đề xuất DIP-DKP

3.2 Tiên nghiệm Kernel dựa trên Mô hình Khuéch tán

3.2.1 Lý thuyết về Mô hình Khuếch tan

3.2.2 Tiên nghiệm kernel dựa trên Mô hình Khuếch tan

3.3 Kết hợp DKP với

Double-DIP -3.3.1 Mô hình Double-DIP

3.3.2 Dề xuất mô hình DIP-DKP

ii

Trang 9

4 Thực nghiệm

42 Dữ liệu Quà và và

4.2.1 Dữ liệu huấn luyện cho DKP

4.2.2 Dữ liệu cho mô hình DIP-DKP

43 Sinh kernel từ DKP 2 0 ee

4.3.1 Càiđặt DKP 0 es 4.4 Sinh ảnh SR từ mô hình DIP-DKP

441 Độ đo đánh giá so

44.2 Kết quả thínghiệm

5 Kết luận

5.1 Kết quả đạt được của đề tài

5.2 Hướng phát triển trong tương lai

Tài liệu tham khảo

11

49

49 49 49

90 52

52 59

59 ov

64

65

66

Trang 10

Danh sách hình vẽ

1.1

1.2

1.3

1.4

2.1

2.2

2.3

2.4

2.5

2.6

2.7

2.8

2.9

2.10

2.11

2.12

2.13

3.1

3.2

3.3

3.4

3.5

3.6

41

42

3.9

Mô tả bài toán SR 2 Q2 3

Cải thiện chất lượng trong ảnh vệ tỉnh 4

So sánh độ phan giải trong ảnh ytế 5

Mô tả bài toán ee bì Nhược điểm của phương pháp nội suy 10

Kiến trúc SRC v6 é ”.À 10

Minh họa hướng tiếp cận có Kernel Estimation hay khong 12

Kiến trúc của SRMD_ Ặ ee 13 Kiến trúc của IKC và DAN 14

Kiến trúc của KMSR và RealSR 16

Kiến tric của DGDML-SR 16

Kiến trúc của ZS8R ‹ 17

So sánh supervised learning va self-learning 18

Kiến trúc của CinCGAN 2 2 Q 20 Nhược điểm của những hình ảnh tạo ra bởi GANs 20

Kiến trúc của VAES va 22 Kiến trúc của GANS va 25 Kiến trúc đề xuất DIP-DKP 29

Kiến trúc Mô hình Khuéch tan 30

Minh họa quá trình lan truyền tiến và quả trình bỏ nhiéu 32

Kiến trúc UNet được sử dụng trong mô hình khuếch tán 34

Thuật toán huấn luyện và lấy mẫu của mô hình khuếch tán [13] 35

Minh họa một vai kernel trong datap 39

Mạng no-ron DIP tao ra tri thức tiên nghiệm như thé nào 42

1V

Trang 11

3.11

3.12

3.13

3.14

4.1

4.2

4.3

4.4

4.5

4.6

4.7

4.8

4.9

DIP huấn luyện như thế nào

Hiệu qua của việc sử dụng DIP làm tri thức tiên nghiệm

Kiến trúc của Double-DIP

Kiến trúc đề xuất DIP-DKP

Kiến trúc của USRNet Ặ

Truc quan hóa kernel anisotropic Gaussian

Bộ dữ liệu Set5 và Setl4 2 ee Bộ dữ liệu BSD100 va Ủrban10U0

Sự khác biệt giữa quá trình thêm nhiễu ảnh hưởng tới khả năng phục hồi ảnh của mô hình

Thay đổi miền giá trị của kernel về khoảng [-1,1]

Minh họa kết quả sinh kernel trong thời gian huấn luyện

Sự khác biệt khi ta cập nhật DIP trước DKP

Minh họa một số kết quả của các phương pháp khác nhau với tỉ lệ x4 Qe" x6" .UGUẻcÀ

So sánh ảnh SR được tạo bởi DIP-FKP và DIP-DKP với nhãn.

Trang 12

So sánh định lượng về độ phức tap va thời gian huấn luyện của

FKP và DKP Cả hai đều được cau hình giống nhau và huấn luyện

Trang 13

Danh mục từ viết tắt

SR Super Resolution

HR High Resolution

LR Low Resolution

PSNR Peak Signal-to-noise Ratio

SSIM Structural Similarity Index Measure

DKP Diffusion-based Kernel Prior

FKP Flow-based Kernel Prior

DIP Deep Image Prior

GAN Generative Adversarial Network

VAE Variational Autoencoders

NF Normalizing Flows

MSE Mean Squared Error

GT Ground-truth

SOTA State-of-the-art

Trang 14

được mô tả trong hình ảnh Vì vậy nhu cầu cần những bức ảnh có độ phân giảicao (High Resolution) là rất cần thiết trong hầu hết các ứng dụng ngày nay Do

đó, kỹ thuật siêu phân giải (Super-resolution) ra đời Cụ thể, Super-resolution

(từ đây xin phép được gọi tắt là SR) là tập hợp các phương pháp giúp cải thiệnchất lượng ảnh hoặc video so với chất lượng ban đầu của nó Định nghĩa của SR

rất dé bị nhầm lẫn với “Image enhancement” họăc “Image reconstruction” Trái

ngược với hai định nghĩa đó, SR chứa một vài thông tin bổ sung so với hình ảnh

ban đầu của nó Việc thêm những thông tin đó dựa trên đa số thông tin chứatrong ảnh ban đầu Minh họa bài toán ở hình 1.1

Việc ảnh có độ phân giải thấp (Low Resolution) xảy ra ở bất kỳ mức độ nào

- từ máy ảnh điện thoại di động đến hệ thống chụp ảnh bằng kính thiên văn

Trong một số ngành đặc biệt như y tế hay không gian ngoài vũ trụ, một bức

ảnh sạch sẽ và sắc nét sẽ giúp đỡ rất nhiều cho việc ghi nhận thông tin trở nên

tốt hơn Hãy cùng tìm hiểu về một vài ví dụ điển hình để hiểu được rõ tầm quan

trọng của hình ảnh có độ phân giải cao trong cuộc sống ngày nay

Trang 15

SR MODULE

Input

output

Hình 1.1: Mô ta bài toán SR.

Lĩnh vực vũ trụ Day là một lĩnh vực tốn kém vì nó tiêu tốn một lượng lớn

ngân sách và nỗ lực để có thể phóng được một vệ tinh lên không gian Một điều đáng nói là vệ tỉnh chủ yếu được sử dụng để ghi lại bối cảnh của trái đất từ trên

cao, nơi cách xa chúng ta hàng nhìn kilomet Khoảng cách lớn này đã dẫn đến

việc không thể nắm bắt hết những thông tin quan trọng trong ảnh vệ tỉnh vì các vật thể bị thay đổi với những kích thước khác nhau, thậm chí còn chồng chéo lên nhau khiến chúng khó có thể nhận biế một cách đầy đủ Tương tự với những gì

chúng tôi đã nói về nhu cầu cấp thiết của ảnh độ phân giải cao (từ đây xin phépgọi tắt là HR) trong phát hiện đối tượng, nhưng lí do chúng tôi chia ra phầnảnh vệ tỉnh thành một đoạn riêng biệt vì đơn giản muốn nhấn mạnh tác độngcủa ảnh độ phân giải cao vào một lĩnh vực tốn kém như hàng không vũ trụ

Lĩnh vực y tế Sự cần thiết của ảnh HR trong y tế, vốn mang những trọng

trách đặc biệt liên quan trực tiếp đến nhu cầu chăm sóc sức khoẻ cao của conngười Trong y học, có những kỹ thuật về hình ảnh như CT hay MRI giúp có

thể nhìn thấy quá trình giải phẫu và sinh lý của cơ thể Máy quét MRI tạo ra

một từ trường mạnh xung quanh khu vực đối tượng được chụp ảnh Nhìn chung,ảnh MRI là một bức ảnh đen trắng và thường có chất lượng khá thấp Độ phân

giải mong muốn của ảnh MRI phải lớn hơn 1mm, nhưng để có thé đạt được điều

đó thì phải trả giá bằng việc tín hiệu trên nhiễu thấp và thời gian quét lâu hơn

(điều này là không được phép vì con người có thể bị ảnh hưởng bởi những tia

phóng xạ nếu tiếp xúc thời gian dài) Vậy nên với những phương pháp SR, nó sẽ

Trang 16

giúp tạo ảnh HR, từ đó có thể giúp cho các chuyên gia đưa ra các quyết định

tốt hơn trong quá trình phân tích tình trạng bệnh nhân và giảm tải khối lượngcông việc Hơn nữa, các bài toán sử dụng ảnh y tế như phân lớp (classification)

và phân đoạn (segmentation) trỗ nên dé dang hơn Cho nên, nó đã tạo ra một

động lực trong việc tìm kiếm các phương pháp có thể giúp cho việc nâng cao chất lượng ảnh MRI để đạt được chất lượng như người ta mong muốn.

1.1.2 Dat van dé

Nhận thay sự quan trong của anh siêu phân giải trong các lĩnh vực trên, chúng

tôi sẽ tập trung áp dụng phương pháp có thể làm tăng độ phân giải ảnh, đặc

biệt là những bức ảnh trong thực tế Nhờ vậy, hiệu suất trong các bài toán khác

sẽ cải thiện đáng kể khi chất lượng dữ liệu ảnh đã được tăng lên.

Có rất nhiều hướng tiếp cận để giải quyết bài toán SR, tuy nhiên chủ yếu

tập trung vào hai hướng chính là learning-based và model-based (chúng tôi sẽ phân tích kỹ trong Chương 2) Tuy nhiên ở phạm vi khóa luận này, chúng tôi sẽ

tập trung nghiên cứu hướng tiếp cận model-based Trong quá trình tìm hiểu về

những công trình liên quan trước đó về chủ đề này, dù có những phương pháp

đã đem lại kết quả khả quan, tuy nhiên vẫn còn những hạn chế nhất định trongviệc ước tính kernel Việc ước tính kernel là điều kiện tiên quyết giúp cho mô

hình có thực sự tái tạo lại được ảnh SR từ ảnh LR hay không Do vậy trong

khóa luận tốt nghiệp này, chúng tôi quyết định thực hiện xây dựng một mô

Trang 17

Hình 1.3: So sánh sự khác nhau giữa những bức ảnh y tế khi độ phan giải thay

đổi Nguồn: internet

hình có khả năng ước tính kernel chính xác sao cho nó có thể giúp tạo ảnh

SR tốt nhất Vai trò của ước tính kernel được mô tả ở 1.4 với đầu vào là mộtbức ảnh LR, và đầu ra là một bức ảnh SR, và điều này phụ thuộc vào mô hình

có khả năng ước tính kernel tốt hay không

Trang 18

1.1.3 "Thách thức

Với hướng tiếp cận là blind-sr, một trong những khó khăn mà chúng tôi gặp phải

là có rất nhiều tác nhân có thể làm suy giảm chất lượng ảnh, vậy nên sẽ rất khó khăn để phục hồi ảnh SR nếu ta không có những ràng buộc hợp lí cho ảnh SR

và kernel dự đoán.

Ngoài ra, trong mô-đun ước tính kernel, chúng tôi sẽ tiếp cận theo hướng dựatrên “Mô hình Khuéch tán” (Diffusion Models) (chi tiết ở Chương 3) Day là một

trong những thách thức lớn của bài toán này Mô hình Khuếch tán là một mô

hình tạo sinh khá mới trong lĩnh vực Thi giác Máy tính Nó này được nghiên

cứu từ năm 2020, vì vậy đây là cơ hội, cũng như là thách thức để chúng tôi có thể nghiên cứu vì vốn tài liệu và các công trình liên quan còn khá hạn chế.

Vì tính mới này cho nên chưa có một công trình nào nghiên cứu và đánh giá

khả năng tạo sinh kernel (hầu hết các công trình trước đó chỉ tập trung trên việctạo ảnh) Vậy nên đây là đề tài đầu tiên nghiên cứu về khả năng hoạt động của

Mô hình Khuếch tán trong việc tạo ra các kernel và nó cũng là một thách thức

lớn mà chúng tôi phải vượt qua.

1.2 Mục tiêu

Trong đề tài này, chúng tôi tập trung vào giải quyết vấn đề ước tính kernel

-nguyên nhân làm mờ bức ảnh HR Nhận thấy những mô hình ước tính kernel

hiện tại chưa thực sự làm tốt việc dự đoán kernel, kết hợp với việc Mô hìnhKhuếch tán hiện tại cho kết quả rất tốt trong bài toán tạo sinh ảnh, vượt trội

hơn han so với những mô hình tao sinh khác Với ý tưởng rằng Mô hình Khuếch

tán cũng có khả năng cải thiện chất lượng ước tính kernel, chúng tôi đề xuất

một phương pháp sử dụng Mô hình Khuếch tán để có thể tạo ra những kernel sao cho chúng giống với thực tế nhất, và từ đó kết hợp với một mô hình SR để

có thể tái tạo ảnh SR từ kernel vừa tính toán được.

1.3 Đóng góp chính của đề tài

Những đóng góp chính của chúng chúng tôi trong đề tài này bao gồm:

Trang 19

e Dề xuất mô hình tiên nghiệm cho kernel dựa trên Mô hình Khuếch tán

(Diffusion-based Kernel Prior) với khả năng ước tính kernel sao cho gần với

kernel GT nhất.

e Kết hợp thành một mô hình hoàn chỉnh DIP-DKP để có thể tăng độ phân

giải ảnh đơn bang cách sử dụng Mô hình Khuéch tán để ước tính kernel và

Deep Image Prior để tối ưu độ phân giải ảnh từ kernel đã ước tính Với khả

năng tạo ra các kernel đa dạng và gần giống với kernel thực tế, DIP-DKPcho kết quả ảnh đầu ra có độ chính xác vượt trội so với các phương pháp

blind-SR trước day.

e Tính ổn định và hiệu quả nhờ vào quá trình khuếch tán trong huấn luyện

giúp cho mô hình có thể huấn luyện nhanh hơn so với những mô hình trước

đây Hơn nữa, mô hình DIP-DKP có thể tạo ra ảnh độ phân giải cao với ít

vòng lặp hơn so với mô hình của DIP-FKP.

1.4 Bo cục dé tài

Khóa luận của chúng tôi bao gồm 5 chương:

e Chương 1: Giới thiệu Chương này sẽ giới thiệu một cách tổng quan nhất

về đề tài của chúng tôi cũng như các mục tiêu và đóng góp trong đề tài này

e Chương 2: Các công trình liên quan Chương này sẽ giới thiệu những

kiến thức và những công trình liên quan tới từng phần trong đề tài của

chúng tôi.

e Chương 3: Phương pháp đề xuất Chương này sẽ trình bày chỉ tiết về

phương pháp mà chúng tôi đã đề xuất

e Chương 4: Thực nghiệm Chương này chúng tôi sẽ đưa ra những kết quả

thực nghiệm và quá trình chúng tôi cả thiện kết quả của mô hình

e Chương 5: Kết luận Ở chương này, chúng tôi sẽ tổng kết những gì đã

làm trong đề tài và đưa ra một số cải tiến có thể thực hiện trong tương lai

Trang 20

Chương 2

Các công trình liên quan

2.1 Tổng quan

Chương này sẽ thực hiện tổng hợp về những công trình liên quan tới đề tài của

chúng tôi Có hai phần chính bao gồm: SR và các mô hình tạo sinh Đầu tiênchúng tôi sẽ giới thiệu về SR, bao gồm định nghĩa về SR nói chung, tiếp theo

là hướng tiếp cận Blind-SR - đây chính là phần liên quan trực tiếp tới đề tài,

gồm các công trình liên quan từ trước tới nay và các ưu nhược điểm của những

hướng tiếp cận, phương pháp đó Phần tiếp theo, chúng tôi sẽ giới thiệu ngắngon về các Generative Models bao gồm VAEs, GANs va Normalizing Flows, cơ

sở lý thuyết và so sánh khả năng của những mô hình đó Day chính là nền tang

để ta có thể so sánh chúng với Mô hình Khuếch tán - mô hình được đề xuất để

giải quyết bài toán SR trong chương 3

ep?e

2.2 Tổng quan về Siêu phân giải

2.2.1 Siêu phân giải

Gần đây, Siêu phân giải (Super-resolution) là một chủ đề được quan tâm rấtnhiều trong giới nghiên cứu Thị giác Máy tính Dù vậy, SR đã được nghiên cứu

rất sớm vì tính ứng dụng thực tiễn của nó Diễn hình như Tsai và Huang 1984

[33], Borman và Stevenson 1998 [3] và Park cùng cộng sự 2003 [26].

Trang 21

Hình ảnh kỹ thuật số bao gồm các phần tử được gọi là điểm ảnh Độ phân giải không gian hình ảnh, dùng để chỉ các điểm ảnh trên một đơn vị khoảng cách.

Ví dụ: hình ảnh hai chiều (2D) có độ phân giải 0.1 x 0.1mm? có 5 cặp đường trên

mỗi đơn vị khoảng cách (mm) cho mỗi hướng Hình ảnh có độ phân giải cao có

thể cải thiện chất lượng hình ảnh để giải thích con người và cảm nhận của máy

do thể hiện nhiều chi tiết hơn Tuy nhiên, thiết bị thu nhận hình ảnh, bao gồm các cảm biến hình ảnh, hoặc cách tạo ra bức ảnh (nhiễu JPEG, ) có thể giới

hạn độ phân giải hình ảnh Về mặt lý thuyết, mật độ cảm biến cao hơn trong

thiết bị hình ảnh kỹ thuật số có thể tạo ra hình ảnh có độ phân giải cao hơn Trên thực tế, không dé để tăng số lượng cảm biến trên một diện tích cố định của thiết bị vì giá thành sản phẩm tăng và hạn chế của mạch tích hợp hiện nay Các phương pháp xử lý hậu kỳ như siêu phân giải (SR) có thể khắc phục các hạn

chế vật lý và cũng cải thiện độ phân giải hình ảnh

SR là quá trình ước tính hình ảnh có độ phân giải cao (HR) từ một hoặc một

số hình ảnh có độ phân giải thấp (LR) Hình ảnh HR chưa biết có thể được tái

tạo bằng các phương pháp siêu phân giải đa hình ảnh bằng cách sử dụng một

số hình anh LR tương quan với nhau liên quan đến một bộ phương trình xác

định (ví dụ: các ràng buộc tuyến tính) Trong đề tài này, chúng tôi tập trung

vào một hình ảnh siêu độ phân giải (SR) ước tính hình ảnh HR từ một hình ảnh

LR tương ứng Một số phương pháp truyền thống trước đây tập trung vào việc

nội suy từ ảnh LR ban đầu như Bicubic Tuy nhiên, kết quả của phương pháp

nội suy một hình ảnh quá trơn tru vì không có thông tin bổ sung bù đắp cho sự mất mát của các thành phần tần số cao Ta có thể xem hình 2.1 để thấy rõ việc

sử dụng phương pháp nội suy khiến cho ảnh SR bị làm mượt như thế nào

Gần đây, với ki nguyên hoc sâu bùng nổ, rất nhiều phương pháp được dựa trên CNN điển hình như Dong và cộng sự [6] giới thiệu kiến trúc đầu tiên sử dụng mô hình học sâu để giải quyết vấn đề tái tạo ảnh HR, hướng tiếp cận học máy của bài toán này được mở rộng đáng kể, các kỹ thuật cũng tăng lên một

cách đáng kinh ngạc Kim và cộng sự [16] đề xuất mô hình trong đó ứng dụng

mạng nơ ron tích chập rất sâu để tái tạo ảnh HR Sau này, nhờ vào sự ra đời của

mô hình mạng học sâu sử dụng kỹ thuật nối tắt (residual network) trong lĩnh

vực phân loại hình ảnh trong bài báo [11], Ledig và cộng sự [19] đã giới thiệu

kiến trúc SRResNet, một phương pháp ứng dụng mạng nối tắt để giải quyết bài

toán tái tạo ảnh HR Hơn nữa, SRResNet còn được dùng làm thành phần củamạng sinh trong kiến trúc SRGAN - mạng GAN đầu tiên được áp dụng trongbài toán này, với mục đích tạo ra ảnh HR không chỉ có chất lượng tốt mà còn

cho cảm nhận về mặt thị giác tốt hơn với người xem RNN cũng được áp dụng

9

Trang 22

Hình 2.1: Nhược điểm của phương pháp nội suy Nguồn: [19].

bởi [20] và [10] để tối ưu khả năng biểu diễn các ma trận đặc trưng cấp cao và giảm số lượng tham số sử dụng trong mạng Những phương pháp kể trên chủ

yêu sử dụng cặp ảnh LR-HR làm dữ liệu huấn luyện với LR thường được tạo ra

bằng cách áp dụng các phép toán lấy mẫu xuống trên ảnh HR, mà tiêu biểu là

phép nội suy bicubic Tuy nhiên, theo bài báo [30], họ muốn tạo ra dữ liệu huấnluyện mà ảnh LR bị làm giảm chất lượng bởi các yếu tố thực tế trong tự nhiên,

vì vậy họ đề xuất một phương pháp tương đối phức tạp hơn bằng cách ghép hai

mạng GAN với nhau.

10

Trang 23

yếu khác nhau để có thể tái tạo ảnh SR từ ảnh LR, ngoài ra còn rất nhiều yếu

tố chưa biết có thể làm giảm chất lượng ảnh sinh ra Ta gọi nhóm bài toán đó

là blind-SR, đây là một nhánh nhỏ trong bài toán SR nói chung Trong phần

tiếp theo, chúng tôi sẽ cung cấp những hiểu biết cơ bản về những hướng tiếp cận

blind-SR, bao gồm ý nghĩa và những kiến trúc tiêu biểu cho từng hướng tiếp cận

đó.

2.2.2 Blind Super-resolution

Như đã nói ở phần trước, các công trình SR trước đây đề cập trong 2.2.1 tập

trung vào giải quyết bài toán với nguyên nhân gây suy giảm độ phân giải đãđược định nghĩa từ trước (ví dụ lấy mẫu xuống Bicubic) từ một ảnh HR tạo

thành ảnh LR tương ứng Quá trình đó được diễn giải theo công thức dưới đây:

ý (2.1)

Tuy nhiên, điều này lại không đúng với những gì xẩy ra trong thực tế, đơn

giản là bởi vì có rất nhiều yếu tố có thể giảm suy giảm độ phân giải ảnh trong

thế giới thực ví dụ như: Nhiễu cảm biến máy ảnh, mờ do quá trình nén ảnh,

hay đơn giản là chụp bởi những thiết bị camera chất lượng thấp Ta có thể hình dung những yếu tố trên có thể là một kernel blur và được mô tả bởi công thức

sau đây:

=(œ@R) bs +n, (2.2)

Su khác biệt này đã tao ra khoảng cách giữa những phương pháp nghiên cứu

trước đây khi đối với những hình ảnh trong thực tế Khiến cho các mô hìnhtrước đây dự đoán rất tệ với đầu vào là một ảnh độ phân giải thấp trong thế

giới thực Điều này khiến cho giới nghiên cứu buộc phải thay đổi hướng tiếp cận

thì mới có thể giải quyết được khoảng cách về miền dữ liệu đầu vào này Từ đây blind-SR ra đời để có thể phá vỡ khoảng cách đó Tới đến thời điểm hiện tại, có

rất nhiều hướng tiếp cận nhưng chủ yếu là ba hướng tiếp cận sau:

e Mô hình hóa sự suy giảm cu thể (Explicit degradation Modelling)

e Mô hình hóa sự suy giảm an dụ (Implicit Modeling)

Trong “Mô hình hóa sự suy giảm cu thé” được chia thành ba hướng tiếp cận

khác:

11

Trang 24

e Nâng cao độ phân giải hình ảnh cu thể mà với mô-đun ước tính kernel

(Image-specific Adaption with Kernel Estimation)

e Nâng cao độ phan giải hình ảnh cu thể mà không có mô-đun ước tinh kernel

(Image-specific Adaption without Kernel Estimation)

e Mô hình hóa anh đơn lẻ với thông tin thống kê bên trong anh (Single Image

Modelling with Internal Statistics)

Bây giờ chúng ta sẽ tìm hiểu lần lượt từng hướng tiếp của của blind-SR.

Explicit degradation Modelling Hướng tiếp cận này tận dung tập dữ liệu

bên ngoài để huấn luyện mô hình SR sao cho chúng có thể thích nghỉ tốt với

nhiều loại kernel & và nhiễu n Thông thường, mô hình SR được xây dựng từ

một mạng nơ ron tích chập và chúng sẽ ước tinh kernel k và nhiễu n cho từng

ảnh LR cụ thể Sau quá trình huấn luyện, mô hình có thể tạo ra những kết quả

chính xác với những tác nhân nó đã được học ở tập huấn luyện Tùy thuộc vàocấu trúc của phương pháp nên chúng được chia ra hai loại nhỏ: “Image-specific

adaptation without kernel estimation” và “Image-specific adaptation with kernel

Trang 25

Image-specific Adaption without Kernel Estimation Super-resolution

for Multiple Degradations [36] (SRMD) đưa ra đề xuất là trực tiếp ghép ảnh

LR với một ban đồ suy giảm như một đầu vào thống nhất cho mô hình SR, nhờ

đó cho phép điều chỉnh đặc trưng theo tác nhân làm giảm chất lượng ảnh cụ

thể và bao gồm nhiều kiểu suy giảm trong một mô hình duy nhất Để có thể

tạo ra những ban đồ suy giảm cùng kích thước với ảnh LR, một phương pháp

được đề xuất được gọi là kéo giãn kích thước Cu thể, kernel với kích thước r x r

được trải thành một vector có độ dài z2 và sử dung PCA để giảm xuống t-chiéu

để có được mã hóa của kernel Sử dụng vector mã hóa của kernel để thực hiện

kéo dãn cả chiều dài và chiều rộng thành một bản đồ suy giảm có kích thước

Hx W xt—dim với H,W là chiều dài và chiều rộng của ảnh LR Mô hình tái tạo

ảnh SR của SRMD tương tự như những mô hình được áp dụng trong non-blind

SR Mô hình được minh hoa cu thể trong hình bên dưới:

Degradation Map

Ø Noise Level (Estimated) |

rất hạn chế vì việc mã hóa một kernel tùy ý và xử lý nó với một mô hình đơn lẻ

thường kém hiệu quả, đặc biệt là đối với những các mô hình như chuyển động

mờ Do đó, một nhóm phương pháp khác đã được đề xuất dựa trên lý thuyếtCực đại hóa hậu nghiệm (Maximum A Posteriori) , không yêu cầu mã hóa kernel

dé degradation map Cu thể, mạng DPSR [37] được kết hợp với một mang SR

vào một sơ đồ tối uu hóa lặp dựa trên lý thuyết cực đại hóa hau nghiệm Phương

pháp này chủ yếu tái tạo ảnh HR bằng cách tối thiểu hóa hàm mục tiêu sau,

bao gồm thành phần ràng buộc về dữ liệu D (data term) và tri thức tiên nghiệm

P được hiệu chỉnh bởi tham số ):

1

E(a) = 55 lly— #3: @k||Ï + A®() = D + AP, (2.3)

Nhược điểm: Phu thuộc quá nhiều vào đầu vào bổ sung của ước tính suygiảm (đặc biệt là kernel k) Tuy nhiên, việc ước tính kernel k từ một ảnh LR bất

15

Trang 26

kì không phải là một điều dễ dàng Quá trình này ảnh hưởng trực tiếp tới kếtquả đầu ra của ảnh HR Vì vậy, hướng tiếp cận mới với sự kết hợp giữa mô hình

SR và kernel estimation ra đời để làm mô hình SR trở nên tốt hơn.

Image-speciñc Adaption with Kernel Estimation Mô hình tiêu biểu của

hướng tiếp cận này là Iteractive Kernel Correction (IKC) [9] Phương pháp nay

đề xuất thực hiện quá trình ước tính kernel lặp đi lặp lại cho tới khi đạt kết

quả tốt Điểm nổi bat của phương pháp này là để là tan dụng các kết qua SR

trung gian, vì nhiễu trong ảnh SR tạo bởi việc kernel không chính xác Đặc biệt,

Corrector Netuork được sử dụng để ước tính phần dư của kernel khi ảnh SR là điều kiện cho kernel hiện tại Sau đó cập nhật kernel và dùng nó để tạo ra ảnh

SR mới với ít nhiễu hơn Mạng SR bao gồm lớp chuyển đổi đặc trưng không gian trong mỗi Residual-block va kernel blur hiện tại được sử dụng để tao các tham số biến đổi để thích ứng với đặc trưng, điều này hiệu qủa hơn việc cộng

concatenate đầu vào như SRMD Ngoài ra, một mô hình dự đoán được áp dụng

để khởi tao kernel blur chi dựa trên hình ảnh LR đầu vào và việc kéo giãn chiều

được áp dụng cho mã hóa kernel blur Một nghiên cứu gần đây hơn là DeepAlternating Network (DAN) [23] - là phiên ban nang cấp của IKC DAN kết hợp

bộ correcter và mang SR trở thành một bộ hợp nhất để có thé huấn luyện từ

đầu đến cuối thay vì huấn luyện rời rac hai mô-đun như IKC Cách huấn luyện

này giúp cho hai mô-đun tương thích với nhau hơn Hơn nữa, mô-đdun Correctors

và sử dụng ảnh LR gốc để ước tính kernel với điều kiện dựa trên kết quả SR

trung gian, điều này giúp cho khả năng ước lượng kernel tốt hơn

(a) IKC : (b) DAN

Kernel ho Kernel hị Kernel his, SR Output 3"

ee ` Network : i Corrector

LR Input = A Network

SR Output LỆ ' LR Input

Hình 2.5: Kiến trúc của IKC va DAN Nguồn: [22]

Trên thực tế, phương pháp dựa trên lặp của IKC và DAN có thể diễn giải

cho khả năng hoạt động tốt dựa vào độ thích ứng miền: thay vì tạo ra ảnh SRđầu ra trong theo một đường đi duy nhất như trong mô hình SRMD, những mô

hình IKC và DAN sẽ sử dụng những kết quả SR trung gian như một trạm trung

14

Trang 27

chuyển trong suốt quá trình ánh xạ từ miền LR tới miền HR, điều này phần nào

giúp những mô hình này vượt qua được van đề về khoảng cách của hai miền dữ

liệu Do vậy, những phương pháp này cho hiệu suất tốt hơn hắn so với SRMD

dựa vào khả năng ước tính kernel.

Tuy nhiên, nhược điểm của những phương pháp lặp này là thời gian suy diễn

cho mỗi bức ảnh khá lâu, ngoài ra còn phải tùy chỉnh số vòng lặp sao cho kết

quả tối ưu nhất (đây là một điều khó khăn) Để giải quyết những van đề đó, một

số phương pháp không lặp được đề xuất với khả năng ước tính suy giảm chínhxác hơn hoặc các chiến lược thích ứng tính năng hiệu quả hơn Unsupervised

Degradation Representation Learning for blind SR (DASR) [31] ưóc tính thông

tin suy giảm cùng với một bộ mã hóa đã được huấn luyện trong không gian đặc

trưng ngầm và bộ giải mã được huấn luyện theo chiến lược Contrastive learning

như trong học không giám sát Cụ thể, với những ảnh LR có cùng tác nhân làm

suy giảm chất lượng ảnh giống ảnh LR đầu vào thì được xem xét là các mẫudương, ngược lại nếu khác tác nhân thì xem là các mẫu âm Sau đó, thông tin

lẫn nhau giữa tất cả các mau được tối da hóa trong không gian tiềm an, dẫn đến các biểu diễn suy giảm nội dung bất biến Do đó những mô hình như thế này có thể đạt được kết quả ảnh SR tốt chỉ với một lần lan truyền tiến.

Có một số hướng tiếp cận khác đề xuất học một mô hình SR bằng cách gomnhiều tác nhân gây suy giảm ảnh trong tập dữ liệu huấn luyện, đặc biệt là các

kernel trong thực tế được ước tinh từ hình ảnh trong thé giới thực Ví dụ, Kernel

Modelling Super-resolution (KMSR) [38] xây dung một lượng lớn kernel với phân

phối được dựa trên kernel thực được ước tính trong ảnh LR thực tế Kernel ước

tính được dùng để tạo các cặp ảnh HR-LR và thực hiện huấn luyện các mô hình non-blind SR như học có giám sát Thông thường, một bộ dữ tổng quát hơn

giúp cho mô hình SR tăng khả năng phân biệt và xử lý tốt với các đầu vào LR

có mức độ suy giảm khác nhau Nói cách khác, mô hình SR sẽ có khả năng ước

lượng kernel tốt hơn trong quá trình huấn luyện, do đó tránh ước tính kernel

cụ thể trong một loại nhất định Tuy nhiên, cách tiếp cận này không giúp mô

hình có kết quả không quá tốt Một cách tiếp cận tương tự là RealSR [4] và

RealSRGAN [32] dé tạo ra các tập dit liệu với các kernel thực tế hơn nhiều Hình

minh họa của phương pháp được trình bày bên dưới:

Nhược điểm: So với các phương pháp tiếp cận không có ước lượng kernel,

các phương pháp này thực tế giúp chúng ta không phải tìm kiếm các thuật toán

phức tạp để ước tính hạt nhân, đặc biệt trong quá trình suy diễn, và đã thể hiện

hiệu suất ấn tượng Tuy nhiên, những mô hình đó vẫn không tránh khỏi nhược

điểm cố hữu của những mô hình cu thể: Kết qua đầu ra sẽ không tốt nếu yêu

15

Trang 28

Noise Pool

aa Degraded LR

Hình 2.6: Kiến trúc của KMSR và RealSR Nguồn: [38]

tố gây suy giảm chất lượng mô hình không bao gồm trong tập đã học của môhình Hạn chế này thực sự là vấn đề lớn đối với những hình ảnh phức tạp trong

thế giới thực, ngay cả khi chúng ta cố gắng huấn luyện mô hình với nhiều kiểu

tác nhân suy giảm Tiếp theo, chúng ta hãy bước sang một hướng tiếp cận khác,

trong đó mô hình sẽ sử dụng một hình ảnh đầu vào duy nhất để tạo ra ảnh SR

tương ứng.

Single Image Modelling with Internal Statistics Đúng như tên gọi của

nó, những mô hình này chỉ nhận đầu vào là một bức ảnh duy nhất Nhóm môhình này hoạt động dựa theo tính chất nội thống kê của ảnh tự nhiên: Nhữngvùng nhỏ ở trên ảnh thường có xu hướng lặp lại ở trong cũng như nhiều kíchthước nhỏ hơn của bức ảnh đó Tích chất này đã được chứng minh có khả năng

dự đoán tốt hơn thông tin thống kê bên ngoài của tập dữ liệu đối với nhiều hình

Một số công trình ví dụ như NPBSR [24] hay KernelGAN [1] dựa vào tính

chất này để giải quyết bài toán của mình Cụ thể, nó đề xuất một sử dụng lý thuyết cực đại hóa hậu nghiệm để có thể tối u kernel blur, dựa trên tính chất rằng kernel k tốt nhất là kernel mà nó có thể tối đa hóa sự tương đồng giữa các

vùng ảnh lặp lại trong các kích thước khác nhau Với KernelGAN, nó giả sử rằngảnh lấy mẫu xuống của ảnh LR mà được tạo bởi kernel k thì có cùng phân phối

16

Trang 29

vùng ảnh với ảnh LR gốc Nhờ vào khả năng của GAN [8], một mạng tuyến tính

sâu được dùng để tham số hóa để tạo ra kernel blur, và sử dụng mạng phân biệt

để có thể phân biệt được sự khác nhau giữa ảnh LR vừa được tạo từ trình tạo và

một vùng ảnh của ảnh LR gốc Khi quá trình huấn luyện kết thúc, ta thu được

kernel blur bằng cách nhân tích chập tất cả các kernel tích chập với nhau trongmạng tạo sinh Điều này chứng tỏ rằng quá trình huấn luyện chỉ phụ thuộc vào

mỗi ảnh LR đầu vào mà không cần bất cứ những dữ liệu nào khác, có thể được

xem là cơ chế “tu học có giám sát” (self-supervised learning)

i Fake Fake Real

Hình 2.8: Kiến trúc của ZSSR Nguồn: [5]

Ý tưởng về tự học có giám sát dựa trên tính chất lặp lại của các vùng ảnh nhỏ

có thẻ trực tiếp được áp dung để giải quyết bài toán Super-resolution Zero-shot

super-resolution (ZSSR) [ð] là công trình đầu tiên huấn luyện mang CNN với

đầu vào là ảnh LR cu thể để tạo ảnh SR mà không cần bất kỳ việc huấn luyện

trước nào Việc huấn luyện được thực hiện dựa trên các cặp HR-LR, chúng đượctạo ra từ một đầu vào LR duy nhất y, trong đó y được coi là HR và ảnh LR

tương ứng là ảnh được tạo ra từ bằng cách lấy mẫu xuống kernel k Mang được

huấn luyện với các cặp hình ảnh này sẽ có khả năng suy ra các mối quan hệ cụ

thể trên các kích thước khác nhau của ø, sau đó được sử dụng tạo ảnh dé SR

của y Ngoài ra, ZSSR có khả năng loại bỏ nhiễu rất tốt bằng cách thêm một sốnhiễu vào các mẫu huấn luyện LR, vì nó lập luận rằng chỉ nội dung trong ảnh

tương quan mới có xu hướng lặp lại trên các kích thước hơn là nhiễu.

Trên thực tế, ZSSR vẫn chưa quá phù hợp cho blind-SR: nó yêu cau kernel k

được ước tính như một đầu vào để có thể tạo ra ảnh LR tương ứng quá trình

huấn luyện Do đó, Depth Guided Degradation Model for Learning-based SR(DGDML-SR) ra đời DGDML-SR kết hợp mạng suy giảm và mang SR thành

một kiến trúc thống nhất, trong đó mạng suy giảm được huấn luyện để mô phỏng

quá trình suy giảm chất lượng ảnh, tương tự như hàm mục tiêu của KernelGAN,

17

Trang 30

(a) Externally trained network (b) Internally trained network

supervised SR An image-specific CNN Train on many HR-LR pairs Train on HR-LR pairs extracted from

the test image itself

Training Test image I

Testing

Hình 2.9: So sánh hai hướng tiếp cận huấn luyện có giám sát và tự học Nguồn:[22]

và mang SR được thiết kế tương tự Z9SR Sự kết hợp này cho phép sử dụng anh

LR vừa được tạo bởi quá trình suy giảm làm đầu vào cho mạng SR mà không

cần bất cứ quá trình trích xuất để tạo ra kernel blur.

Nhược điểm: Ý tưởng của cơ chế tự học có giám sát với thông tin thống

kê trong ảnh thực sự là một hướng tiếp cận hấp dẫn, sử dụng ảnh LR, với các

tác nhân làm giảm chất lượng bất kì để giải quyết bài toán SR Việc này giúp

cho mô hình không cần phải thu thập một lượng lớn dữ liệu để huấn luyện Tuy

nhiên, ý tưởng đó hoàn toàn có thể thát bại nếu ta gặp một số hình ảnh không

có tính chất lặp lại các vùng ảnh Ví dụ một số hình ảnh có nội dung đơn điệu,

bởi vì rất khó để ta có thể khai thác thông tin lặp lại Do đó, những cách tiếp cận này chỉ có thể tạo ra kết quả SR tốt cho một tập hợp ảnh rất hạn chế với

nội dung thường xuyên lặp lại trên các tỷ lệ.

Trên day là tổng quan về những hướng tiếp cận của Explicit degradation Modelling Hướng tiếp cận này khá rõ ràng và dễ hiểu Tuy nhiên, có thể qua đơn giản để mô hình hóa các sự suy giảm phức tạp trong thực tế, chang hạn

như sự suy giảm chất lượng ảnh trong thế giới thực bắt nguồn từ cảm biến máy

ảnh Diều này khiến ta khó có thể mô phỏng lại bằng một hàm xác định cụ thể

được Do đó, một nhóm phương pháp khác đề xuất mô hình hóa ngầm định sựsuy thoái thông qua việc học phân phối dữ liệu

18

Trang 31

Implicit Modeling Hướng tiếp cận này không chủ đích xây dựng một mô

hình có thể giải quyết bài toán SR, mà nó chỉ tập trung xây dựng một phương pháp tiếp cận giúp giảm bớt khoảng cách về phân phối giữa dữ liệu tổng hợp

và dữ liệu trong thế giới thực Tại vì sao ta cần phải giảm khoảng cách về miền

giữa hai miền dữ liệu đó? Để giải thích câu hỏi này, ta cần quay về thời điểm các

phương pháp non-blind SR đang nhận được nhiều sự chú ý của giới nghiên cứu,lúc này đa số hướng tiếp cận chủ yếu là học có giám sát, sử dụng các mô hình

mạng nơ-ron để huấn luyện các cặp HR-LR được tạo từ phép lẫy mẫu xuống

Bicubic từ anh HR Vì sự đơn giản trong cách tao anh LR nên các mô hình

thường đạt kết quả rất tốt Tuy nhiên những mô hình này không thực sự hoạt

động tốt khi gặp những trường hợp ảnh LR trong thực tế Để giải quyết được

van đề này, những mô hình học có giám sát cần phải có những cặp dữ liệu hoc

gồm các cặp HR-LR từ thực tế, tuy nhiên điều này là không thể Vì vậy, các nhà

nghiên cứu cố gắng tạo ra ảnh LR sao cho chúng giống với ảnh LR thật nhất

Nhờ vào sự phát triển của GANs và các mô hình tạo sinh khác, việc ánh xạ giữa

các miền dữ liệu đã trở nên dé dàng Tận dụng khả năng của GANs, CinGAN

[34] được ra đời với nhiệm vụ là có thể tạo ra một ảnh LR ở miền đơn giản như

làm mờ chỉ bởi phép lấy mẫu Bicubie từ một đầu vào LR trong thực tế bất kì,

sau đó ta sử dụng các mạng non-blind SR đã được huấn luyện để dự đoán với đầu vào ảnh LR bicubic CinGAN [34] dựa trên kiến trúc CycleGAN [39] nổi tiếng, với hai mạng tạo sinh và mạng phân biệt để có thể chuyển đổi miền dữ

liệu ảnh LR thực tế sang ảnh LR sạch như Bicucbic LR Nhu vậy trong mô hìnhnày, không hề có các cặp ảnh HR-LR trong suất quá trình huấn luyện, đây là

một phương pháp học không giám sát Tuy nhiên, học không giám sát vẫn là

một nhiệm vụ khó khi ta khó có thể tìm được một mặt phẳng có thể phân tách

hai miền dữ liệu này

Nhược điểm: Mặc dù có vẻ linh hoạt và mạnh mẽ, nhưng những phương

pháp này vẫn chưa thể có thể giải quyết được những khó khăn trong bài toán

blind-SR Bên cạnh đó, các phương pháp này phải dựa vào bộ dữ liệu lớn bên

ngoài để học được mô hình SR thông qua phân phối dữ liệu ngầm định, nhưng

việc thiếu dữ liệu khiến cho phương pháp này không phù hợp hoàn toàn vớimột số bài toán, ví dụ như khôi phục ảnh cũ Mặt khác, hầu hết phương pháp

sử dụng mô hình hướng GANs để học phân phối dữ liệu không được giám sát GANs có thể khó huấn luyện và nó sẽ thường xuyên tạo ra các lỗi nghiêm trọng

trong kết quả SR, ví dụ như nhiễu do việc mô hình GANs cố gắng tạo ra các

cấu trúc sao cho giống thật nhất Ta có thể xem hình ở bên dưới để hiểu rõ hơn

về nhiễu do những mô hình GANs tạo ra

19

Trang 32

(a) CinCGAN

Clean Sample

CorrectionNetwork

Input Output Input Output

Hình 2.11: Nhiéu do GANs tạo ra Nguồn: [22]

20

Trang 33

2.3 Tong quan về mô hình tao sinh

Mô hình tạo sinh sử dụng mạng nơ-ron có nguồn gốc từ những năm 1980 với

mục đích tìm hiểu về phân phối của dữ liệu mà không cần giám sát, có khả năng

mang lại lợi ích cho các bài toán phân loại, thu thập dữ liệu huấn luyện cho việc học không có giám sát đương nhiên là tốn ít công sức hơn nhiều so với thu thập

dit liệu được dán nhãn nhưng chúng van đem lại kết quả tốt cho thấy rõ ràng

rằng các mô hình tạo sinh có ứng dụng rất nhiều trong các lĩnh vực về học máyngày nay Ngoài ra, mô hình tạo sinh có nhiều ứng dụng trực tiếp bao gồm tổng

hợp hình ảnh: siêu độ phân giải, chuyển văn bản sang hình ảnh và hình ảnh thành hình ảnh, tô màu, ước lượng tư thế; âm thanh: tổng hợp lời nói, bài hát;

văn bản: tóm tắt và dịch thuật; học tăng cường

Y tưởng chính của các mô hình tạo sinh là huấn luyện một mô hình có thể lấy

mau từ cùng một phân phối ví dụ như phân phối của dữ liệu được huấn luyện

Các mô hình tạo sinh thường phải đánh đổi về thời gian thực thi hoặc kiến trúc Việc chọn ưu tiên những tiêu chí nào để tối ưu hóa có ý nghĩa đối với chất lượng

mẫu, với khả năng tối ưu hóa trực tiếp thường dẫn đến chất lượng mẫu kém hơn

so với các lựa chọn thay thế

Gan đây có những nghiên cứu tiêu biểu về mô hình tao sinh ví dụ như VAEs, GANs hay Normalizing Flows Ta sẽ lần lượt tìm hiểu về cơ sở lý thuyết, cũng như là ưu nhược điểm của từng loại mô hình.

2.3.1 Variational Autoencoders

Ý tưởng về Variational Autoencoder [17] (Kingma va Welling, 2014), viết tắt của

VAE, thực sự ít giống với tất cả các mô hình autoencoder, nhưng bắt nguồn sâu

xa từ các phương pháp của mô hình đồ họa và mô hình Bayes biến thể.

Thay vì ánh xạ đầu vào thành một vectơ cố định, chúng tôi muốn ánh xạ nóthành một phân phối Ví dụ phân phối này là pg, được tham số hóa bởi 6 Mối

quan hệ giữa đầu vào dữ liệu z và vectơ mã hóa tiềm an z có thể được xác định

Trang 34

Giả sử rằng chúng ta biết tham số thực 6* cho phân phối này Dé tạo một mẫu trông giống như một điểm dữ liệu thực 2’, chúng tôi làm theo các bước sau:

1 Đầu tiên, lấy mẫu z từ một phân phối tiên nghiệm pg: (z)

2 Sau đó, một giá tri 2’ được sinh ra từ phân phối có điều kiện pạ(z | z = z')

_ An compressed low dimensional

z=um+ơ@ec representation of the input

Hình 2.12: Minh họa về mô hình tự động mã hóa biến thiên với giả thiết Gaussian

Bay giờ, hãy cập nhật phương trình để chứng minh tốt hon quá trình tao ditt

liệu liên quan đến vectơ mã hóa:

Trang 35

giữa hai xác suất, ta có:

Dkr(đø(z | #) || po(z | #))) = log pe(x) + Dex (de(z | 3) || pa(2)) — Ez~4„logpa(z | 2)

(2.6)

Tương đương với:

log po(x) — Dr(q¿(2 | x) || pa(z | #))) = E:~¿„logpa(# | z) — Dr(q¿(z | 2) || pol)

(2.7)

LHS của phương trình chính xác là những gì chúng ta muốn tối đa khi học cácphân phối thực: Chúng ta muốn cực đại hóa khả năng của việc tạo ra nhữngmau dữ liệu thật (về trái) Ta có hàm mat mát cho VAEs:

£vAr(0,ð) = — log po(x) + Dr(q¿( | z) || po(z | #))) (2.8)

= —E¿~q„logpg(# | z) + r(qa(z | x) || pa(2)) (2.9)

0”,@” = argming gLv AE (2.10)

Trong các phương pháp Bayes biến đổi, ham mat mát này được gọi là "giới hạn dưới biến đổi", hoặc "giới hạn dưới bằng chứng" Phần "giới hạn dưới" trong

tên gọi xuất phát từ thực tế là phân kỳ KL luôn không âm và do đó —Lyag là

giới hạn dưới của log po(x).

Ly ag = logpa() — =Dwr(q¿(2 | 2) || pøŒ | #))) Š log pol) (2.11)

Do đó, bằng cách giảm thiểu tổn that, chúng ta đang tối đa hóa giới hạn dưới

của xác suất tạo ra các mẫu dữ liệu thực

Ưu điểm của VAEs Do mô hình được tối ưu bằng log-likelihood, vậy nên ta

có thể dễ dàng đánh giá chất lượng mô hình thông qua log-likelihood.

Nhược điểm của VAEs Do VAEs sử dụng bộ giải mã thông thường và khi

tối ưu bằng maximum log-likelihood, đầu ra của VAEs thường cho kết quả mờ

hơn GANs.

Phần tiếp theo, ta sẽ đi sang một mô hình tạo sinh được xem là phổ biến nhất

và được ứng dụng nhiều nhất trong các loại mô hình tạo sinh chính là GANs

23

Trang 36

2.3.2 Mạng đối kháng tạo sinh

Mạng đối kháng tạo sinh (Generative adversarial network) (GAN) [8] đã chothấy kết quả tuyệt vời trong nhiều nhiệm vụ chung nhằm tái tạo nội dung phong

phú trong thế giới thực như hình ảnh, ngôn ngữ con người và âm nhạc Nó được

lấy cảm hứng từ lý thuyết trò chơi: hai mô hình, một người cô gắng tao ra những

sản phẩm sao cho nó nhìn giống sản phẩm thật nhất, một người cố gắng phan biệt được những sản phẩm thật và sản phẩm do người còn lại tái tạo, hai người

đó đồng thời cạnh tranh với nhau để nâng cao khả năng của nhau hơn Tuy

nhiên, việc huấn luyện một mô hình GAN là một thách thức khá lớn, vì mọi

người đang phải đối mặt với các vấn đề như huấn luyện không ổn định hoặc

không hội tụ.

GAN bao gồm hai mô hình:

e Mô hình Discriminators phân biệt ước tính xác suất của một mau nhất định

đến từ tập dữ liệu thực Nó hoạt động như một nhà người kiểm tra và được tối ưu hóa để phân biệt các mẫu giả với mẫu thật.

e Mô hình Generator tạo ra các mẫu tổng hợp được cung cấp đầu vào biến

nhiễu z (z mang lại sự đa dạng đầu ra tiềm năng) No được huấn luyện để nắm bắt phân phối dữ liệu thực để các mẫu tổng hợp của nó có thể giống thật nhất có thể, hay nói cách khác, có thể đánh lừa người phân biệt để đưa

ra xác suất cao

Hai mô hình này cạnh tranh với nhau trong quá trình huấn luyện: Generator

cố gắng hết sức để đánh lừa Discriminator, trong khi Discriminator cố gắng hết sức để không bị lừa Trò chơi thúc đẩy cả hai cải thiện chức năng của chúng.

Một mặt, chúng ta muốn đảm bảo các quyết định của Discriminator phân biệt

đối với dữ liệu thực là chính xác bằng cách tối đa hóa E,W», (7) [IogD(z)] Đồng

thời, với dữ liệu giả được tạo bởi Generator, z ~ p,(z), Disciminator được kỳ

vọng đầu ra của nó khi phân biệt dữ liệu giả là xấp xỉ 0 bằng cách tối đa hóa

Trang 37

Real Samples

| | — Learn how to tell apart

Latent fake data from true data

mẽ ¡_ Fine Tune Training 5”.

Hình 2.13: Minh hoa kiến trúc mang GAN[8]

trong đó chúng ta cần phải tối ưu hàm mất mát:

min max L(D, G) = Lew pr( a2) [log D(x)] + 2p (2) (log(1 — D(G(z)))] (2.12)

= Ey xp,(a)llog D@)] + Ex~p,(2)[log(l — D(z)] (2.13)

(Ey xp,(«) log 2(z)] không anh hưởng tới đạo ham của G trong quá trình cập nhật)

Ưu điểm của GANs GANs ngày này được sử dụng rộng rãi trong những

ứng dụng ngày nay bởi vì các lý do sau:

e GANs được huấn luyện không giám sát, do đó nó không yêu cầu các cặp dit

liệu - nhãn Điều này giảm bớt công đoạn gán nhãn dữ liệu, giúp cho mô hình trở nên hữu ích hơn vì gán nhãn là một giai đoạn khá tốn kém.

e GANs có thể tao ra những bức ảnh sắc nét bở vì GANs được huấn luyện

đối nghịch và những bức ảnh mờ được tạo bởi MSE thường không thể xuất

hiện trong GANs.

e Cài đặt dễ dang vi cả mạng G và mang D đều được huấn luyện thông qua

lan truyền ngược hàm mất mát

25

Trang 38

Những vấn đề của GANs Mặc dù GAN đã rất thành công trong bài toán

cần tạo ra hình ảnh thực tế, nhưng việc huấn luyện không hề dễ dàng: Quá trình

này được biết là chậm và không ổn định Cụ thể là:

e Khó đạt được cân bang Nash.

e Tiêu biến đạo hàm có thẻ khiến mạng không thể học được

e Tạo ra các ảnh đơn điệu (Mode collapse) Dây chính là nhược điểm lớn nhất

của mô hình này.

e Khó có thể đánh giá mô hình nào tốt hơn ngoài cách trực quan hóa các mẫu

đữ liệu lên và so sánh

2.3.3 Normalizing Flows

Khác với VAEs hay GANs, Normalizing Flows (NFs) [18] được xây dựng bởi một

chuỗi phép biến đổi nghịch đảo, mô hình nay hoc phan phối dit liệu p(x) cho nên

hàm mất mát đơn giản là negative log-likelihood

NF biến phân phối đơn giản thành phức tạp bằng cách áp dụng một chuỗicác hàm biến đổi khả nghịch Trong một chuỗi các phép biến đổi, nó liên tục

thay thế biến mới cho biến mới theo định lý thay đổi biến và cuối cùng thu được

phân phối xác suất của biến mục tiêu cuối cùng

Dựa vào ví dụ trên, ta có:

Zi-1 ~ Pi-1(Zi-1) (2.14)

Z¿ = fi(zi-1), thus 2-1 = f; ' (zi) (2.15)

-1 df

pi(zi) = pi-1(f; (2¿)) |det 1a (2.16)

Sau đó, chuyển phương trình thành một hàm của z; để chúng ta có thể suy

luận với phân phối cơ sở

26

Trang 39

-1 df,"

pi(zi) = pi-r(f; (zi) |det =.— (2.17)

_ on xứ, LAN = pi-1(Zi-1) |det (=~) (2.18)

Một lưu ý về "Jacobians của hàm khả nghịch": Định thức nghịch đảo của

ma trận khả nghịch là nghịch đảo của định thức: det(M~') = (det(M))~1 vìdet(M) det(M—1) = det(M - M7!) = det(I) = 1

Với một chuỗi các hàm mật độ xác suất như vậy, chúng ta biết mối quan hệ

giữa từng cặp biến liên tiếp Chúng ta có thể mở rộng phương trình của đầu ra

x từng bước cho đến khi truy tìm trở lại phân phối ban đầu zp

= log0(Z0) — 2- log |det đc (2.26)

Đường đi qua các biến ngẫu nhiên z; = ƒ,(z¿_¡) là dòng và chuỗi day đủ được

hình thành bởi sự phân bố liên tiếp x; được gọi là Normalizing Flows Để có thể

27

Trang 40

tính toán được phương trình này, một hàm biến đổi ƒ; cần phải thỏa mãn hai

tính chất sau đây: 1) Có hàm nghịch đảo 2) Dễ dàng tính định thức Jacobian

Ưu điểm của NEs Uu điểm của NE chính là tính chính xác likelihood của

từng mẫu dữ liệu mô hình sinh ra thay vì tính log-likelihood của cả mô hình như

VAEs hay dựa trên mạng phân biệt D như GANs Diều này hoàn toàn giúp cho

mô hình cho kết quả đầu ra tốt hơn những mô hình trước đó

Nhược điểm của NEs Nhược điểm của mô hình này là do sự ràng buộc phức

tạp, phụ thuộc bởi cách tính định thức Jacobian khiến cho mô hình huấn luyện

rất khó khăn, điều này khiến cho NFs ngày nay tuy hiệu suất có thể vượt trội

GANs, tuy nhiên GANs vẫn được sử dụng rộng rãi trong các bài toán ngày nay.

Vừa rồi ta đã đi qua ba mô hình tạo sinh tiêu biểu nhất trong kỷ nguyên học sâu, tuy nhiên kể từ năm 2020, có một mô hình nổi lên với khả năng tao ra các

mau dữ liệu có chất lượng vượt trội GANs, được giới nghiên cứu quan tâm trongthời gian gần đây chính là “Mô hình Khuéch tán” (Diffusion Models) Day chính

là mô hình chính của chúng tôi sử dung trong bài toán SR Chi tiết về cd sở lý

thuyết cũng như cách vận dụng mô hình khuếch tán áp dụng vào bài toán SR sẽ

được đề cập ở trong Chương 3 của cuốn khóa luận này

28

Tiêu đề	Tái tạo ảnh độ phân giải cao từ ảnh đơn bằng cách ước tính Kernel Blur sử dụng mô hình khuếch tán
Tác giả	Hoàng Viễn Duy
Người hướng dẫn	TS. Nguyễn Vinh Tiệp
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học Máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	82
Dung lượng	58,49 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Sefi Bell-Kligler, Assaf Shocher, and Michal Irani. Blind super-resolutionkernel estimation using an internal-gan. arXiv preprint arXiv:1909.06581,2019	Khác
(2) Marco Bevilacqua, Aline Roumy, Christine Guillemot, and Marie Line Alberi-Morel. Low-complexity single-image super-resolution based on nonnegative neighbor embedding. 2012	Khác
[3] Sean Borman and Robert L Stevenson. Super-resolution from imagesequences-a review. IEEE, 1998	Khác
[4] Jianrui Cai, Hui Zeng, Hongwei Yong, Zisheng Cao, and Lei Zhang. Toward real-world single image super-resolution: A new benchmark and a new model.In Proceedings of the IEEE/CVF International Conference on ComputerVision, pages 3086-3095, 2019	Khác
[5] Xi Cheng, Zhenyong Fu, and Jian Yang. Zero-shot image super-resolutionwith depth guided internal degradation learning. In European Conference on Computer Vision, pages 265-280. Springer, 2020	Khác
[6] Chao Dong, Chen Change Loy, Kaiming He, and Xiaoou Tang. Imagesuper-resolution using deep convolutional networks. IEEE transactions onpattern analysis and machine intelligence, 38(2):295-307, 2015	Khác
[7] Yosef Gandelsman, Assaf Shocher, and Michal Irani. Double-dip: Unsuper-vised image decomposition via coupled deep-image-priors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition	Khác
[8] lan Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generativeadversarial networks. Communications of the ACM, 63(11):139-144, 2020	Khác
[10] Wei Han, Shiyu Chang, Ding Liu, Mo Yu, Michael Witbrock, and Thomas SHuang. Image super-resolution via dual-state recurrent networks. In Pro- ceedings of the IEEE conference on computer vision and pattern recognition, pages 1654-1663, 2018	Khác
[11] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residuallearning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770-778, 2016	Khác
[12] Yu He, Kim-Hui Yap, Li Chen, and Lap-Pui Chau. A soft map framework forblind super-resolution image reconstruction. Image and Vision Computing,27(4):364-373, 2009	Khác
[13] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilisticmodels. arXiv preprint arXiv:2006.11289, 2020	Khác
[14] Jia-Bin Huang, Abhishek Singh, and Narendra Ahuja. Single image super- resolution from transformed self-exemplars. In Proceedings of the [EEE Conference on Computer Vision and Pattern Recognition, pages 5197-5206,2015	Khác
[15] James M. Joyce. Kullback-Leibler Divergence, pages 720-722. Springer BerlinHeidelberg, Berlin, Heidelberg, 2011	Khác
[16] Jiwon Kim, Jung Kwon Lee, and Kyoung Mu Lee. Accurate image super-resolution using very deep convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1646-1654,2016	Khác
[17] Diederik P Kingma and Max Welling. Auto-encoding variational bayes.arXiv preprint arXiv:1812.6114, 2013	Khác