Tiểu luận môn học sâu Đề tài Ứng dụng mạng esrgan trong siêu phân giải Ảnh

Trong nỗ lực đáp ứng nhu cầu này, ESRGAN EnhancedSuper-Resolution Generative Adversarial Networks đã trở thành một công cụ mạnh mẽ, đặc biệt là khi nói đến việc nâng cao chất lượng của c

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

KHOA CÔNG NGHỆ THÔNG TIN

- - - - -o0o- - -

TIỂU LUẬNMÔN: HỌC SÂU

Đề tài: Ứng dụng mạng ESRGAN trong siêu phân giải ảnh

Giáo viên hướng dẫn: TS Trần Hùng Cường Lớp: CH-K13

Học viên thực hiện: Chu Đức Long – 2023700046

Cao Văn Khải – 2023700059

Hà Nội, tháng 11 năm 2023

MỤC LỤC

Trang 2

LỜI NÓI ĐẦU 4

CHƯƠNG 1 GIỚI THIỆU TỔNG QUAN ĐỀ TÀI 5

CHƯƠNG 2: PHƯƠNG PHÁP TIẾN HÀNH 9

2.1 Giới thiệu kiến trúc SRResNet 9

2.2 Kiến trúc mạng 10

2.3 Sự phân biệt tương đối (Relativistic Discriminator) 11

2.4 Hàm mất mát (Perceptual Loss) 12

2.5 Mạng nội suy (Network Interpolation) 13

CHƯƠNG 3 THỬ NGHIỆM 14

3.1 Chi tiết thử nghiệm 14

3.2 Dữ liệu thử nghiệm 14

3.3 Kết quả thử nghiệm 14

CHƯƠNG 4 CÀI ĐẶT CHƯƠNG TRÌNH 17

4.1 Thông tin sản phẩm: 17

4.2 Code chương trình ứng dụng mạng ESRGAN trong siêu phân giải ảnh 18 4.3 Kết quả chương trình 21

KẾT LUẬN 22

Tài liệu tham khảo 23

Trang 3

DANH MỤC HÌNH ẢNH

Hình 1: Kết quả siêu phân giải SRGAN, ESRGAN 5

Hình 2: Mặt phẳng biến dạng nhận thức trên bộ dữ liệu tự xác thực PirM 7

Hình 3: Kiến trúc SRResNet [1] 9

Hình 4: Kết hợp mạng dư đa cấp và các kết nối 10

Hình 5: Sự khác biệt giữa bộ phân biệt tiêu chuẩn và bộ phân biệt tương đối 11

Hình 6: Hình ảnh đặc trưng trước và sau khi kích hoạt cho hình ảnh 13

Hình 7: Kết quả định tính của ESRGAN 15

Hình 8: Hình ảnh trước khi kích hoạt ESRGAN 21

Hình 9: Hình ảnh sau khi kích hoạt ESRGAN 21

Hình 10: Hình ảnh dung lượng trước và sau khi kích hoạt ESRGAN 21

Trang 4

LỜI NÓI ĐẦU

Em xin chân thành cảm ơn thầy TS Trần Hùng Cường đã tin tưởng và cho

phép em chọn đề tài “Ứng dụng mạng ESRGAN trong siêu phân giải ảnh” Đề

tài này đã mang lại cho em nhiều trải nghiệm quý báu cũng như kiến thức vô cùng

bổ ích trong lĩnh vực công nghệ thông tin

Trong quá trình thực hiện đề tài, em đã được hỗ trợ nhiệt tình từ thầy.Những kiến thức, kinh nghiệm cùng lời khuyên của thầy đã giúp em hoàn thành đềtài một cách hiệu quả nhất

Trong lĩnh vực xử lý ảnh, việc tạo ra các hình ảnh có độ phân giải cao và chitiết là một thách thức lớn Trong nỗ lực đáp ứng nhu cầu này, ESRGAN (EnhancedSuper-Resolution Generative Adversarial Networks) đã trở thành một công cụ mạnh mẽ, đặc biệt là khi nói đến việc nâng cao chất lượng của các hình ảnh có độ phân giải thấp

Trong bài viết này, chúng em sẽ tìm hiểu về cách mà ESRGAN hoạt động,

từ cơ bản đến ứng dụng thực tiễn Chúng ta sẽ phân tích cách mà thuật toán này sử dụng mạng phát sinh chống lại để tạo ra các hình ảnh siêu phân giải, cũng như lợi ích và thách thức khi áp dụng trong thực tế

Đề tài này không chỉ giúp em nâng cao kiến thức, kỹ năng mà còn giúp em

có cơ hội thực hành và áp dụng các kiến thức đã học vào thực tế Em tin rằngnhững kết quả và những kinh nghiệm thu được từ đề tài này sẽ có thể áp dụngtrong công việc của em trong tương lai

Một lần nữa, em xin chân thành cảm ơn thầy đã giúp đỡ em trong quá trìnhnghiên cứu và thực hiện đề tài này

Trân trọng,

Trang 5

CHƯƠNG 1 GIỚI THIỆU TỔNG QUAN ĐỀ TÀI

Siêu phân giải hình ảnh đơn (SISR) hiện đang được chú ý trong cộng đồngnghiên cứu và các công ty AI SISR nhằm mục đích khôi phục hình ảnh có độ phângiải cao (HR) từ một hình ảnh có độ phân giải thấp (LR)

Kể từ công trình tiên phong của SRCNN (Super-Resolution ConvolutionalNeural Network) được đề xuất bởi Dong et al, các phương pháp tiếp cận mạng nơ-ron tích chập sâu (CNN) đã mang lại sự phát triển tốt

Các chiến lược đào tạo và thiết kế kiến trúc mạng khác nhau đã liên tục cảithiện hiệu suất SR, đặc biệt là giá trị Tỷ lệ tín hiệu trên tạp âm (PSNR - PeakSignal-to-Noise Ratio ) Tuy nhiên, các phương pháp tiếp cận theo định hướngPSNR này có xu hướng tạo ra các kết quả quá mịn mà không có đủ chi tiết tần sốcao, vì số liệu PSNR về cơ bản không đồng ý với đánh giá chủ quan của ngườiquan sát

Hình 1: Kết quả siêu phân giải SRGAN, ESRGAN

Trang 6

Một số phương pháp dựa trên nhận thức đã được đề xuất để cải thiện chấtlượng hình ảnh của kết quả SR

Ví dụ, mất mát cảm quan (perceptual loss) được đề xuất để tối ưu hóa môhình siêu phân giải trong không gian đặc trưng thay vì không gian pixel Mạng đốilập tổng hợp (Generative adversarial network) được giới thiệu với SR để khuyếnkhích mạng ưu tiên các giải pháp trông giống hình ảnh tự nhiên hơn Hình ảnh ngữnghĩa trước đó được kết hợp thêm để cải thiện các chi tiết kết cấu được phục hồi.Một trong những cột mốc quan trọng trong quá trình theo đuổi kết quả đẹp mắt vềmặt hình ảnh là SRGAN Mô hình cơ bản được xây dựng với các khối dư và đượctối ưu hóa bằng cách sử dụng tổn thất cảm nhận trong khung GAN Với tất cả các

kỹ thuật này, SRGAN cải thiện đáng kể chất lượng hình ảnh tổng thể của việc táithiết so với các phương pháp định hướng PSNR

Hình 1: Kết quả siêu phân giải cho SRGAN2, ESRGAN được thể hiện,ESRGAN vượt trội hơn SRGAN về độ sắc nét và chi tiết Tuy nhiên, vẫn tồn tạimột khoảng cách rõ ràng giữa kết quả SRGAN và hình ảnh thực tế (GT), như trongHình 1

Trong nghiên cứu này, các thành phần chính của SRGAN được xem lại vàcải thiện mô hình theo ba khía cạnh

Đầu tiên, cải thiện cấu trúc mạng bằng khối dày đặc dư (RDDB - Residual inResidual Dense Block), có công suất cao hơn và dễ đào tạo hơn Ngoài ra cũng loại

bỏ các lớp chuẩn hóa hàng loạt (BN) và sử dụng tỷ lệ dư và khởi tạo nhỏ hơn đểtạo điều kiện cho việc đào tạo một mạng rất sâu

Thứ hai, cải thiện trình phân biệt đối xử bằng cách sử dụng GAN trung bìnhtương đối tính (RaGAN) , học cách đánh giá “liệu một hình ảnh này thực tế hơn

Trang 7

hình ảnh kia” thay vì “liệu một hình ảnh là thật hay giả” Thử nghiệm cho thấy cảitiến này giúp trình tạo khôi phục các chi tiết kết cấu chân thực hơn

Thứ ba, đề xuất cải thiện tình trạng mất nhận thức bằng cách sử dụng các tính năng VGG trước khi kích hoạt thay vì sau khi kích hoạt như trong SRGAN Theo kinh nghiệm, mức giảm nhận thức được điều chỉnh mang lại các cạnh sắc néthơn kết quả trực quan dễ chịu hơn, như sẽ được trình

Hình 2: Mặt phẳng biến dạng nhận thức trên bộ dữ liệu tự xác thực PirM.

Các đường cơ sở của EDSR, RCAN và EnhanceNet cũng như mô hìnhESRGAN được hiển thị Các chấm màu xanh được tạo ra bằng phép nội suyhình ảnh

Nghiên cứu sử dụng một biến thể của ESRGAN để tham gia Thử tháchPIRM-SR Thử thách này là cuộc thi SR đầu tiên đánh giá hiệu suất theo cách

Trang 8

nhận thức về chất lượng nhận thức dựa, trong đó các tác giả cho rằng sự biếndạng và chất lượng nhận thức mâu thuẫn với nhau Chất lượng cảm nhận đượcđánh giá bằng các thước đo không tham chiếu về điểm Ma và NIQE, chỉ số

cảm nhận = 12((10 - Ma)+NIQE) Chỉ số nhận thức thấp hơn đại diện cho chỉ

số nhận thức = chất lượng nhận thức tốt hơn

Như được hiển thị trong hình 2, mặt phẳng biến dạng nhận thức được chiathành ba vùng được xác định bởi các ngưỡng của RMSE và thuật toán đạt đượcchỉ số cảm nhận thấp nhất ở mỗi khu vực sẽ trở thành thuật toán dẫn đầu khuvực Chúng tôi chủ yếu tập trung vào khu vực 3 vì mục tiêu đưa chất lượngcảm nhận lên một tầm cao mới

Để cân bằng chất lượng hình ảnh và RMSE/PSNR, chiến lược nội suy mạngđược đề xuất thêm, có thể liên tục điều chỉnh phong cách tái thiết và độ mượt

mà Một cách khác là nội suy hình ảnh, nội suy trực tiếp từng pixel hình ảnh

Trang 9

CHƯƠNG 2: PHƯƠNG PHÁP TIẾN HÀNH 2.1 Giới thiệu kiến trúc SRResNet

Mục đích chính của chúng tôi là cải thiện chất lượng cảm nhận tổng thể cho

SR Trong phần này, trước tiên chúng tôi mô tả kiến trúc mạng được đề xuất vàsau đó thảo luận về cải thiện từ sự phân biệt đối xử và mất nhận thức Cuốicùng, chúng tôi mô tả chiến lược nội suy mạng để cân bằng chất lượng cảmnhận và PSNR

Hình 3: Kiến trúc SRResNet [1]

Chúng tôi sử dụng kiến trúc cơ bản của SRResNet [1], trong đó hầu hết việctính toán được thực hiện trong không gian tính năng LR Chúng ta có thể chọnhoặc thiết kế “khối cơ bản” (ví dụ: khối dư [18], khối dày đặc [34], RRDB) để cóhiệu suất tốt hơn

Trong SRResNet, kiến trúc mạng được xây dựng dựa trên mạng ResidualNetwork (ResNet) Mạng ResNet đã được chứng minh là hiệu quả trong việc huấnluyện các mô hình sâu và giảm hiện tượng suy hao độ sâu

Cấu trúc SRResNet bao gồm nhiều khối residual (residual blocks) liên tiếpnhau Mỗi khối residual bao gồm hai lớp tích chập (convolutional layers) với kíchthước kernel nhỏ và số lượng bộ lọc tương đối lớn Giữa hai lớp tích chập, có mộtlớp kích hoạt ReLU để giữ cho đầu ra không âm và tạo tính phi tuyến cho mô hình

Sự kết hợp của các khối residual này giúp mạng học được các hàm còn sótlại (residual functions) để tạo ra các chi tiết hơn trong quá trình siêu phân giải

Trang 10

Điều này cho phép mô hình tạo ra các ảnh có độ sắc nét và kết cấu tự nhiênhơn Ngoài ra, SRResNet cũng sử dụng các lớp upscaling (tăng cường tỷ lệ) đểtăng kích thước của ảnh đầu ra Thông thường, một lớp upscaling sử dụng phép nộisuy tuyến tính như nội suy hai lần (bilinear interpolation) hoặc nội suy cực đại(nearest-neighbor interpolation) để tăng kích thước ảnh lên gấp đôi.

2.2 Kiến trúc mạng

Để cải thiện hơn nữa chất lượng hình ảnh được phục hồi của SRGAN, chúngtôi chủ yếu thực hiện hai sửa đổi đối với cấu trúc của bộ tạo G: 1) loại bỏ tất cảcác lớp BN; 2) thay thế khối cơ bản ban đầu bằng Khối dư được đề xuất Khốidày đặc (RRDB), kết hợp mạng dư đa cấp và dày đặc các kết nối được mô tảtrong hình 4

Hình 4: Kết hợp mạng dư đa cấp và các kết nối

Bên trái: Chúng tôi loại bỏ các lớp BN trong khối dư trong SRGAN Phải: KhốiRRDB được sử dụng trong mô hình sâu hơn của chúng tôi và β là tham số chia tỷ

Trang 11

trình thử nghiệm Khi số liệu thống kê của tập dữ liệu huấn luyện và kiểm tra khácnhau rất nhiều, các lớp BN có xu hướng tạo ra các tạo tác khó chịu và hạn chế khảnăng tổng quát hóa Chúng tôi quan sát bằng thực nghiệm rằng các lớp BN cónhiều khả năng mang lại tạo tác khi mạng sâu hơn và được đào tạo theo khungGAN Những tạo tác này đôi khi xuất hiện giữa các lần lặp lại và các cài đặt khácnhau, vi phạm nhu cầu về hiệu suất ổn định trong quá trình đào tạo Do đó, chúngtôi loại bỏ các lớp BN để luyện tập ổn định và đạt hiệu suất ổn định Hơn nữa, việcloại bỏ các lớp BN giúp cải thiện khả năng khái quát hóa và giảm độ phức tạp tínhtoán cũng như mức sử dụng bộ nhớ.

Chúng tôi giữ nguyên thiết kế kiến trúc cấp cao của SRGAN (xem Hình 3) và sửdụng khối cơ bản mới có tên là RRDB như được mô tả trong Hình 4 Dựa trênquan sát rằng nhiều lớp và kết nối hơn luôn có thể tăng hiệu suất, RRDB được đềxuất sử dụng cấu trúc sâu hơn và phức tạp hơn khối dư ban đầu trong SRGAN Cụthể, như trong Hình 4, RRDB được đề xuất có cấu trúc phần dư trong phần dư,trong đó việc học phần dư được sử dụng ở các cấp độ khác nhau Một cấu trúcmạng tương tự được đề xuất trong cũng áp dụng mạng dư đa cấp

2.3 Sự phân biệt tương đối (Relativistic Discriminator)

Hình 5: Sự khác biệt giữa bộ phân biệt tiêu chuẩn và bộ phân biệt tương đối

Trang 12

ESRGAN (Enhanced Super-Resolution Generative Adversarial Network) làmột phương pháp cải tiến của mạng Generative Adversarial Network (GAN) được

sử dụng để nâng cấp chất lượng ảnh (Super-Resolution)

Cấu trúc của bộ phân biệt (discriminator):

- Trong GAN thông thường: Sử dụng bộ phân biệt có dạng D(x) = σ(C(x)),với σ là hàm sigmoid và C(x) là đầu ra chưa được xử lý của bộ phân biệt

- Trong ESRGAN: Sử dụng bộ phân biệt loại Relativistic averageDiscriminator (RaD), được ký hiệu là DRa(xr, xf) DRa so sánh điểm ảnhthực (xr) với trung bình của các điểm ảnh giả (xf) trong cùng một mẻ(mini-batch) xử lý

Lợi ích của ESRGAN: Nhờ những cải tiến này, ESRGAN có khả năng tạo raảnh chất lượng cao hơn, với các chi tiết sắc nét và kết cấu tự nhiên hơn so vớiSRGAN (Super-Resolution Generative Adversarial Network)

Trong SRGAN: Máy phát tạo ra ảnh giả (xf) từ ảnh đầu vào chất lượng thấp(xi) Bộ phân biệt phân biệt ảnh giả (xf) và ảnh thực (xr) Trong ESRGAN: Bộphân biệt RaD so sánh điểm ảnh thực (xr) với trung bình của các điểm ảnh giả (xf)trong cùng một mẻ (mini-batch) xử lý Nhờ đó, Máy phát học được từ cả ảnh thực(xr) và ảnh giả (xf), giúp tạo ra ảnh chất lượng cao hơn Kết luận: ESRGAN là một

Trang 13

cải tiến hiệu quả cho mạng GAN được sử dụng để nâng cấp chất lượng ảnh Nhờ

sử dụng bộ phân biệt RaD và hàm mất mát L_RaG, ESRGAN có khả năng tạo raảnh chất lượng cao hơn, với các chi tiết sắc nét và kết cấu tự nhiên hơn so vớiSRGAN

Hình 6: Hình ảnh đặc trưng trước và sau khi kích hoạt cho hình ảnh

2.5 Mạng nội suy (Network Interpolation)

Phương pháp này kết hợp hai mạng: một mạng được tối ưu hóa cho tỷ lệ tínhiệu nhiễu cao (PSNR) và một mạng được tối ưu hóa cho chất lượng nhận thức.Bằng cách kết hợp hai mạng này, phương pháp Network Interpolation có thể tạo rahình ảnh chất lượng cao với ít nhiễu hơn

Kết quả thí nghiệm: Phương pháp Network Interpolation được đánh giá trênmột số tập dữ liệu hình ảnh và so sánh với các phương pháp GAN khác Kết quảcho thấy rằng phương pháp Network Interpolation có thể tạo ra hình ảnh chấtlượng cao hơn với ít nhiễu hơn

Kết luận: Phương pháp Network Interpolation là một phương pháp mới đểcân bằng chất lượng nhận thức và độ trung thực trong các phương pháp dựa trênGAN Phương pháp này có thể tạo ra hình ảnh chất lượng cao với ít nhiễu hơn

Trang 14

CHƯƠNG 3 THỬ NGHIỆM 3.1 Chi tiết thử nghiệm

Theo SRGAN, tất cả các thí nghiệm được thực hiện với hệ số tỷ lệ là x4 giữahình ảnh LR và HR

Hình ảnh LR thu được bằng cách lấy mẫu ảnh xuống HR để sử dụng hàmMATLAB Kích thước tệp được đặt thành 16 Kích thước không gian sử dụng củabản vá HR đã cắt là 128x128

3.2 Dữ liệu thử nghiệm

Việc sử dụng tập dữ liệu lớn sẽ tạo ra kết quả tự nhiên Bộ dữ liệu sử dụngchủ yếu là DIV2K (bộ dữ liệu chất lượng cao, phân giải 2k) cho các tác vụ khôiphục hình ảnh, gồm có 800 ảnh Ngoài ra, nghiên cứu sử dụng một số tệp dữ liệukhác Bộ dữ liệu Flickr2K bao gồm 2650 hình ảnh có độ phân giải cao 2K đượcthu thập trên trang web Flickr và bộ dữ liệu Outdoor Scene Training (OST) để làmphong phú thêm tập dữ liệu huấn luyện

Mô hình được huấn luyện trong các kênh RGB và tăng cường tập dữ liệuhuấn luyện bằng các lần lật ngang ngẫu nhiên và xoay 90 độ Mô hình được đánhgiá trên các bộ dữ liệu điểm chuẩn được sử dụng rộng rãi – Set5 , Set14 , BSD100 ,Urban100 và bộ dữ liệu tự xác thực PIRM

3.3 Kết quả thử nghiệm

Chúng tôi so sánh các mô hình cuối cùng của mình trên một số bộ dữ liệuđiểm chuẩn công khai với các phương pháp định hướng PSNR tiên tiến bao gồmSRCNN, EDSR và RCAN, SRGAN và EnhanceNet

Trang 15

Hình 7: Kết quả định tính của ESRGAN

Trang 16

ESRGAN tạo ra nhiều kết cấu tự nhiên hơn, ví dụ như lông động vật, cấutrúc tòa nhà và kết cấu cỏ, cũng như ít tạo tác khó chịu hơn, ví dụ, các tạo tác trênmặt của SRGAN

Từ hình 7 thấy rằng: ESRGAN vượt trội hơn các phương pháp trước đó về

cả độ sắc nét và chi tiết Ví dụ: ESRGAN có thể tạo ra kết cấu cỏ và râu của khỉđầu chó sắc nét và tự nhiên hơn (xem hình 43074) so với các phương pháp địnhhướng PSNR, có xu hướng tạo ra kết quả mờ và so với các phương pháp dựa trênGAN trước đây ESRGAN có khả năng tạo ra các cấu trúc chi tiết hơn trong tòanhà (xem hình 102061) trong khi các phương pháp khác không tạo ra đủ chi tiết(SRGAN) hoặc thêm các kết cấu không mong muốn (EnhanceNet) Hơn nữa, cácphương pháp dựa trên GAN trước đây đôi khi gây ra các hiện tượng khó chịu, vídụ: SRGAN tạo thêm nếp nhăn trên khuôn mặt ESRGAN loại bỏ những tạo tácnày và tạo ra kết quả tự nhiên

Tiêu đề	Ứng dụng mạng ESRGAN trong siêu phân giải ảnh
Tác giả	Chu Đức Long, Cao Văn Khải
Người hướng dẫn	TS. Trần Hùng Cường
Trường học	Trường Đại học Công nghiệp Hà Nội
Chuyên ngành	Công nghệ Thông tin
Thể loại	Tiểu luận
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	27
Dung lượng	3,54 MB