Trong nỗ lực đáp ứng nhu cầu này, ESRGAN EnhancedSuper-Resolution Generative Adversarial Networks đã trở thành một công cụ mạnh mẽ, đặc biệt là khi nói đến việc nâng cao chất lượng của c
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
- - - - -o0o- - -
TIỂU LUẬNMÔN: HỌC SÂU
Đề tài: Ứng dụng mạng ESRGAN trong siêu phân giải ảnh
Giáo viên hướng dẫn: TS Trần Hùng Cường Lớp: CH-K13
Học viên thực hiện: Chu Đức Long – 2023700046
Cao Văn Khải – 2023700059
Hà Nội, tháng 11 năm 2023
MỤC LỤC
Trang 2LỜI NÓI ĐẦU 4
CHƯƠNG 1 GIỚI THIỆU TỔNG QUAN ĐỀ TÀI 5
CHƯƠNG 2: PHƯƠNG PHÁP TIẾN HÀNH 9
2.1 Giới thiệu kiến trúc SRResNet 9
2.2 Kiến trúc mạng 10
2.3 Sự phân biệt tương đối (Relativistic Discriminator) 11
2.4 Hàm mất mát (Perceptual Loss) 12
2.5 Mạng nội suy (Network Interpolation) 13
CHƯƠNG 3 THỬ NGHIỆM 14
3.1 Chi tiết thử nghiệm 14
3.2 Dữ liệu thử nghiệm 14
3.3 Kết quả thử nghiệm 14
CHƯƠNG 4 CÀI ĐẶT CHƯƠNG TRÌNH 17
4.1 Thông tin sản phẩm: 17
4.2 Code chương trình ứng dụng mạng ESRGAN trong siêu phân giải ảnh 18 4.3 Kết quả chương trình 21
KẾT LUẬN 22
Tài liệu tham khảo 23
Trang 3DANH MỤC HÌNH ẢNH
Hình 1: Kết quả siêu phân giải SRGAN, ESRGAN 5
Hình 2: Mặt phẳng biến dạng nhận thức trên bộ dữ liệu tự xác thực PirM 7
Hình 3: Kiến trúc SRResNet [1] 9
Hình 4: Kết hợp mạng dư đa cấp và các kết nối 10
Hình 5: Sự khác biệt giữa bộ phân biệt tiêu chuẩn và bộ phân biệt tương đối 11
Hình 6: Hình ảnh đặc trưng trước và sau khi kích hoạt cho hình ảnh 13
Hình 7: Kết quả định tính của ESRGAN 15
Hình 8: Hình ảnh trước khi kích hoạt ESRGAN 21
Hình 9: Hình ảnh sau khi kích hoạt ESRGAN 21
Hình 10: Hình ảnh dung lượng trước và sau khi kích hoạt ESRGAN 21
Trang 4LỜI NÓI ĐẦU
Em xin chân thành cảm ơn thầy TS Trần Hùng Cường đã tin tưởng và cho
phép em chọn đề tài “Ứng dụng mạng ESRGAN trong siêu phân giải ảnh” Đề
tài này đã mang lại cho em nhiều trải nghiệm quý báu cũng như kiến thức vô cùng
bổ ích trong lĩnh vực công nghệ thông tin
Trong quá trình thực hiện đề tài, em đã được hỗ trợ nhiệt tình từ thầy.Những kiến thức, kinh nghiệm cùng lời khuyên của thầy đã giúp em hoàn thành đềtài một cách hiệu quả nhất
Trong lĩnh vực xử lý ảnh, việc tạo ra các hình ảnh có độ phân giải cao và chitiết là một thách thức lớn Trong nỗ lực đáp ứng nhu cầu này, ESRGAN (EnhancedSuper-Resolution Generative Adversarial Networks) đã trở thành một công cụ mạnh mẽ, đặc biệt là khi nói đến việc nâng cao chất lượng của các hình ảnh có độ phân giải thấp
Trong bài viết này, chúng em sẽ tìm hiểu về cách mà ESRGAN hoạt động,
từ cơ bản đến ứng dụng thực tiễn Chúng ta sẽ phân tích cách mà thuật toán này sử dụng mạng phát sinh chống lại để tạo ra các hình ảnh siêu phân giải, cũng như lợi ích và thách thức khi áp dụng trong thực tế
Đề tài này không chỉ giúp em nâng cao kiến thức, kỹ năng mà còn giúp em
có cơ hội thực hành và áp dụng các kiến thức đã học vào thực tế Em tin rằngnhững kết quả và những kinh nghiệm thu được từ đề tài này sẽ có thể áp dụngtrong công việc của em trong tương lai
Một lần nữa, em xin chân thành cảm ơn thầy đã giúp đỡ em trong quá trìnhnghiên cứu và thực hiện đề tài này
Trân trọng,
Trang 5CHƯƠNG 1 GIỚI THIỆU TỔNG QUAN ĐỀ TÀI
Siêu phân giải hình ảnh đơn (SISR) hiện đang được chú ý trong cộng đồngnghiên cứu và các công ty AI SISR nhằm mục đích khôi phục hình ảnh có độ phângiải cao (HR) từ một hình ảnh có độ phân giải thấp (LR)
Kể từ công trình tiên phong của SRCNN (Super-Resolution ConvolutionalNeural Network) được đề xuất bởi Dong et al, các phương pháp tiếp cận mạng nơ-ron tích chập sâu (CNN) đã mang lại sự phát triển tốt
Các chiến lược đào tạo và thiết kế kiến trúc mạng khác nhau đã liên tục cảithiện hiệu suất SR, đặc biệt là giá trị Tỷ lệ tín hiệu trên tạp âm (PSNR - PeakSignal-to-Noise Ratio ) Tuy nhiên, các phương pháp tiếp cận theo định hướngPSNR này có xu hướng tạo ra các kết quả quá mịn mà không có đủ chi tiết tần sốcao, vì số liệu PSNR về cơ bản không đồng ý với đánh giá chủ quan của ngườiquan sát
Hình 1: Kết quả siêu phân giải SRGAN, ESRGAN
Trang 6Một số phương pháp dựa trên nhận thức đã được đề xuất để cải thiện chấtlượng hình ảnh của kết quả SR
Ví dụ, mất mát cảm quan (perceptual loss) được đề xuất để tối ưu hóa môhình siêu phân giải trong không gian đặc trưng thay vì không gian pixel Mạng đốilập tổng hợp (Generative adversarial network) được giới thiệu với SR để khuyếnkhích mạng ưu tiên các giải pháp trông giống hình ảnh tự nhiên hơn Hình ảnh ngữnghĩa trước đó được kết hợp thêm để cải thiện các chi tiết kết cấu được phục hồi.Một trong những cột mốc quan trọng trong quá trình theo đuổi kết quả đẹp mắt vềmặt hình ảnh là SRGAN Mô hình cơ bản được xây dựng với các khối dư và đượctối ưu hóa bằng cách sử dụng tổn thất cảm nhận trong khung GAN Với tất cả các
kỹ thuật này, SRGAN cải thiện đáng kể chất lượng hình ảnh tổng thể của việc táithiết so với các phương pháp định hướng PSNR
Hình 1: Kết quả siêu phân giải cho SRGAN2, ESRGAN được thể hiện,ESRGAN vượt trội hơn SRGAN về độ sắc nét và chi tiết Tuy nhiên, vẫn tồn tạimột khoảng cách rõ ràng giữa kết quả SRGAN và hình ảnh thực tế (GT), như trongHình 1
Trong nghiên cứu này, các thành phần chính của SRGAN được xem lại vàcải thiện mô hình theo ba khía cạnh
Đầu tiên, cải thiện cấu trúc mạng bằng khối dày đặc dư (RDDB - Residual inResidual Dense Block), có công suất cao hơn và dễ đào tạo hơn Ngoài ra cũng loại
bỏ các lớp chuẩn hóa hàng loạt (BN) và sử dụng tỷ lệ dư và khởi tạo nhỏ hơn đểtạo điều kiện cho việc đào tạo một mạng rất sâu
Thứ hai, cải thiện trình phân biệt đối xử bằng cách sử dụng GAN trung bìnhtương đối tính (RaGAN) , học cách đánh giá “liệu một hình ảnh này thực tế hơn
Trang 7hình ảnh kia” thay vì “liệu một hình ảnh là thật hay giả” Thử nghiệm cho thấy cảitiến này giúp trình tạo khôi phục các chi tiết kết cấu chân thực hơn
Thứ ba, đề xuất cải thiện tình trạng mất nhận thức bằng cách sử dụng các tính năng VGG trước khi kích hoạt thay vì sau khi kích hoạt như trong SRGAN Theo kinh nghiệm, mức giảm nhận thức được điều chỉnh mang lại các cạnh sắc néthơn kết quả trực quan dễ chịu hơn, như sẽ được trình
Hình 2: Mặt phẳng biến dạng nhận thức trên bộ dữ liệu tự xác thực PirM.
Các đường cơ sở của EDSR, RCAN và EnhanceNet cũng như mô hìnhESRGAN được hiển thị Các chấm màu xanh được tạo ra bằng phép nội suyhình ảnh
Nghiên cứu sử dụng một biến thể của ESRGAN để tham gia Thử tháchPIRM-SR Thử thách này là cuộc thi SR đầu tiên đánh giá hiệu suất theo cách
Trang 8nhận thức về chất lượng nhận thức dựa, trong đó các tác giả cho rằng sự biếndạng và chất lượng nhận thức mâu thuẫn với nhau Chất lượng cảm nhận đượcđánh giá bằng các thước đo không tham chiếu về điểm Ma và NIQE, chỉ số
cảm nhận = 12((10 - Ma)+NIQE) Chỉ số nhận thức thấp hơn đại diện cho chỉ
số nhận thức = chất lượng nhận thức tốt hơn
Như được hiển thị trong hình 2, mặt phẳng biến dạng nhận thức được chiathành ba vùng được xác định bởi các ngưỡng của RMSE và thuật toán đạt đượcchỉ số cảm nhận thấp nhất ở mỗi khu vực sẽ trở thành thuật toán dẫn đầu khuvực Chúng tôi chủ yếu tập trung vào khu vực 3 vì mục tiêu đưa chất lượngcảm nhận lên một tầm cao mới
Để cân bằng chất lượng hình ảnh và RMSE/PSNR, chiến lược nội suy mạngđược đề xuất thêm, có thể liên tục điều chỉnh phong cách tái thiết và độ mượt
mà Một cách khác là nội suy hình ảnh, nội suy trực tiếp từng pixel hình ảnh
Trang 9CHƯƠNG 2: PHƯƠNG PHÁP TIẾN HÀNH 2.1 Giới thiệu kiến trúc SRResNet
Mục đích chính của chúng tôi là cải thiện chất lượng cảm nhận tổng thể cho
SR Trong phần này, trước tiên chúng tôi mô tả kiến trúc mạng được đề xuất vàsau đó thảo luận về cải thiện từ sự phân biệt đối xử và mất nhận thức Cuốicùng, chúng tôi mô tả chiến lược nội suy mạng để cân bằng chất lượng cảmnhận và PSNR
Hình 3: Kiến trúc SRResNet [1]
Chúng tôi sử dụng kiến trúc cơ bản của SRResNet [1], trong đó hầu hết việctính toán được thực hiện trong không gian tính năng LR Chúng ta có thể chọnhoặc thiết kế “khối cơ bản” (ví dụ: khối dư [18], khối dày đặc [34], RRDB) để cóhiệu suất tốt hơn
Trong SRResNet, kiến trúc mạng được xây dựng dựa trên mạng ResidualNetwork (ResNet) Mạng ResNet đã được chứng minh là hiệu quả trong việc huấnluyện các mô hình sâu và giảm hiện tượng suy hao độ sâu
Cấu trúc SRResNet bao gồm nhiều khối residual (residual blocks) liên tiếpnhau Mỗi khối residual bao gồm hai lớp tích chập (convolutional layers) với kíchthước kernel nhỏ và số lượng bộ lọc tương đối lớn Giữa hai lớp tích chập, có mộtlớp kích hoạt ReLU để giữ cho đầu ra không âm và tạo tính phi tuyến cho mô hình
Sự kết hợp của các khối residual này giúp mạng học được các hàm còn sótlại (residual functions) để tạo ra các chi tiết hơn trong quá trình siêu phân giải
Trang 10Điều này cho phép mô hình tạo ra các ảnh có độ sắc nét và kết cấu tự nhiênhơn Ngoài ra, SRResNet cũng sử dụng các lớp upscaling (tăng cường tỷ lệ) đểtăng kích thước của ảnh đầu ra Thông thường, một lớp upscaling sử dụng phép nộisuy tuyến tính như nội suy hai lần (bilinear interpolation) hoặc nội suy cực đại(nearest-neighbor interpolation) để tăng kích thước ảnh lên gấp đôi.
2.2 Kiến trúc mạng
Để cải thiện hơn nữa chất lượng hình ảnh được phục hồi của SRGAN, chúngtôi chủ yếu thực hiện hai sửa đổi đối với cấu trúc của bộ tạo G: 1) loại bỏ tất cảcác lớp BN; 2) thay thế khối cơ bản ban đầu bằng Khối dư được đề xuất Khốidày đặc (RRDB), kết hợp mạng dư đa cấp và dày đặc các kết nối được mô tảtrong hình 4
Hình 4: Kết hợp mạng dư đa cấp và các kết nối
Bên trái: Chúng tôi loại bỏ các lớp BN trong khối dư trong SRGAN Phải: KhốiRRDB được sử dụng trong mô hình sâu hơn của chúng tôi và β là tham số chia tỷ
Trang 11trình thử nghiệm Khi số liệu thống kê của tập dữ liệu huấn luyện và kiểm tra khácnhau rất nhiều, các lớp BN có xu hướng tạo ra các tạo tác khó chịu và hạn chế khảnăng tổng quát hóa Chúng tôi quan sát bằng thực nghiệm rằng các lớp BN cónhiều khả năng mang lại tạo tác khi mạng sâu hơn và được đào tạo theo khungGAN Những tạo tác này đôi khi xuất hiện giữa các lần lặp lại và các cài đặt khácnhau, vi phạm nhu cầu về hiệu suất ổn định trong quá trình đào tạo Do đó, chúngtôi loại bỏ các lớp BN để luyện tập ổn định và đạt hiệu suất ổn định Hơn nữa, việcloại bỏ các lớp BN giúp cải thiện khả năng khái quát hóa và giảm độ phức tạp tínhtoán cũng như mức sử dụng bộ nhớ.
Chúng tôi giữ nguyên thiết kế kiến trúc cấp cao của SRGAN (xem Hình 3) và sửdụng khối cơ bản mới có tên là RRDB như được mô tả trong Hình 4 Dựa trênquan sát rằng nhiều lớp và kết nối hơn luôn có thể tăng hiệu suất, RRDB được đềxuất sử dụng cấu trúc sâu hơn và phức tạp hơn khối dư ban đầu trong SRGAN Cụthể, như trong Hình 4, RRDB được đề xuất có cấu trúc phần dư trong phần dư,trong đó việc học phần dư được sử dụng ở các cấp độ khác nhau Một cấu trúcmạng tương tự được đề xuất trong cũng áp dụng mạng dư đa cấp
2.3 Sự phân biệt tương đối (Relativistic Discriminator)
Hình 5: Sự khác biệt giữa bộ phân biệt tiêu chuẩn và bộ phân biệt tương đối
Trang 12ESRGAN (Enhanced Super-Resolution Generative Adversarial Network) làmột phương pháp cải tiến của mạng Generative Adversarial Network (GAN) được
sử dụng để nâng cấp chất lượng ảnh (Super-Resolution)
Cấu trúc của bộ phân biệt (discriminator):
- Trong GAN thông thường: Sử dụng bộ phân biệt có dạng D(x) = σ(C(x)),với σ là hàm sigmoid và C(x) là đầu ra chưa được xử lý của bộ phân biệt
- Trong ESRGAN: Sử dụng bộ phân biệt loại Relativistic averageDiscriminator (RaD), được ký hiệu là DRa(xr, xf) DRa so sánh điểm ảnhthực (xr) với trung bình của các điểm ảnh giả (xf) trong cùng một mẻ(mini-batch) xử lý
Lợi ích của ESRGAN: Nhờ những cải tiến này, ESRGAN có khả năng tạo raảnh chất lượng cao hơn, với các chi tiết sắc nét và kết cấu tự nhiên hơn so vớiSRGAN (Super-Resolution Generative Adversarial Network)
Trong SRGAN: Máy phát tạo ra ảnh giả (xf) từ ảnh đầu vào chất lượng thấp(xi) Bộ phân biệt phân biệt ảnh giả (xf) và ảnh thực (xr) Trong ESRGAN: Bộphân biệt RaD so sánh điểm ảnh thực (xr) với trung bình của các điểm ảnh giả (xf)trong cùng một mẻ (mini-batch) xử lý Nhờ đó, Máy phát học được từ cả ảnh thực(xr) và ảnh giả (xf), giúp tạo ra ảnh chất lượng cao hơn Kết luận: ESRGAN là một
Trang 13cải tiến hiệu quả cho mạng GAN được sử dụng để nâng cấp chất lượng ảnh Nhờ
sử dụng bộ phân biệt RaD và hàm mất mát L_RaG, ESRGAN có khả năng tạo raảnh chất lượng cao hơn, với các chi tiết sắc nét và kết cấu tự nhiên hơn so vớiSRGAN
Hình 6: Hình ảnh đặc trưng trước và sau khi kích hoạt cho hình ảnh
2.5 Mạng nội suy (Network Interpolation)
Phương pháp này kết hợp hai mạng: một mạng được tối ưu hóa cho tỷ lệ tínhiệu nhiễu cao (PSNR) và một mạng được tối ưu hóa cho chất lượng nhận thức.Bằng cách kết hợp hai mạng này, phương pháp Network Interpolation có thể tạo rahình ảnh chất lượng cao với ít nhiễu hơn
Kết quả thí nghiệm: Phương pháp Network Interpolation được đánh giá trênmột số tập dữ liệu hình ảnh và so sánh với các phương pháp GAN khác Kết quảcho thấy rằng phương pháp Network Interpolation có thể tạo ra hình ảnh chấtlượng cao hơn với ít nhiễu hơn
Kết luận: Phương pháp Network Interpolation là một phương pháp mới đểcân bằng chất lượng nhận thức và độ trung thực trong các phương pháp dựa trênGAN Phương pháp này có thể tạo ra hình ảnh chất lượng cao với ít nhiễu hơn
Trang 14CHƯƠNG 3 THỬ NGHIỆM 3.1 Chi tiết thử nghiệm
Theo SRGAN, tất cả các thí nghiệm được thực hiện với hệ số tỷ lệ là x4 giữahình ảnh LR và HR
Hình ảnh LR thu được bằng cách lấy mẫu ảnh xuống HR để sử dụng hàmMATLAB Kích thước tệp được đặt thành 16 Kích thước không gian sử dụng củabản vá HR đã cắt là 128x128
3.2 Dữ liệu thử nghiệm
Việc sử dụng tập dữ liệu lớn sẽ tạo ra kết quả tự nhiên Bộ dữ liệu sử dụngchủ yếu là DIV2K (bộ dữ liệu chất lượng cao, phân giải 2k) cho các tác vụ khôiphục hình ảnh, gồm có 800 ảnh Ngoài ra, nghiên cứu sử dụng một số tệp dữ liệukhác Bộ dữ liệu Flickr2K bao gồm 2650 hình ảnh có độ phân giải cao 2K đượcthu thập trên trang web Flickr và bộ dữ liệu Outdoor Scene Training (OST) để làmphong phú thêm tập dữ liệu huấn luyện
Mô hình được huấn luyện trong các kênh RGB và tăng cường tập dữ liệuhuấn luyện bằng các lần lật ngang ngẫu nhiên và xoay 90 độ Mô hình được đánhgiá trên các bộ dữ liệu điểm chuẩn được sử dụng rộng rãi – Set5 , Set14 , BSD100 ,Urban100 và bộ dữ liệu tự xác thực PIRM
3.3 Kết quả thử nghiệm
Chúng tôi so sánh các mô hình cuối cùng của mình trên một số bộ dữ liệuđiểm chuẩn công khai với các phương pháp định hướng PSNR tiên tiến bao gồmSRCNN, EDSR và RCAN, SRGAN và EnhanceNet
Trang 15Hình 7: Kết quả định tính của ESRGAN
Trang 16ESRGAN tạo ra nhiều kết cấu tự nhiên hơn, ví dụ như lông động vật, cấutrúc tòa nhà và kết cấu cỏ, cũng như ít tạo tác khó chịu hơn, ví dụ, các tạo tác trênmặt của SRGAN
Từ hình 7 thấy rằng: ESRGAN vượt trội hơn các phương pháp trước đó về
cả độ sắc nét và chi tiết Ví dụ: ESRGAN có thể tạo ra kết cấu cỏ và râu của khỉđầu chó sắc nét và tự nhiên hơn (xem hình 43074) so với các phương pháp địnhhướng PSNR, có xu hướng tạo ra kết quả mờ và so với các phương pháp dựa trênGAN trước đây ESRGAN có khả năng tạo ra các cấu trúc chi tiết hơn trong tòanhà (xem hình 102061) trong khi các phương pháp khác không tạo ra đủ chi tiết(SRGAN) hoặc thêm các kết cấu không mong muốn (EnhanceNet) Hơn nữa, cácphương pháp dựa trên GAN trước đây đôi khi gây ra các hiện tượng khó chịu, vídụ: SRGAN tạo thêm nếp nhăn trên khuôn mặt ESRGAN loại bỏ những tạo tácnày và tạo ra kết quả tự nhiên