1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Cách tiếp cận học sâu cho bài toán siêu phân giải ảnh

114 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA——————–

TRẦN HỒ MINH THÔNG

CÁCH TIẾP CẬN HỌC SÂU

CHO BÀI TOÁN SIÊU PHÂN GIẢI ẢNH

Chuyên ngành: KHOA HỌC MÁY TÍNHMã số: 8480101

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 1 năm 2024

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM

Cán bộ hướng dẫn khoa học:TS Nguyễn Đức Dũng

Cán bộ chấm nhận xét 1:PGS.TS Nguyễn Văn SinhCán bộ chấm nhận xét 2:TS Lê Thành Sách

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCMngày 23 tháng 01 năm 2024.

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, họcvị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

1 Chủ tịch: TS Trần Tuấn Anh2 Thư ký: TS Nguyễn Tiến Thịnh

3 Phản biện 1: PGS.TS Nguyễn Văn Sinh4 Phản biện 2: TS Lê Thành Sách

5 Ủy viên: TS Võ Đăng Khoa

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyênngành sau khi luận văn đã được sửa chữa (nếu có).

KỸ THUẬT MÁY TÍNH

TS Trần Tuấn Anh

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMĐộc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: TRẦN HỒ MINH THÔNG MSHV: 2170577Ngày, tháng, năm sinh: 09/07/1999 Nơi sinh: Long An

I TÊN ĐỀ TÀI: CÁCH TIẾP CẬN HỌC SÂU CHO BÀI TOÁN SIÊU PHÂN GIẢIẢNH

(DEEP LEARNING APPROACHES FOR IMAGE SUPER RESOLUTION)

II NHIỆM VỤ VÀ NỘI DUNG:

Xây dựng một mô hình học sâu mới cho bài toán siêu phân giải ảnh với chất lượng ảnh đầura tốt hơn (chân thực hơn và chính xác hơn), dựa trên kỹ thuật đặt lại tham số và phép tínhtập trung hiệu quả.

III.NGÀY GIAO NHIỆM VỤ : 04/09/2023

IV.NGÀY HOÀN THÀNH NHIỆM VỤ: 18/12/2023V.CÁN BỘ HƯỚNG DẪN: TS Nguyễn Đức Dũng

Trang 4

LỜI CẢM ƠN

Sự hoàn thiện của luận văn này, ngoài nỗ lực của riêng chúng tôi, còn là nhờ sựdẫn dắt, theo dõi tận tình và đóng góp ý kiến của thầy Nguyễn Đức Dũng đối vớinhóm trong suốt thời gian vừa qua Vì thế, chúng tôi xin được gửi lời tri ân chânthành đến thầy, cùng các thầy cô khác trong Khoa Khoa học và Kĩ thuật Máy tính,cũng như tập thể giảng viên, nhân viên của trường Đại học Bách Khoa - Đại họcQuốc gia thành phố Hồ Chí Minh Chính môi trường học tập và nghiên cứu ở trườngĐại học Bách Khoa - Đại học Quốc gia thành phố Hồ Chí Minh đã cung cấp nhữngtri thức, kỹ năng và thái độ cần thiết cho con đường sự nghiệp sau này của chúngtôi.

Trang 5

TÓM TẮT LUẬN VĂN

Siêu phân giải ảnh là việc tạo ra một phiên bản với độ phân giải cao hơn củamột ảnh đầu vào, trong khi vẫn giữ gìn được nội dung và đặc điểm cấu trúc Bàitoán này có rất nhiều ứng dụng trong nghiên cứu và thực tế, do nhu cầu về ảnh độphân giải cao luôn lớn và không phải lúc nào cũng được đáp ứng đầy đủ.

Với sự xuất hiện của học sâu, bài toán siêu phân giải ảnh ngày càng nhận đượcnhững lời giải tốt hơn SwiftSRGAN [1] là một mô hình học sâu tiêu biểu cho bàitoán này với thời gian xử lý nhanh và mức tiêu thụ tài nguyên tính toán thấp Tuynhiên, SwiftSRGAN đã phải đánh đổi độ chính xác về mặt nội dung và tính chânthực của ảnh đầu ra để đạt được hiệu năng tính toán cao như trên.

Trên cơ sở của SwiftSRGAN, trong luận văn này, chúng tôi đề xuất hệ mạngtạo sinh đối nghịch đặt lại tham số được dựa trên phép tính tập trung hiệu quả chobài toán siêu phân giải (reparameterizable efficient attention-based super-resolutiongenerative adversarial networks, REASRGAN) Chúng tôi đề xuất sử dụng kỹ thuậtđặt lại tham số [2] (reparameterization) và phép tính tập trung hiệu quả [3] (efficientattention, EA) để phát triển mạng tạo sinh của SwiftSRGAN thành mạng tạo sinhcủa REASRGAN (REASRGAN generator, REAGen) Kỹ thuật đặt lại tham số chophép sử dụng một phiên bản nhiều nhánh, phức tạp hơn của mô hình khi huấn luyệnvà thu giảm lại thành một phiên bản đơn giản hơn khi kiểm thử, trong khi đảm bảođược đầu ra của hai phiên bản này là như nhau Bên cạnh đó, phép tính tập trunghiệu quả là một dạng xấp xỉ của phép tính tập trung dựa trên tích vô hướng (dot-product attention), nhưng chỉ với độ phức tạp tuyến tính Đối với mạng phân biệt củaREASRGAN (REASRGAN discriminator, READis), chúng tôi đề xuất thay hoàntoàn mạng phân biệt của SwiftSRGAN bằng mạng nơ-ron của độ đo chất lượng ảnhStairIQA [4], nhằm tận dụng khả năng mô phỏng cảm nhận con người đối với hìnhảnh của độ đo này Ngoài ra, chúng tôi còn đề xuất một quy trình huấn luyện mớivới nhiều giai đoạn hơn, nhằm đảm bảo sự cân bằng giữa sức mạnh của REAGen vàREADis, cũng như giữa tính chính xác về nội dung và mức độ thân thiện với cảmnhận của con người.

Để kiểm tra tính hiệu quả của các đề xuất trên, nhóm đã tiến hành huấn luyệnREASRGAN và kiểm thử mô hình này dựa trên các bộ dữ liệu công khai, thườngdùng cho bài toán siêu phân giải ảnh Kết quả cho thấy REASRGAN có chất lượngảnh đầu ra tốt hơn so với của SwiftSRAN ở nhiều bộ dữ liệu khi phóng to lên 2lần, và tốt hơn đáng kể khi phóng to lên 4 lần Tuy nhiên, REASRGAN vẫn cònmột số hạn chế như thời gian xử lý tăng gấp vài lần so với SwiftSRGAN và có mộtvài hiệu ứng xấu trong ảnh đầu ra Từ những kết quả này, chúng tôi kết luận rằngREASRGAN đã có sự cải thiện so với mô hình cơ sở và vẫn còn tiềm năng để cảitiến tiếp trong tương lai.

Trang 6

ABSTRACT OF THESIS

Image super-resolution involves generating a higher-resolution version of a resolution input image while still preserving its content and structural features Thisproblem has numerous applications in reality due to the consistently high and usu-ally unsatisfied demand for high-resolution images.

low-Since the advent of deep learning, image super-resolution has been yieldingincreasingly excellent results SwiftSRGAN [1] is a deep learning-based super-resolution model known for its high speed and low resource consumption However,this impressive performance comes with a trade-off versus accuracy and perceptualfriendliness.

On the basis of SwiftSRGAN, this thesis proposes the reparameterizable ficient attention-based super-resolution generative adversarial networks (REASR-GAN) We propose applying the reparameterization technique [2] and the efficientattention mechanism [3] (EA) to enhance the generator of SwiftSRGAN, result-ing in the generator of REASRGAN (REAGen) The reparameterization techniqueallows for the utilization of a more complex model during training and a simplerversion during testing, ensuring that both versions produce the same output forthe same input The efficient attention mechanism provides an approximation ofthe dot-product attention mechanism with linear complexity For the discriminatorof REASRGAN (READis), we propose replacing the SwiftSRGAN discriminatorwith the neural network of the StairIQA metric [4] This substitution enables theutilization of the StairIQA metric’s ability to mimic human opinion on images Ad-ditionally, we introduce a new training strategy with multiple stages to maintain abalance between the strength of REAGen and READis, as well as between accuracyand perceptual friendliness.

ef-In order to validate the effectiveness of the aforementioned proposals, we trainedthe model and assessed it using widely recognized and published datasets for theimage super-resolution problem The results demonstrate that, when compared tothe baseline model SwiftSRGAN, our model performs better on certain test datasetswith a scaling factor of 2 and decisively outperforms it with a scaling factor of 4.However, there are still some limitations observed, such as a three- or fourfold in-crease in inference time and unwanted artifacts in the output images Based on theseresults, we conclude that REASRGAN has shown improvement but still has roomfor further research and development in the future.

Trang 7

LỜI CAM ĐOAN

Chúng tôi xin khẳng định công trình nghiên cứu trong luận văn này là thành quảnghiên cứu của riêng chúng tôi, với sự hướng dẫn của tiến sĩ Nguyễn Đức Dũng.Những nội dung và kết quả của công trình này hoàn toàn đảm bảo tính mới, tính tincậy và tính khách quan cần có của một nghiên cứu khoa học Tất cả các dữ liệu địnhtính và định lượng chúng tôi sử dụng trong quá trình nghiên cứu đều sẽ được côngkhai nguồn gốc, trích dẫn và ghi rõ trong phần tài liệu tham khảo.

Trong trường hợp luận văn này bị phát giác có bất kì gian lận nào, chúng tôicam đoan sẽ chịu trách nhiệm về những nội dung đã công bố Chúng tôi xin khẳngđịnh Trường Đại học Bách Khoa - Đại học Quốc gia thành phố Hồ Chí Minh khôngliên quan đến những vi phạm này.

Học viên

Trần Hồ Minh Thông

Trang 8

Mục lục

1.1 Giới thiệu bài toán siêu phân giải ảnh 1

1.2 Đề tài và động lực chọn đề tài 3

1.3 Phạm vi và mục tiêu của luận văn 4

1.4 Đóng góp của luận văn này 4

1.5 Cấu trúc căn bản của luận văn này 5

2Tổng quan tài liệu62.1 Khảo sát các nghiên cứu về siêu phân giải ảnh 6

2.1.1 Theo kiến trúc mô hình 6

2.1.2 Theo số lượng đầu vào được xử lý 13

2.1.3 Theo hiểu biết về loại suy giảm chất lượng trong ảnh đầu vào 13

2.2 Kỹ thuật đặt lại tham số 14

2.3 Khảo sát một số loại phép tính tập trung 18

2.3.1 Phép tính tập trung dựa trên tích vô hướng có chia tỷ lệ 19

2.3.2 Phép tính tập trung hiệu quả 20

2.4 Các độ đo của bài toán siêu phân giải ảnh 23

2.4.1 Phân loại các độ đo đánh giá chất lượng ảnh 24

2.4.2 Khảo sát các độ đo BIQA 24

2.4.3 Một số độ đo được sử dụng trong luận văn này 27

2.4.3.1 Tỉ lệ giữa tín hiệu cực đại và tín hiệu nhiễu 27

2.4.3.2 Chỉ số tương đồng về cấu trúc 27

2.4.3.3 StairIQA 28

3Phương pháp đề xuất323.1 Mô hình cơ sở 32

3.2 Mô hình đề xuất 37

3.2.1 Các thành phần cơ bản của REAGen 38

Trang 9

3.2.1.1 Lớp tích chập đặt lại tham số được 38

3.2.1.2 Lớp tích chập theo từng kênh và đặt lại tham số được 393.2.1.3 Lớp tích chập theo từng điểm và đặt lại tham số được 393.2.1.4 Lớp tích chập tách ra được theo chiều sâu và đặtlại tham số được 40

3.2.1.5 Khối tích chập cơ bản 40

3.2.1.6 Khối trọng tâm của phép tính tập trung hiệu quả 42

3.2.1.7 Khối tập trung hiệu quả với kết nối dư thừa 42

3.2.1.8 Khối phóng to 45

3.2.2 Mạng tạo sinh đề xuất 46

3.2.3 Mạng phân biệt đề xuất 47

3.3 Quy trình huấn luyện đề xuất 49

4.1.4 Các siêu tham số của quá trình huấn luyện mô hình 59

4.1.5 Cách đo thời gian xử lý 61

4.2 Kết quả huấn luyện 62

4.2.1 Đánh giá qua các độ đo chất lượng ảnh 62

4.2.2 Đánh giá trực tiếp qua các ảnh đầu ra 67

4.2.3 Đánh giá qua thời gian xử lý 71

4.3 Phân tích 72

4.3.1 Tác động của chuẩn hóa theo lô và chuẩn hóa theo lớp 72

4.3.2 Tác động của các kết nối dư thừa skip-EA-res trong khốires-EA 74

Trang 10

4.3.3 Tác động của việc chọn các trọng số φ và γ 79

5.1 Kết quả đạt được 835.2 Hạn chế 835.3 Kế hoạch phát triển 84

Trang 11

Danh sách hình vẽ

1.1 Ví dụ về việc siêu phân giải lên 4 lần [5] 12.1 Kiến trúc của mô hình ESPCN, hình này lấy ra từ [6] 82.2 Kiến trúc của framework HAT [7] 92.3 Cách Real-ESRGAN mô phỏng những loại suy giảm chất lưởng ảnh

đa dạng trong thực tế [8] 112.4 Kiến trúc của framework MMHCA [9] 112.5 Kiến trúc của framework PD, hình này lấy ra từ [10] 122.6 Minh họa về việc chiếm giữ bộ nhớ của một mô hình phân nhánh

(hình a) và một mô hình phẳng (hình b) (ảnh trích từ [2]) Do kếtnôi dư thừa, mô hình trong hình bên phải phải giữ thông tin ban đầucho tới tận khi nhánh chính và nhánh dư thừa gặp lại nhau Điều đó

đã dẫn tới nhu cầu bộ nhớ tăng lên 2 lần trong quãng thời gian đó 152.7 Cách áp dụng kỹ thuật đặt lại tham số vào mô hình RepVGG [2].

Hình a) là một phần của mô hình ResNet cho thấy việc dùng chung1 kiến trúc khi huấn luyện và khi kiểm thử Hình b) là kiến trúc củaRepVGG khi đang huấn luyện, với 3 nhánh Hình c) là kiến trúc của

RepVGG khi đang kiểm thử với chỉ 1 nhánh duy nhất 162.8 Cách đặt lại tham số của phiên bản huấn luyện để tạo thành phiên

bản kiểm thử ở một khối đơn vị trong mô hình RepVGG [2], khiđầu vào và đầu ra của khối này đều có 2 kênh Hình a) là dưới góc

nhìn cấu trúc Hình b) là dưới góc nhìn của các tham số 182.9 Nguyên lý hoạt động của phép tính tập trung hiệu quả do Shen và

các đồng sự đề xuất trong [3] 212.10 Kiến trúc mạng nơ-ron của giải thuật StairIQA ([4]) 293.1 So sánh kết quả của SwiftSRGAN (ảnh giữa) với Bicubic (ảnh trên

cùng) và ảnh gốc (ảnh dưới cùng), hình này lấy ra từ [1] 33

Trang 12

3.2 Kiến trúc mạng tạo sinh (generator) và mạng phân biệt tor) của mô hình SwiftSRGAN [1] Trong đó, k là kích thước nhân(kernel), n là số kênh ở đầu ra và s là bước trượt (stride) của các lớp

(discrimina-DSC "SR Image" là ảnh độ phân giải cao tạo ra bởi mô hình (ảnh

giả) và "HR Image" là ảnh gốc với độ phân giải cao (ảnh thật) 34

3.3 Cấu trúc của một lớp tích chập đặt lại tham số được

(reparameteri-zable convolution layer, rep-Conv) với k = 3 393.4 Cấu trúc và nguyên lý hoạt động của một lớp tích chập phân tách

theo chiều kênh và đặt lại tham số được (rep-DSConv) với số kênhđầu vào (input dimension, dI) là 3, số kênh đầu ra (output dimen-

sion, dO) là 4 và kích thước nhân (kernel size, k) là 3 413.5 Cấu tạo của một khối tích chập cơ bản (basic convolution block,

basic-Conv), với 1 lớp rep-DSConv, 1 lớp BN và 1 lớp Act 423.6 Cấu tạo của một khối core-EA 433.7 Cấu tạo của khối res-EA với 3 nhánh chính là Q, K và V cùng một

khối core-EA nằm gọn bên trong Có 2 loại kết nối dư thừa:

skip-block-res (đường màu xanh) và skip-EA-res (các đường màu đỏ) 443.8 Cấu tạo của một khối Usample với một lớp rep-DSConv, một lớp

PS và một lớp Act (PReLU) 463.9 Cấu tạo mạng tao sinh của REASRGAN với hệ số mở rộng là 4 474.1 Một số ảnh đầu ra của các mô hình siêu phân giải khi phóng to

ảnh lên 4 lần Các cột theo thứ tự từ trái sang phải lần lượt là đầura của SwiftSRGAN, REASRGAN1, REASRGAN2, REASRGAN3

và ảnh gốc Các ảnh được lấy ra từ 5 bộ dữ liệu kiểm thử 704.2 Các loại kết nối dư thừa bên trong khối res-EA của mô hình REAS-

RGAN Trong đó, đường màu xanh (skip-block-res) là kết nối dưthừa đi vòng qua toàn bộ khối, được nhóm kế thừa từ công trình [3]của Shen và các đồng sự; đường màu đỏ (skip-EA-res) là các kếtnối dư thừa do nhóm đề xuất để vượt qua điểm tắc nghẽn core-EA

khi huấn luyện mô hình 78

Trang 13

4.3 So sánh quá trình lan truyền ngược độ dốc giữa phiên bản wo-res

và w-res 804.4 Sự thay đổi của LV GG19content qua 200 epoch đầu tiên khi huấn luyện giai

đoạn 2 với trọng số φ2được chọn là 0.05 (màu lam), 0.01 (màu cam)

và 0.005 (màu lục) 82

Trang 14

Danh sách bảng

2.1 Bảng đối chiếu độ hiệu quả của các độ đo BIQA trên các tập dữ liệuvới sự biến dạng trong tự nhiên Dữ liệu được tổng hợp từ [11] và[4] Trong đó, các ô - ứng với các số liệu không được phía tác giả

của các giải thuật đó cung cấp đầy đủ 314.1 Bảng tổng kết kết quả huấn luyện qua 3 giai đoạn của mô hình

REASRGAN Trong đó, REASRGAN1, REASRGAN2và REASRGAN3lần lượt là kết quả của các giai đoạn 1, 2 và 3; ×2 và ×4 là các hệsố mở rộng Mỗi ô gồm 3 giá trị, theo thứ tự từ trên xuống dướilần lượt là: PSNR( đơn vị dB, trên kênh Y), SSIM (trên kênh Y) vàStairIQA Các giá trị tốt nhất được tô màuđỏ, trong khi các giá trị

tệ hơn mô hình cơ sở được tô màutím 624.2 Bảng đối chiếu kích thước mô hình và tốc độ xử lý ảnh của mô hình

cơ sở SwiftSRGAN và REASRGAN (ký hiệu là REA-) Trong đó,×2 và ×4 là các hệ số mở rộng Các ảnh có tỉ lệ là 16:9, ví dụ 360plà ảnh có kích thước 640 × 360 Các dòng ứng với REASRGAN có

2 giá trị: thời gian xử lý và số lần tăng lên so với SwiftSRGAN 714.3 Bảng đối chiếu khả năng siêu phân giải lên 4 lần của các phiên bản

thử nghiệm khác nhau với những hàm chuẩn hóa khác nhau Trongđó, LN là thí nghiệm thay thế toàn bộ các lớp chuẩn hóa theo lô(batch normalization, BN) bằng các lớp chuẩn hóa theo lớp (layernormalization, LN); BN là mô hình REAGen ban đầu với các lớpBN Mỗi ô gồm 3 giá trị, lần lượt từ trên xuống dưới là: PSNR (kênh

Y), SSIM (kênh Y) và StairIQA Các giá trị tốt nhất được tô màuđỏ 734.4 Bảng đối chiếu kích thước mô hình và tốc độ siêu phân giải ảnh lên

4 lần của phiên bản thử nghiệm thay BN trong REAGen với LN vàmô hình REAGen gốc Các ảnh có tỉ lệ là 16:9, ví dụ 360p là ảnh

có kích thước 640 × 360 74

Trang 15

4.5 Bảng đối chiếu chất lượng của ảnh siêu phân giải lên 4 lần sinh ratừ các mô hình thí nghiệm Trong đó, wo-res là phiên bản REAS-RGAN đã loại bỏ những kết nối dư thừa từ Q, K và V tới sau khốicore-EA, w-res là phiên bản REASRGAN gốc Mỗi ô gồm 3 giátrị, lần lượt từ trên xuống là: PSNR (kênh Y), SSIM (kênh Y) vàStairIQA Các giá trị tốt nhất được tô màuđỏ; các giá trị tệ hơn so

vơi mô hình cơ sở SwiftSRGAN được tô màutím 754.6 Bảng đối chiếu kích thước mô hình và tốc độ siêu phân giải ảnh lên

4 lần của phiên bản thử nghiệm không có và có skip-EA-res Các

ảnh có tỉ lệ là 16:9, ví dụ 360p là ảnh có kích thước 640 × 360 794.7 Bảng đối chiếu chất lượng của ảnh siêu phân giải lên 4 lần sinh ra

từ các mô hình thí nghiệm với các cách chọn trọng số φ2 và γ2 khácnhau Mỗi ô gồm 3 giá trị, từ trên xuống lần lượt là: PSNR (kênh

Y), SSIM (kênh Y) và StairIQA 81

Trang 16

Thuật ngữ và từ viết tắtAct Lớp hàm kích hoạt

(activation layer)

BIQA Độ đo chất lượng ảnh không tham khảo

(blind image quality assessment)

BN Chuẩn hóa theo lô

(batch normalization)

BSR Bài toán siêu phân giải khi không biết trước về loại suy giảm

trong ảnh đầu vào(blind super resolution)

CA Phép tính tập trung theo kênh

(channel attention)

DL Học sâu

(deep learning)

DSC Lớp tích chập phân tách được theo chiều sâu

(deep-wise separable convolution)

EA Phép tính tập trung hiệu quả

(efficient attention)

FRIQA Độ đo chất lượng ảnh tham khảo đầy đủ

(full-reference image quality assessment)

GAN Hệ mạng tạo sinh đối nghịch

(generative adversarial networks)

LeakyReLU Hàm đơn vị tuyến tính đã chỉnh sửa và cho phép rò rỉ

(leaky rectified linear unit)

Trang 17

LN Chuẩn hóa theo lớp

(layer normalization)

MISR Bài toán siêu phân giải nhiều ảnh cùng lúc

(multiple-image super-resolution problem)

MOS Trung bình đánh giá của con người về chất lượng ảnh

(mean opinion score)

MSE Trung bình bình phương sai số

(mean square error)

NBSR Bài toán siêu phân giải khi biết trước về loại suy giảm trong

ảnh đầu vào

(non-blind super resolution)

OCAB Khối tập trung chéo trùng lắp

(overlapping cross-attention block)

PReLU Hàm đơn vị tuyến tính đã chỉnh sửa với tham số (parametric

rectified linear unit).

PS Lớp xáo trộn điểm ảnh

(pixel shuffle)

PSNR Tỉ lệ giữa tín hiệu cực đại và tín hiệu nhiễu

(peak signal to noise ratio)

PLCC Hệ số tương quan tuyến tính Pearson

(Pearson’s linear correlation coefficient)

RRIQA Độ đo chất lượng ảnh tham khảo hạn chế

(reduced-reference image quality assessment)

READis Mạng phân biệt của hệ REASRGAN

(REASRGAN discriminator)

Trang 18

REAGen Mạng tạo sinh của hệ REASRGAN

(REASRGAN generator)

REASRGAN Hệ mạng tạo sinh đối nghịch dựa trên phép tính tập trung hiệu

quả đặt lại tham số được cho bài toán siêu phân giải

(reparameterizable efficient attention-based super-resolutiongenerative adversarial networks)

SDPA Phép tính tập trung dựa trên tích vô hướng có chia tỷ lệ

(scaled dot-product attention)

SISR Bài toán siêu phân giải một ảnh

(single-image super-resolution problem)

SR Bài toán siêu phân giải (super resolution problem)SRCC Hệ số tương quan thứ bậc Spearman

(Spearman rank-order correlation coefficient)

SSIM Chỉ số tương đồng về cấu trúc

(structural similarity index measure)

SW-MSA Khối tự tập trung nhiều đầu dựa trên cửa sổ dịch chuyển

(shifted window multi-head self attention module)

Upsample Khối phóng to

(upsample block)

W-MSA Khối tự tập trung nhiều đầu dựa trên cửa sổ thường

(window multi-head self attention module)

basic-Conv Khối tích chập cơ bản

(basic convolution block)

core-EA Khối trọng tâm của phép tính tập trung hiệu quả

(core efficient attention block)

Trang 19

rep-Conv Lớp tích chập đặt lại tham số

(reparameterizable convolution layer)

rep-DConv Lớp tích chập theo từng kênh và đặt lại tham số

(reparameterizable depthwise convolution layer)

rep-DSConv Lớp tích chập tách ra được theo chiều sâu và đặt lại tham số

(reparameterizable depthwise-separable convolution layer)

rep-PConv Lớp tích chập theo từng điểm và đặt lại tham số

(reparameterizable pointwise convolution layer)

softmax Phép tính cực đại mềm

Trang 20

Chương 1Giới thiệu

1.1.Giới thiệu bài toán siêu phân giải ảnh

Siêu phân giải ảnh (image super resolution, SR) là việc tăng độ phân giải củamột ảnh đầu vào bằng cách tạo ra một ảnh đầu ra có độ phân giải cao hơn, trong khivẫn giữ gìn được những nội dung và đặc tính cấu trúc của ảnh đầu vào (như hình1.1).

Hình 1.1: Ví dụ về việc siêu phân giải lên 4 lần [5].

Siêu phân giải ảnh là một bài toán rất phổ biến trong đời sống, khoa học và sảnxuất Đối tượng của bài toán này rất đa dạng, ví dụ như: ảnh chụp, ảnh chiều sâu,ảnh cảm biến nhiệt, ảnh y khoa, v.v Do mang tính phổ biến trong đời sống, siêuphân giải ảnh đã trở thành một mảng khá sôi động của lĩnh vực thị giác máy tính(computer vision, CV), với rất nhiều công trình liên quan được xuất bản trong vòng10 năm qua Các công trình này phong phú đa dạng cả về loại ảnh cần siêu phângiải, hướng tiếp cận và cả các tính chất mong muốn của đầu ra.

Dựa theo số lượng ảnh mà mô hình siêu phân giải cần xử lý trong từng lần, có

Trang 21

thể chia các bài toán siêu phân giải ảnh thành 2 loại Chúng lần lượt là: bài toán siêuphân giải một ảnh (single-image super resolution, SISR) và bài toán siêu phân giảinhiều ảnh cùng lúc (multiple-image super resolution, MISR).

Dựa trên nội dung của ảnh đầu vào, bài toán siêu phân giải ảnh có thể được chiathành các bài toán con như: siêu phân giải ảnh thường, siêu phân giải ảnh y khoa,siêu phân giải ảnh vệ tinh, siêu phân giải ảnh nhiệt, v.v Mỗi bài toán con như vậy sẽcó thêm những yêu cầu riêng đối với ảnh sinh ra Ví dụ, siêu phân giải ảnh y khoađòi hỏi sự trung thành cao về mặt nội dung với ảnh gốc, để đảm bảo các chuyên giay tế có thể đưa ra các chẩn đoán chính xác.

Xét đến hướng tiếp cận, bài toán siêu phân giải ảnh có nhiều cách tiếp cận khácnhau, theo sát các trào lưu của khoa học máy tính nói chung và thị giác máy tính nóiriêng Cách tiếp cận dựa trên các giải thuật được thiết kế kỹ lưỡng hình thành trướctiên Tiếp đến, cách tiếp cận học máy xuất hiện và dần thay thế các giải thuật đượcthiết kế cố định Sau đó, học sâu được định hình và bùng nổ trong rất nhiều lĩnh vựccủa khoa học máy tính Các nhóm nghiên cứu của bài toán siêu phân giải ảnh cũngkhông nằm ngoài trào lưu này Cách tiếp cận dựa trên học sâu xuất hiện và đã trởthành cách tiếp cận chủ đạo cho bài toán siêu phân giải ảnh cho đến tận ngày này.

Theo nhóm, có 2 tiêu chí quan trọng để đánh giá chất lượng ảnh đầu ra của mộtmô hình siêu phân giải, đó là:

− Độ chính xác so với ảnh đầu vào: Tiêu chí này phản ánh mức độ sai khác vềthông tin có trong ảnh được tạo ra và ảnh đầu vào Nó thường được đo đạcbằng cách so sánh trực tiếp từng điểm ảnh hoặc một số đặc trưng được tríchxuất ra từ mỗi ảnh.

− Độ chân thật: Tiêu chí này đánh giá xem ảnh đầu ra có giống với một ảnhthực hay không Hay nói cách khác, độ chân thật liên quan tới khả năng conngười không thể nhận diện được đâu là ảnh độ phân giải cao có sẵn, đâu làảnh do một mô hình siêu phân giải tạo ra.

Hiện nay, các công trình siêu phân giải ảnh dễ bị rơi vào một trong hai thái cựcsau:

Trang 22

− Một số mô hình có độ chính xác rất cao, bảo toàn rất tốt những chi tiết từ ảnhđầu vào Tuy nhiên, ảnh do chúng tạo ra không hề thân thiện với nhận thứccủa con người.

− Ngược lại, một số mô hình sinh ra ảnh vô cùng chân thật Thế nhưng, vài chitiết trong ảnh đầu ra lại bị sai lệch so với ảnh đầu vào.

1.2.Đề tài và động lực chọn đề tài

Nhóm quyết định chọn siêu phân giải ảnh làm đề tài của luận văn này Động lựcđể chúng tôi đưa ra quyết định này chính là vai trò quan trọng của bài toán này đốivới thực tiễn Vai trò ấy có thể được giải thích bởi 3 lý do sau đây:

− Nhu cầu về dữ liệu với độ phân giải cao ngày càng gia tăng: Độ phân giải cao

sẽ cải thiện một cách rõ rệt kết quả của các công việc như chẩn đoán trong yhọc, nhận diện vật thể, hiển thị hình ảnh trên màn hình, v.v.

− Không phải lúc nào các dữ liệu độ phân giải cao cũng có thể thu thập trựctiếp được bởi sự hạn chế về công nghệ: Lấy ví dụ trong y khoa, các thiết bịchụp cộng hưởng từ (magnetic resonance imaging, MRI) hay chụp cắt lớp vitính (computerized tomography, CT) có giới hạn nhất định về độ phân giải.Theo [12], mỗi khối ảnh (voxel) trong các ảnh MRI hay CT chỉ tương ứng với1mm3 mô trong trường hợp tốt nhất Ngoài ra, để chụp ảnh với độ phân giảicao hơn, người bệnh cần phải nằm im lâu hơn Điều này có thể gây khó chịucho bệnh nhân Hơn nữa, khi bệnh nhân nằm lâu, cơ thể có khả năng cử độngnhẹ làm ảnh hưởng tới chất lượng ảnh chụp Do đó, các giải thuật siêu phângiải ảnh được áp dụng lên các dữ liệu chất lượng thấp hiện có để tạo ra cácdữ liệu chất lượng cao hơn.

− Ứng dụng trong việc nén và giải nén các dữ liệu khi lưu trữ hoặc truyền tải:

Hình ảnh hay video có thể được thu nhỏ lại để truyền đi nhanh hơn và dùngmột giải thuật siêu phân giải phù hợp để phóng to trở lại ở đích đến.

Trang 23

1.3.Phạm vi và mục tiêu của luận văn

Trong luận văn này, nhóm chỉ tập trung vào cách tiếp cận học sâu cho bài toánsiêu phân giải cho một ảnh (SISR) Các ảnh đầu vào sẽ là ảnh thường, với nội dungphong phú đa dạng, bao quát các đối tượng thực thường gặp trong đời sống như conngười, động vật, cây cỏ, cảnh quan, v.v Về mặt kiến trúc mô hình, chúng tôi tậptrung vào các mô hình siêu phân giải dựa trên học sâu.

Nhóm đặt ra mục tiêu là phát triển một mô hình học sâu mới cho bài toán siêuphân giải ảnh với độ chân thực cao và tính chính xác được duy trì ổn định ở mứctốt.

Nhóm xin tổng kết những đóng góp của nhóm cho học thuật và thực tiễn trongluận văn này như sau:

− Đề xuất hệ mạng tạo sinh đối nghịch đặt lại tham số được dựa trên phép tínhtập trung hiệu quả cho bài toán siêu phân giải (reparameterizable efficientattention-based super-resolution generative adversarial networks, REASR-GAN) dựa trên cơ sở của SwiftSRGAN [1], một mô hình học sâu nhỏ gọncho bài toán siêu phân giải.

− Tích hợp cơ chế đặt lại tham số [2] (reparameterization) vào mạng tạo sinhcủa REASRGAN (REASRGAN generator, REAGen) để cải thiện kết quả củaquá trình huấn luyện, trong khi vẫn giữ nguyên kích thước mô hình khi kiểmthử.

− Tích hợp cơ chế tập trung hiệu quả [3] (efficient attention, EA) vào REAGendưới dạng các khối tập trung hiệu quả kèm theo kết nối dư thừa (residual EAblocks, res-EA) nhằm mở rộng vùng tiếp thu (receptive field) ra toàn bộ ảnh,trong khi vẫn giữ được độ phức tạp tính toán ở mức tuyến tính.

Trang 24

− Đề xuất phát triển mạng phân biệt của REASRGAN (REASRGAN nator, READis) dựa trên kiến trúc của StairIQA [4], và khởi tạo READis vớibộ trọng số huấn luyện sẵn do nhóm tác giả gốc công bố, nhằm tận dụng khảnăng đánh giá độ chân thật ảnh của StairIQA để hướng dẫn REAGen sinh raảnh gần gũi với cảm quan con người hơn.

discrimi-− Đề xuất quy trình huấn luyện qua 3 giai đoạn để cân bằng giữa độ chính xácvà độ chân thực trong ảnh đầu ra, cũng như giữa sức mạnh của REAGen vàREADis.

1.5.Cấu trúc căn bản của luận văn này

Về cơ bản, luận văn này bao gồm 5 chương Trong đó, chương 1 chính là phầngiới thiệu mở đầu này Ở chương 2, nhóm tiến hành khảo sát qua các nghiên cứutrước đây về bài toán này để từ đó chọn ra một mô hình dùng làm cơ sở cho nghiêncứu của chúng tôi Bên cạnh đó, các độ đo không tham khảo dựa trên học sâu chobài toán này cũng được khảo sát Ngoài ra, chúng tôi còn trình bày về một số kỹthuật học sâu sẽ được ứng dụng trong luận văn này Ở chương 3, nhóm trình bày cácđề xuất nhằm cải tiến mô hình cơ sở Ở chương 4, chúng tôi tiến hành thực nghiệmđể kiểm tra các đề xuất này, và phân tích đóng góp của từng bước cải tiến vào kếtquả Cuối cùng, ở chương 5, nhóm tổng kết lại những điều đã làm được, chưa làmđược trong giai đoạn luận văn, cùng với những dự định tiếp theo trong tương lai.

Trang 25

Chương 2

Tổng quan tài liệu

2.1.Khảo sát các nghiên cứu về siêu phân giải ảnh

Xuất phát từ nhu cầu thực tiễn trong đời sống, khoa học và sản xuất, bài toánsiêu phân giải ảnh ngày càng được nghiên cứu rộng rãi và sâu sắc Từ đó, các giảipháp được đưa ra nhằm giải quyết nó ngày càng phong phú đa dạng Chúng tôi nhậnthấy rằng các công trình này có thể được phân loại dựa vào các tiêu chí như: kiếntrúc mô hình, số lượng đầu vào được xử lý và hiểu biết của mô hình về loại suygiảm chất lượng trong ảnh đầu vào.

Trong các tiểu mục tiếp theo, chúng tôi sẽ lần lượt khảo sát các nghiên cứu liênquan theo những tiêu chí này.

2.1.1.Theo kiến trúc mô hình

Dựa vào kiến trúc của mô hình, chúng tôi phân loại các giải thuật siêu phân giảiảnh thành các nhóm sau: học máy đơn giản và học sâu.

Các giải thuật siêu phân giải ảnh sớm nhất là các giải thuật học máy đơn giản,chưa phải học sâu Trong bài báo [13], Freeman và các đồng tác giả đã dựa trênmạng Markov và sự lan truyền Bayes Sau đó vài năm, nhóm của Chang trong bàibáo [14] đã tận dụng các giải thuật học đa tạp (manifold learning) Trong khi đó,Yang và các cộng sự trong bài báo [15] dựa vào các kỹ thuật mã hóa thưa (sparseencoding) và lấy mẫu thưa (sparse sampling) Nhìn chung, các công trình này dựavào các giải thuật đã được định nghĩa rõ ràng và tốn nhiều tài nguyên tính toán Bêncạnh đó, chúng không khôi phục được tốt các thông tin tần số cao (high-frequencyinformation) và không tận dụng được các bộ dữ liệu huấn luyện ngày càng phongphú và đồ sộ.

Các giải thuật siêu phân giải dựa trên học sâu bắt đầu xuất hiện từ sau sự thànhcông của học sâu trong lĩnh vực thị giác máy tính Trong số đó, các mạng học sâu

Trang 26

chỉ đơn thuần dựa trên các lớp tích chập (convolution layers) được đề xuất sớm nhấtvà vẫn còn sức ảnh hưởng mạnh mẽ đến tận bây giờ Một trong những mô hình đầutiên như vậy là SRCNN được đề xuất bởi Dong và các đồng sự trong [16] SRCNNphóng to ảnh trước rồi mới dùng các lớp tích chập để biến đổi ảnh thô này thành ảnhđầu ra có chất lượng tốt hơn Nhóm nghiên cứu của Shi qua bài báo [6] đã đề xuấtmô hình ESPCN (như hình 2.1) Cách tiếp cận của ESPCN là trích xuất đặc trưngtrên ảnh độ phân giải thấp trước, rồi mới phóng to sau Nhóm tác giả này đề xuấtsử dụng lớp xáo trộn điểm ảnh (pixel shuffle layer, PS) để phóng to ảnh ESPCN làmột cột mốc quan trọng, vì nó đủ nhanh để siêu phân giải được trong thời gian thực,và truyền cảm hứng cho rất nhiều mô hình khác về sau trong việc dùng các lớp PSđể tăng độ phân giải ở cuối mạng học sâu Sau đó, vào năm 2018, Zhang và cácđồng tác giả trong [17] đã đề xuất kiến trúc RCAN Trong công trình này, nhóm tácgiả nhận xét rằng biểu hiện (performance) của mô hình không phải luôn tăng theosố lớp, vì mô hình càng sâu thì càng khó huấn luyện Nhóm tác giả đề xuất dùngcác kết nối dư thừa (residual connection) ngắn và dài, và các lớp tập trung theo kênh(channel-attention layer, CA) để ổn định quá trình huấn luyện, từ đó xây dựng mộtmô hình rất sâu cho bài toán siêu phân giải.

Gần đây, bên cạnh việc tăng chất lượng ảnh đầu ra, một số nhóm nghiên cứucòn cố gắng phát triển các mô hình gọn nhẹ hơn để dễ dàng ứng dụng trong cuộcsống như: SR-ILLNN và SR-SLNN ([18]), NCNet ([19]) và ShuffleMixer ([20]).Một xu hướng nghiên cứu khác là xây dựng các khối đơn vị (block) phức tạp gồmnhiều nhánh tích chập song song nhau cũng được quan tâm đến gần đây Một sốcông trình tiêu biểu là: DSRCNN ([21]), ESRGCNN ([22]) và HGSRCNN ([23]).

Lấy ý tưởng từ sự thành công của các kiến trúc dạng transformer trong lĩnh vựcthị giác máy tính nói chung, các nhóm nghiên cứu dần tìm cách áp dụng kiểu kiếntrúc này vào bài toán siêu phân giải ảnh và đã đạt được nhiều kết quả tốt SwinTransformer, được đề xuất bởi nhóm của Liu trong bài báo([24]), không phải là mộtmô hình dành cho bài toán siêu phân giải ảnh, nhưng những điểm cải tiến của nóđã được rất nhiều mô hình siêu phân giải khác tham khảo Swin Transformer baogồm các khối tự tập trung nhiều đầu dựa trên cửa sổ thường (window multi-head

Trang 27

Hình 2.1: Kiến trúc của mô hình ESPCN, hình này lấy ra từ [6].

self attention module, W-MSA) và các khối tự tập trung nhiều đầu dựa trên cửa sổdịch chuyển (shifted window multi-head self attention module, SW-MSA) để tínhtoán tập trung (attention) trên từng cửa sổ (chính là các vùng nhỏ có kích thướcbằng nhau trong ảnh) Việc này là nhằm tránh bùng nổ số phép toán khi thực hiệnphép tính tập trung trên cả ảnh Các cửa sổ của các khối W-MSA và SW-MSA lệchnhau và mở rộng dần về cuối của mô hình, nhằm mở rộng vùng tiếp thu (receptivefield) Sau đó, Liang và đồng sự đã đề xuất kiến trúc SwinIR cho các bài toán khôiphục ảnh (trong đó có bài toán siêu phân giải ảnh) qua bài báo [25] SwinIR dựatrên các khối W-MSA và SW-MSA của SwinTransformer Tuy nhiên, khác với SwinTransformer, kích thước cửa sổ được giữ cố định trong SwinIR Tiếp nối SwinIR,Chen và các đồng tác giả qua công trình [7] đã đề xuất kiến trúc HAT cho bài toánsiêu phân giải ảnh Nhìn chung, kiến trúc tổng quát của HAT (như hình 2.2) dựatrên RCAN với nhiều kiểu kết nối dư thừa và các lớp tập trung theo kênh (CA) Tuynhiên, các khối đơn vị cơ bản của HAT còn có cả các lớp W-MSA và SW-MSA nhưSwinIR Ngoài ra, nhóm tác giả còn đề xuất thêm các khối tập trung chéo trùng lắp(overlapping cross-attention block, OCAB) tính toán tập trung với ma trận đáp án(key matrix, K) và ma trận giá trị (value matrix, V ) được tính ra từ một cửa sổ rộnghơn cửa sổ của ma trận câu hỏi (query matrix, Q) Từ đó, OCAB mở rộng vùng tiếpthu ra xa hơn nữa.

Bên cạnh các mô hình chủ yếu chỉ dựa vào transformer hay tích chập nêu trên,một số nghiên cứu đã tích hợp thành công cả hai loại kiến trúc này trong một môhình, ví dụ như: HNCT ([26]), LBNet ([27]) và CTCNet ([28]).

Hệ mạng tạo sinh đối nghịch (generative adversarial networks, GAN) cũng là

Trang 28

Hình 2.2: Kiến trúc của framework HAT [7].

một dạng kiến trúc phổ biến cho các mô hình học sâu giải quyết bài toán siêu phângiải ảnh Ledig và các đồng sự đã đề xuất SRGAN trong bài báo [29] Theo nhómtác giả, đây là một trong những mô hình học sâu đầu tiên có khả năng sinh ra ảnhsiêu phân giải với độ chân thật cao Điều đó là nhờ sử dụng hàm mất mát về cảmquan (perceptual loss) khi huấn luyện Hàm này được kết hợp từ hàm mất mát nộidung (content loss) và hàm mất nát đối nghịch (adversarial Loss) Trong đó, hàmmất mát về nội dung được tính bằng trung bình bình phương sai số (mean squareerror, MSE) giữa các đặc trưng, được trích xuất nhờ một mô hình học sâu đã huấnluyện từ trước, của ảnh siêu phân giải đầu ra và ảnh gốc chất lượng cao (groundtruth) Giá trị của hàm mất này này phản ánh mức độ sai khác về mặt nội dunggiữa hai ảnh này Hàm mất mát đối nghịch chính là kết quả của mạng phân biệt(discriminator) Việc dùng các hàm này khi huấn luyện nhằm dẫn dắt đầu ra củamạng tạo sinh hướng tới vùng phân bố của các ảnh thật Những cải tiến này củaSRGAN đã được các công trình sau đó tiếp thu và vận dụng.

ESRGAN, được đề xuất qua công trình [30] bởi nhóm nghiên cứu của Wang,cũng dựa trên cơ sở kiến trúc và hàm mục tiêu của SRGAN Trong mạng tạo sinh(generator) của ESRGAN, các lớp chuẩn hóa theo lô (batch normalization, BN)được loại bỏ, và các kết nối dư thừa phức tạp được thêm vào Ngoài ra, nhóm tác giả

Trang 29

còn cải tiến mạng phân biệt (discriminator) của ESRGAN để dự đoán độ chân thựctương đối của ảnh đầu ra, dựa theo công trình Relativistic GAN [31] Cụ thể hơn,thay vì dự đoán xác suất ảnh đang xử lý là ảnh thật, mạng phân biệt của ESRGANgán một giá trị điểm số cho mỗi ảnh Theo đó, mạng tạo sinh sẽ cố gắng khiến chomỗi ảnh siêu phân giải (ảnh giả) đều có điểm số cao hơn điểm số trung bình củacác ảnh gốc chất lượng cao (ảnh thật) Ngược lại, mạng phân biệt sẽ cố gắng chấmđiểm chính xác hơn, sao cho mỗi ảnh thật đều có điểm số cao hơn điểm số trungbình của các ảnh giả Nhờ đó, ESRGAN trở thành một mô hình siêu phân giải hàngđầu về mặt chất lượng của đầu ra.

Một hướng cải tiến SRGAN khác là khiến nó trở nên gọn nhẹ hơn, như vớimô hình SwiftSRGAN do nhóm nghiên cứu của Krishnan đề xuất trong bài báo[1] Kiến trúc của SwiftSRGAN dựa trên SRGAN, với sự cải tiến chủ yếu là việcthay các lớp tích chập thông thường bằng các lớp tích chập phân tách được theochiều sâu (deep-wise separable convolution, DSC) Ngoài ra, mô hình huấn luyệnsẵn dùng trong hàm mất mát nội dung (content loss) cũng được thay bằng mạngMobileNetV2, vốn nhỏ gọn hơn mạng VGG19 dùng bởi SRGAN Nhờ các cải tiếnnày, SwiftSRGAN đã đủ nhanh để chạy trong thời gian thực, và xử lý được cả video.Bên cạnh việc nhanh gọn hơn, các nhóm nghiên cứu còn tìm cách làm cho cácmô hình GAN có thể siêu phân giải được ảnh bị suy giảm chất lượng bởi nhiềunguyên nhân khác nhau và chưa từng gặp khi huấn luyện Wang và các đồng sự đãđề xuất mô hình Real-ESRGAN theo hướng này trong bài báo [8] Real-ESRGANvề cơ bản dựa trên kiến trúc của ESRGAN Dữ liệu đầu vào được tiền xử lý để bị suygiảm chất lượng theo những cách đa dạng hơn (như hình 2.3), nhằm kích thích môhình học cách thích ứng Mạng phân biệt được cải tiến theo kiến trúc chữ U (U-net)để dự đoán độ chân thực tới từng điểm ảnh (pixel) của ảnh đầu ra Nhờ những cảitiến này, Real-ESRGAN có thể hoạt động tốt, ngay cả khi ảnh độ phân giải thấp đầuvào chịu những kiểu suy giảm chất lượng lạ, chưa từng gặp.

Nhìn chung, các mô hình chỉ đơn thuần dựa trên tích chập hay có thêm former có thể đạt được độ chính xác rất cao về các chi tiết trong ảnh đầu ra Tuynhiên, không phải các ảnh này lúc nào cũng thân thiện với mắt người Ở chiều ngược

Trang 30

trans-Hình 2.3: Cách Real-ESRGAN mô phỏng những loại suy giảm chất lưởng ảnh đadạng trong thực tế [8].

Hình 2.4: Kiến trúc của framework MMHCA [9].

lại, các mô hình dựa trên GAN dễ dàng tạo ra các ảnh cực kỳ chân thực, nhưng điềunày đi kèm với khả năng một số chi tiết trong ảnh đầu ra không trung thành tuyệtđối nội dung gốc trong ảnh đầu vào.

Bên cạnh các mô hình cụ thể như trên, một số bài báo còn đề xuất các khung(framework) để cải tiến chất lượng của các mô hình có sẵn Georgescu và nhómnghiên cứu đã đề xuất framework MMHCA (như hình 2.4) qua bài báo [9] MMHCAkết hợp các đặc trưng trích xuất từ những ảnh thuộc các chế độ (mode) khác nhaucủa cùng một lần chụp MRI hay CT, để sinh ra ảnh siêu phân giải Việc trích xuấtđặc trưng được thực hiện nhờ một mô hình siêu phân giải có sẵn bất kì Việc kết hợp

Trang 31

Hình 2.5: Kiến trúc của framework PD, hình này lấy ra từ [10].

được thực hiện nhờ cơ chế tập trung theo không gian và theo kênh (spatial-channelattention).

Các kỹ thuật đảo ngược GAN (GAN inversion) cũng có thể được xem là nhữngframework Với bài toán siêu phân giải, các kỹ thuật đảo ngược GAN giả định ảnhsiêu phân giải cần tìm được sinh ra từ một mô hình GAN nhất định Các kỹ thuậtnày đi tìm một giá trị trong không gian thưa (latent space) của mạng tạo sinh tronghệ GAN đó, sao cho từ giá trị này, khi qua mạng tạo sinh và tiếp theo là các phépbiến đổi suy giảm chất lượng, sẽ tạo ra ảnh chất lượng thấp đầu vào Wang và cáccộng sự trong bài báo [32] đã đề xuất framework CRI Framework này tiến hànhđảo ngược GAN trên hệ StyleGAN-XL [33] Vector cần tìm được khởi tạo gần mộttrọng tâm (centroid) của không gian thưa và bị ràng buộc về khoảng cách (khôngđược quá xa) so với trọng tâm này.

Một cách tiếp cận khác với GAN là nâng cao độ chính xác của nội dung ảnhđầu ra so với ảnh đầu vào Wang và nhóm nghiên cứu đã đề xuất framework PD(như hình 2.5) trong công trình [10] Framework này phân tích các ảnh thành khônggian vô hiệu (null space) và không gian giá trị (range space) PD khi áp dụng lênmột mô hình GAN sẽ kết hợp không gian vô hiệu của đầu ra từ mô hình GAN đóvới không gian giá trị của ảnh đầu vào để tạo thành ảnh siêu phân giải sau cùng.Theo nhóm tác giả, không gian giá trị chứa các thông tin tần số thấp (low-frequencyinformation) và việc kết hợp như trên sẽ giúp truyền tải thẳng các thông tin này từảnh gốc sang ảnh siêu phân giải Từ đó, framework này giúp tăng tính chính xác củakết quả, mà không cần phải đánh đổi với độ chân thực.

Trang 32

2.1.2.Theo số lượng đầu vào được xử lý

Theo số lượng ảnh đầu vào được xử lý, có 2 loại bài toán siêu phân giải: siêuphân giải một đầu vào (single-image super resolution, SISR) và siêu phân giải nhiềuđầu vào (multiple-image super resolution, MISR) Từ đó, các loại giải thuật tươngứng cho từng bài toán lần lượt ra đời.

Các giải thuật SISR khá phổ biến và được nghiên cứu rộng rãi Phần lớn cáccông trình được chúng tôi khảo sát (ví dụ như [6], [17], [8]) thuộc về nhóm này.

Các giải thuật MISR dựa vào nhiều ảnh có quan hệ gần gũi với nhau để tạo raảnh siêu phân giải Tuy nhiên, không phải lúc nào các ảnh như vậy cũng có sẵn.Do đó, các giải thuật MISR dường như ít phổ biến hơn Framework MMHCA [9]là một ví dụ cho MISR Framework này dựa trên sức mạnh của các mô hình SISRkhác để thực hiện siêu phân giải nhiều ảnh cùng lúc.

2.1.3.Theo hiểu biết về loại suy giảm chất lượng trong ảnh đầuvào

Ảnh đầu vào của mô hình siêu phân giải ảnh có thể bị suy giảm chất lượng theonhiều cách khác nhau, bao gồm cả việc giảm độ phân giải Nhìn chung, các mô hìnhđều cố gắng loại bỏ những suy giảm này và đảm bảo ảnh sinh ra sẽ có chất lượngcao hơn, bao gồm cả việc có độ phân giải cao hơn.

Một số mô hình được huấn luyện với một vài loại suy giảm chất lượng cố định,ví dụ như cách giảm độ phân giải được mặc định là bicubic Khi đó các mô hìnhnày được gọi là các mô hình siêu phân giải biết trước về loại suy giảm trong ảnhđầu vào (non-blind super resolution, NBSR) Những mô hình này thường gặp khókhăn khi đối mặt các ảnh đầu vào với những kiểu suy giảm chất lượng chưa từnggặp trong quá trình huấn luyện Phần lớn các mô hình chúng tôi khảo sát, ví dụ nhưESPCN [6], SRGAN [29] và ESRGAN [30], thuộc về trường hợp này.

Trong khi đó, một số mô hình cố gắng mở rộng miền suy giảm mà chúng xử lýđược rộng nhất có thể Chúng được gọi là các mô hình siêu phân giải không biếttrước loại suy giảm trong ảnh đầu vào (blind super resolution, BSR) Real-ESRGAN

Trang 33

[8] tổng quát hóa nhờ cố gắng đa dạng hóa các kiểu suy giảm bắt gặp trên ảnh đầuvào khi huấn luyện, đưa chúng tiệm cận với những suy giảm ngẫu nhiên và khôngrõ nguồn gốc trong thực tế Một hướng tiếp cận khác là huấn luyện mô hình theohướng có thể phóng to với nhiều mức khác nhau, ví dụ như ESRGCNN [22] vàHGSRCNN [23].

2.2.Kỹ thuật đặt lại tham số

Đặt lại tham số (reparameterization, Rep) là một kỹ thuật thường thấy để giúpmô hình hội tụ tốt hơn khi huấn luyện, nhưng vẫn đảm bảo tính gọn nhẹ khi kiểmthử.

Kỹ thuật này được đề xuất lần đầu trong bài báo [2] bởi Ding và các đồng sự.Theo nhóm tác giả này, các mô hình học sâu có thể chia làm 2 dạng chính là:

− Phẳng: các mô hình dạng này gồm nhiều lớp nối tiếp nhau một cách tuần tự,không phân nhánh, ví dụ như mô hình VGG.

− Phân nhánh phức tạp: các mô hình dạng này chứa nhiều nhánh song songnhau, ví dụ như GoogLeNet [34], ResNet [35], DenseNet [36], v.v.

Về mặt kết quả, các mô hình phân nhánh phức tạp tốt hơn Theo [37], một mô hìnhphân nhánh phức tạp có thể được xem như một phép lấy mẫu của rất nhiều mô hìnhcạn hơn Ví dụ, với một mô hình gồm n khối liên tiếp, mỗi khối có 2 nhánh songsong nhau, mô hình đó có thể được diễn giải như là việc lấy mẫu của 2n mô hìnhcon Do đó, việc huấn luyện tránh được việc độ dốc bị triệt tiêu (gradient vanishing).Tuy nhiên, về mặt hiệu năng, các mô hình phẳng tốt hơn Điều này được giảithích qua 2 yếu tố sau đây:

− Kích thước mô hình: Việc có nhiều nhánh đòi hỏi phải tính toán nhiều hơn.Điều đó sẽ khiến mô hình khó được tinh chỉnh hơn và chạy chậm hơn khikiểm thử.

− Sử dụng bộ nhớ: Với nhiều nhánh tồn tại song song, thông tin ở các nhánhcần được giữ trong bộ nhớ cho tới khi các nhánh gặp lại nhau Trong khi đó,

Trang 34

Hình 2.6: Minh họa về việc chiếm giữ bộ nhớ của một mô hình phân nhánh (hìnha) và một mô hình phẳng (hình b) (ảnh trích từ [2]) Do kết nôi dư thừa, mô hìnhtrong hình bên phải phải giữ thông tin ban đầu cho tới tận khi nhánh chính và nhánhdư thừa gặp lại nhau Điều đó đã dẫn tới nhu cầu bộ nhớ tăng lên 2 lần trong quãng

thời gian đó.

với các mô hình phẳng, vùng nhớ lưu trữ thông tin của một tác vụ tính toán sẽđược thu hồi ngay sau khi tính xong Do vậy, các mô hình phân nhánh phứctạp chiếm giữ nhiều bộ nhớ hơn các mô hình phẳng Hình 2.6 là một ví dụcho điều này.

Từ những ưu - nhược điểm của mỗi loại kiến trúc mô hình đã được phân tíchnhư trên, Ding và các đồng sự đề xuất tách biệt kiến trúc mô hình giữa giai đoạnhuấn luyện và giai đoạn kiểm thử Đây chính là kỹ thuật đặt lại tham số Cụ thể nhưsau:

− Khi huấn luyện: Sử dụng một kiến trúc phân nhánh để giúp mô hình hội tụtốt hơn.

− Khi kiểm thử: Sử dụng một kiến trúc phẳng được thu giảm lại từ kiến trúcphân nhánh ở giai đoạn huấn luyện, nhằm giúp mô hình xử lý nhanh hơn vàdùng ít tài nguyên hơn.

Việc đặt lại các tham số của kiến trúc phân nhánh trong giai đoạn huấn luyệnđể tạo thành kiến trúc phẳng trong giai đoạn kiểm thử được nhóm của Ding đề xuấtdựa trên các phép toán đại số tuyến tính đơn giản, song vẫn đảm bảo rằng với cùngđầu vào, cả hai phiên bản của mô hình trước và sau biến đổi đều sẽ cho ra cùng mộtkết quả.

Trang 35

Hình 2.7: Cách áp dụng kỹ thuật đặt lại tham số vào mô hình RepVGG [2] Hìnha) là một phần của mô hình ResNet cho thấy việc dùng chung 1 kiến trúc khi huấnluyện và khi kiểm thử Hình b) là kiến trúc của RepVGG khi đang huấn luyện, với3 nhánh Hình c) là kiến trúc của RepVGG khi đang kiểm thử với chỉ 1 nhánh duy

Để minh họa cho ý tưởng này, Ding và các đồng sự đã dựa trên mô hình ResNet[35] và áp dụng kỹ thuật này nhằm xây dựng nên mô hình RepVGG (xem hình 2.7).RepVGG được tạo thành từ nhiều khối đơn vị Khi huấn luyện, mỗi khối như vậybao gồm 3 nhánh:

− Nhánh 3 × 3 gồm một lớp tích chập với nhân (kernel) 3 × 3 và một lớp chuẩnhóa theo lô (batch normalization, BN);

Trang 36

1 Quy đổi các nhánh về cùng dạng lớp tích chập nhân 3 × 3 Mỗi nhánh sẽ cónhững bước quy đổi khác nhau:

− Với nhánh 3 × 3: Vì lớp tích chập ở nhánh này đã có nhân 3 × 3 sẵn, nênnhánh này chỉ cần hợp nhất lớp tích chập này với lớp BN liền sau nó.− Với nhánh 1 × 1: Đầu tiên, nhân của lớp tích chập trong nhánh này sẽ

được mở rộng thành kích thước 3 × 3 bằng cách đệm vào 8 vị trí xungquanh các giá trị 0 Sau đó, nó sẽ được hợp nhất với lớp BN liền sau.− Với nhánh Res: Có thể xem Res là một lớp tích chập với nhân là 1 × 1

và số nhóm (group) là số kênh đầu ra Do đó, nhánh Res trước tiên đượcthể hiện bằng một lớp tích chập nhân 1 × 1, với các trọng số biến đổikênh i ở đầu vào thành kênh i ở đầu ra là 1 và các trọng số còn lại là 0.Sau đó, nhân của lớp tích chập này cũng sẽ được đệm vào 8 giá trị 0 ởxung quanh và hợp nhất với lớp BN phía sau để tạo thành một lớp tíchchập quy đổi với nhân 3 × 3.

2 Cộng bộ trọng số của các lớp tích chập ở các nhánh lại với nhau, từ đó tạothành một lớp tích chập nhân 3 × 3 duy nhất.

Việc hợp nhất một lớp tích chập với một lớp BN được thực hiện qua công thứcsau:

Wi,:,:,:′ = γiσi

×Wi,:,:,: (2.1)b′i = −µiγi

Trong đó, W ∈ RC2×C1×3×3và b lần lượt là trọng số và độ lệch của lớp tích chập vớisố kênh đầu vào và đầu ra lần lượt là C1 và C2; µ, σ , γ và β lần lượt là giá trị kỳvọng tích lũy, độ lệch chuẩn tích lũy, hệ số mở rộng học được và độ lêch học đượccủa lớp BN; W′ và b′ lần lượt là trọng số và độ lệch của lớp tích chập kết quả.

Nhờ kỹ thuật đặt lại tham số, Ding và các đồng sự đã huấn luyện mô hìnhRepVGG thành công, trong khi vẫn đảm bảo được hiệu năng khi kiểm thử.

Trang 37

Hình 2.8: Cách đặt lại tham số của phiên bản huấn luyện để tạo thành phiên bảnkiểm thử ở một khối đơn vị trong mô hình RepVGG [2], khi đầu vào và đầu ra củakhối này đều có 2 kênh Hình a) là dưới góc nhìn cấu trúc Hình b) là dưới góc nhìn

của các tham số.

Với mục tiêu gia tăng sức mạnh cho mô hình cơ sở, chúng tôi sẽ áp dụng kỹthuật này vào trong luận văn này để cải tiến mô hình cơ sở một cách hợp lý.

2.3.Khảo sát một số loại phép tính tập trung

Trong mục này, nhóm sẽ tiến hành khảo sát qua một số phép tính tập trungthường gặp trong các mô hình học sâu.

Trang 38

2.3.1.Phép tính tập trung dựa trên tích vô hướng có chia tỷ lệ

Phép tính tập trung dựa trên tích vô hướng có chia tỷ lệ [38] (scaled dot-productattention, SDPA) cho một điểm dữ liệu đầu vào X với n điểm ảnh bao gồm các bướcsau:

1 Tính ma trận câu hỏi, ma trận đáp án và ma trận giá trị: Ma trận câu hỏi (querymatrix, Q ∈ Rn×dk) thể hiên những thông tin mà từng điểm trên X đang tìmkiếm Ma trận đáp án (key matrix, K ∈ Rn×dk) trả lời cho những câu hỏi đó.Ma trận giá trị (value matrix, V ∈ Rn×dv) là những thông tin trên từng điểmảnh mà mô hình học sâu quan tâm đến SDPA tính toán các ma trận này nhưsau:

2 Tính ma trận độ giống nhau giữa từng cặp điểm: Sự giống nhau giữa điểm uvà điểm v được đo lường bằng tích vô hướng của vector câu hỏi tại u và vectorđáp án tại v Tích này càng lớn, chứng tỏ v càng có khả năng cao đang chứanhững thông tin mà u đang tìm kiếm Trên quy mô toàn bộ ảnh X , các giá trịđộ giống nhau giữa một điểm với tất cả các điểm còn lại tạo thành ma trậnđộ giống nhau giữa từng cặp điểm (pair-wise similarity matrix, S ∈ Rn×n).SDPA tính toán S từ Q và K như sau:

Phép tính này có độ phức tạp là O(n2).

Trang 39

3 Tổng hợp kết quả: Ma trận S được chuẩn hóa nhờ một hàm chuẩn hóa ρ nàođó để đảm bảo quá trình huấn luyện được ổn định Sau đó, phiên bản chuẩnhóa của S sẽ được nhân với ma trận giá trị V để thu được kết quả sau cùng(E ∈ Rn×dv), như công thức sau:

Thông thường, ρ được chọn như sau:

ρ (x) = so f tmax

Độ phức tạp tổng cộng của các phép tính trong bước này là O(n).

Như vậy, phép tính SDPA giúp tổng hợp thông tin trên phạm vi toàn cục Vùngtiếp thu của một điểm ảnh (pixel) được mở rộng ra toàn ảnh Nhờ đó, mối quan hệgiữa hai pixel ở rất xa nhau cũng có thể được phát hiện Tuy nhiên, do chứa phéptính (2.6) có độ phức tạp O(n2) với n là số điểm trên ảnh, SDPA gặp vấn đề nghiêmtrọng về mặt hiệu năng khi xử lý các ảnh kích thước lớn Điều này đã hạn chế việcứng dụng SDPA một cách trực tiếp trong việc giải các bài toán liên quan đến thịgiác máy tính, một lĩnh vực mà dữ liệu đầu vào có thể có số điểm ảnh rất lớn.

2.3.2.Phép tính tập trung hiệu quả

Phép tính tập trung hiệu quả (efficient attention, EA) được Shen và các đồngsự đề xuất trong [3] như một cách để xấp xỉ giải thuật SDPA với độ phức tạp tuyếntính Phép tính EA gồm các bước sau:

1 Tính ma trận câu hỏi, ma trận đáp án và ma trận giá trị: Ở bước này, EA giữlại cách tính các ma trận Q, K và V từ SDPA.

2 Tính ma trận toàn cảnh: Ma trận đáp án K được chuẩn hóa nhờ một hàm ρk

nào đó Sau đó phiên bản đã chuẩn hóa của K được chuyển vị rồi nhân với

Trang 40

Hình 2.9: Nguyên lý hoạt động của phép tính tập trung hiệu quả do Shen và cácđồng sự đề xuất trong [3].

ma trận giá trị V , để tạo thành ma trận toàn cảnh G, như công thức sau:

E = ρq(Q)G = ρq(Q) ρk(K)TV (2.10)Phép tính này cũng có độ phức tạp là O(n), với n là số điểm ảnh (pixel) cótrong ảnh.

Như vậy, nguyên lý hoạt động của EA chính phép xấp xỉ (2.11) trong chuỗi suy

Ngày đăng: 30/07/2024, 16:44

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN