1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mô hình học sâu hiệu quả cho Ảnh siêu phân giải

59 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mô hình học sâu hiệu quả cho ảnh siêu phân giải
Tác giả Uyên Thanh Bình
Người hướng dẫn TS. Ngô Quốc Việt
Trường học Trường Đại học Sư phạm TPHCM
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 59
Dung lượng 4,94 MB

Nội dung

Nó thường được biển àng tốt nhưng không thể tránh khỏi hiện tượng ảnh bị mở bởi các yếu tổ ngoại quan như môi trường, thời tiết, và một số tác nhân khác: tốc độ của vật, `Vấn để tươn

Trang 1

KHOA CÔNG NGHỆ THÔNG TIN UYÊN THANH BÌNH

MÔ HÌNH HỌC SÂU HIỆU QUÁ CHO ẢNH SIÊU PHÂN GIẢI

KHÓA LUẬN TÓT NGHIỆP

‘TP.HO CHI MINH - NAM 2023

Trang 2

CHUYÊN NGÀNH: KHOA HỌC MÁY TỊ

KHÓA LUẬN TÓT NGHIỆP

TP.HCM ~ NAM 2023

Trang 3

TÓM TÁT

CHƯƠNG 1 GIỚI THIỆU:

1 “Tổng quan:

12 Lý do chọn đề tài

1 Khao sát các công trình liên quan:

144 Phat biéu bai toán

CHUONG 2 CO S6 LY THUY!

2.1 Tổng quan ảnh siêu phân giải 2.2 Phương pháp nội suy cho siêu phân giải 3.3 Siêu phân giải dựa trên phương pháp sử đụng học sâu CHƯƠNG 3 MÔ HÌNH ĐÈ XUẤT

3.1.4 Các phương pháp đánh giá ảnh siêu phan git 3.2 Thiết kế mô hình

3.21 Kiến trúc mô hình

3.22 Tỉnh chỉnh các thông số 3.3 Dataset va xi lý dữ liệu

3.31 Dataset

3.4 Xây dựng một số chức năng

'CHƯƠNG 4 THỰC NGHIỆM

'CHƯƠNG 5 KÉT LUẬN

Trang 4

BANG KY HIEU, CHU VIET TAT

Trang 5

So sánh thông số PSNR/SSIM giữa các mô hình

So sánh số ham số giữa các mô hình

Bảng thời gian chạy thực tế (Trung bình cộng 5 lần) Bảng số phần trăm chiếm hữu CPU (Trung bình cộng 5 lần) Bảng số Ram( MB) tiêu tổn để chạy mô hình (Trung bình cộng 5 ln) Bảng dụng lượng của mô hình (b5),

Trang 6

BANG DANH MYC CAC HINH VE Hinh 1.1 Pre-Upsampling Super resolution, Neu: analyticsvidhya Hình 1

“Thuật toán nội suy lân cận

“Thuật toán nội suy song tuyển

“Thuật toán nội suy song khối

Mô hình SRCNN Nguồn : Srenn

Mô hình VDSR_ Nguồn: VDSR

Mô hình SRGAN Nguồn : srgan

Mô hình LAPSRN Nguồn: Lapse Khối Residual

Separable Convolution 2D Ngudn: Deep Shuffle Pixel Nguồn : Pylmage

Độ phân giải thể hiện qua PSNR Kiến trúc mô

đề xuất

Khối RPSB (Khối lăng cường đặc điểm trích xuấ, Một số hình ảnh về tập dữ liệu

Trang 7

Hình 3,9 Các bước xử lý đ tạo ảnh đầu vào cho mô hình

Hình 3, 10 Hàm đưa bình ảnh về độ phân giải thấp

Hình 3 L1 Cách hoạt động của hảm tăng độ phân giải

Hinh 4 1 Women (Set5)

Hình 4.2 Butterfly (Set5)

Hinh 4 3 Baby (Set5)

Hinh 4 4 Zebra (Set14)

Hình 4 5 Butterfly (Set14)

Hình 4 6 Butterfly ở Scale x3

Tình 4.7 Women ở Sele x3

Minh 4 8 Baby 6 Seale x4

Minh 4.9 Comic 6 Sale x4

Hinh 4, 10, Zebra d Seale x4

Hình 4 11, Butterfly @ Seale x4

Trang 8

TOM TAT

“Trong để tài nghiên cứu này Tôi thực hiện nghiên cứu và để xuất một mô hình

và Học sâu vào việc huấn luyện mô hình để tăng độ phân giải của hình ảnh có độ

phân giải hấp Việc huấn luyện và thực nghiệm của mô hình này sẽ sử dụng thư Vign Tensorflow

‘Tir kha : super resolution, dnb siêu phân giải, mô hình học sâu hiệu quả cho ảnh siêu phân giải

Trang 9

1.1 Tổng quan:

Cuộc sống ngày càng phát triển, hình ảnh kỹ thuật số đã trở nên rất phd biển và có tầm quan trọng trong nhiễu lĩnh vực của con người Chất lượng của hình ảnh cũng ngày một tốt hơn Có nhiều khía cạnh để đánh giá chất lượng của

hình ảnh Trong đó có thể kẻ đến độ phân giải của bình ảnh Nó thường được biển àng tốt nhưng không thể tránh khỏi hiện tượng ảnh bị mở bởi các yếu tổ ngoại

quan như môi trường, thời tiết, và một số tác nhân khác: tốc độ của vật,

`Vấn để tương bự xảy ra khi chúng ta muỗn phóngto hình ảnh kỹ thuật sổ để hiển thị nó trên màn hình có độ phân giải cao hơn Số pixel của hình ảnh phải phù hợp với độ phân giải màn hình và kích thước hình ảnh mong muốn Quá trình này

có thể đại được bằng cách nội suy bình ảnh, nhưng độ phân giải thục tế Không tăng lên khi số lượng điểm ảnh tăng lên Chỉnh vì vậy, nó sẽ dẫn đến hình ảnh bị tổntại trong tắt cả các hệ thống hình ảnh kỹ thuật số và không thể khắc phục bằng bắt kỹ phương pháp nội suy nào

Siêu phân giải (Super Resolution) ra dai dé ừm cách khắc phục hạn chế này

Và tạo ra hình ảnh có độ phân giải cao hơn Trên thục tế có hai phương pháp Khác (Muti Image Super Resoludon) Phương pháp này tạo hình ảnh có độ phân giải

0 (Hight Resolution) từ nhiều hình ảnh có độ phân giải thấp (Low Resolution) Hình ảnh mô tả cùng một cảnh Mỗi hình ảnh đầu vào phải chứa thông tin day nhất để MISR hoạt động Bằng cách này, các pixel sẽ được được lẤy mẫu từ các vị trí duy nhất Phương pháp này có khả năng ứng dụng tắt hạn chế, vì thông thường chi c6 nhiều ảnh phân giải giải thấp trên cùng một khung cảnh và vị trí

Trang 10

(Single Image Super Resolution) Phuong php nảy thực hiện bing cách sử dụng,

1.3 Khảo sắt các công trình iên quan:

Hình ảnh có độ phân giải thấp có thể biến thành hình ảnh có độ phân giải

bằng nhiều phương pháp và kỹ thuật khác nhau : Tăng độ phân giải trước khi lấy

miu ( Pre-Upsampling Super Resolution } : Đây là một phương pháp đầu tiên sử

cdụng deep leaming cho ảnh siêu phân giải và đem lại một kết quả khá Ấn tượng

i 8 Hình 1 1 Pre-Upsampling Super resolution Nguồn: analyticsvidbya

Trang 11

Ta sử dụng các thuật toán lấy mẫu truyền thống để thụ được hình ảnh có

độ phân giải cao hơn và sau đó tỉnh chỉnh chúng bằng cách sử dụng mạng nơ-ron

âu để tăng độ phân giải cho hình ảnh Theo như mô hình trên, hình ảnh LR được

ghép lạ thành hình ảnh HR thô với ích thước mong muốn bằng phép nội suy nhị phân, Sau đó, thông qua mang CNN để tái tạo hình ảnh chất lượng ao

Điền hình ta có thể nhắc tới là SRCNN [1]: Đây là một mô hình CNN

bao gồm 3 lớp: lớp ích xuất, nh xạ phi tuyển và tấ tqo Các bản vá ừ nh đầu chip Ixl của lớp ánh xạ đùng để thêm tinh phi tuyển và hay đổi số kênh, Và hình ảnh được ti ạo lại thành độ phân giải cao hơn nhờ vào lớp cuối cùng

Hình L.2 Mô hình SRCNN Nguồn : paperspace

Ưu điểm của SRCNN là có thể học được các đặc trưng phủ hợp cho bài toán

nâng cao độ phân giải, thay vì sử dụng các đặc trưng được thiết kế sẵn như các phương pháp dựa trên mã hóa thưa (sparse coding) Ngoài ra, SRCNN cũng có thể

tân đụng được sức mạnh của các framework hoe siu như TensorFlow hay PyTorch

để huắn luyện và kiểm tra hiệu năng,

"Nhược điểm của SRN là cần phải nội uy ảnh thấp độ phân giả lên kích

thước mong muốn trước khi đưa vào mạng, điều này làm tăng chỉ phi tinh toán và

giảm chất lượng ảnh Ngoài ra, SRCNN cũng có kiến trúc khá đơn giản và không

Trang 12

hoa theo batch,

‘Tang độ phân giải sau khi lấy mẫu (Post-Upsampling Super Resolution):

Có thể thấy được phương pháp trên tồn tại một nhược điểm là quá trình lấy mẫu trong không gian ảnh có độ phân giải cao sẽ tốn nhiều sức mạnh tính toán hơn

“Chính vì vậy phương pháp này sẽ thực hiện lấy mẫu rong không gian ảnh có độ phân giải thấp trước rồi mới thực hiện siêu phân giải Điều này giúp làm giảm

đáng kể các chỉ phí tính toán Đồng thời có thể sử dụng các phương pháp tích chập pixelđể lấy mẫu Điều này lầm cho nó trở thành một mạng có thể huẫn luyên toàn

H9|§

Hình 1.3 Phương pháp Post-Upsampling Super Resolution tập

Nguồn : analytiesvidhya

Điển hình cho phương pháp này là FSRCNN [2]

FSRCNN [2] không có tiền xử lý hoặc upsampling ở giai đoạn đầu tiên

ch chập 3x3 có tác dụng đơn giản hóa kiến trúc của

mô hình, đồng thời giảm được số lượng tham số Bộ giải mã (Deconvoluon ) sẽ

Trang 13

có chức năng tăng d@ phan giai Mo hinh FSRCNN dst doe két qu tot hơn và

nhanh hon so vi mé hinh SRCNN [1]

độ phân giải cao (HR) được lấy mẫu xuống thành hình ảnh có độ phân giải thấp

Sau đó sử dụng bộ phân biét (discriminator) dé có thể phân biệt các hình ảnh có độ

phân giải cao (HR) va ding GAN loss để huấn luyện bộ phân biệt và bộ khối tạo

Hình 1.5 Mô hình GAN

6

Trang 14

Điển hình cho phương pháp này là S&GAN [3]

ih cho lĩnh vực ảnh êu phân giải

‘Tuy nhiên có những mô hình phải yêu cầu tài nguyên tính toán quá cao Điều này

dẫn tới việc khó có thể phổ biến và triển khai một cách toàn diện như

Trang 15

Bảng I1 Các model có số tham số cao Đài toán đạtra à pháttiển một mô hình nhẹ có tính khả đụng cho các thiết

bị có cấu bình thấp, yêu cầu ít khả năng tính toán nhưng vẫn mang lại một hiệu

năng ôn Đồng nghĩa với việc đó, nó có thể áp dụng trong việc chạy trong thời

sian thực (realtime) Trong bài toán này sẽ sử dụng phương pháp Single image

super resolution (SISR) là một kỹ thuật xử lý ảnh có mục tiêu tăng độ phân giải

của một ảnh đầu vào thấp độ phân giải (LR) để thu được một ảnh đầu ra cao độ 1Ế, an ninh, giải trí và khoa học Ví dụ, SISR có thể được sử dụng để cải thiện chất cảnh trên màn hình TV hay khôi phục những bức ảnh cũ bị mở

Trang 16

6 chong này, chúng ta sẽ cũng nhau đi qua các vấn đểchính liên quan đến siêu phân giải Nó sẽ cung cắp các phương pháp giải quyết theo cách tiếp cận truyền thông và cách tiếp cận bằng học sâu

2.1 Téng quan ảnh siêu phân giải

Ảnh siêu phân giải à quá trình ạo ra một bức ảnh có độ phân giải cao hơn

tử một hoặc nhiễu bức ảnh có độ phân giải thấp Đây là một bài toán quan trọng phóng to ảnh, khôi phục ảnh bị hư hại nhận điện khuôn mặt, y tế, vệ tỉnh, v Trong quá khứ, các phương pháp truyễn thống để giải quyết bài toán này thường dựa trên các kỹ thuật xử lý ảnh như lọc, nội suy, hay hợp nhất nhiễu ảnh Tuy nh các phương pháp này thường không thể tái tạo được c; sắc nét của ảnh gốc, mà chỉ đơn thuần làm mịn hoặc làm mờ

hí tiết mịn và

“rong những năm gần đây, deep learning đã mang lại những tiến bộ đáng

kể trong lĩnh vực này Deep learning là một lĩnh vực con của machine Ìearning, sử:

dụng các mạng no-ron nhân tạo để học và xắp xỉ các hàm phi tuyến phức tạp từ dữ liệu Các mạng nơ-ton sâu có khả năng trích xuất và biểu diễn các đặc trưng cao cấp của dữ liệu, từ đó có thể tạo ra các kết quả chính xác và chân thực hơn Một trong những phương pháp deep learning phé biến để giải quyết bài toán ảnh siêu phân giải là sử dụng các mạng nơ-ron tích chập CNN là một loại mạng nơ-ron được thiết kế để xử lý các dữ liệu có tính không gian cao như ảnh,

Nó gồm nhiều lớp tích chập liên tiếp, mỗi lớp sẽ áp dụng một bộ lọc lên đầu vào

để tạo ra một đầu ra gọi là eature map Feature map là một ma trận hai chiều chứa

các giá trị biểu diễn cho sự xuất hiện của các đặc trưng cụ thể trong đầu vào Các

lớp tích chập sau sẽ học được các đặc trưng ngày cảng cao cắp và trừu tượng hơn

từ các feature map của các lớp trước Sau đó nó sẽ đi qua một khối enn dùng đẻ

tăng độ phân giải Một số khỏi tích chập dùng để tăng độ phân giải phổ biến là Shuffle Pixel Transpose Layers,

Trang 17

Nội suy hình ảnh là việc thay đổi

ích thước của hình anh được sử dụng xông rãi bởi các ứng dụng chỉnh sửa hình ảnh như Photoshop, Corel Cée phương,

pháp truyền thống bao gồm nội suy lân cận gần nhí

Nearest-neighbor interpolation (nội suy lân cận gần) là phép nội suy đơn giản nhất Thay v tính giá tị trang bình theo một số tiêu chí trọng số hoặc tạo giá

Trang 18

u phân gi dựa trên phương pháp sử đụng học sâu

“Ảnh siêu phân giái là một kỹ thuật xử lý ảnh có thể tăng độ phân giải của

ảnh gốc lên nhiễu lần mà không làm mắt nhiều chỉ tết, Ảnh siêu phân giải có trí

Trang 19

Ảnh siêu phân giải là một bải tộn khơ vì nĩ đồi hỏi phải ti tạo những thơng tún bị mắt hoặc bị nhiễu khi thu nhỏ ảnh sốc Cĩ nhiễu phương pháp để giải

nhất hiện nay là sử dụng mạng nơ-ron học sâu (đeep neural network)

Mạng nơ-ron học sâu là một loại mơ hình máy học cĩ thể học được những

đặc trưng phức tạp và trừu tượng từ đữ liệu Mạng nơ-ron học sâu cĩ thể được

huấn luyện để ánh xạ từ ảnh thấp phân giải sang ảnh cao phân giải một cách tự

động Một số loại mạng nơ-ron học sâu được sứ dụng cho ảnh siêu phân giải là:

Mạng no-ron tich chip : là một loại mạng nơ-ron cĩ thể học được những đặc trưng cục bộ và khơng gian của ảnh CN cĩ thể được thiết kế để cĩ nhiều lớp tích chập và lớp kết nối đẳy đủ để tăng khả năng biểu diễn của mạng Một số ví dụ

VỀ mạng nơ.ron tích chập cho ảnh siêu phân giải là SRCNN [1] SRCNN [I] là viết tit eda Super-Resolution Convolutional Neural Network, là một mơ hình mạng nơ-ton tích chập được sử dụng để cãi thiện độ

thống bằng cách sử dụng mạng nơ ron tích chập để học cách ánh xạ từ khơng gi

ảnh cĩ độ phân giải thấp sang khơng gian ảnh cỏ độ phân giải cao SRCNN [1] cĩ

sấu trúc đơn giản gồm ba lớp tích chập: hình ảnh cĩ độ phân giả thấp sẽ được tiên dũng để trích xuất các đặc trưng từ ảnh đầu vào; lớp thử hai dàng để ánh xạ

tứ

Trang 20

"hóa sai số bình phương giữa ảnh đầu ra và ảnh mục tiêu (eround truth) SRCNN [1] đã cho thấy kết quả siêu phân giải ảnh vượt trội so với các phương pháp truyền thống, cả về độ chính xác và chất lượng hình ảnh SRCNN cũng đã mỡ ra một hướng nghiên cứu mi cho các mồ hình siêu phân giải ảnh sau này,

Hình 2.4 Mô hình SRCNN Nguồn Stenn

Một phương pháp khác sử dụng mạng tích chập rất sâu lấy cảm hứng từ 'VGG-net được sử dụng cho ImageNet, Tác giả tăng độ sâu mạng cho thấy sự cải phân giải, sử dụng mạng nơ-ron tích chập sâu để tạo ra hình ảnh có độ phân giải

ấp VDSR viết tắt ciia Very Deep Super

"Mạng VDSR nhận đầu vào Ià một hình ảnh có độ phân giải thấp và trả về đầu ra là

Trang 21

sé trong qué tinh huấn luyện Mạng này không học trục tiếp hình ảnh có độ phân giải cao, mà chỉ học các thông tin khác biệt (residual) giữa his ih ảnh có độ phân giải cao và thấp Điều này giúp cho việc huấn luyện nhanh hơn và hiệu quả hơn

Tuy nhiên, VDSR cũng có một số nhược điểm cần khắc phục Thứ nhất, tốc

độ hội tụ của VDSR rất chậm do sự phức tạp của mạng và sự khác biệt lớn giữa luyện và kiểm tra do kích thước lớn của các tham số và đầu vào/đầu ra Thứ ba, VDSR không tận dụng được các thông tin có sẵn trong các bộ dữ liệu SR khác phục nhược điểm

- Sử dụng học dư thừa (residual learning) để giảm sự khác biệt giữa LR và

HR, từ đó tăng tốc độ hội tụ và giảm sai số huấn luyện

= Sir dung ky thuật cất gradient dé digu chinh ty lệ học tập trong quá trình

Trang 22

hi * Com ReluD4 Con (Reis) HighReasaon Y mage

Hình 2.5 Mô hình VDSR_ Nguồn: VDSR Mạng sinh (generative network): là một loại mạng nơ-ron có thể sinh ra những ảnh mới từ những ảnh đã cho Mạng sinh thường kết hợp với một mạng phân biệt (điseriminative netvork) để tạo ra một cấu trúc gọi là mạng đối sinh siêu phân giải có chất lượng cao và tự nhiên hơn sơ với các phương pháp khác Một số vi du vé GAN cho ảnh siêu phân giải là SRGAN [3] SRGAN [3] là viết tắt ciia Super-Resolution Generative Adversarial Network, là một kỳ thuật học sâu được đề xuất bởi Ledig va cộng sự vào năm

2017 SRGAN [3] sir dung hai loại mạng nơ-ron: Một là mạng sinh (Generator), e6 nhiệm vụ tạo ra ảnh có độ phân giải cao từ ảnh có độ phân giải thấp Mạng Generator fa m@t mạng nơ-ton tích chập (CNN) có nhiệm vụ nhận dầu vào là một ánh có độ phân giái thấp (Low Resoluton - LR) va sinh ra một ảnh có độ phân giải cao (Super Resoluon - SR) trông thật nhất có thé Mang Generator được huấn luyện để tối thiểu hóa hàm mắt mát tông quát bao gồm hai thành phần: hàm mắt mát nội dung (contentloss) và hàm mắt mát đồi sinh (adversarialloss)

ầm mắt mát nội dung 1a him MSE (Mean Squared Error) giữa ảnh SR do Generator sinh ra va anh HR (High Resolution) that sy Him nay đo lường sự khác các chỉ tiết và kết cấu của ảnh HR,

6 chi t6i ưu cho các merie như PSNR (Peak Signal-t-Noise Ratio) hay SSIM (Structural Similarity Index Measure), chi không phản ánh được chất lượng trực quan của ảnh

Ham mit mét là hàm nhị phân cross-cntropy giữa nhãn thậUgiả của Discriminator và nhãn mong muốn của Generator Hàm này đo lường khá năng 15

Trang 23

ciia Generator tong vige dnb lira Discriminator, te là sinh ran SR tring gidng Với phân bổ của ảnh HR thật sự Ham này giúp cho Qenerator học được các chỉ tiết và kết cấu của ảnh HR từ dữ iu thực tẾ

Cấu trúc của mang Generator gồm các thành phần chính sau:

~ Một convolutomallayer đầu tiên để trích xuất các đặc trưng cơ bản từ ảnh

Sub-pixel convolutional layer mot ky thust duge 48 xudt boi Shi eta (4) (2016) để tăng kích thước của ảnh bằng cách sử dụng các pixel rong các kênh

sử đụng một eonvoluional layer với số lượng kernel bằng 4 lần số lượng kênh sửa ảnh (ví dụ ROB thì là I2 kemel) Sau đó, ta có thể sắp xếp lại các pixel

16

Trang 24

là 0.2 để tăng tính phi tuyến của mạng Sau layer convolution cuỗi cùng, ta sử

dụng một ayer đense để giảm số chiều xuống còn 1 và ấp dụng hàm sigmoid để tính xác suất

Mang Dis

max game, nghia li Generator ¢6 ging sinh ra anh super-resolution sao cho iminator được huấn luyện cùng với Generator theo co ché min-

Diseriminator không thể phân biệt được với ảnh thật, còn Discrirminator được giao cho nhiệm vụ phân biệt ảnh thật và ảnh giả Hàm loss của Discriminator được định nghĩa như sau:

LD

log(D(_HR)) - log(1 - D(G(_LR)))

“Trong đó:

= L_D là hàm loss của Diseriminator

~D là hàm xác suất của Dixeriminator

sẽ giúp cho Ger

t quả trông chân thực hơn

Trang 25

SRGAN [3] hoat dng dua trén nguyén Iy canh tranh gita hai mạng nơ-ron Mạng sinh cổ gắng tạo ra ảnh có độ phân giải cao sao cho mạng phân biệt không thể phát biện ra sự khác biệt giữa nó và ảnh thật Mạng phân biệt cổ gắng học ảnh sinh ra Quá trình này diễn ra liên tục cho đến khi hai mạng đạt được trạng thái cân bằng, tức là mang sinh tạo ra được ảnh có độ phân giải cao gần như hoàn truyền thống, như:

"Nó có thể tạo rà ảnh có độ phân giải cao với chỉ tiết rõ nét, không bị mời nde hay biển dạng tá tạ lại những đặc trưng quan trọng của ảnh gốc, như khuôn vật thể, chữ viết, xử lý được các loại ảnh khác nhau, từ ảnh tự nhiên đến ảnh

nghệ thuật, từ ảnh chụp đến ảnh vẽ và áp dụng được cho các bài toán khác nhau,

tử các thông tin thưa thớt hoặc nhạt nhòa Các mạng này có thé được áp dụng cho

nhiều bài toán khác nhau, như phân đoạn ảnh viễn thám, tái tạo ảnh từ cạnh và

18

Trang 26

~ Không sử dụng kỹ thuật nội suy song song (bieubic interpolation) để tăng

kích thước ảnh LR trước khi đưa vào mạng, mà trực tiếp trích xuất đặc trưng từ

ảnh LR, giảm thiểu chỉ phí tính toán và không làm mắt thông tin cao tin của ảnh

HR

- Sử dụng cấu trúc kim tự thấp Lapla mn dé ái tạo dẫn các thành phần dư của các dải con của ảnh HR ở nhiễu cấp độ khác nhan, thay vì chỉ sử dụng một bước nhảy vọt để tăng kích thước ảnh Điễu này giáp học được các hàm ánh xạ cho các hệ số tỷ lệ lớn (ví dụ: 8x) một cách hiệu quả hơn

~ Sử dụng hàm mắt mát Charbonn r (6] để tối ưu hóa mạng, thay vì hàm

mắt mất L2 (hay còn gọi là si số bình phương trung bình = MSE), Him

Charbonnier có tính chất khử nhiễu và không gây hiện tượng làm mờ ảnh như hàm

Đồng thời, LAPSRN cũng có những nhược điểm như sau

~ Nó yêu cầu nhiều tham số và ải nguyên tính toán hon so với các phường php dom ting

~ Nó có thể gặp khó khăn khi xử lý các ảnh có nhiễu hoặc biển dạng nhiều

- Nó có thể không boạt động tốt với các ảnh có độ phân giải quá Ú

ip hose quá cao

Trang 28

3.1, Giới thiệu về mô hình:

"Trọng số mô hình có thể trở thành 0 trong quá trình đào tạo.Mô hình học với tốc

độ đặc biệt chậm và quả trình đào tạo có thể bị đình trệ ở giai đoạn rất sớm chỉ sau một vài lần lập lại

Degradation li hiện tượng độ chính xác của mạng giảm khi tăng số lượng lớp, thay vì tăng lên như kỳ vọng Vấn đề này khiển cho việc huần luyện các mang học sâu trở nên thách thức và giới hạn khả năng biễu diễn của chứng Điều này có phần nào bằng các phương pháp sau

'Batch normalization là một kỹ thuật chuẩn hỏa đầu ra của cdc ting an trong

mạng neuralbằng cách trừ giá trị trung bình và chỉa cho độ lệch chuẳn của từng batch dữ liệu Mục đích của batch normalization là làm cho phân phối đầu ra của các Ling n ổn định hơn và không bị phụ thuộc vào phân phối đầu vào Bateh

a

Trang 29

normalization 6 thé gi cai thiệntốc độ học, khác phục vẫn để biển mắt đạo hàm

và giảm hiện tượng quá khớp

Dropout là một kỹ thuật loại bỏ ngẫu nhiên một số nơ-ron trong mạng neural trong quá trình huấn luyện Mục địch của dropout là làm giảm sự phụ thuộc lẫn nhau giữa các nơ-ron và tạo ra một nserble gồm nhiễu mạng neural nh hơn

Dropout có thể giúp giảm hiện tượng quá khớp

‘Weight decay là một kỹ thuật hêm một thành phần phạt vào hàm mắt mát

của mạng neural dựa trên tổng bình phương của các trọng số Mục đích của weight

decay là làm giảm độ lớn của các trọng số và ngăn chặn hiện tượng quá khớp

"rong thực tế, việc kết hợp các phương pháp này có thé mang lại hiệu quả cao hơn so với chỉ sử dụng một phương pháp duy nhất Tuy nhiên, cũng cần lưu ý

lạ không nên đặt batch normalization sau dropout vi điều này sẽ gây ra sự khác biệt lớn về phân phối giữa quá trình huắn luyện và kiểm tra Ngoài ra, cũng cần thử nại

Gisi quyết vẫn dé bing ResNet:

ResNet [7] dua ra m6t giai php don gin nhumg higu qua để khắc phục các

tiếp từ đầu vào của một khối mạng (gồm một hay nhiều lớp liên tiếp) đến đầu ra

của khối đó, bỏ qua các lớp ở giữa Kết nổi này cho phép phần dư (residual) của đầu vào được cộng vào đầu ra tạo thành một ánh xạ phần dur F(x) = HQ) - x, trong 46 Hix) là ảnh xạ mong muốn, x à đầu vào và FO) à phần dư

Ngày đăng: 30/10/2024, 10:46