Nó thường được biển àng tốt nhưng không thể tránh khỏi hiện tượng ảnh bị mở bởi các yếu tổ ngoại quan như môi trường, thời tiết, và một số tác nhân khác: tốc độ của vật, `Vấn để tươn
Trang 1KHOA CÔNG NGHỆ THÔNG TIN UYÊN THANH BÌNH
MÔ HÌNH HỌC SÂU HIỆU QUÁ CHO ẢNH SIÊU PHÂN GIẢI
KHÓA LUẬN TÓT NGHIỆP
‘TP.HO CHI MINH - NAM 2023
Trang 2CHUYÊN NGÀNH: KHOA HỌC MÁY TỊ
KHÓA LUẬN TÓT NGHIỆP
TP.HCM ~ NAM 2023
Trang 3TÓM TÁT
CHƯƠNG 1 GIỚI THIỆU:
1 “Tổng quan:
12 Lý do chọn đề tài
1 Khao sát các công trình liên quan:
144 Phat biéu bai toán
CHUONG 2 CO S6 LY THUY!
2.1 Tổng quan ảnh siêu phân giải 2.2 Phương pháp nội suy cho siêu phân giải 3.3 Siêu phân giải dựa trên phương pháp sử đụng học sâu CHƯƠNG 3 MÔ HÌNH ĐÈ XUẤT
3.1.4 Các phương pháp đánh giá ảnh siêu phan git 3.2 Thiết kế mô hình
3.21 Kiến trúc mô hình
3.22 Tỉnh chỉnh các thông số 3.3 Dataset va xi lý dữ liệu
3.31 Dataset
3.4 Xây dựng một số chức năng
'CHƯƠNG 4 THỰC NGHIỆM
'CHƯƠNG 5 KÉT LUẬN
Trang 4BANG KY HIEU, CHU VIET TAT
Trang 5So sánh thông số PSNR/SSIM giữa các mô hình
So sánh số ham số giữa các mô hình
Bảng thời gian chạy thực tế (Trung bình cộng 5 lần) Bảng số phần trăm chiếm hữu CPU (Trung bình cộng 5 lần) Bảng số Ram( MB) tiêu tổn để chạy mô hình (Trung bình cộng 5 ln) Bảng dụng lượng của mô hình (b5),
Trang 6BANG DANH MYC CAC HINH VE Hinh 1.1 Pre-Upsampling Super resolution, Neu: analyticsvidhya Hình 1
“Thuật toán nội suy lân cận
“Thuật toán nội suy song tuyển
“Thuật toán nội suy song khối
Mô hình SRCNN Nguồn : Srenn
Mô hình VDSR_ Nguồn: VDSR
Mô hình SRGAN Nguồn : srgan
Mô hình LAPSRN Nguồn: Lapse Khối Residual
Separable Convolution 2D Ngudn: Deep Shuffle Pixel Nguồn : Pylmage
Độ phân giải thể hiện qua PSNR Kiến trúc mô
đề xuất
Khối RPSB (Khối lăng cường đặc điểm trích xuấ, Một số hình ảnh về tập dữ liệu
Trang 7Hình 3,9 Các bước xử lý đ tạo ảnh đầu vào cho mô hình
Hình 3, 10 Hàm đưa bình ảnh về độ phân giải thấp
Hình 3 L1 Cách hoạt động của hảm tăng độ phân giải
Hinh 4 1 Women (Set5)
Hình 4.2 Butterfly (Set5)
Hinh 4 3 Baby (Set5)
Hinh 4 4 Zebra (Set14)
Hình 4 5 Butterfly (Set14)
Hình 4 6 Butterfly ở Scale x3
Tình 4.7 Women ở Sele x3
Minh 4 8 Baby 6 Seale x4
Minh 4.9 Comic 6 Sale x4
Hinh 4, 10, Zebra d Seale x4
Hình 4 11, Butterfly @ Seale x4
Trang 8TOM TAT
“Trong để tài nghiên cứu này Tôi thực hiện nghiên cứu và để xuất một mô hình
và Học sâu vào việc huấn luyện mô hình để tăng độ phân giải của hình ảnh có độ
phân giải hấp Việc huấn luyện và thực nghiệm của mô hình này sẽ sử dụng thư Vign Tensorflow
‘Tir kha : super resolution, dnb siêu phân giải, mô hình học sâu hiệu quả cho ảnh siêu phân giải
Trang 91.1 Tổng quan:
Cuộc sống ngày càng phát triển, hình ảnh kỹ thuật số đã trở nên rất phd biển và có tầm quan trọng trong nhiễu lĩnh vực của con người Chất lượng của hình ảnh cũng ngày một tốt hơn Có nhiều khía cạnh để đánh giá chất lượng của
hình ảnh Trong đó có thể kẻ đến độ phân giải của bình ảnh Nó thường được biển àng tốt nhưng không thể tránh khỏi hiện tượng ảnh bị mở bởi các yếu tổ ngoại
quan như môi trường, thời tiết, và một số tác nhân khác: tốc độ của vật,
`Vấn để tương bự xảy ra khi chúng ta muỗn phóngto hình ảnh kỹ thuật sổ để hiển thị nó trên màn hình có độ phân giải cao hơn Số pixel của hình ảnh phải phù hợp với độ phân giải màn hình và kích thước hình ảnh mong muốn Quá trình này
có thể đại được bằng cách nội suy bình ảnh, nhưng độ phân giải thục tế Không tăng lên khi số lượng điểm ảnh tăng lên Chỉnh vì vậy, nó sẽ dẫn đến hình ảnh bị tổntại trong tắt cả các hệ thống hình ảnh kỹ thuật số và không thể khắc phục bằng bắt kỹ phương pháp nội suy nào
Siêu phân giải (Super Resolution) ra dai dé ừm cách khắc phục hạn chế này
Và tạo ra hình ảnh có độ phân giải cao hơn Trên thục tế có hai phương pháp Khác (Muti Image Super Resoludon) Phương pháp này tạo hình ảnh có độ phân giải
0 (Hight Resolution) từ nhiều hình ảnh có độ phân giải thấp (Low Resolution) Hình ảnh mô tả cùng một cảnh Mỗi hình ảnh đầu vào phải chứa thông tin day nhất để MISR hoạt động Bằng cách này, các pixel sẽ được được lẤy mẫu từ các vị trí duy nhất Phương pháp này có khả năng ứng dụng tắt hạn chế, vì thông thường chi c6 nhiều ảnh phân giải giải thấp trên cùng một khung cảnh và vị trí
Trang 10(Single Image Super Resolution) Phuong php nảy thực hiện bing cách sử dụng,
1.3 Khảo sắt các công trình iên quan:
Hình ảnh có độ phân giải thấp có thể biến thành hình ảnh có độ phân giải
bằng nhiều phương pháp và kỹ thuật khác nhau : Tăng độ phân giải trước khi lấy
miu ( Pre-Upsampling Super Resolution } : Đây là một phương pháp đầu tiên sử
cdụng deep leaming cho ảnh siêu phân giải và đem lại một kết quả khá Ấn tượng
i 8 Hình 1 1 Pre-Upsampling Super resolution Nguồn: analyticsvidbya
Trang 11Ta sử dụng các thuật toán lấy mẫu truyền thống để thụ được hình ảnh có
độ phân giải cao hơn và sau đó tỉnh chỉnh chúng bằng cách sử dụng mạng nơ-ron
âu để tăng độ phân giải cho hình ảnh Theo như mô hình trên, hình ảnh LR được
ghép lạ thành hình ảnh HR thô với ích thước mong muốn bằng phép nội suy nhị phân, Sau đó, thông qua mang CNN để tái tạo hình ảnh chất lượng ao
Điền hình ta có thể nhắc tới là SRCNN [1]: Đây là một mô hình CNN
bao gồm 3 lớp: lớp ích xuất, nh xạ phi tuyển và tấ tqo Các bản vá ừ nh đầu chip Ixl của lớp ánh xạ đùng để thêm tinh phi tuyển và hay đổi số kênh, Và hình ảnh được ti ạo lại thành độ phân giải cao hơn nhờ vào lớp cuối cùng
Hình L.2 Mô hình SRCNN Nguồn : paperspace
Ưu điểm của SRCNN là có thể học được các đặc trưng phủ hợp cho bài toán
nâng cao độ phân giải, thay vì sử dụng các đặc trưng được thiết kế sẵn như các phương pháp dựa trên mã hóa thưa (sparse coding) Ngoài ra, SRCNN cũng có thể
tân đụng được sức mạnh của các framework hoe siu như TensorFlow hay PyTorch
để huắn luyện và kiểm tra hiệu năng,
"Nhược điểm của SRN là cần phải nội uy ảnh thấp độ phân giả lên kích
thước mong muốn trước khi đưa vào mạng, điều này làm tăng chỉ phi tinh toán và
giảm chất lượng ảnh Ngoài ra, SRCNN cũng có kiến trúc khá đơn giản và không
Trang 12hoa theo batch,
‘Tang độ phân giải sau khi lấy mẫu (Post-Upsampling Super Resolution):
Có thể thấy được phương pháp trên tồn tại một nhược điểm là quá trình lấy mẫu trong không gian ảnh có độ phân giải cao sẽ tốn nhiều sức mạnh tính toán hơn
“Chính vì vậy phương pháp này sẽ thực hiện lấy mẫu rong không gian ảnh có độ phân giải thấp trước rồi mới thực hiện siêu phân giải Điều này giúp làm giảm
đáng kể các chỉ phí tính toán Đồng thời có thể sử dụng các phương pháp tích chập pixelđể lấy mẫu Điều này lầm cho nó trở thành một mạng có thể huẫn luyên toàn
H9|§
Hình 1.3 Phương pháp Post-Upsampling Super Resolution tập
Nguồn : analytiesvidhya
Điển hình cho phương pháp này là FSRCNN [2]
FSRCNN [2] không có tiền xử lý hoặc upsampling ở giai đoạn đầu tiên
ch chập 3x3 có tác dụng đơn giản hóa kiến trúc của
mô hình, đồng thời giảm được số lượng tham số Bộ giải mã (Deconvoluon ) sẽ
Trang 13có chức năng tăng d@ phan giai Mo hinh FSRCNN dst doe két qu tot hơn và
nhanh hon so vi mé hinh SRCNN [1]
độ phân giải cao (HR) được lấy mẫu xuống thành hình ảnh có độ phân giải thấp
Sau đó sử dụng bộ phân biét (discriminator) dé có thể phân biệt các hình ảnh có độ
phân giải cao (HR) va ding GAN loss để huấn luyện bộ phân biệt và bộ khối tạo
Hình 1.5 Mô hình GAN
6
Trang 14Điển hình cho phương pháp này là S&GAN [3]
ih cho lĩnh vực ảnh êu phân giải
‘Tuy nhiên có những mô hình phải yêu cầu tài nguyên tính toán quá cao Điều này
dẫn tới việc khó có thể phổ biến và triển khai một cách toàn diện như
Trang 15Bảng I1 Các model có số tham số cao Đài toán đạtra à pháttiển một mô hình nhẹ có tính khả đụng cho các thiết
bị có cấu bình thấp, yêu cầu ít khả năng tính toán nhưng vẫn mang lại một hiệu
năng ôn Đồng nghĩa với việc đó, nó có thể áp dụng trong việc chạy trong thời
sian thực (realtime) Trong bài toán này sẽ sử dụng phương pháp Single image
super resolution (SISR) là một kỹ thuật xử lý ảnh có mục tiêu tăng độ phân giải
của một ảnh đầu vào thấp độ phân giải (LR) để thu được một ảnh đầu ra cao độ 1Ế, an ninh, giải trí và khoa học Ví dụ, SISR có thể được sử dụng để cải thiện chất cảnh trên màn hình TV hay khôi phục những bức ảnh cũ bị mở
Trang 16
6 chong này, chúng ta sẽ cũng nhau đi qua các vấn đểchính liên quan đến siêu phân giải Nó sẽ cung cắp các phương pháp giải quyết theo cách tiếp cận truyền thông và cách tiếp cận bằng học sâu
2.1 Téng quan ảnh siêu phân giải
Ảnh siêu phân giải à quá trình ạo ra một bức ảnh có độ phân giải cao hơn
tử một hoặc nhiễu bức ảnh có độ phân giải thấp Đây là một bài toán quan trọng phóng to ảnh, khôi phục ảnh bị hư hại nhận điện khuôn mặt, y tế, vệ tỉnh, v Trong quá khứ, các phương pháp truyễn thống để giải quyết bài toán này thường dựa trên các kỹ thuật xử lý ảnh như lọc, nội suy, hay hợp nhất nhiễu ảnh Tuy nh các phương pháp này thường không thể tái tạo được c; sắc nét của ảnh gốc, mà chỉ đơn thuần làm mịn hoặc làm mờ
hí tiết mịn và
“rong những năm gần đây, deep learning đã mang lại những tiến bộ đáng
kể trong lĩnh vực này Deep learning là một lĩnh vực con của machine Ìearning, sử:
dụng các mạng no-ron nhân tạo để học và xắp xỉ các hàm phi tuyến phức tạp từ dữ liệu Các mạng nơ-ton sâu có khả năng trích xuất và biểu diễn các đặc trưng cao cấp của dữ liệu, từ đó có thể tạo ra các kết quả chính xác và chân thực hơn Một trong những phương pháp deep learning phé biến để giải quyết bài toán ảnh siêu phân giải là sử dụng các mạng nơ-ron tích chập CNN là một loại mạng nơ-ron được thiết kế để xử lý các dữ liệu có tính không gian cao như ảnh,
Nó gồm nhiều lớp tích chập liên tiếp, mỗi lớp sẽ áp dụng một bộ lọc lên đầu vào
để tạo ra một đầu ra gọi là eature map Feature map là một ma trận hai chiều chứa
các giá trị biểu diễn cho sự xuất hiện của các đặc trưng cụ thể trong đầu vào Các
lớp tích chập sau sẽ học được các đặc trưng ngày cảng cao cắp và trừu tượng hơn
từ các feature map của các lớp trước Sau đó nó sẽ đi qua một khối enn dùng đẻ
tăng độ phân giải Một số khỏi tích chập dùng để tăng độ phân giải phổ biến là Shuffle Pixel Transpose Layers,
Trang 17Nội suy hình ảnh là việc thay đổi
ích thước của hình anh được sử dụng xông rãi bởi các ứng dụng chỉnh sửa hình ảnh như Photoshop, Corel Cée phương,
pháp truyền thống bao gồm nội suy lân cận gần nhí
Nearest-neighbor interpolation (nội suy lân cận gần) là phép nội suy đơn giản nhất Thay v tính giá tị trang bình theo một số tiêu chí trọng số hoặc tạo giá
Trang 18u phân gi dựa trên phương pháp sử đụng học sâu
“Ảnh siêu phân giái là một kỹ thuật xử lý ảnh có thể tăng độ phân giải của
ảnh gốc lên nhiễu lần mà không làm mắt nhiều chỉ tết, Ảnh siêu phân giải có trí
Trang 19Ảnh siêu phân giải là một bải tộn khơ vì nĩ đồi hỏi phải ti tạo những thơng tún bị mắt hoặc bị nhiễu khi thu nhỏ ảnh sốc Cĩ nhiễu phương pháp để giải
nhất hiện nay là sử dụng mạng nơ-ron học sâu (đeep neural network)
Mạng nơ-ron học sâu là một loại mơ hình máy học cĩ thể học được những
đặc trưng phức tạp và trừu tượng từ đữ liệu Mạng nơ-ron học sâu cĩ thể được
huấn luyện để ánh xạ từ ảnh thấp phân giải sang ảnh cao phân giải một cách tự
động Một số loại mạng nơ-ron học sâu được sứ dụng cho ảnh siêu phân giải là:
Mạng no-ron tich chip : là một loại mạng nơ-ron cĩ thể học được những đặc trưng cục bộ và khơng gian của ảnh CN cĩ thể được thiết kế để cĩ nhiều lớp tích chập và lớp kết nối đẳy đủ để tăng khả năng biểu diễn của mạng Một số ví dụ
VỀ mạng nơ.ron tích chập cho ảnh siêu phân giải là SRCNN [1] SRCNN [I] là viết tit eda Super-Resolution Convolutional Neural Network, là một mơ hình mạng nơ-ton tích chập được sử dụng để cãi thiện độ
thống bằng cách sử dụng mạng nơ ron tích chập để học cách ánh xạ từ khơng gi
ảnh cĩ độ phân giải thấp sang khơng gian ảnh cỏ độ phân giải cao SRCNN [1] cĩ
sấu trúc đơn giản gồm ba lớp tích chập: hình ảnh cĩ độ phân giả thấp sẽ được tiên dũng để trích xuất các đặc trưng từ ảnh đầu vào; lớp thử hai dàng để ánh xạ
tứ
Trang 20"hóa sai số bình phương giữa ảnh đầu ra và ảnh mục tiêu (eround truth) SRCNN [1] đã cho thấy kết quả siêu phân giải ảnh vượt trội so với các phương pháp truyền thống, cả về độ chính xác và chất lượng hình ảnh SRCNN cũng đã mỡ ra một hướng nghiên cứu mi cho các mồ hình siêu phân giải ảnh sau này,
Hình 2.4 Mô hình SRCNN Nguồn Stenn
Một phương pháp khác sử dụng mạng tích chập rất sâu lấy cảm hứng từ 'VGG-net được sử dụng cho ImageNet, Tác giả tăng độ sâu mạng cho thấy sự cải phân giải, sử dụng mạng nơ-ron tích chập sâu để tạo ra hình ảnh có độ phân giải
ấp VDSR viết tắt ciia Very Deep Super
"Mạng VDSR nhận đầu vào Ià một hình ảnh có độ phân giải thấp và trả về đầu ra là
Trang 21sé trong qué tinh huấn luyện Mạng này không học trục tiếp hình ảnh có độ phân giải cao, mà chỉ học các thông tin khác biệt (residual) giữa his ih ảnh có độ phân giải cao và thấp Điều này giúp cho việc huấn luyện nhanh hơn và hiệu quả hơn
Tuy nhiên, VDSR cũng có một số nhược điểm cần khắc phục Thứ nhất, tốc
độ hội tụ của VDSR rất chậm do sự phức tạp của mạng và sự khác biệt lớn giữa luyện và kiểm tra do kích thước lớn của các tham số và đầu vào/đầu ra Thứ ba, VDSR không tận dụng được các thông tin có sẵn trong các bộ dữ liệu SR khác phục nhược điểm
- Sử dụng học dư thừa (residual learning) để giảm sự khác biệt giữa LR và
HR, từ đó tăng tốc độ hội tụ và giảm sai số huấn luyện
= Sir dung ky thuật cất gradient dé digu chinh ty lệ học tập trong quá trình
Trang 22hi * Com ReluD4 Con (Reis) HighReasaon Y mage
Hình 2.5 Mô hình VDSR_ Nguồn: VDSR Mạng sinh (generative network): là một loại mạng nơ-ron có thể sinh ra những ảnh mới từ những ảnh đã cho Mạng sinh thường kết hợp với một mạng phân biệt (điseriminative netvork) để tạo ra một cấu trúc gọi là mạng đối sinh siêu phân giải có chất lượng cao và tự nhiên hơn sơ với các phương pháp khác Một số vi du vé GAN cho ảnh siêu phân giải là SRGAN [3] SRGAN [3] là viết tắt ciia Super-Resolution Generative Adversarial Network, là một kỳ thuật học sâu được đề xuất bởi Ledig va cộng sự vào năm
2017 SRGAN [3] sir dung hai loại mạng nơ-ron: Một là mạng sinh (Generator), e6 nhiệm vụ tạo ra ảnh có độ phân giải cao từ ảnh có độ phân giải thấp Mạng Generator fa m@t mạng nơ-ton tích chập (CNN) có nhiệm vụ nhận dầu vào là một ánh có độ phân giái thấp (Low Resoluton - LR) va sinh ra một ảnh có độ phân giải cao (Super Resoluon - SR) trông thật nhất có thé Mang Generator được huấn luyện để tối thiểu hóa hàm mắt mát tông quát bao gồm hai thành phần: hàm mắt mát nội dung (contentloss) và hàm mắt mát đồi sinh (adversarialloss)
ầm mắt mát nội dung 1a him MSE (Mean Squared Error) giữa ảnh SR do Generator sinh ra va anh HR (High Resolution) that sy Him nay đo lường sự khác các chỉ tiết và kết cấu của ảnh HR,
6 chi t6i ưu cho các merie như PSNR (Peak Signal-t-Noise Ratio) hay SSIM (Structural Similarity Index Measure), chi không phản ánh được chất lượng trực quan của ảnh
Ham mit mét là hàm nhị phân cross-cntropy giữa nhãn thậUgiả của Discriminator và nhãn mong muốn của Generator Hàm này đo lường khá năng 15
Trang 23ciia Generator tong vige dnb lira Discriminator, te là sinh ran SR tring gidng Với phân bổ của ảnh HR thật sự Ham này giúp cho Qenerator học được các chỉ tiết và kết cấu của ảnh HR từ dữ iu thực tẾ
Cấu trúc của mang Generator gồm các thành phần chính sau:
~ Một convolutomallayer đầu tiên để trích xuất các đặc trưng cơ bản từ ảnh
Sub-pixel convolutional layer mot ky thust duge 48 xudt boi Shi eta (4) (2016) để tăng kích thước của ảnh bằng cách sử dụng các pixel rong các kênh
sử đụng một eonvoluional layer với số lượng kernel bằng 4 lần số lượng kênh sửa ảnh (ví dụ ROB thì là I2 kemel) Sau đó, ta có thể sắp xếp lại các pixel
16
Trang 24là 0.2 để tăng tính phi tuyến của mạng Sau layer convolution cuỗi cùng, ta sử
dụng một ayer đense để giảm số chiều xuống còn 1 và ấp dụng hàm sigmoid để tính xác suất
Mang Dis
max game, nghia li Generator ¢6 ging sinh ra anh super-resolution sao cho iminator được huấn luyện cùng với Generator theo co ché min-
Diseriminator không thể phân biệt được với ảnh thật, còn Discrirminator được giao cho nhiệm vụ phân biệt ảnh thật và ảnh giả Hàm loss của Discriminator được định nghĩa như sau:
LD
log(D(_HR)) - log(1 - D(G(_LR)))
“Trong đó:
= L_D là hàm loss của Diseriminator
~D là hàm xác suất của Dixeriminator
sẽ giúp cho Ger
t quả trông chân thực hơn
Trang 25
SRGAN [3] hoat dng dua trén nguyén Iy canh tranh gita hai mạng nơ-ron Mạng sinh cổ gắng tạo ra ảnh có độ phân giải cao sao cho mạng phân biệt không thể phát biện ra sự khác biệt giữa nó và ảnh thật Mạng phân biệt cổ gắng học ảnh sinh ra Quá trình này diễn ra liên tục cho đến khi hai mạng đạt được trạng thái cân bằng, tức là mang sinh tạo ra được ảnh có độ phân giải cao gần như hoàn truyền thống, như:
"Nó có thể tạo rà ảnh có độ phân giải cao với chỉ tiết rõ nét, không bị mời nde hay biển dạng tá tạ lại những đặc trưng quan trọng của ảnh gốc, như khuôn vật thể, chữ viết, xử lý được các loại ảnh khác nhau, từ ảnh tự nhiên đến ảnh
nghệ thuật, từ ảnh chụp đến ảnh vẽ và áp dụng được cho các bài toán khác nhau,
tử các thông tin thưa thớt hoặc nhạt nhòa Các mạng này có thé được áp dụng cho
nhiều bài toán khác nhau, như phân đoạn ảnh viễn thám, tái tạo ảnh từ cạnh và
18
Trang 26~ Không sử dụng kỹ thuật nội suy song song (bieubic interpolation) để tăng
kích thước ảnh LR trước khi đưa vào mạng, mà trực tiếp trích xuất đặc trưng từ
ảnh LR, giảm thiểu chỉ phí tính toán và không làm mắt thông tin cao tin của ảnh
HR
- Sử dụng cấu trúc kim tự thấp Lapla mn dé ái tạo dẫn các thành phần dư của các dải con của ảnh HR ở nhiễu cấp độ khác nhan, thay vì chỉ sử dụng một bước nhảy vọt để tăng kích thước ảnh Điễu này giáp học được các hàm ánh xạ cho các hệ số tỷ lệ lớn (ví dụ: 8x) một cách hiệu quả hơn
~ Sử dụng hàm mắt mát Charbonn r (6] để tối ưu hóa mạng, thay vì hàm
mắt mất L2 (hay còn gọi là si số bình phương trung bình = MSE), Him
Charbonnier có tính chất khử nhiễu và không gây hiện tượng làm mờ ảnh như hàm
Đồng thời, LAPSRN cũng có những nhược điểm như sau
~ Nó yêu cầu nhiều tham số và ải nguyên tính toán hon so với các phường php dom ting
~ Nó có thể gặp khó khăn khi xử lý các ảnh có nhiễu hoặc biển dạng nhiều
- Nó có thể không boạt động tốt với các ảnh có độ phân giải quá Ú
ip hose quá cao
Trang 283.1, Giới thiệu về mô hình:
"Trọng số mô hình có thể trở thành 0 trong quá trình đào tạo.Mô hình học với tốc
độ đặc biệt chậm và quả trình đào tạo có thể bị đình trệ ở giai đoạn rất sớm chỉ sau một vài lần lập lại
Degradation li hiện tượng độ chính xác của mạng giảm khi tăng số lượng lớp, thay vì tăng lên như kỳ vọng Vấn đề này khiển cho việc huần luyện các mang học sâu trở nên thách thức và giới hạn khả năng biễu diễn của chứng Điều này có phần nào bằng các phương pháp sau
'Batch normalization là một kỹ thuật chuẩn hỏa đầu ra của cdc ting an trong
mạng neuralbằng cách trừ giá trị trung bình và chỉa cho độ lệch chuẳn của từng batch dữ liệu Mục đích của batch normalization là làm cho phân phối đầu ra của các Ling n ổn định hơn và không bị phụ thuộc vào phân phối đầu vào Bateh
a
Trang 29normalization 6 thé gi cai thiệntốc độ học, khác phục vẫn để biển mắt đạo hàm
và giảm hiện tượng quá khớp
Dropout là một kỹ thuật loại bỏ ngẫu nhiên một số nơ-ron trong mạng neural trong quá trình huấn luyện Mục địch của dropout là làm giảm sự phụ thuộc lẫn nhau giữa các nơ-ron và tạo ra một nserble gồm nhiễu mạng neural nh hơn
Dropout có thể giúp giảm hiện tượng quá khớp
‘Weight decay là một kỹ thuật hêm một thành phần phạt vào hàm mắt mát
của mạng neural dựa trên tổng bình phương của các trọng số Mục đích của weight
decay là làm giảm độ lớn của các trọng số và ngăn chặn hiện tượng quá khớp
"rong thực tế, việc kết hợp các phương pháp này có thé mang lại hiệu quả cao hơn so với chỉ sử dụng một phương pháp duy nhất Tuy nhiên, cũng cần lưu ý
lạ không nên đặt batch normalization sau dropout vi điều này sẽ gây ra sự khác biệt lớn về phân phối giữa quá trình huắn luyện và kiểm tra Ngoài ra, cũng cần thử nại
Gisi quyết vẫn dé bing ResNet:
ResNet [7] dua ra m6t giai php don gin nhumg higu qua để khắc phục các
tiếp từ đầu vào của một khối mạng (gồm một hay nhiều lớp liên tiếp) đến đầu ra
của khối đó, bỏ qua các lớp ở giữa Kết nổi này cho phép phần dư (residual) của đầu vào được cộng vào đầu ra tạo thành một ánh xạ phần dur F(x) = HQ) - x, trong 46 Hix) là ảnh xạ mong muốn, x à đầu vào và FO) à phần dư