Tóm t≠t nÎi dung / Dissertation summaryNÎi dung chính cıa lu™n v´n là t™p trung tìm hi∫u v∑ các ph˜Ïng pháp t´ng c˜Ìng Î phângi£i cÙng nh˜ chßt l˜Òng cıa mÎt b˘c £nh ˜Òc chˆp trong th¸c
Trang 1ÑI H≈C QU»C GIA TP HCM
NGUYôN HÉI PHONG
D‹A VÀO MÔ HÌNH H≈C SÂU
LUäN VãN THÑC Sû
TP H« CHÍ MINH, tháng 01 n´m 2024
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học : TS Nguyễn Đức Dũng
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1 Chủ tịch: TS Lê Thành Sách
2 Thư ký: TS Nguyễn Tiến Thịnh
3 Phản biện 1: TS Trần Tuấn Anh
4 Phản biện 2: PGS.TS Nguyễn Văn Sinh
5 Ủy viên: TS Võ Đăng Khoa
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Ngày, tháng, năm sinh: 21/11/1995 Nơi sinh: Khánh Hoà
I TÊN ĐỀ TÀI:
Tăng cường độ phân giải ảnh dựa vào mô hình học sâu
Deep Learning Based Image Super-Resolution
II NHIỆM VỤ VÀ NỘI DUNG:
- Tìm hiểu các hướng tiếp cận phù hợp cho bài toán siêu phân giải ảnh
- Phân tích giải pháp và đưa ra đề xuất mô hình siêu phân giải ảnh
- Hiện thực và huấn luyện mô hình đề xuất
- Tiến hành thí nghiệm và đánh giá các kết quả đạt được
III NGÀY GIAO NHIỆM VỤ : 04/09/2023
IV NGÀY HOÀN THÀNH NHIỆM VỤ : 18/12/2023
V CÁN BỘ HƯỚNG DẪN ( Ghi rõ học hàm, học vị, họ, tên): TS Nguyễn Đức Dũng
(Họ tên và chữ ký)
Trang 4LÌi c£m Ïn / LÌi ng‰
Tôi xin t‰ lòng bi∏t Ïn sâu s≠c ∏n giáo viên h˜Óng d®n là Ti∏n sæ Nguyπn ˘c DÙng ãt™n tình h˜Óng d®n, chø b£o và ‡nh h˜Óng cho b£n thân tôi t¯ quá trình chÂn lÂc lænh v¸c,quá trình tìm hi∫u các công trình nghiên c˘u liên quan và ‡nh h˜Óng ˜Òc ph˜Ïng h˜Óng
i cıa lu™n v´n này
Tôi xin chân thành cám Ïn qu˛ th¶y cô trong Khoa Khoa HÂc và Kˇ Thu™t Máy Tính,tr˜Ìng §i HÂc Bách Khoa thành phË HÁ Chí Minh ã t™n tình chø d§y các ki∏n th˘c v∑ngành cÙng nh˜ các kinh nghiªm có th∫ ˘ng dˆng th¸c t∏ trong công nghiªp
CuËi cùng, tôi xin cám Ïn các b§n bè, Áng nghiªp ã Îng viên giúp Ô trong quá trìnhlàm lu™n v´n này
Trang 5Tóm t≠t nÎi dung / Dissertation summary
NÎi dung chính cıa lu™n v´n là t™p trung tìm hi∫u v∑ các ph˜Ïng pháp t´ng c˜Ìng Î phângi£i cÙng nh˜ chßt l˜Òng cıa mÎt b˘c £nh ˜Òc chˆp trong th¸c t∏ d¸a vào các mô hình hÂc sâu
BË cˆc chính cıa lu™n v´n bao gÁm tìm hi∫u s¸ hình thành và phát tri∫n cıa các ph˜Ïng phápt´ng c˜Ìng £nh d¸a vào mô hình hÂc sâu trong th‡ giác máy tính và ti∏n hành tÍng hÒp, ánhgiá ˜u i∫m và nh˜Òc i∫m cıa các ph˜Ïng pháp này cÙng nh˜ tính ˘ng dˆng trong th¸c t∏.Ph¶n còn l§i cıa lu™n v´n chúng tôi s≥ t™p trung ánh giá ph˜Ïng pháp cÏ s, các ˜u nh˜Òci∫m cùng vÓi viªc ∑ xußt các ph˜Ïng h˜Óng ∫ có th∫ tËi ˜u các vßn ∑ trong ph˜Ïng phápnày CuËi cùng, chúng tôi th¸c hiªn viªc ki∫m nghiªm tính kh£ thi d¸a vào th¸c nghiªm ki∫mch˘ng cıa các ∑ xußt nêu trên và ánh giá cÙng nh˜ diπn d‡ch mÎt cách kæ l˜Ông các k∏t qu£ này
The main content of the thesis focuses on exploring methods for enhancing the resolutionand quality of real-world photographs using deep learning models The structure of the the-sis includes an examination of the development and evolution of image enhancement methodsbased on deep learning models in computer vision It proceeds to synthesize and evaluate theadvantages and disadvantages of these methods, as well as their practical applicability
The remainder of our thesis will focus on evaluating the baseline method, its strengths andweaknesses, along with proposing directions for optimizing the issues within this method Fi-nally, we conduct feasibility testing based on the experimental validation of the proposed solu-tions, and meticulously evaluate and interpret these results
Trang 6LÌi cam oan
Tôi xin cam oan lu™n v´n th§c sˇ này do chính b£n thân tôi th¸c hiªn d˜Ói s¸ h˜Óng d®n
và giám sát cıa Ti∏n sæ Nguyπn ˘c DÙng NÎi dung nghiên c˘u hoàn toàn ch˜a ˜Òc công bËtr˜Óc ây, các sË liªu ho∞c ˛ t˜ng s≥ ˜Òc trích d®n rõ ràng ∏n tác gi£ t§i mˆc tài liªu thamkh£o, còn l§i các ˛ t˜ng cıa b£n thân tôi Ëi vÓi nh˙ng sË liªu c¶n ˜Òc ki∫m ch˘ng, tôi s≥
mô ph‰ng l§i quá trình th¸c nghiªm ho∞c s˚ dˆng các mô hình ã ˜Òc hußn luyªn ˜Òc cungcßp sÆn ∫ xác minh ˛ t˜ng cıa tác gi£
N∏u có s¸ gian l™n nào trong khuôn khÍ lu™n v´n thì tôi xin hoàn toàn ch‡u trách nhiªm.Tr˜Ìng §i hÂc Bách Khoa thành phË HÁ Chí Minh không liên quan gì ∏n nh˙ng vi ph§m b£nquy∑n, ho∞c vi ph§m nào khác do bài vi∏t cıa tôi gây ra
Ng˜Ìi cam oan
NGUYôN HÉI PHONG
Trang 7Mˆc lˆc
1.1 GiÓi thiªu ∑ tài 1
1.2 GiÓi thiªu bài toán 2
2 CÏ s ki∏n th˘c 4 2.1 Ph˜Ïng pháp bi∏n Íi kích th˜Óc £nh và nÎi suy i∫m £nh 4
2.1.1 Ph˜Ïng pháp bi∏n Íi kích th˜Óc £nh 4
2.1.2 Ph˜Ïng pháp nÎi suy i∫m £nh 4
2.2 Chi∏n l˜Òc hÂc và hàm mßt mát 7
2.2.1 Chi∏n l˜Òc hÂc 7
2.2.2 Hàm mßt mát 8
2.3 Ph˜Ïng pháp ánh giá mô hình 9
3 Nh˙ng nghiên c˘u liên quan 13 3.1 Các ph˜Ïng pháp s˚ dˆng mô hình hÂc 13
3.1.1 SRCNN [1] 13
3.1.2 ESCPN [2] 15
3.1.3 VDSR [3] 15
3.1.4 EDSR [4] 16
3.1.5 RDN [5] 17
3.1.6 SwinIR & Swin2SR 18
3.1.7 LDL [6] 19
3.1.8 AdaTarget [7] 20
3.2 Các ph˜Ïng pháp s˚ dˆng mô hình GAN 21
3.2.1 CinCGAN [8] 21
3.2.2 BSRGAN [9] 22
3.3 Các ph˜Ïng pháp s˚ dˆng mô hình tán x§ 22
3.3.1 IDM [10] 23
3.4 K∏t lu™n 23
4 Ph˜Ïng pháp cÏ s 25 4.1 TÍng quan 25
4.2 Quá trình sinh và ki∫m tra d˙ liªu th¸c t∏ 26
4.3 K∏t qu£ cıa ph˜Ïng pháp cÏ s 29
4.4 Ki∫m ch˘ng ph˜Ïng pháp cÏ s 30
4.5 K∏t lu™n 30
Trang 85 Ph˜Ïng pháp ∑ xußt 33
5.1 Bi∫u diπn cıa hình £nh trên mi∑n t¶n sË 34
5.2 T´ng c˜Ìng m®u d¸a trên t¶n sË nhiπu thích ˘ng 35
5.2.1 ◊Óc l˜Òng tín hiªu ã ˜Òc t´ng c˜Ìng t¯ £nh nguyên b£n 35
5.2.2 Quy trình lßy m®u nhiπu d¸a vào các tín hiªu t´ng c˜Ìng 36
5.2.3 Mô t£ th¸c nghiªm 37
5.2.4 ánh giá k∏t qu£ 38
5.3 Hàm mßt mát t¶n sË t™p trung 40
5.3.1 Kho£ng cách t¶n sË 41
5.3.2 TrÂng sË phÍ Îng 42
5.3.3 Mô t£ th¸c nghiªm 43
5.3.4 ánh giá k∏t qu£ 43
5.4 K∏t qu£ th¸c nghiªm 45
5.5 Các tr˜Ìng hÒp h§n ch∏ 49
Trang 9Danh sách b£ng
4.1 Phân bË cıa k∏t qu£ gán nhãn trong bÎ d˙ liªu 284.2 Phân bË cıa các nhãn trong bÎ d˙ liªu sau khi bình chÂn 294.3 K∏t qu£ ‡nh l˜Òng cıa các mô hình siêu phân gi£i £nh trên các t™p d˙ liªu khácnhau 304.4 K∏t qu£ ki∫m ch˘ng ph˜Ïng pháp cÏ s d¸a trên các mô hình có sÆn 304.5 K∏t qu£ tái t§o l§i mÎt trong nh˙ng thí nghiªm cıa ph˜Ïng pháp cÏ s 315.1 K∏t qu£ ki∫m nghiªm ph˜Ïng pháp t´ng c˜Ìng £nh hußn luyªn d¸a trên ph˜Ïngpháp ˜Óc l˜Òng tín hiªu t´ng c˜Ìng trên t™p d˙ liªu Test100 385.2 K∏t qu£ ki∫m nghiªm ph˜Ïng pháp t´ng c˜Ìng £nh hußn luyªn d¸a trên ph˜Ïngpháp ˜Óc l˜Òng tín hiªu t´ng c˜Ìng trên t™p d˙ liªu NTIRE2020 395.3 K∏t qu£ ki∫m nghiªm ph˜Ïng pháp hàm lÈi t¶n sË t™p trung trên t™p d˙ liªuTest100 435.4 K∏t qu£ ki∫m nghiªm ph˜Ïng pháp hàm lÈi t¶n sË t™p trung trên t™p d˙ liªuNTIRE2020 445.5 K∏t qu£ ki∫m nghiªm các ph˜Ïng pháp trên t™p d˙ liªu Test100 455.6 K∏t qu£ ki∫m nghiªm các ph˜Ïng pháp trên t™p d˙ liªu NTIRE2020 46
Trang 10Danh sách hình £nh
1.1 Quá trình siêu phân gi£i hình £nh Ïn [11] 2
2.1 Mô ph‰ng ph˜Ïng pháp nÎi suy v‡ trí li∑n k∑ [12] 5
2.2 Mô ph‰ng ph˜Ïng pháp nÎi suy tuy∏n tính hai chi∑u [13] 5
2.3 Mô ph‰ng ph˜Ïng pháp nÎi suy khËi hai chi∑u [13] 6
2.4 Mô ph‰ng lÓp tích ch™p chuy∫n v‡ vÓi hai d§ng ªm khác nhau [14] 7
2.5 Mô ph‰ng lÓp tích ch™p i∫m £nh phˆ [2] 8
2.6 K∏t qu£ ‡nh tính cıa ph˜Ïng pháp MANIQA [15] 11
3.1 Ki∏n trúc mô hình SRCNN 14
3.2 Ki∏n trúc mô hình ESPCN [2] 15
3.3 Ki∏n trúc mô hình VDSR [3] 16
3.4 Ki∏n trúc mô hình EDSR [4] 17
3.5 Ki∏n trúc mô hình RDN [5] 17
3.6 Ki∏n trúc mô hình SwinIR, RSTB, STL [16] 18
3.7 Ki∏n trúc mô hình Swin2SR, RTB SwinV2 Transformer Layer và SwinV2 At-tention [17] 19
3.8 Minh ho§ quá trình sinh bi∫u Á các chi ti∏t bßt th˜Ìng [6] 19
3.9 Minh ho§ quá trình sinh các mˆc tiêu thích ˘ng [7] 20
3.10 Ki∏n trúc mô hình CinCGAN [8] 21
3.11 Minh ho§ mô hình suy thoái ∑ xußt cıa BSRGAN [9] 22
3.12 Ki∏n trúc mô hình IDM [10] 23
4.1 Mô phòng các m£nh ã ˜Òc ánh nhãn bi con ng˜Ìi [18] 25
4.2 Minh ho§ ph˜Ïng th˘c t§o d˙ liªu t´ng c˜Ìng [18] 26
4.3 Mô ph‰ng ph¶n m∑m dành cho các cÎng tác viên và mÎt nhóm bao gÁm 1 m£nh gËc chßt l˜Òng cao và 4 m£nh ˜Òc t´ng c˜Ìng t¯ 4 mô hình [18] 28
4.4 So sánh k∏t qu£ gi˙a viªc s˚ dˆng t™p d˙ liªu khác nhau [18] 31
4.5 So sánh k∏t qu£ gi˙a viªc dùng các t™p trong t™p d˙ liªu ã ˜Òc ng˜Ìi ánh [18] 32 5.1 Mô ph‰ng quá trình t´ng c˜Ìng m®u d¸a trên viªc ˜Óc l˜Òng các tín hiªu t´ng c˜Ìng 35
5.2 Minh ho§ bi∫u Á t´ng c˜Ìng cıa mÎt sË £nh có trong t™p hußn luyªn 36
5.3 Minh ho§ viªc t´ng c˜Ìng các m®u trong t™p hußn luyªn 37
5.4 K∏t qu£ ‡nh tính mÎt sË m®u ki∫m th˚ trong t™p Test100 39
5.5 K∏t qu£ ‡nh tính mÎt sË m®u ki∫m th˚ trong t™p NTIRE2020 40
5.6 MÎt sË thao tác lÂc b´ng t¶n trên mi∑n t¶n sË 41
5.7 Mô ph‰ng viªc ˜Óc l˜Òng kho£ng cách t¶n sË 41
5.8 Mô ph‰ng quá trình tính toán hàm lÁi t¶n sË t™p trung trong quá trình hußn luyªn 42 5.9 K∏t qu£ ‡nh tính mÎt sË m®u ki∫m th˚ trong t™p Test100 44
Trang 115.10 K∏t qu£ ‡nh tính mÎt sË m®u ki∫m th˚ trong t™p NTIRE2020 45
5.11 K∏t qu£ ‡nh tính tÍng hÒp trên t™p d˙ liªu Test100 47
5.12 K∏t qu£ ‡nh tính tÍng hÒp trên t™p d˙ liªu NTIRE2020 48
5.13 MÎt sË k∏t qu£ bßt th˜Ìng trong t™p trong t™p NTIRE2020 49
Trang 12Ch˜Ïng 1
GiÓi thiªu
1.1 GiÓi thiªu ∑ tài
Trong k nguyên sË hóa m§nh m≥ nh˜ hiªn nay, lænh v¸c công nghª thông tin và truy∑nthông ã ch˘ng ki∏n nh˙ng b˜Óc ti∏n v˜Òt b™c, kéo theo ó là nhu c¶u trao Íi, chia s¥ d˙ liªu
£nh sË và video sË ngày càng t´ng cao, ∞c biªt là Ëi vÓi nh˙ng d˙ liªu có chßt l˜Òng cao i∑unày ∞t ra yêu c¶u cßp thi∏t trong viªc nâng cao kh£ n´ng x˚ l˛ và truy∑n d®n d˙ liªu £nh sË vàvideo sË ∫ áp ˘ng Î phân gi£i cao mà không làm gi£m chßt l˜Òng nÎi dung trong quá trìnhtruy∑n t£i Tuy nhiên, trong quá trình truy∑n t£i d˙ liªu £nh sË có Î phân gi£i cao, mÎt sË vßn
∑ nh˜ h§n ch∏ v∑ tËc Î và b´ng thông m§ng có th∫ £nh h˜ng tiêu c¸c ∏n chßt l˜Òng hình
£nh, t¯ ó gây tr ng§i cho tr£i nghiªm ng˜Ìi dùng i∑u này ∞c biªt quan trÂng trong môitr˜Ìng tr¸c tuy∏n hiªn §i, nÏi mà s¸ ti∏p c™n nhanh chóng và hiªu qu£ vÓi thông tin chßt l˜Òngcao là y∏u tË quy∏t ‡nh Ëi vÓi s¸ hài lòng cıa ng˜Ìi dùng D¸a trên các thách th˘c nêu trên,mÎt sË nghiên c˘u ã t™p trung vào viªc gi£i quy∏t các bài toán liên quan ∏n viªc c£i thiªn chßtl˜Òng hình £nh, bao gÁm t´ng c˜Ìng Î phân gi£i và kh˚ nhiπu, vÓi mˆc tiêu chính là nâng caochßt l˜Òng hình £nh cuËi cùng và cho thßy ã §t ˜Òc mÎt sË ti∏n bÎ áng k∫
V∑ tÍng quan, siêu phân gi£i là quá trình khôi phˆc hình £nh có Î ph¶n gi£i cao (HighQuality) t¯ hình £nh có Î phân gi£i thßp (Low Quality) ây là mÎt trong nh˙ng kˇ thu™t x˚l˛ £nh khá phÍ bi∏n trong ngành th‡ giác máy tính và th˜Ìng ˜Òc x˚ dˆng vÓi nhi∑u mˆc íchtrong th¸c t∏ có th∫ k∫ ∏n nh˜: £nh y t∏, £nh vª tinh, £nh t¯ camera giám sát, £nh thiên v´n vàmÎt sË lo§i £nh t¯ nh˙ng lænh v¸c khác Mˆc tiêu cıa siêu phân gi£i £nh là t§o ra các hình £nh
có Î chi ti∏t và hßp d®n hình £nh cao hÏn, ngay c£ khi chø có hình £nh thßp Î phân gi£i Nhuc¶u v∑ siêu phát sinh trong nhi∑u ˘ng dˆng khác nhau nÏi mà hình £nh Î phân gi£i cao ˜Òcyêu c¶u, chØng h§n nh˜ nhi∏p £nh sË, giám sát video, hình £nh y t∏ và hình £nh vª tinh Cácph˜Ïng pháp truy∑n thËng cho siêu phân gi£i £nh thông th˜Ìng bao gÁm các kˇ thu™t nÎi suy
˜Óc l˜Òng các chi ti∏t b‡ thi∏u gi˙a các i∫m £nh trong hình £nh thßp Î phân gi£i Tuy nhiên,các ph˜Ïng pháp nÎi suy hình £nh truy∑n thËng tuy có tËc Î th¸c thi nhanh nh˜ng còn g∞pnhi∑u h§n ch∏ trong th¸c t∏, cˆ th∫ là khi £nh c¶n siêu phân gi£i có nhi∑u chi ti∏t ph˘c t§p ho∞cm˘c siêu phân gi£i quá lÓn
Lænh v¸c siêu phân gi£i £nh có th∫ chia ra làm hai lo§i chính ˜Òc xem là siêu phân gi£i £nh
Ïn l¥, và siêu phân gi£i £nh d¸a trên nhi∑u hình £nh (có th∫ là siêu phân gi£i video ho∞c cˆm
£nh brust) Trong hai lo§i này thì lænh v¸c siêu phân gi£i £nh Ïn ˜Òc xem là khó kh´n hÏn
vì yêu c¶u siêu phân gi£i £nh chø t¯ mÎt £nh Ïn duy nhßt ∫ ánh giá ˜Òc các mô hình siêuphân gi£i Ïn này thì cÎng Áng ã ‡nh nghæa ra ˜Òc mÎt sË chø sË có th∫ k∫ ∏n nh˜ tø lª tínhiªu- ti∏ng Án c¸c §i (PSNR) ho∞c chø sË t˜Ïng Áng cßu trúc ho∞c mÎt sË ph˜Ïng pháp ánhgiá tr¸c quan t¯ con ng˜Ìi ∫ ánh giá các ph˜Ïng pháp siêu phân gi£i £nh Siêu phân gi£i £nh
Trang 13ti∏p tˆc là mÎt lænh v¸c nghiên c˘u sôi nÍi, vÓi nh˙ng nÈ l¸c liên tˆc nh¨m c£i thiªn chßt l˜Òngth‡ giác, x˚ l˛ các lo§i hình £nh a d§ng và t´ng c˜Ìng hiªu sußt thÌi gian th¸c Nó óng mÎtvai trò quan trÂng trong các ˘ng dˆng khác nhau b¨ng cách cho phép c£i thiªn chi ti∏t hình £nh
và c£i thiªn tr£i nghiªm th‡ giác tÍng th∫
Trong giai o§n g¶n ây, lænh v¸c siêu phân gi£i £nh Ïn ã ch˘ng ki∏n s¸ Ît phá nhÌ vàoviªc ˘ng dˆng các kˇ thu™t hÂc sâu S¸ xußt hiªn cıa m§ng nÏ-ron tích ch™p (CNN) ã m ¶ucho cuÎc cách m§ng này, ti∏p nËi là s¸ ra Ìi cıa các m§ng sinh Ëi ngh‡ch (GAN) và m§ngTransformer, ánh dßu b˜Óc ti∏n quan trÂng trong viªc mô ph‰ng phân bË ánh x§ t¯ £nh Îphân gi£i thßp sang £nh Î phân gi£i cao mÎt cách hiªu qu£ Các ph˜Ïng pháp này không chøc£i thiªn áng k∫ chßt l˜Òng £nh siêu phân gi£i mà còn có kh£ n´ng t´ng c˜Ìng hóa làm cho £nh
có m˘c th‡ giác Á hÂa chính xác cÙng nh˜ th¸c t∏ hÏn Quá trình hußn luyªn các mô hình siêuphân gi£i £nh th˜Ìng liên quan ∏n viªc ˜a các c∞p hình £nh thßp Î phân gi£i và hình £nh Îphân gi£i cao vào m§ng và tËi ˜u hóa các thông sË m§ng ∫ gi£m thi∫u s¸ khác biªt gi˙a hình
£nh Î phân gi£i cao ˜Òc d¸ oán và hình £nh Î phân gi£i cao th¸c t∏ Quá trình này giúpcho m§ng hÂc ˜Òc các m®u cÏ b£n và t§o ra hình £nh Î phân gi£i cao vÓi các chi ti∏t ˜Òc c£ithiªn
Trong khuôn khÍ lu™n v´n, chúng tôi s≥ th¸c hiªn viªc khám phá và phân tích v∑ bài toánsiêu phân gi£i £nh bao gÁm viªc phát bi∫u bài toán, các ‡nh nghæa cÙng nh˜ các khái niªm liênquan ∏n bài toán siêu phân gi£i £nh K∏ ∏n, chúng tôi s≥ th¸c hiªn kh£o sát và phân tích các
˜u nh˜Òc i∫m cıa các nghiên c˘u liên quan có trong lænh v¸c này ∫ t¯ ó ∑ xußt ra ˜Òch˜Óng i phù hÒp CuËi cùng, chúng tôi s≥ th¸c hiªn ánh giá, phân tích và ki∫m ch˘ng thôngqua th¸c nghiªm ∫ xác nh™n tính th¸c t∏ cıa ph˜Ïng pháp ã chÂn
1.2 GiÓi thiªu bài toán
Figure 1.1: Quá trình siêu phân gi£i hình £nh Ïn [11]
Siêu phân gi£i hình £nh là mÎt tác vˆ phÍ bi∏n trong viªc nâng cao Î phân gi£i cıa hình
£nh t¯ mÎt £nh có Î phân gi£i thßp lên dÎ phân gi£i cao Cˆ th∫ hÏn, quá trình siêu phân gi£i
£nh Ïn là quá trình sinh ra mÎt £nh ISRcó kích th˜Óc Î ph¶n gi£i cao hÏn theo sË l¶n (thôngth˜Ìng s≥ là mÎt sË nguyên nh˜ nhân 2, nhân 3, nhân 4 ) t¯ mÎt £nh có Î phân gi£i thßp ILR
Kì vÂng t¯ quá trình siêu phân gi£i £nh s≥ là mÎt £nh mÓi có chi ti∏t rõ ràng hÏn trong Î phângi£i cao hÏn so vÓi £nh ILR
Trang 14BË cˆc cıa lu™n v´n
Trong ch˜Ïng ti∏p theo, chúng tôi s≥ trình bày mÎt sË ki∏n th˘c cÏ b£n có liên quan ∏n lænhv¸c siêu phân gi£i £nh cˆ th∫ nh˜ các ph˜Ïng pháp nÎi suy i∫m £nh, các chi∏n l˜Òc hÂc cıa cácph˜Ïng pháp siêu phân gi£i £nh, các hàm mßt mát cÙng nh˜ các cÏ ch∏ ánh giá các mô hìnhsiêu phân gi£i £nh Trong ch˜Ïng 3, chúng tôi s≥ kh£o sát và trình bày v∑ các nghiên c˘u liênquan ã có trong lænh v¸c siêu phân gi£i £nh và ˜Òc gom thành 3 nhóm ph˜Ïng pháp chính ó
là các ph˜Ïng pháp hÂc, các ph˜Ïng pháp s˚ dˆng mô hình sinh Ëi ngh‡ch và các ph˜Ïng pháps˚ dˆng mô hình tán x§ T¯ nh˙ng nghiên c˘u liên quan ó, nhóm s≥ chÂn ra mÎt ph˜Ïng pháp
cÏ s và phân tích t¯ tÍng quan ∏n cˆ th∫ ph˜Ïng pháp này, cÙng nh˜ minh ho§ mÎt sË k∏t qu£
và th¸c nghiªm ki∫m ch˘ng l§i ph˜Ïng pháp cÏ s này trong ch˜Ïng 4 CuËi cùng, nhóm s≥ d¸atrên ph˜Ïng pháp cÏ s ∫ ∑ xuát ˜Òc h˜Óng ti∏p c™n cÙng nh˜ trình bày khung thÌi gian th¸chiªn lu™n v´n trong thÌi gian tÓi
Trang 15so vÓi £nh tr˜Óc khi thu phóng Cˆ th∫ hÏn, khi phóng to ho∞c thu nh‰ hình £nh thì c¶n thi∏t cómÎt b˜Óc sinh ra các i∫m £nh mÓi d¸a trên các i∫m £nh hiªn t§i, quá trình này ˜Òc gÂi là quátrình nÎi suy i∫m £nh.
Trong khuôn khÍ lu™n v´n, viªc siêu phân gi£i £nh t™p trung vào quá trình lßy m®u lên(upsampling) hình £nh, ây là mÎt kæ thu™t ˜Òc s˚ dˆng thông dˆng trong lænh v¸c x˚ l˛ £nh vàtín hiªu sË ∫ t´ng kích th˜Óc Î phân gi£i cıa mÎt tßm £nh ho∞c tín hiªu Quá trình này ngoàiviªc Ïn thu¶n t´ng ˜Òc Î phân gi£i cıa tßm £nh mà còn giúp phˆc hÁi thông tin chi ti∏t cıab˘c £nh và t§o ra mÎt phiên b£n mÓi có kích th˜Óc lÓn hÏn và chßt l˜Òng tËt hÏn so vÓi b˘c £nhban ¶u
2.1.2 Ph˜Ïng pháp nÎi suy i∫m £nh
Ph˜Ïng pháp nÎi suy i∫m £nh, mÎt kˇ thu™t quan trÂng trong x˚ l˛ hình £nh sË, d¸a trênviªc ˜Óc l˜Òng giá tr‡ cıa các i∫m £nh ch˜a bi∏t thông qua mÎt mô hình toán hÂc xác ‡nh, s˚dˆng d˙ liªu t¯ các i∫m £nh ã bi∏t Kˇ thu™t này th˜Ìng ˜Òc áp dˆng trong các tình huËngc¶n thay Íi kích th˜Óc £nh, nh˜ thu phóng hình £nh, nÏi mà viªc xác ‡nh giá tr‡ cho các i∫m
£nh mÓi, n¨m gi˙a các i∫m £nh gËc, là c¶n thi∏t Các ph˜Ïng pháp nÎi suy phÍ bi∏n nh˜ nÎisuy tuy∏n tính, nÎi suy song tuy∏n tính và nÎi suy cubic, mÈi ph˜Ïng pháp có cÏ s toán hÂc và
∞c i∫m riêng, ∑u nh¨m mˆc tiêu cung cßp mÎt gi£i pháp ˜Óc l˜Òng chính xác nhßt d¸a trênmËi quan hª không gian cıa các i∫m £nh li∑n k∑
Trang 16Figure 2.1: Mô ph‰ng ph˜Ïng pháp nÎi suy v‡ trí li∑n k∑ [12].
toán ph˘c t§p nh˜ng tÁn t§i mÎt sË h§n ch∏ có th∫ k∫ ∏n nh˜: các i∫m d˙ liªu s≥ có xu h˜Óngb‡ ˘t o§n, không có phân bË Áng ∑u cÙng nh˜ viªc t§o ra mÎt sË chi ti∏t s≠c c§nh, khôngm‡n màng khi t´ng kích th˜Óc cıa b˘c £nh
Bilinear
Figure 2.2: Mô ph‰ng ph˜Ïng pháp nÎi suy tuy∏n tính hai chi∑u [13]
Ph˜Ïng pháp nÎi suy tuy∏n tính hai chi∑u (bilinear interpolation) là mÎt ph˜Ïng pháp phÍ bi∏ntrong các ph˜Ïng pháp nÎi suy i∫m £nh, vÓi ˛ t˜ng cÙng là s˚ dˆng các i∫m d˙ liªu lân c™nxung quanh ∫ tính ra giá tr‡ i∫m £nh c¶n thi∏t Cˆ th∫ hÏn, giá tr‡ cıa i∫m £nh mÓi s≥ thôngth˜Ìng ˜Òc s˚ dˆng bi 4 i∫m £nh lân c™n g¶n nhßt, sau ó giá tr‡ i∫m £nh s≥ có giá tr‡ làk∏t qu£ theo mÎt hàm tuy∏n tính gi˙a các i∫m £nh lân c™n fi t˜ng này giúp ph˜Ïng pháp nÎisuy tuy∏n tính hai chi∑u t§o ra các k∏t qu£ có tính chßt m˜Òt mà hÏn so vÓi phép nÎi suy i∫m
Trang 17£nh v‡ trí li∑n k∑ trong khi v®n gi˙ ˜Òc m˘c Î tính toán thßp V∑ h§n ch∏, ph˜Ïng pháp nàyv®n g∞p mÎt sË tình tr§ng mÌ n∏u nh˜ t´ng kích th˜Óc quá lÓn và không x˚ l˛ ˜Òc các bi∏n Íikhông tuy∏n tính ph˘c t§p.
Bicubic
Figure 2.3: Mô ph‰ng ph˜Ïng pháp nÎi suy khËi hai chi∑u [13]
Ph˜Ïng pháp nÎi suy hai khËi (Bicubic interpolation) là mÎt phiên b£n c£i ti∏n so vÓi nÎi suytuy∏n tính hai chi∑u thông qua viªc s˚ dˆng mÎt l˜Ói 4x4, bao gÁm 16 i∫m £nh lân c™n, ∫ ˜Ócl˜Òng giá tr‡ cıa i∫m £nh ch˜a bi∏t Ph˜Ïng pháp này áp dˆng mÎt hàm trung bình có trÂng
sË, d¸a trên các hª sË cubic, ∫ tính toán giá tr‡ mÓi, mang l§i kh£ n´ng tái t§o mÎt cách m˜Òt
mà và chính xác các ∞c i∫m hình hÂc và chi ti∏t m‡n cıa £nh S¸ ˜u viªt cıa ph˜Ïng pháp nÎisuy hai khËi so vÓi các ph˜Ïng pháp nÎi suy tuy∏n tính Ïn gi£n hóa là kh£ n´ng duy trì s¸ liêntˆc cıa Î dËc và các ∞c tr˜ng cßu trúc trong £nh, t¯ ó c£i thiªn áng k∫ chßt l˜Òng £nh thuphóng Tuy nhiên, bên c§nh nh˙ng ˜u i∫m v˜Òt trÎi, ph˜Ïng pháp này cÙng g∞p ph£i h§n ch∏v∑ Î ph˘c t§p tính toán cao, và kh£ n´ng gây ra hiªn t˜Òng mÌ £nh khi áp dˆng cho các tø lªthu phóng lÓn, do s¸ gi£ ‡nh liên tˆc không hoàn h£o trên toàn bÎ l˜Ói i∫m £nh
Transposed Convolutional Layers
LÓp tích ch™p chuy∫n v‡ (Transposed Convolutional Layer ho∞c Deconvolution) không ph£i làmÎt ph˜Ïng pháp nÎi suy hình £nh nh˜ nh˙ng các ph˜Ïng pháp ã trình bày nh˜ trên nh˜ng làmÎt lÓp (layers) ˜Òc dùng trong các m§ng hÂc sâu, các mô hình sinh Ëi ngh‡ch (GenerativeAdversarial Networks) ho∞c các mô hình có ki∏n trúc Unet V∑ cÏ b£n, lÓp tích ch™p chuy∫nv‡ là phép toán ng˜Òc l§i cıa lÓp tích ch™p, thay vì gi£m sË chi∑u cıa d˙ liªu mà v®n gi˙a cácthông tin không gian, thì lÓp tích ch™p chuy∫n v‡ có kh£ n´ng chuy∫n Íi t¯ mÎt ma tr™n có sËchi∑u nh‰ sáng mÎt ma tr™n có kích th˜Óc lÓn hÏn
Cˆ th∫ hÏn, các nhân tích ch™p ˜Òc s˚ dˆng ∫ th¸c hiªn phép tích ch™p trên d˙ liªu ¶u vào, vàsau quá trình tính toán, thay vì ghi è giá tr‡ lên các vùng lân c™n nh˜ trong phép tích ch™p thôngth˜Ìng, thì lÓp tích ch™p chuyener v‡ s≥ t§o ra các d˙ liªu t¯ các i∫m d˙ liªu tr˜Óc ó Vì v™y,
Trang 18Figure 2.4: Mô ph‰ng lÓp tích ch™p chuy∫n v‡ vÓi hai d§ng ªm khác nhau [14].
lÓp tích ch™p chuy∫n vì th˜Ìng ˜Òc s˚ dˆng trong các tác vˆ nh˜ t´ng kích th˜Óc (upsamping),các phép nÎi suy (interpolation), và là mÎt lÓp quan trÂng trong các mô hình sinh kh£ ngh‡ch(GAN) ∫ sinh ra các ∞c tr˜ng ho∞c hình £nh t¯ nh˙ng ∞c tr˜ng ã bi∏t Tuy nhiên, trong ng˙c£nh các ph∏p nÎi suy hình £nh thì ph˜Ïng pháp nÎi suy tuy∏n tính hai chi∑u (Bilinear) ho∞cph˜Ïng ph˜Ïng pháp nÎi suy khËi hai chi∑u (Bicubic) ˜Òc s˚ dˆng phÍ bi∫n hÏn khi so vÓiph˜Ïng pháp s˚ dˆng lÓp tích ch™p chuy∫n v‡
Subpixel Convolution Layer [2]
LÓp tích ch™p i∫m £nh phˆ (Sub-pixel convolution layer) óng mÎt vai trò quan trÂng trong c£ithiªn Î phân gi£i cıa £nh trong các ˘ng dˆng x˚ l˛ hình £nh s˚ dˆng m§ng nÏ-ron tích ch™p
Kˇ thu™t này, thông qua viªc phân chia ¶u vào Î phân gi£i thßp thành các thành ph¶n cÏ b£nhÏn, sau ó tái cßu trúc chúng thành d˙ liªu có Î phân gi£i cao hÏn, làm viªc này b¨ng cáchtái s≠p x∏p thông tin i∫m £nh và màu s≠c d¸a trên mÎt l˜Òc Á cˆ th∫ Quá trình chuy∫n Íinày ˜Òc th¸c hiªn thông qua viªc áp dˆng các bÎ lÂc và th¸c hiªn phép tích ch™p trên d˙ liªu
¶u vào, cho phép mô hình hÂc sâu t´ng Î phân gi£i mÎt cách hiªu qu£ mà không làm mßt ithông tin quan trÂng Kˇ thu™t sub-pixel convolution không chø c£i thiªn Î chính xác cıa d˙liªu hình £nh sau khi t´ng Î phân gi£i mà còn gi£m thi∫u hiªn t˜Òng mßt mát thông tin, i∑unày làm cho nó tr nên ∞c biªt h˙u ích trong các tác vˆ siêu phân gi£i, nÏi mà viªc b£o toànchi ti∏t hình £nh là c¸c k˝ quan trÂng
Mˆc tiêu cıa sub-pixel convolution là khôi phˆc l§i chi ti∏t cıa £nh ban ¶u và t´ng Î phângi£i mà không c¶n th¸c hiªn các phép t´ng kích th˜Óc thông th˜Ìng Nó cho phép mô hình hÂc
˜Òc các ∞c tr˜ng tinh vi hÏn và cung cßp £nh vÓi chßt l˜Òng cao hÏn Sub-pixel convolutionth˜Ìng ˜Òc s˚ dˆng trong các ˘ng dˆng nh˜ siêu phân gi£i £nh , mô hình sinh £nh , và các bàitoán liên quan ∏n t´ng c˜Ìng ∞c tr˜ng hình £nh
2.2 Chi∏n l˜Òc hÂc và hàm mßt mát
2.2.1 Chi∏n l˜Òc hÂc
Trong viªc gi£i quy∏t bài toán siêu phân gi£i £nh, có nhi∑u chi∏n l˜Òc hÂc ˜Òc s˚ dˆngnh¨m mˆc ích c£i thiªn chßt l˜Òng cıa £nh ã ˜Òc t´ng c˜Ìng kích th˜Óc có th∫ trình bày sau:
Trang 19Figure 2.5: Mô ph‰ng lÓp tích ch™p i∫m £nh phˆ [2].
HÂc có giám sát (supervised learning) là mÎt trong nh˙ng chi∏n l˜Òc phÍ bi∏n trong bài toán
siêu phân gi£i £nh Ëi vÓi ph˜Ïng pháp này, mô hình hÂc s≥ cË g≠ng tìm hi∫u ˜Òc mÎt hàmtái t§o t¯ các c∞p d˙ liªu £nh chßt chßt l˜Òng thßp và £nh có chßt l˜Òng cao có trong t™p d˙ liªuhußn luyªn
HÂc không giám sát (unsupervised learning) là chi∏n l˜Òc hÂc khi mà không tÁn t§i các c∞p d˙
liªu £nh chßt l˜Òng thßp và chßt l˜Òng cao trong th¸c t∏ Cho nên trong các tr˜Ïng hÒp này cácph˜Ïng pháp hÂc không giám sát s≥ ˜Òc s˚ dˆng thông qua viªc tËi ˜u các hàm mßt mát ‡chthı (adversarial loss) d¸a vào viªc s˚ dˆng các m§ng GAN
2.2.2 Hàm mßt mát
Trong lænh v¸c siêu phân gi£i £nh, hàm mßt mát thông th˜Ìng ∫ do l˜Ìng s¸ khác biªt gi˙a
£nh ã ˜Òc tái t§i so vÓi £nh gËc Thông th˜Ìng, các hàm mßt mát ˜Òc s˚ dˆng trong th¸c t∏s≥ là s¸ k∏t hÒp gi˙a mÎt sË hàm mßt mát Ïn l¥ ∫ có th∫ ánh giá tËt hÏn m˘c Î khác biªtxét v∑ c£ múc Î sai biªt i∫m £nh và m˘c  khác biªt v∑ chßt l˜Òng hình £nh
MAE & MSE
Trong lænh v¸c x˚ l˛ £nh và hÂc máy, Mean Absolute Error (MAE) và Mean Square Error (MSE)
∑u là các hàm Î lÈi quan trÂng, ˜Òc s˚ dˆng rÎng rãi ∫ ánh giá m˘c Î sai lªch gi˙a haib˘c £nh ho∞c hai véc-tÏ i∫m mßu chËt cıa c£ hai ph˜Ïng pháp này là viªc tính toán s¸ chênhlªch gi˙a £nh siêu phân gi£i ISRvà £nh có Î phân gi£i cao th¸c t∏ IHR, thông qua viªc o l˜Ìngs¸ sai biªt tuyªt Ëi (trong tr˜Ìng hÒp cıa MAE) ho∞c s¸ sai biªt toàn ph˜Ïng (trong tr˜ÌnghÒp cıa MSE) Cˆ th∫, MAE o l˜Ìng trung bình cıa giá tr‡ tuyªt Ëi các sai sË gi˙a các i∫m
£nh t˜Ïng ˘ng cıa hai £nh, trong khi MSE tính trung bình cıa bình ph˜Ïng các sai sË này, t¯
ó ph£n ánh m˘c Î sai lªch v∑ giá tr‡ c˜Ìng Î i∫m £nh gi˙a £nh d¸ oán và £nh gËc C£ haichø sË ∑u cung cßp cái nhìn toàn diªn v∑ chßt l˜Òng tái t§o £nh, vÓi MAE nhßn m§nh vào s¸Áng ∑u cıa sai sË trên toàn bÎ £nh và MSE nh§y c£m vÓi nh˙ng sai biªt lÓn t§i các i∫m £nh
cˆ th∫, t¯ ó hÈ trÒ ánh giá và tËi ˜u hóa hiªu sußt cıa các mô hình siêu phân gi£i
Trang 20Trong ó ISR(i) và IHR(i) l¶n l˜Òt là t¯ng i∫m £nh cıa £nh ˜Òc tái t§o và £nh gËc.
Structural Similarity Index Measure (SSIM)
Chø sË Î t˜Ïng Áng cßu trúc (Structural Similarity Index, SSIM) là mÎt tiêu chí ánh giá ˜Òcthi∏t k∏ ∫ o l˜Ìng m˘c Î t˜Ïng Áng gi˙a hai hình £nh, mÎt là £nh ¶u vào và mÎt là £nh
˜Òc tái t§o hay sinh ra SSIM ˜Òc phát tri∫n d¸a trên cÏ s ánh giá ba y∏u tË chính ph£n ánhchßt l˜Òng hình £nh: Î chói, t˜Ïng ph£n và cßu trúc Cˆ th∫, Î chói o l˜Ìng s¸ khác biªt v∑
Î sáng trung bình gi˙a hai £nh; t˜Ïng ph£n ánh giá s¸ chênh lªch v∑ Î phân bË Î sáng, vàcßu trúc so sánh s¸ t˜Ïng quan cıa các m®u và k∏t cßu gi˙a chúng Énh ˜Òc coi là tái t§o tËtkhi chø sË SSIM cho k∏t qu£ cao, i∑u này chø ra r¨ng £nh tái t§o gi˙ ˜Òc Î chính xác caov∑ Î sáng, Î t˜Ïng ph£n và cßu trúc so vÓi £nh gËc, t¯ ó ph£n ánh mÎt m˘c Î t˜Ïng Ángcao v∑ m∞t tr¸c quan gi˙a £nh ¶u vào và £nh ˜Òc sinh ra Chø sË SSIM, do ó, cung cßp mÎtph˜Ïng pháp ánh giá toàn diªn và khách quan v∑ chßt l˜Òng hình £nh, hÈ trÒ quá trình tËi ˜uhóa và ánh giá hiªu sußt cıa các thu™t toán siêu phân gi£i
SSIM(x,y) = [l(x,y)]a.[c(x,y)]b.[s(x,y)]g (2.3)Chø sË Î T˜Ïng Áng Cßu Trúc (SSIM) ˜Òc xác ‡nh có ph§m vi giá tr‡ t¯ -1 ∏n 1, vÓi giátr‡ 1 §i diªn cho s¸ t˜Ïng Áng tuyªt Ëi gi˙a hai b˘c £nh ˜Òc so sánh
Perceptual Loss
Hàm lÈi nh™n th˘c: Hàm lÈi này d¸a trên viªc so sánh các ∞c tr˜ng trích xußt t¯ các m§ng nÏron tr˜Óc ào t§o (pre-trained networks), n∏u hai £nh có m˘c Î th‡ giác giËng nhau thì hai ∞ctr˜ng rút t¯ cùng mÎt m§ng ã ˜Òc hußn luyªn càng g¶n vÓi nhau Thông th˜Ìng, các m§ngpre-trained nh˜ VGG, ResNet, ho∞c AlexNet ˜Òc hußn luyªn trên t™p Imagenet ˜Òc s˚ dˆng
∫ trích xußt ∞c tr˜ng t¯ hai £nh và tính toán sai sË gi˙a các ∞c tr˜ng này
• ánh giá ‡nh tính: m˜c ‡nh tính, viªc ánh giá s≥ thông qua quá trình quan sát tr¸c
quan gi˙a £nh tái t§o và £nh gËc b¨ng th‡ giác ∫ ánh giá ˜Òc chßt l˜Òng cıa mô hình.Tuy nhiên, viªc ánh giá ‡nh tính này g∞p nhi∑u h§n ch∏ Ëi vÓi kh£ n´ng và s¸ ánh giáchı quan cıa con ng˜Ìi
• ánh giá ‡nh l˜Òng: mÎt sË bài báo ho∞c các hÎi th£o chuyên v∑ lænh v¸c này cÙng ã
‡nh nghæa ra mÎt sË Î o ∫ có th∫ o l˜Ìng m˘c Î t˜Ïng Áng v∑ Á hÂa cıa £nh táit§o và £nh gËc có th∫ k∫ ∏n nh˜: PSNR, SSIM, MSE, MAE, ∫ có ˜Òc mÎt s¸ thËngnhßt và mÎt hª o l˜Ìng ánh giá các ph˜Ïng pháp mang tính khách quan nhßt
Trong lænh v¸c siêu phân gi£i £nh, sau khi t§o ra £nh tái t§o vÓi các ph˜Ïng pháp siêu pahangi£i, ta c¶n ánh giá chßt l˜Òng cıa £nh tái t§o so vÓi £nh gËc D˜Ói ây là mÎt sË Î o phÍbi∏n ˜Òc s˚ dˆng ∫ ánh giá:
Trang 21MSE và MAE
Mean Squared Error (MSE) và Mean Absolute Error (MAE): MSE và MAE cÙng ˜Òc s˚ dˆng
∫ o l˜Ìng sai sË gi˙a £nh tái t§o và £nh gËc MSE tính toán sai sË bình ph˜Ïng trung bình,trong khi MAE tính toán sai sË trung bình tuyªt Ëi
PSNR
Peak Signal-to-Noise Ratio (PSNR): PSNR là mÎt Î o phÍ bi∏n ∫ o l˜Ìng chßt l˜Òng £nhtrong super-resolution Nó tính toán t lª gi˙a công sußt tín hiªu tËi a và công sußt nhiπu.PSNR ˜Òc tính theo công th˘c:
LPIPS
LPIPS là vi∏t t≠t cıa "Learned Perceptual Image Patch Similarity", mÎt chø sË o Î t˜Ïng Ángv∑ m∞t th‡ giác gi˙a hai hình £nh Nó ˜Òc s˚ dˆng ∫ o l˜Ìng s¸ t˜Ïng Áng trong c£m nh™nth‡ giác gi˙a hình £nh gËc và hình £nh ˜Òc t§o ra sau quá trình x˚ l˛, chØng h§n nh˜ quá trìnht´ng c˜Ìng Î phân gi£i hình £nh (super resolution) ho∞c x˚ l˛ hình £nh (image processing).Mˆc tiêu cıa LPIPS là ánh giá m˘c Î t˜Ïng Áng v∑ m∞t th‡ giác gi˙a các ∞c tr˜ng cßu trúc
và th‡ giác trong hình £nh
LPIPS s˚ dˆng ¶u vào là hai hình £nh và tính toán Î t˜Ïng Áng gi˙a chúng b¨ng cách sosánh các ∞c tr˜ng trích xußt t¯ m§ng CNN ã ˜Òc hußn luyªn tr˜Óc K∏t qu£ cıa LPIPS ˜Òchi∫n th‡ d˜Ói d§ng mÎt giá tr‡ sË, th∫ hiªn m˘c Î t˜Ïng Áng gi˙a hai hình £nh, vÓi giá tr‡ càngthßp th∫ hiªn m˘c Î t˜Ïng Áng cao hÏn LPIPS là mÎt công cˆ h˙u ích trong lænh v¸c x˚ l˛hình £nh và nó ˜Òc s˚ dˆng ∫ ánh giá chßt l˜Òng hình £nh sau quá trình x˚ l˛ và so sánhhiªu sußt cıa các ph˜Ïng pháp khác nhau
DISTS
DISTS (Distributed Image Similarity with Transformations) là mÎt ph˜Ïng pháp o Î t˜ÏngÁng gi˙a hai hình £nh trong lænh v¸c x˚ l˛ hình £nh, bao gÁm c£ quá trình t´ng c˜Ìng Î phângi£i hình £nh (super resolution) Nó ˜Òc s˚ dˆng ∫ ánh giá chßt l˜Òng hình £nh sau khi ápdˆng các ph˜Ïng pháp x˚ l˛ và so sánh gi˙a các ph˜Ïng pháp khác nhau DISTS ˜Òc xâyd¸ng d¸a trên viªc áp dˆng các bi∏n Íi (transformations) cho hình £nh gËc, bao gÁm xoay, thuphóng, d‡ch chuy∫n và l™t ngang/lên xuËng Sau ó, DISTS tính toán Î t˜Ïng Áng gi˙a hình
£nh gËc và hình £nh ã ˜Òc bi∏n Íi b¨ng cách so sánh các ∞c tr˜ng cßu trúc và th‡ giác cıachúng
Trang 22DISTS s˚ dˆng mÎt mô hình deep neural network (m§ng neural sâu) ∫ trích xußt các ∞c tr˜ngt¯ hình £nh và tính toán kho£ng cách gi˙a chúng K∏t qu£ cıa DISTS ˜Òc o b¨ng giá tr‡kho£ng cách, trong ó giá tr‡ càng thßp th∫ hiªn m˘c Î t˜Ïng Áng cao hÏn gi˙a hai hình £nh.DISTS là mÎt công cˆ quan trÂng trong viªc ánh giá chßt l˜Òng hình £nh và so sánh hiªu sußtcıa các ph˜Ïng pháp x˚ l˛ khác nhau Nó giúp xác ‡nh s¸ khác biªt gi˙a hình £nh gËc và hình
£nh ã ˜Òc x˚ l˛ và làm nÍi b™t nh˙ng ph˜Ïng pháp có hiªu qu£ tËt trong viªc t´ng c˜Ìng Îphân gi£i hình £nh
Non-Reference IQA
Ph˜Ïng pháp ánh giá chßt l˜Òng hình £nh không c¶n tham kh£o (Non-Reference Image QualityAssessment - NR-IQA) óng vai trò quan trÂng trong viªc ánh giá và c£i thiªn chßt l˜Òng cıacác bài toán siêu phân gi£i £nh, d¸a trên viªc xây d¸ng mô hình hÂc sâu có th∫ ánh giá chßtl˜Òng cıa mÎt £nh Ïn l¥ i∑u này rßt h˙u ích vì trong nhi∑u tr˜Ìng hÒp, hình £nh gËc chßtl˜Òng cao không kh£ dˆng, ho∞c ch˜a phù hÒp ∫ làm £nh tham kh£o D¸a vào mÎt sË nghiênc˘u liên quan ên ph˜Ïng pháp ánh giá chßt l˜Òng này [19] [15] [20] [21], chúng tôi nh™n thßy
˜Òc các mô hình này có kh£ n´ng nh™n phân tích các y∏u tË nh˜ Î nét, Î t˜Ïng ph£n, màus≠c, Î nhiπu và mÎt sË hiªn t˜Òng bi∏n d§ng có trong £nh
Figure 2.6: K∏t qu£ ‡nh tính cıa ph˜Ïng pháp MANIQA [15]
D¸a vào các nghiên c˘u liên quan ∏n lænh v¸c này, chúng tôi chÂn ph˜Ïng pháp ∫ ánh hình
£nh không c¶n tham kh£o t¯ nghiên c˘u "MANIQA: Multi-dimension Attention Network forNo-Reference Image Quality Assessment" [15] (t§m d‡ch là: M§ng Chú fi a Chi∑u cho ánhGiá Chßt L˜Òng Hình Énh Không C¶n Tham Chi∏u) Trong nghiên c˘u này, các tác gi£ th¸c s˚dˆng cßu trúc m§ng ViT, cùng vÓi viªc ∑ xußt các khËi "Transposed Attention Block - TAB"
Trang 23và "Scale Swin Transformer Block" (SSTB) ∫ có th∫ t´ng c˜Ìng s¸ t˜Ïng tác trên m˘c Î cˆc
bÎ và toàn cˆc Thông qua th¸c nghiªm, các tác gi£ có th∫ tuyên bË là ph˜Ïng pháp cıa h cóhiªu sußt v˜Òt trÎi hÏn các ph˜Ïng pháp tiên ti∏n trên bËn bÎ d˙ liªu tiêu chu©n (LIVE [22],TID2013 [23], CSIQ[24] , KADID-10K [25]) vÓi mÎt kho£ng cách lÓn Ngoài ra, ph˜Ïng phápcıa các tác gi£ cÙng §t v‡ trí ¶u tiên trong cuÎc thi "NTIRE 2022 Perceptual Image QualityAssessment Challenge Track 2: No-Reference" Hình 2.6 tr¸c quan mÎt sË k∏t qu£ ‡nh tính cıaph˜Ïng pháp nói trên
Trang 24Ch˜Ïng 3
Nh˙ng nghiên c˘u liên quan
Trong ch˜Ïng này, lu™n v´n s≥ trình bày l˜Òc s˚ cùng vÓi mÎt sË nghiên c˘u liên quan ËivÓi lænh v¸c siêu phân gi£i hình £nh Ïn V∑ l˜Òc s˚ cıa lænh v¸c này, sau các ph˜Ïng pháp nÎisuy hình £nh ∫ t´ng Î phân gi£i thì vào kho£ng thÌi gian 2010, mÎt sË nghiên c˘u vÓi mˆctiêu siêu phân gi£i hình £nh ã ˜Òc hình thành vÓi ˛ t˜ng mã hoá th˜a thÓt (sparse coding)
∫ siêu phân gi£i hình £nh Ph˜Ïng pháp này có quy trình bao gÁm mÎt sË b˜Óc tìm ra t¯ i∫ncác m£nh phÍ thông, xong sau ó mã hoá th˜a thÓt mÎt b˘c £nh có Î phân gi£i thßp lên b˘c
£nh có Î phân gi£i cao b¨ng cách xây d¸ng mÎt cách chÁng chéo các m£nh này l§i K∏t qu£cıa ph˜Ïng pháp này th¸c s¸ có mÎt sË k∏t qu£ nhßt ‡nh so vÓi các ph˜Ïng pháp nÎi suy £nhthông th˜Ìng, tuy nhiên chßt l˜Òng £nh ¶u ra v®n mang rßt nhi∑u vùng nhiπu trên £nh k∏t qu£
Sau ó, Dong et al [1] ã ∑ xußt mÎt ˛ t˜ng s˚ dˆng m§ng nÏ ron tích ch™p Ëi vÓi bài
toán siêu phân gi£i hình £nh Ïn T¯ ó, m ra mÎt xu h˜Óng v∑ viªc s˚ sˆng các mô hình hÂcsâu ∫ có th∫ ˜Óc l˜Òng ˜Òc £nh có Î phân gi£i cao hÏn t¯ £nh có Î phân gi£i thßp
Tính ∏n hiªn t§i, h¶u h∏t các ph˜Ïng pháp siêu phân gi£i hình £nh Ïn ph¶n lÓn là s˚ dˆngcác mô hình hÂc sâu, và có th∫ ˜Òc phân lo§i ra thành 3 lo§i nh˜ sau:
Trong cßu trúc mô hình mà các tác gi£ ã công bË, £nh ¶u vào là mÎt £nh có Î phân gi£ithßp nh˜ng ˜Òc t´ng Î phân gi£i lên cho b¨ng vÓi l§i £nh ¶u ra d¸a vào phép nÎi suy Bicubic.Sau ó, hình £nh ¶u vào s≥ ˜Òc ˜a qua mÎt mô hình gÁm 3 lÓp bao gÁm: trích xußt m£nh
và bi∫u diπn (patch extraction & representation), ánh x§ phi tuy∏n (non-linear mapping) và lÓptái t§o (reconstruction) Các tác gi£ ch˘ng minh r¨ng ba lÓp ch™p trong SRCNN t˜Ïng t¸ nh˜
ba b˜Óc cıa ph˜Ïng pháp mã hóa th˜a thÓt nh˜ng thay vì x˚ l˛ t¯ng b˜Óc riêng biªt, SRCNN
Trang 25Figure 3.1: Ki∏n trúc mô hình SRCNN.
cùng nhau tËi ˜u hóa tßt c£ các lÓp HÏn n˙a, ph˜Ïng pháp này có th∫ x˚ l˛ ¶u vào vÓi 3 kênhmàu và cho thßy chßt l˜Òng tái t§o tÍng th∫ tËt hÏn
Trích xußt m£nh và bi∫u diπn
LÓp ¶u tiên cıa mô hình này có mˆc ích trích xußt các m£nh nh‰ (patch) trên £nh ¶u vàob¨ng các tr˜Òt mÎt nhân trên £nh K∏t qu£ cıa lÓp này là mÎt véc tÏ có nhiêu chi∑u, sË l˜Òngb£n Á ∞c tr˜ng (feature map) s≥ t˜Ïng ˘ng vÓi sË chi∑u cıa véc tÏ và công th˘c ˜Òc bi∫u diπnnh˜ sau:
F1(Y ) = max(0,W1⇤Y + B1) (3.1)Trong ó, W1 là các bÎ lÂc, B1là các h¨ng sË (bias) và ⇤ là phép tích ch™p W1s≥ có tß c£các n1bÎ lÂc vÓi kích th˜Óc c ⇤ f1⇤ f1vÓi c bi∫u th‡ cho sË kênh màu cıa £nh ¶u vào, hàm max
có th∫ coi nh˜ là mÎt hàm kích ho§t ví nh˜ ReLU K∏t qu£ cıa lÓp nayuf là mÎt véc tÏ n1chi∑ut˜Ïng ˘ng vÓi n1bi∫u Á ∞c tr˜ng
Ánh x§ phi tuy∏n
Sau khi rút trích ˜Òc bi∫u Á ∞c tr˜ng cıa £nh, lÓp k∏ ∏n là lÓp tích ch™p có nhiªm vˆánh x§ véc tÏ n1 chi∑u tr˜Óc và ánh x§ qua véc tÏ n2chi∑u, và ˜Òc mô t£ công th˘c sau:
F2(Y ) = max(0,W2⇤ F1(Y ) + B2) (3.2)Trong ó, W2 là các bÎ lÂc, B2 là các h¨ng sË (bias), vÓi W2 s≥ bao gÁm n2bÎ lÂc vÓi kíchth˜Óc n1⇤ f2⇤ f2vÓi c là sË l˜Òng kênh màu cıa £nh ¶u vào K∏t qu£ cıa lÓp này là mÎt véc
tÏ ch˘a bi∫u Á ∞c tr˜ng ∫ bi∫u diπn ∞c tr˜ng cßp cao cıa các m£nh ã trích xußt tr˜Óc ó.Viªc s˚ dˆng nhi∑u lÓp ánh x§ phi tuy∏n x∏p chÁng vào nhau cÙng ˜Òc các tác gi£ ∑ c™p ∏n,tuy nhiên ˛ t˜ng s˚ dˆng nhi∑u lÓp ánh x§ phi tuy∏n s≥ làm mô hình tr nên ph˘c t§p cÙng nh˜tËn nhi∑u thÌi gian ∫ lam cho mô hình hÎi tˆ và cÙng không làm t´ng ˜Òc hiªu suât cıa môhình T¯ ó, viªc s˚ dˆng 3 lÓp nh˜ các tác gi£ công bË ˜Òc xem là phù hÒp
LÓp tái t§o
LÓp cuËi cùng trong mô hình này dùng ∫ khôi phˆc l§i £nh có chßt l˜Òng cao t¯ bi∫u Á
∞c tr˜ng t¯ lÓp k∏ tr˜Óc và có công th˘c nh˜ bên d˜Ói vÓi các kí hiªu ˜Òc diπn gi£i nh˜ sau:
W3gÁm c bÎ lÂc có kích th˜Óc n2⇤ f3⇤ f3 K∏t qu£ cıa lÓp này là £nh ã ˜Òc siêu phân gi£i
Trang 26và b¨ng kích th˜Óc vÓi £nh cıa £nh ¶u vào ( ã ˜Òc nâng Î phân gi£i b¨ng ph˜Ïng phápbicubic).
F(Y ) = W3⇤ F2(Y ) + B3 (3.3)V∑ tÍng k∏t, bài báo này th¸c hiªn viªc m ra mÎt h˜Óng mÓi trong viªc s˚ dˆng mÎt mô hìnhvÓi 3 lÓp Ïn gi£n ã có th∫ ch˘ng minh hiªu sußt siêu phân gi£i hình £nh v˜Òt trÎi hÏn so vÓicßc phép nÎi suy nh‡ phân Tuy nhiên, các k∏t qu£ này v®n còn nhi∑u h§n ch∏ khi xét góc Îth‡ giác cÙng nh˜ v®n còn mÎt sË tình tr§ng b‡ £nh ¶u ra g∞p mÎt sË tín hiªu rung ho∞c mÎt sËchi ti∏t bßt th˜Ìng
3.1.2 ESCPN [2]
Figure 3.2: Ki∏n trúc mô hình ESPCN [2]
Trong bài toán siêu phân gi£i £nh, sau khi bài báo SRCNN ˜Òc công bË, các ph˜Ïng pháps˚ dˆng m§ng nÏ ron tích ch™p ch˘ng t‰ ˜Òc hiªu sußt vÓi Î chính xác v˜Òt trÎi so vÓinh˙ng ph˜Ïng pháp truy∑n thËng Không d¯ng l§i ó, các tác gi£ ã công bË mÎt công trìnhvÓi t¸a ∑: Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-PixelConvolutional Neural Network, t§m d‡ch là Siêu phân gi£i hình £nh và video trong thÌi gianth¸c vÓi m§ng tích ch™p i∫m £nh con hiªu qu£, vÓi i∫m nÍi b™t là lÓp tích ch™p i∫m £nh con.Tr˜Óc h∏t, các tác gi£ ã chø ra ˜Òc h§n ch∏ trong bài báo SRCNN n¨m viªc h ã dùngph˜Ïng pháp nÎi suy nh‡ phân ∫ lßy m®u £nh ¶u vào cho có kích th˜Óc b¨ng £nh ¶u ra, vàviªc này gây ra mÎt sË tr ng§i có th∫ k∫ ∏n nh˜ sau:
• Viªc lßy m®u lên Ëi vÓi £nh ¶u vào làm t´ng kích th˜Óc cÙng nh˜ khËi l˜Òng tính toánlên nhi∑u l¶n so vÓi viªc s˚ dˆng £nh ¶u vào có kích th˜Óc nh‰ hÏn i∑u này là nguyênnhân d®n ∏n thÌi gian th¸c thi cıa mô hình SRCNN khá lâu
• Ph˜Ïng pháp nÎi suy nh‡ phân vÓi £nh ¶u vào có th∫ không giúp ích gì cho mô hình cÙngnh˜ £nh h˜ng ∏n k∏t qu£ cıa mô hình
T¯ nh˙ng h§n ch∏ nh˜ trên, nhóm tác gi£ ã ∑ xußt viªc s˚ dˆng £nh ¶u vào có kích th˜Ócnh‰ gi£i quy∏t ˜Òc h§n ch∏ trên cÎng vÓi viªc ∑ xußt lÓp tích ch™p i∫m £nh phˆ (sub pixelconvolution layer) ã ˜Òc trình bày ph¶n tr˜Óc vÓi nhiªm vˆ tái t§o l§i £nh chßt l˜Òng cao vÓicác i∫m m§nh ˜Òc k∫ ∏n nh˜ sau: tránh ˜Òc viªc ph£i dùng zero-padding làm £nh h˜ng
∏n k∏t qu£ ¶u ra và dùng lÓp tích ch™p chuy∫n v‡ (devconvolution layer) s≥ khi∏n cho chi phítính toán t´ng lên do phép tích ch™p ˜Òc th¸c hiªn trong không gian Î phân gi£i cao
3.1.3 VDSR [3]
Sau SRCNN, các nhà nghiên c˘u nh™n thßy r¨ng có th∫ §t ˜Òc hiªu sußt tái t§o tËt hÏnb¨ng cách thêm nhi∑u lÓp tích ch™p ∫ m rÎng vùng ti∏p nh™n (receptive view) Tuy nhiên,
Trang 27Figure 3.3: Ki∏n trúc mô hình VDSR [3].
viªc tr¸c ti∏p x∏p chÁng các lÓp tích ch™p lên nhau s≥ gây ra bi∏n mßt/ bùng nÍ §o hàm và cácvßn ∑ suy thoái khác T¯ ˛ t˜ng hÂc d˜ (residual learning) trong ResNet[26], Accurate ImageSuper-Resolution Using Very Deep Convolutional Networks(VDSR)[3] ˜Òc ∑ xußt bi Kim
et al trong n´m 2015
Trong ph˜Ïng pháp này, Kim et al s˚ dˆng m§ng tích ch™p rßt sâu lßy c£m h˘ng t¯ VGG[27] LÓp ¶u tiên dùng ∫ x˚ l˛ hình £nh ¶u vào và lÓp cuËi cùng ˜Òc s˚ dˆng ∫ tái t§ohình £nh Do s˚ dˆng mÎt m§ng rßt sâu ∫ d¸ oán các ¶u ra dày ∞c, nên kích th˜Óc cıa bi∫u
Á ∞c tr˜ng s≥ gi£m mÈi khi áp dˆng phép toán tích ch™p ∫ gi£i quy∏t vßn ∑ này, tác gi£s˚ dˆng ªm hÒp lª (valid padding) ∫ gi˙ nguyên kích th˜Óc ¶u ra và nó th∫ hiªn tËt hÏn rßtnhi∑u
MÎt vßn ∑ khác cıa m§ng ch™p rßt sâu là £nh ¶u vào ph£i i qua tßt c£ các lÓp cho ∏nkhi ∏n ˜Òc lÓp ¶u ra i∑u này òi h‰i bÎ nhÓ rßt dài h§n và gây ra vßn ∑ bi∏n mßt/bùng nÍ
§o hàm Vßn ∑ này có th∫ ˜Òc gi£i quy∏t mÎt cách Ïn gi£n vÓi viªc hÂc d˜ Hàm mßt mátL2 cıa ph˜Ïng pháp này ˜Òc tính toán gi˙a hình £nh ˜Òc tái t§o (tÍng ¶u vào và ¶u ra cıam§ng) và s¸ th™t n∑n t£ng (ground truth)
Ngoài ra, VDSR s˚ dˆng kˇ thu™t giÓi h§n §o hàm (gradient clip) k∏t hÒp vÓi tø lª lÓn ∫t´ng tËc Î hußn luyªn và triªt tiêu hiªn t˜Òng gradient bùng nÍ VÓi giÓi h§n, §o hàm n¨mtrong ph§m vi nhßt ‡nh cıa [ qg,qg], trong óg bi∫u th‡ tø lª hÂc hiªn t§i Quá trình hußn luyªn
˜Òc th¸c hiªn trong vòng 4 giÌ trong khi mô hình ba lÓp SRCNN mßt vài ngày ∫ hußn luyªn.CuËi cùng, tác gi£ k∏t hÒp các t™p d˙ liªu hußn luyªn cho mÎt sË t lª kích th˜Óc cˆ th∫ (x2,x3, x4) thành mÎt t™p d˙ liªu lÓn ∫ hußn luyªn mÎt mô hình a t lª o Các tham sË ˜Òc chias¥ trên tßt c£ các hª sË t lª ˜Òc xác ‡nh tr˜Óc ây là mÎt cách ti∏t kiªm ∫ l˜u tr˙ và truyxußt m§ng thay vì nhi∑u m§ng cho mÈi quy mô
Tuy nhiên, ∑ c™p trong EDSR[4], v®n còn mÎt sË mô- un không c¶n thi∏t trong khËi d˜ gâylãng phí tài nguyên và chi phí tính toán Ph˜Ïng pháp a t lª trong VDSR không tËt và ki∏ntrúc cıa nó nh§y c£m vÓi các kˇ thu™t khi t§o và hußn luyªn Ph˜Ïng pháp pre-upsamplingb¨ng phép bicubic d®n ∏n thÌi gian tính toán và bÎ nhÓ n∞ng hÏn
3.1.4 EDSR [4]
∫ gi£i quy∏t các vßn ∑ còn l§i trong VDSR, Enhanced Deep Residual Networks for Single
Image Super-Resolution(EDSR)[4] ã ˜Òc Lim et al ∑ xußt vào n´m 2017.
Trang 28Figure 3.4: Ki∏n trúc mô hình EDSR [4].
Các tác gi£ ã lo§i b‰ các lÓp Batch Normalization kh‰i các khËi d˜ ban ¶u ∫ c£i thiªnhiªu sußt trong quá trình th˚ nghiªm Ph˜Ïng pháp này ti∏t kiªm kho£ng 40% m˘c s˚ dˆng bÎnhÓ trong quá trình hußn luyªn
Bài báo này cho thßy r¨ng viªc t´ng sË l˜Òng bi∫u Á ∞c tr˜ng trên mÎt m˘c nhßt ‡nh s≥
làm cho quy trình hußn luyªn không Ín ‡nh Lim et al gi£i quy∏t vßn ∑ này b¨ng cách áp dˆng
t lª ph¶n d˜ (residual scaling) vÓi hª sË 0.1 Trong mÈi khËi còn l§i, các lÓp t lª không Íi
˜Òc ∞t sau các lÓp tích ch™p cuËi cùng Các mô- un này giúp Ín ‡nh rßt nhi∑u quy trình àot§o khi s˚ dˆng mÎt sË l˜Òng lÓn các bÎ lÂc
CuËi cùng, các tác gi£ ã x˚ l˛ mô hình a t lª b¨ng cách giÓi thiªu các mô- un x˚ l˛ cˆth∫ cho t¯ng t lª (scale-specific processing module) Các mô- un ti∑n x˚ l˛ và mô- un h™u x˚l˛ ˜Òc xác ‡nh cho các t lª khác nhau Trong các t¶ng trung tâm cıa ki∏n trúc, m§ng mô hìnhchia s¥ trÂng sË trên các t lª Phiên b£n EDSR dành cho mô hình a t lª ˜Òc gÂi là MDSR
3.1.5 RDN [5]
Figure 3.5: Ki∏n trúc mô hình RDN [5]
Ph˜Ïng pháp EDSR [4] tr˜Óc ây xây d¸ng mÎt m§ng rßt rÎng vÓi t lª ph¶n d˜ và khi chi∑usâu cıa m§ng t´ng lên, các ∞c tr˜ng trong mÈi t¶ng tích ch™p s≥ có các lænh v¸c nh™n th˘c khácnhau Tuy nhiên, ph˜Ïng pháp này b‰ qua viªc s˚ dˆng ¶y ı thông tin trên mÈi t¶ng tích ch™p.Các ∞c tr˜ng phân cßp nh˜ t lª khác nhau, góc nhìn và t lª khung hình là nh˙ng y∏u tË quantrÂng cho viªc tái t§o hình £nh ∫ kh≠c phˆc nh˙ng h§n ch∏ này, Y Zhang et.al và Áng nghiªp
ã ∑ xußt M§ng m™t Î d˜ Residual Dense Network (RDN)[5]
Trang 29Trong RDN, các lÓp Dense ˜Òc k∏t hÒp vÓi skip connection ∫ t§o thành khËi dày ∞c d˜(Residual Dense Block - RDB), vÓi cÏ ch∏ bÎ nhÓ li∑n k∑ i∑u này cho phép các ∞c tr˜ngt¶n sË thßp ˜Òc b‰ qua thông qua nhi∑u skip connection và t™n dˆng hoàn toàn tßt c£ các t¶ngtích ch™p trong khËi thông qua các k∏t nËi Dense Ngoài ra, viªc hÂc d˜ cˆc bÎ (Local residuallearning) ˜Òc giÓi thiªu trong RDB ∫ c£i thiªn luÁng thông tin Sau ó, sau khi trích xußt các
∞c tr˜ng m™t Î cˆc bÎ t¯ mÎt t™p hÒp các RDB, tác gi£ s˚ dˆng mÎt quá trình k∏t hÒp ∞ctr˜ng toàn c¶u (global feature fusion) ∫ k∏t hÒp tßt c£ các ∞c tr˜ng t¯ các RDB tr˜Óc ó.VÓi s¸ trÒ giúp cıa cÏ ch∏ k∏t nËi dày ∞c, luÁng thông tin gi˙a mÈi t¶ng cıa m§ng có th∫
˜Òc t™n dˆng và do ó cung cßp k∏t qu£ tái t§o tËt hÏn.RDN cÙng s˚ dˆng hußn luyªn b¨ngviªc s˚ dˆng hàm mßt mát L1, m§nh m≥ hÏn hàm mßt mát L2 Ëi vÓi hiªu sußt và hÎi tˆ
3.1.6 SwinIR & Swin2SR
SwinIR [16]
Figure 3.6: Ki∏n trúc mô hình SwinIR, RSTB, STL [16]
Trong khi các ph˜Ïng pháp tr˜Óc ây s˚ dˆng m§ng rÏ ron tích ch™p trong lænh v¸c siêu phângi£i £nh, thì xu h˜Óng th‡nh hành trong nh˙ng n´m g¶n ây v∑ viªc s˚ dˆng các mô hình d¸atrên transformer ã ˜Òc nghiên c˘u và §t ˜Òc mÎt sË thành qu£ nhßt ‡nh vÓi các mô hình
có th∫ k∫ ∏n nh˜: Vision Transformer [28], SwinTransformer [29], Trong bài báo SwinIR,các tác gi£ ã ∑ xußt mÎt mô hình m§nh m≥ mang tên SwinIR trong lænh v¸c siêu phân gi£i
£nh d¸a vào ki∏n trúc mô hình Swin Transformer V∑ tÍng quan, mô hình SwinIR chia quá trìnhkhôi phˆc hình £nh thành hai giai o§n: giai o§n rút trích ∞c tr˜ng và giai o§n khôi phˆc.Trong giai o§n rút trích ∞c tr˜ng, mô- un trích xußt ∞c tr˜ng sâu ˜Òc cßu t§o t¯ mÎt sË khËiResidual Swin Transformer (RSTB) ˜Òc s˚ dˆng ∫ t§o ra các bi∫u diπn ∞c tr˜ng cıa hình
£nh ¶u vào Các bi∫u diπn này sau ó ˜Òc ˜a vào giai o§n khôi phˆc, nÏi mô hình SwinTransformer khác ˜Òc s˚ dˆng ∫ t§o ra hình £nh khôi phˆc có chßt l˜Òng cao hÏn Các tác gi£
ã ti∏n hành th¸c nghiªm trên mÎt sË tác vˆ liên quan ∏n tái t§o £nh có th∫ k∫ ∏n nh˜: siêuphân gi£i hình £nh (bao gÁm c£ siêu phân gi£i £nh cÍ i∫n, £nh nhµ, và £nh th¸c t∏) gi£m nhiπuhình £nh và gi£m mßt mát thông tin khi nén hình b¨ng thu™t toán JPEG K∏t qu£ th¸c nghiªmcho thßy SwinIR v˜Òt trÎi hÏn các ph˜Ïng pháp tr˜Óc ó trên các tác vˆ ˜Òc k∫ nh˜ trên
Swin2SR [17]
Trong bài báo này, tác gi£ ã c£i thiªn mô hinh SwinIR b¨ng cách ∑ xußt mÎt sË hiªu chønhtrong môt hình ∫ nâng cao kh£ n´ng siêu phân £nh hình £nh B¨ng viªc khám phá ki∏n trúc mô
Trang 30Figure 3.7: Ki∏n trúc mô hình Swin2SR, RTB SwinV2 Transformer Layer và SwinV2 Attention[17].
hình Swin Transformer V2, các tác gi£ ã gi£i quy∏t ˜Òc mÎt sË vßn ∑ so vÓi mô hình cÙ cóth∫ k∫ ∏n nh˜: s¸ Ín ‡nh trong quá trình hußn luyên, mÎt sË s¸ cách biªt trong viªc tinh chønh
mô hình t¯ các mô hinh ã ˜Òc hußn luyªn sÆn và vßn ∑ hußn luyªn mô hình trong ng˙ c£nhthi∏u hˆt d˙ liªu Cˆ th∫ Ëi vÓi mô hình siêu phân gi£i này, tác gi£ ã c™p nh™t khËi ResidualTransformer Block (RSTB) và thay ôi b¨n lÓp SwinV2 Transformer mÓi ∫ t´ng c˜Ìng kh£n´ng cıa mô hình Ngoài ra, tác gi£ còn thay Íi trong viªc k∏t hÒp gi˙a k∏t qu£ cıa mô hìnhhÂc sâu và mô hình cÍ i∫n b¨ng viªc dùng £nh l®y m®u lên b¨ng ph˜Ïng pháp nÎi suy tuy∏ntính hai chi∑u và cÎng vÓi k∏t qu£ cuËi cùng cıa mô hình
K∏t qu£ th˚ nghiªm ch˘ng minh r¨ng ph˜Ïng pháp Swin2SR, có th∫ c£i thiªn hiªu sußt vàkh£ n´ng hÎi tˆ khi so sánh vÓi SwinIR, Áng thÌi là gi£i pháp n¨m trong top 5 t§i “Th˚ tháchAIM 2022 v∑ Î phân gi£i siêu cao cıa hình £nh và video nén”
3.1.7 LDL [6]
Figure 3.8: Minh ho§ quá trình sinh bi∫u Á các chi ti∏t bßt th˜Ìng [6]
ào t§o mô hình siêu phân gi£i hình £nh Ïn l¥ (SISR) b¨ng m§ng sinh Ëi ‡ch (GAN)
Trang 31ã thu hút s¸ quan tâm ngày càng t´ng vì kh£ n´ng t§o ra chi ti∏t phong phú Tuy nhiên, viªc
ào t§o GAN th˜Ìng không Ín ‡nh và th˜Ìng gây ra nhi∑u hiªn t˜Òng không mong muËn theokèm vÓi viªc t§o ra chi ti∏t Bài báo "Details or Artifacts: A Locally Discriminative LearningApproach to Realistic Image Super-Resolution" ∑ xußt mÎt ph˜Ïng pháp hÂc phân biªt cˆc bÎ
∫ t´ng c˜Ìng siêu hiªu sußt cıa mô hình phân biªt (discriminator) trong ki∏n trúc GAN ∫ cóth∫ t´ng hiªu sußt siêu phân gi£i hình £nh mÎt cách th¸c t∏ D¸a trên quan sát r¨ng các thËng kêcˆc bÎ (ví dˆ: ph˜Ïng sai d˜) cıa các khu v¸c có hiªn t˜Òng nghª thu™t th˜Ìng khác biªt so vÓicác khu v¸c chi ti∏t có tính th¸c t∏, chúng tôi phát tri∫n mÎt ph˜Ïng th˘c giúp gia t´ng hiªu sußtcıa mô hình phân biªt ∫ có th∫ phân biªt gi˙a các chi ti∏t bßt th˜Ìng ˜Òc t§o ra bi GAN vàcác chi ti∏t có tính th¸c t∏, và có th∫ sinh ra ˜Òc mÎt bi∫u Á cıa các chi ti∏t bßt th˜Ìng ∫ cóth∫ thúc ©y quá trình hußn luyªn T¯ ó, các tác gi£ ∑ xßt ˛ t˜ng ph˜Ïng th˘c hÂc phân biªtcˆc bÎ (locally discriminative learning) mang ˛ nghæa Ïn gi£n nh˜ng có tính hiªu qu£ cao, cóth∫ dπ dàng tích hÒp vào các mô hình siêu phân gi£i £nh mÎt cách dπ dàng và t´ng hiªu sußt cıachúng Các th¸c nghiªm ch˘ng minh r¨ng LDL §t hiªu sußt v˜Òt trÎi so vÓi các ph˜Ïng phápSISR d¸a trên GAN, §t ˜Òc kh£ n´ng tái t§o l§i £nh chßt l˜Òng cao tËt hÏn cÙng nh˜ các chiti∏t th¸c t∏ hÏn trên lænh v¸c £nh tÍng hÒp và £nh th¸c t∏
3.1.8 AdaTarget [7]
Figure 3.9: Minh ho§ quá trình sinh các mˆc tiêu thích ˘ng [7]
Trong bài báo này, các tác gi£ chø ra mÎt vßn ∑ trong lænh v¸c siêu phân gi£i £nh ó là viªcmÎt £nh có Î phân gi£i thßp khi siêu phân gi£i thì có th∫ tÁn t§i nhi∑u £nh chßt l˜Òng cao t˜Ïng
˘ng Tuy nhiên, các thu™t toán trong lænh v¸c siêu phân gi£i ∑u d¸a trên viªc ánh x§ duy nhßtgi˙a mÎt £nh chßt l˜Òng thßp và mÎt £nh chßt l˜Òng cao, viªc này có th∫ d®n ∏n viªc mô hìnhchø quan tâm ∏n mˆc tiêu ph£i tËi ˜u hàm lÈi gây ra mÎt vßn ∑ khá nghiêm trÂng trong lænhv¸c siêu phân gi£i £nh th¸c t∏ khi mà các ph˜Ïng pháp suy thoái cˆ th∫ là suy thoái mÌ s≥ làmmßt mát i nhi∑u thông tin cıa £nh
D¸a vào vßn ∑ k∫ trên, tác gi£ ˜a ra mÎt ph˜Ïng th˘c ti∏p c™n khác Ëi vÓi các mô hìnhsiêu phân gi£i £nh d¸a trên ˛ t˜ng tìm ra các mˆc tiêu thích ˘ng vÓi k∏t qu£ ¶u ra Mˆc tiêuthích ˘ng ˜Òc sinh ra t¯ các £nh có chßt l˜Òng cao ban ¶u và ˜Òc khÓp vÓi k∏t qu£ thông quamÎt sË ph˜Ïng th˘c bi∏n Íi truy∫n thËng D¸a vào ó, các mˆc tiêu này s≥ cung cßp mÎt thôngtin h˜u ích cho mô hình siêu phân gi£i ∫ có th∫ hÂc ˜Òc nhi∑u lÌi gi£i hÏn tr˜Óc K∏t qu£ th¸cnghiªm cho thßy hiªu qu£ cıa thu™t toán cıa ã ∑ ra, ∞c biªt là trong viªc c£i thiªn chßt l˜Òngth‡ giác cıa £nh ¶u ra
Trang 323.2 Các ph˜Ïng pháp s˚ dˆng mô hình GAN
Mô hình sinh Ëi ngh‡ch (Generative Adversarial Network) là mÎt ki∏n trúc m§ng nÏ-ron s˚dˆng hai m§ng nÏ-ron Ëi ngh‡ch ∫ t§o ra và phân biªt các d˙ liªu mÓi M§ng sinh (Generator)d¸a vào mÎt không gian ti∑m ©n ng®u nhiên ∫ sinh d˙ liªu trong khi m§ng phân biªt (Discrim-inator) cË g≠ng phân biªt các d˙ liªu này Quá trình hußn luyªn GAN là s¸ c§nh tranh gi˙a haim§ng ∫ cË chi∏n th≠ng l®n nhau t¯ ó c£ hai càng sinh ra d˙ liªu tËt hÏn và phân biªt ˜Òc d˙liªu tËt hÏn
Mô hình sinh Ëi ngh‡ch trong lænh v¸c siêu phân gi£i £nh cˆ th∫ là viªc s˚ dˆng m§ng sinhcıa GAN ˜Òc s˚ dˆng ∫ t§o ra các hình £nh có Î phân gi£i cao t¯ các hình £nh có Î phângi£i thßp và thông qua quá trình hußn luyªn thì k˝ vÂng m§ng sinh s≥ sinh ˜Òc d˙ liªu siêuphân gi£i tËt hÏn Th¸c t∏ qua nh˙ng nghiên c˘u liên quan cho thßy, mô hinh sinh Ëi ngh‡ch ã
§t ˜Òc mÎt sË thành công nhßt ‡nh trong viªc c£i thiªn chßt l˜Òng và Î phân gi£i cıa hình
£nh trong các ˘ng dˆng th¸c t∏
3.2.1 CinCGAN [8]
Figure 3.10: Ki∏n trúc mô hình CinCGAN [8]
Trong bài báo này, nhóm tác gi£ trình bày mÎt ph˜Ïng pháp hÂc không giám sát ∫ th¸chiªn tác vˆ siêu phân gi£i b¨ng mô hình sinh Ëi ngh‡ch Cycle-in-Cycle (CinCGan) D¸a vàocác vßn ∑ th˜Ìng g∞p trong th¸c t∏ ó chính là viªc không tÁn t§i ˜Òc c∞p £nh có Î phângi£i thßp và Î phân gi£i cao trong th¸c t∏, tác giá ã lßy c£m h˘ng t¯ tác vˆ d‡ch £nh sang £nh(image-to-image translation) ∫ gi£i quy∏t bài toán siêu phân gi£i
Nhóm tác gi£ ∑ xußt mÎt cßu cßu trúc m§ng Cycle-in-Cycle GAN ∫ gi£i quy∏t bài toánsiêu phân gi£i £nh gÁm mÎt sË b˜Óc ˜Òc trình bày nh˜ sau ¶u tiên, £nh ¶u vào s≥ ˜Òc kh˚nhiπu và kh˚ mÌ sang mÎt £nh có cùng kích th˜Óc Sau ó, £nh ã ˜Òc kh˚ nhiπu và mÌ s≥
˜Òc siêu phân gi£i lên £nh có Î phân gi£i cao hÏn CuËi cùng, nhóm tác gi£ th¸c hiªn hußnluyªn hai mô hình trên trong ng˙ c£nh hußn luyªn toàn diªn (end-to-end) ∫ có th∫ tái t§o l§i
˜Òc £nh siêu phân gi£i Các th¸c nghiªm trên các t™p d˙ liªu ã ch˘ng minh r¨ng ph˜Ïng phápnày mang l§i k∏t qu£ siêu phân gi£i chßt l˜Òng cao và v˜Òt trÎi so vÓi các ph˜Ïng pháp khônggiám sát khác
Trang 33Figure 3.11: Minh ho§ mô hình suy thoái ∑ xußt cıa BSRGAN [9].
3.2.2 BSRGAN [9]
Trong bài báo này, nhóm tác gi£ ã chø ra ˜Òc vßn ∑ cıa hiêu sußt các mô hình siêu phângi£i £nh s≥ b‡ £nh h˜ng bi các mô hình suy thoái hay suy gi£m £nh khi các quá trình suy thoáinày không gi£ ‡nh ˜Òc các tr˜Ìng hÂp suy thoái £nh trong th¸c t∏ M∞c dù ã có mÎt sË môhình suy gi£m ˜Òc áp dˆng trong các nghiên c˘u tr˜Óc ó nh˜ bÍ sung y∏u tË mÌ, nh˜ngth¸c t∏ vßn ch˜a mang tính hiªu qu£ ∫ ˜Óc l˜Òng ˜Òc các s¸ suy thoái cıa hình £nh trong th¸ct∏
∫ gi£i quy∏t vßn ∑ này, bài báo ã ∑ xußt mÎt thi∏t k∏ mô hình suy gi£m ph˘c t§p hÏn,th¸c t∏ hÏn bao gÁm các phép suy gi£m ng®y nhiên cıa mÌ, lßy m®u xuËng và các phép suygi£m liên quan ∏n nhiπu tín hiªu Cˆ th∫ hÏn, suy thoái mÌ ˜Òc xßp xø b¨ng hai phép tích ch™p
có nhân Gaussian Øng h˜Óng và bßt Øng h˜Óng, suy thoái gi£m chi∑u d˙ liªu ˜Òc chÂn mÎtcách ng®u nhiên t¯ mÎt sË ph∏p nÎi suy thông dˆng nh˜ hàng xóm li∑n k∑, tuy∏n tính hai chi∑uho∞c khËi hai chi∑u, suy thoái liên quan ∏n nhiπu tín hiªu ˜Òc gi£ l™p b¨ng cách thêm mÎt sËnhiπu có nhân Gausain vÓi nhi∑u m˘c Î khác nhau, th¸c hiªn viªc nén £nh JPEG nhi∑u m˘c
Î khác nhau ho∞c sinh ra mÎt sË lo§i nhiπu gi£ l™p liên quan ∏n c£m bi∏n
∫ xác minh tính hiªu qu£ cıa mô hình suy gi£m mÓi, nhóm tác gi£ ã hußn luyªn mÎt môhình siêu phân gi£i ESRGAN [30] Ëi vÓi tác vˆ c£ siêu phân gi£i £nh th¸c và siêu phân gi£i
£nh tÍng hÒp K∏t qu£ cho thßy viªc s˚ dˆng mô hình suy thoái có th∫ giúp t´ng hiªu sußt cıa
mô hình mÎt cách rõ rêt, t¯ ó ch˘ng minh ˜Òc s¸ hiªu qu£ cıa ph˜Ïng pháp này
3.3 Các ph˜Ïng pháp s˚ dˆng mô hình tán x§
Mô hình tán x§ (diffusion model) là mÎt ph˜Ïng pháp trong lænh v¸c x˚ l˛ £nh và x˚ l˛ tínhiªu dùng ∫ mô ph‰ng quá trình lan t‰a ho∞c tán x§ cıa thông tin trong không gian Quá trìnhtán x§ diπn ra thông qua viªc truy∑n d¶n d¶n thông tin t¯ các vùng g¶n nhau tÓi các vùng xahÏn Mô hình tán x§ th˜Ìng s˚ dˆng các ph˜Ïng trình vi phân ho∞c ph˜Ïng trình sai phân ∫
mô ph‰ng quá trình này
Trong ng˙ c£nh cıa siêu phân gi£i £nh, mô hình tán x§ có th∫ ˜Òc s˚ dˆng ∫ tái t§o £nhcao Î phân gi£i t¯ £nh thßp Î phân gi£i Thay vì t§o ra £nh cao Î phân gi£i t¯ các c∞p £nhthßp Î phân gi£i và cao Î phân gi£i cˆ th∫, mô hình tán x§ s˚ dˆng quá trình lan t‰a thông tint¯ £nh thßp Î phân gi£i ban ¶u ∫ t§o ra £nh cao Î phân gi£i liên tˆc và m˜Òt mà
Mô hình tán x§ có th∫ áp dˆng các ph˜Ïng trình vi phân ho∞c ph˜Ïng trình sai phân ∫ ˜Óc