1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Phát sinh ảnh độ phân giải cao sử dụng mạng đối sinh

80 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát sinh ảnh độ phân giải cao sử dụng mạng đối sinh
Tác giả Lê Nhất Minh, Trần Việt Hùng
Người hướng dẫn TS. Mai Tiến Dũng
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 80
Dung lượng 57,66 MB

Cấu trúc

  • 1.3. Đối tượng, phạm vi nghiên cứu.........................-- 2-5: 22©+s+E+Et2EktSEkESEEEEEEEtEEkrErkerkkrrkrrrrkrerkree 9 1. Đối tượng nghiên cứu..........................-...--- 2-2 ©+t++++ExEtExxtEExtSEEEEEEEEEEEEEELEEErkrerkrrrrrrrrrree 9 2. Phạm vi nghiên CỨU........................... -- -- -- (SG 11x 911919 1 TH TH HH TH nh TH 9 1.4. Phương pháp nghiên CỨU..............................- - -Ă - + S31 91 vn nh HH Hà TH HT nh ch Hà HH nrkt 10 1.5. Ý nghĩa khoa học và thực tiễn đề tài............................--- 22-55 2x2rkSEkeEEEErrerrerkrerrrerrrree 11 1.6. BO Cue 00. naỘậủoDOODỆỪ..Ä4Ầ (23)
  • CHƯƠNG 2: CƠ SỞ LÝ THUYET oo... ceccccccsesseesesssesssssneeeeeeeesssnnnmtecesesssnnnteeeeeesssnnneseeeessessiens 13 QD. ¡(nh ..... .... . 4đ|gđg3Ả dd (0)
    • 2.1.1. Phát sinh ảnh độ phân giải €a0 .............................. - --- (SH ng HH ri, 13 2.1.2. Kỹ thuật Học sâu.................................- --- --- 2+ S1 vn HH TH TH TT HT Hàn HT TH Hành 15 2.1.3. Ung dụng của Học sâu trong SISR.............................---2-22©2++2+xecrxrsrxrerkeerrrerrrrrrrrre 16 2.2. Các phương pháp có liên quaI................................ - - Á- G0 1 1211211211 1 1 vn HT ng Hàn nh 17 2.2.1. Phương pháp không sử dụng học sâu................................-- -- + 55 5S Street 17 2.2.2. Phương pháp sử dụng học sâu.......................... .---- - 6 + nh nirkg 18 2.3. c0: 8n nh... ...........:31Ä1ÄọÄÃ|Ã|)ẰẬặẬậH.)) (27)
    • 3.2.1. Bộ phát sinh ................................. ----- - 5 St SH HH TH TH HH TH HT HT HT HH rkt 27 (41)

Nội dung

Phát sinh ảnh có độ phân giải cao từ ảnh đầu vào có độ phân giải thấpƯớc lượng và đánh giá chất lượng hình ảnh độ phân giải cao từ ảnh đầu vào có độphân giải thấp So sánh hiệu năng của p

CƠ SỞ LÝ THUYET oo ceccccccsesseesesssesssssneeeeeeeesssnnnmtecesesssnnnteeeeeesssnnneseeeessessiens 13 QD ¡(nh 4đ|gđg3Ả dd

Phát sinh ảnh độ phân giải €a0 - - (SH ng HH ri, 13 2.1.2 Kỹ thuật Học sâu .- - - 2+ S1 vn HH TH TH TT HT Hàn HT TH Hành 15 2.1.3 Ung dụng của Học sâu trong SISR -2-22©2++2+xecrxrsrxrerkeerrrerrrrrrrrre 16 2.2 Các phương pháp có liên quaI - - Á- G0 1 1211211211 1 1 vn HT ng Hàn nh 17 2.2.1 Phương pháp không sử dụng học sâu + 55 5S Street 17 2.2.2 Phương pháp sử dụng học sâu - 6 + nh nirkg 18 2.3 c0: 8n nh :31Ä1ÄọÄÃ|Ã|)ẰẬặẬậH.))

Phát sinh ảnh độ phân giải cao [1] đề cập đến việc tái tạo lại những hình ảnh có độ phân giải cao từ một khung cảnh có độ phân giải thấp, đồng thời cũng là sự đánh giá ước lượng hình ảnh có độ phân giải cao (HR — High Resolution) từ hình ảnh ban sao có độ phân giải thấp (LR — Low Resolution) Dựa vào số lượng hình anh đầu vào có chất lượng thấp, bài toán SR có thé được phân loại thành Single Image Super

Resolution (SISR) va Multi Image Super Resolution (MISR) Khi so được với MISR,

Hình 2.1 Minh hoạ ảnh độ phân giải thấp (trái) và ảnh độ phân giải cao (phải).

Như hình minh hoạ trên ta có thể thấy được chất lượng hình ảnh được cải thiện đáng kề, tận dung cơ hội này nó đã được ứng dụng rộng rãi với những lĩnh vực cụ thê bao gồm giám sát an ninh [2] và ảnh y khoa [3], [4] Trong lĩnh vực giám sát an ninh, SISR có thể hỗ trợ chúng ta có được hình ảnh rõ ràng, sắc nét, giúp các ứng dụng có được nhiều thông tin chỉ tiết quan trọng hơn Không những thế trong lĩnh vực ảnh y khoa, việc tái tạo ảnh có độ phân giải cao có thé được dùng dé trích xuất nhiều thông

13 tin hơn khi mà chúng đã bị ân trong những hình ảnh có độ phân giải thấp Ngoài ra Super Resolution có thể cải thiện những tác vụ khác trong lĩnh vực thị giác máy tính như nhận dạng vật thé (Object Detection) [5].

Trong đời sống hằng ngày, ta đang được trải ngiệm hình ảnh trên nhiều độ phân giải khác nhau từ FullHD (1920 x 1080 pixels) cho đến 4K, 8K vì thé việc tạo ra những hình ảnh có độ phân giải cao để phục vụ cho nhiều mục đích hién thị khác nhau là rất cần thiết nhất là trong những trường hợp không có sẵn những hình ảnh có độ phân giải cao Trong bài toán SISR, mục tiêu chính là phục hồi, tái tạo lại và ước lượng chất lượng những hình ảnh có độ phân giải cao từ những hình ảnh đầu vào có độ phân giải thấp Một cách tông quan, ảnh có độ phân giải thấp được tạo ra bằng cách áp dụng bộ lọc Gaussian lên ảnh có độ phân giải cao sau đó lay thông tin ngữ nghĩa cùng hệ số đi kèm được minh họa như hình 2.2 bên dưới:

Lấy thông tin ngữ nghĩa _ và làm mờ D

Quá trình tái tạo ảnh có độ phân giải cao từ ảnh có độ phân giải thấp

Hình 2.2 Mô phỏng tổng quan SISR.

Cu thé hơn, một ảnh độ phân giải thấp I„ được mô hình hoá dựa trên biểu thức

Trong đú D ký hiệu cho ham ỏnh xạ suy giảm, ẽ„, tương ứng với hỡnh anh độ phân giải cao, ổ được xem là những tham số trong quá trình suy giảm chất lượng hình

14 ảnh bao gồm yếu tố tỷ lệ hoặc yếu tố làm nhiễu thông tin; J, ® k đại diện cho việc tính toán nhân tích chập giữa nhân làm mờ k và anh độ phân giải cao I, cho trước, J, là toán tử giảm thiểu không gian hình ảnh với yếu tố tỷ lệ s và n được xem là yếu tố làm nhiễu thông tin độc lập.

Với phương pháp MISR, việc tạo ra một bức ảnh độ phân giải cao thường được thực hiện thông qua kết hợp thông tin của rất nhiều ảnh độ phân giải thấp Nhược điểm của phương pháp này là cần rất nhiều hình ảnh có độ phân giải thấp và từng ảnh phải được căn chỉnh và đối tượng phải đứng yên hạn chế chuyên động trong thời gian chụp Ngoài ra, tốc độ xử lý cũng không được cao Trong khi đó SISR được sử dụng rộng rãi phô biến hơn do nếu chi dùng một hình ảnh có độ phân giải thấp thì có thé tránh được việc căn chỉnh các chi tiết cần thận Nhưng ngược lại, chat lượng kết qua ảnh dau ra khó được đảm bao vì có rat nhiêu thông tin ảnh ở dau vào.

Kỹ thuật học sâu là một nhánh trong thuật toán Máy học (ML - Machine

Learning) được dựa trên việc hoc trực tiếp các biểu diễn dữ liệu đa dạng hơn [6] Trái ngược với các thuật toán học các tác vụ cụ thê truyền thong khi chon cac tinh nang thủ công hữu ích với miền tri thức chuyên sâu, các thuật toán học sâu hướng đến việc học cách phân cấp các thông tin một cách tự động và tận dụng chúng dé dat dén muc đích cuối cùng khi mà toàn bộ quá trình hoc có thé được xem là liền mạch nối tiếp nhau một cách liên tục.

Do khả năng xp xi cao và thuộc tính phân cấp của mạng nơ-ron nhân tao (ANN - Artificial Neural Network), hầu hết các mô hình học sâu hiện đại đều được thiết kế dựa trên mô hình ANNs [7] Các mô hình ANNs có thể được truy xuất trở lại thuật toán perceptron trong những năm 1960 Tiếp đó, vào những năm 1980, mô hình multilayer perceptron có thé duoc huấn luyện với thuật toán lan truyền ngược [8], mạng nơ-ron tích chập (CNN — Convolutional Neural Network) [9] và mạng nơ-ron hồi quy (RNN — Recurrent Neural Network) [11] — hai đại diện cho mô hình ANN

15 truyền thống được giới thiệu đến lĩnh vực thị giác máy tính và xử lý ngôn ngữ tự nhiên.

Mặc dù đã có những tiễn bộ đáng kế đạt được bởi ANNs, tuy nhiên vẫn còn một vài khuyết điểm dẫn đến việc không thể tự phát triển xa hơn Sau đó, sự tái sinh của mô hình ANN hiện đại được đánh dau băng việc huấn luyện sẵn mạng nơ-rơn sâu (DNN - Deep Neural Network) Do đó, lợi ích từ sự bùng no của sức mạnh tính toán và sự phát triển các thuật toán cao cấp hơn, các mô hình dựa trên DNN đã đạt được hiệu suất đáng kế trong các tác vụ giám sát khát nhau [11] Trong khi đó, các thuật toán DNNs không giám sát có thé kề đến như Deep Boltzmann Machine (DBM) [12],

Variational Auto Encoder (VAE) [13] và Genarative Adversarial Network (GAN)

[14] đã thu hút được sự chú ý do tiềm năng trong việc giải quyết những dữ liệu không gán nhãn đầy thách thức.

2.1.3 Ứng dụng của Học sâu trong SISR

Trong bài toán SISR, dữ liệu đầu vào là ảnh độ phân giải thấp, đầu ra là ảnh độ phân giải cao được tái tạo lại và sẽ được so sánh với anh gốc dé kiểm chứng chất lượng hình ảnh.

Câu hỏi được đặt ra là tại sao nên sử dụng kỹ thuật Học sâu cho lĩnh vực SR trong đó phải kế đến bài toán SISR Có rất nhiều cách đa dang dé có thé tăng chat lượng hình ảnh, một trong những kỹ thuật được sử dụng rộng rãi nhất là các thuật toán nội suy, chúng dễ thao tác nhưng sẽ dẫn đến việc hình ảnh bị méo mó hoặc làm giảm chất lượng hình ảnh Hầu hết các phương pháp nội suy đều tạo ra những hình anh mờ như phương pháp Bicubic Interpolation [15] Từ việc sử dụng dụng ảnh độ phân giải cao làm mục tiêu dé tái tạo ảnh đầu ra từ anh đầu vào độ phân giải thấp có thé xem như là những phương pháp học có giám sát có thé khai thác những điểm tương đồng bên trong một bức anh hoặc sử dụng bộ huấn luyện của những hình ảnh

16 chất lượng thấp và hình ảnh chat lượng cao tương ứng dé học hiệu quả cách ảnh xạ giữa chúng.!

Kỹ thuật học sâu cung cấp các giải pháp tốt hơn đề có thể tối ưu hoá hình ảnh. Những năm gần đây, một vài phương pháp đã đươc đề xuất cho lĩnh vực SISR Khi áp dụng các giải pháp học sâu, những hình anh LR một cách tông quát sẽ được lay thông tin ngữ nghĩa, giảm kích thước không gian và được làm mờ dé giảm chat lượng hình ảnh.

2.2 Các phương pháp có liên quan

2.2.1 Phương pháp không sử dụng học sâu e Các thuật toán nội suy (Interpolation)

Tại đây ảnh LR thay đổi kích thước bởi các yếu tố 2x, 4x hoặc 8x băng việc sử dụng các phương pháp nội suy như Nearest Neighbor, Bilinear hoặc

Bicubic Thuật toán nội suy hoặc động dựa trên việc sử dụng đữ liệu đã biết trước dé ước lượng giá tri ở các điểm dữ liệu chưa xác được Nội suy hình ảnh cô gắng đạt đến mức độ xấp xi tốt nhất của cường độ điểm ảnh dựa trên các giá trị các diém ảnh xung quanh.

† An Introduction to Super-Resolution using Deep Learning - BeyondMinds

Interpolation nearest neighbour bilinear bicubic

Hình 2.3 Mô phỏng hiệu ứng các thuật toán nội suy Nguồn: PyData!

Thông qua bước biến đôi này, hình ảnh đầu ra được làm mờ và trở nên không thực tế với các hiệu ứng khác nhau Đây có thể xem là một ý tưởng không tệ, tuy nhiên chất lượng ảnh đầu ra thường không cao vì giải pháp này mới chỉ dừng lại ở các kỹ thuật cơ bản.

2.2.2 Phương pháp sử dụng học sâu e Super Resolution Convolution Neural Netwok

Với sự thành công của mang no-ron tích chập day đủ (FCNN — Fully

Bộ phát sinh - - 5 St SH HH TH TH HH TH HT HT HT HH rkt 27

Mang sinh (Generator) dùng dé sinh ra dữ liệu mới, tức là sinh ra các dữ liệu giống với đữ liệu giống trong bộ dữ liệu huấn luyện tuỳ theo yêu cầu bài toán Đầu vào của mạng sinh sẽ là một vài tham số ngẫu nhiên z € R# (dữ liệu nhiễu) từ một nguồn chang hạn như phân phối chuẩn z ~ N(0,1).

Tại sao đầu vào là dir liệu nhiễu? Dé dễ hình dung thì nhóm nghiên cứu đưa ra ví dụ khi áp dụng vào bài toán bài toán phân loại chữ viết tay với bộ đữ liệu MNIST [21] Trong bài toán này các chữ số khi viết ra đều hoàn toàn giống nhau, ví dụ ở số

9 dù có rất nhiều biến dạng nhưng về bản chất đó vẫn là số 9 Vì thế đầu vào của mạng sinh là dữ liệu nhiễu dé khi ta thay đôi giá trị nhiễu một cách ngẫu nhiễn thì mạng sinh sẽ sinh ra một biên dạng khác của chữ sô đó. ô00000OD0O0ô000

-ễ tN OMS tự b— 4 mS ey TNO 1ử ơ C -o 0ỉ — 6U -cv)02—Câtễ sụ ơÍ 6 ơA -C x2 9đ —O -^ 8 4/ mỚŒ CWO D

# &ơji GđẰđ#ịy-c #MW AYU =(mn-f t2 3yQmIEWLWwYD -O œ4 *ằớ G Chỡ PP 2 Yà `ằ og GUY WW wv “eo 9X SUI EW LO ws ofS) SV UDC s9) "Nụ w-t 6 vy Cà 33

Hình 3.3 Bộ dữ liệu MNIST.

Mục tiêu của mạng sinh là học để đánh lừa mạng phân biệt khiến mạng phân biệt nghĩ rằng đầu ra từ mang sinh G(z) là dữ liệu thật (dữ liệu được sinh ra từ mạng sinh) đồng nghĩa với việc ta cho dit liệu G(z) qua mạng phân biệt D và muốn giá trị D(G (2)) — 1 Đề cho ra được kết quả tối ưu nhất, hàm mất mát của mạng sinh cần phải tối đa hoá D(G(z)) tương đương với giảm thiểu tối đa (1 — D(G(z)))

Mạng phân biệt (Discriminator) là là mạng phân loại nhị phân giống với thuật toán hồi quy Logistic dùng dé phân biệt xem dữ liệu đầu x vào là thật (dữ liệu từ bộ dữ liệu) hoặc giả (dữ liệu được sinh ra từ mạng sinh) Đề dễ hình dung, chúng ta có thé ứng dụng vào trong bài toán phân loại chữ viết tay với bộ dit liệu MNIST Trong bài toán này, mạng phân biệt có thể phân loại chữ số từ bộ dữ liệu MNIST và dữ liệu được sinh ra từ mạng sinh.

Thông thường, dau ra của mạng phân biệt là một số vô hướng O € R dự đoán cho đâu vào x, chăng hạn như sử dụng một mô hình kêt nôi đây đủ với kích thường

1+e~0 ấn 1 sau đó được đưa qua ham sigmoid dé nhận được xác suất dự đoán D(x) , do giá trị output của mô hình qua hàm sigmoid nên sẽ nằm trong khoảng giá trị (0,1) cụ thê hơn thì nhãn đầu ra y cho dữ liệu that là 1 và 0 cho dữ liệu giả nên mang phân biệt sẽ được huấn luyện để đủ biết rằng nếu đầu vào từ bộ dữ liệu thì đầu ra sẽ tiến đến gan giá trị 1, còn đầu vào được sinh ra từ mạng sinh thì đầu ra sẽ tiến về gần giá trị 0, hoặc D(x) > 1 va D(G(z)) > 0.

Vì là bài toán phân loại nhị phân nên hàm mắt mát sẽ dùng giống với độ lỗi cross-entropy nhị phân nên sẽ huấn luyện mạng phận biệt dé cực tiêu hoá mat mát entropy chéo nghĩa là: minp = —y log(D(x)) — (1—y).log (1 — D(x)) (3.2)

Nói cách khác thì ham mat mát của mạng phân biệt muốn tối da hoá giá tri D(x) và giảm thiểu tối đa giá trị D(G(z)), việc giảm thiểu tối đa D(G(z)) sẽ tương đương với tối đa hoá (1-D(G(z))).

Vì vậy hàm mất mát sẽ được viết lại thành: maxV(D) = E¿.p„„,„œ)[log DŒ)] + Ez.p„¿›[log(1— D(ŒŒ)))] (33)

3.2.3 Độ lỗi mạng đối sinh

Từ hàm mắt mát của cả hai thành phần con là mạng sinh và mạng phân biệt ta có thê gộp lại thành hàm mất mát toàn diện cho mô hình mạng đối sinh: mingmaxpV(D,6G) = Ey.p„„„„œ)[log DŒ9)] + Exp, [log (1 — D(G(z)))] (3.4)

Từ ham mat mát của mạng đối sinh ta có thé nhận xét rằng quá trình huấn luyện của mạng sinh và mạng phân biệt hoàn toàn đối nghịch nhau trong khi mạng sinh cố gang giảm thiểu tối đa độ lỗi thì mạng phân biệt cố gắng tối đa hoá độ lỗi. Quá trình huấn luyện mạng đối sinh kết thúc khi mô hình mạng đối sinh đạt đến trạng thái cân bằng của 2 thành phần con, gọi là Nash Equilibrium.

3.3 Mô hình cho bài toán tái tạo ảnh độ phân giải cao

Super Resolution Generative Adverasial Network (SRGAN) [23] là mô hình mạng đối sinh áp dụng cho bài toán tái tạo anh có độ phân giải cao giúp hình anh trở nên hap dẫn chân thật hơn với góc nhìn của con người Nói cách khác, SRGAN áp dụng mạng sâu kết hợp với mạng đối sinh để sản sinh ra những hình ảnh có chất lượng cao hơn.

Giống như các kiến trúc Mạng đối sinh khác, mạng đối sinh cho lĩnh vực Super Resolution là SRGAN cũng có hai thành phan chính đó là mạng sinh và mạng phân

29 biệt khi mạng sinh khởi tạo dữ liệu được dự vào phân phối xác suất và mạng phân biệt có gang phân biệt dữ liệu đầu vào từ dự liệu trong bộ dữ liệu hoặc được sinh ra từ mạng sinh Mạng sinh sẽ có gắng tối ưu quá trình phát sinh dit liệu dé có thé lừa được mạng phân biệt một cách hiệu quả. Ảnh độ phân giải thấp — ÍMaganh] + Ảnh được tái tạo

(LR} [ Mạng sinh ] (sR) Ảnh độ phân giải cao Ảnh Độ lỗi

(HR) Mạng phân biệt SR hoặc HR mạng đối sinh

Trong bài toán này, dữ liệu thật sẽ là ảnh HR và dữ liệu nhiễu đầu vào cho mạng sinh sẽ là ảnh LR Ta sẽ để mạng sinh học cách làm thế nào để phát sinh được ảnh siêu phân giải được tái tạo lại (chuyên đổi từ ảnh LR sang ảnh HR) thông qua quy trình huấn luyện của mạng đối sinh Thông qua việc tối ưu độ lỗi và cải thiện chất lượng nội dung hình ảnh, ảnh được phát sinh (ảnh HR gia) cuối cùng sẽ hội tụ để đạt chất lượng như ảnh độ phân giải cao ban đầu. e Mang sinh

Ngày đăng: 02/10/2024, 04:27

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN