(LUẬN văn THẠC sĩ) nghiên cứu mô hình generative adversarial networks và ứng dụng trong chuyển đổi ảnh

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC QUY NHƠN NGUYỄN DUY NAM ANH NGHIÊN CỨU MƠ HÌNH GENERATIVE ADVERSARIAL NETWORKS VÀ ỨNG DỤNG TRONG CHUYỂN ĐỔI ẢNH Chuyên ngành : Khoa học máy tính Mã số : 8.48.01.01 Ngƣời hƣớng dẫn: TS LÊ XUÂN VINH download by : skknchat@gmail.com LỜI CAM ĐOAN Tôi xin cam đoan: Luận văn thạc sỹ chuyên ngành Khoa học máy tính, tên đề tài “Nghiên cứu mơ hình Generative adversarial networks ứng dụng chuyển đổi ảnh” cơng trình nghiên cứu, tìm hiểu trình bày tơi thực hướng dẫn khoa học TS Lê Xuân Vinh, Trường Đại học Quy Nhơn Kết tìm hiểu, nghiên cứu luận văn hồn tồn trung thực, khơng vi phạm điều luật sở hữu trí tuệ pháp luật Việt Nam Nếu sai, tơi hoàn toàn chịu trách nhiệm trước pháp luật Tất tài liệu, báo, khóa luận, cơng trình nghiên cứu tác giả khác sử dụng lại luận văn dẫn tường minh tác giả có danh mục tài liệu tham khảo Bình Định, ngày 15 tháng năm 2021 Tác giả luận văn Nguyễn Duy Nam Anh download by : skknchat@gmail.com LỜI CẢM ƠN Trước tiên, xin gửi lời biết ơn sâu sắc đến người thầy TS Lê Xuân Vinh dành nhiều thời gian tâm huyết hướng dẫn thực luận văn tốt nghiệp Sự tận tình hướng dẫn thầy nguồn động viên lớn suốt thời gian tìm hiểu, nghiên cứu hồn thành luận văn Xin cảm ơn quý thầy, cô giáo khoa Công nghệ thông tin, trường Đại học Quy Nhơn nơi theo học hồn thành chương trình cao học nhiệt tình giảng dạy giúp đỡ Và cuối xin cảm ơn gia đình, bạn bè, đồng nghiệp động viên, ủng hộ suốt thời gian học tập, nghiên cứu hoàn thành luận văn Xin chân thành cảm ơn Bình Định, ngày 15 tháng năm 2021 Tác giả luận văn Nguyễn Duy Nam Anh download by : skknchat@gmail.com MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT v DANH MỤC HÌNH VẼ vi MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ HỌC MÁY 1.1 Giới thiệu 1.1.1 Khái niệm .5 1.1.2 Ứng dụng học máy 1.1.3 Phân loại phương pháp học máy 1.1.4 Các bước toán học máy 1.2 Mạng Neural 10 1.2.1 Mơ hình nơron nhân tạo .10 1.2.2 Mơ hình mạng nơron nhân tạo 11 1.2.3 Quy tắc delta 12 1.2.4 Thuật toán lan truyền ngược 14 1.3 Deep Learning 20 1.3.1 Khái niệm 20 1.3.2 Cấu trúc mạng CNN 21 1.4 Kết luận chương .25 CHƢƠNG 2: MÔ HÌNH GENERATIVE ADVERSARIAL NETWORKS (GAN) 26 2.1 Giới thiệu chung 26 2.2 Kiến trúc GAN 27 download by : skknchat@gmail.com 2.2.1 Generator 29 2.2.2 Discriminator .30 2.3 Hàm tối ưu 30 2.4 Quá trình huấn luyện 32 2.5 Mơ hình Pix2Pix ứng dụng toán chuyển đổi ảnh 33 2.5.1 Mơ hình Pix2pix 33 2.5.2 Kiến trúc pix2pix 34 2.5.3 Hàm tối ưu 39 2.6 Kết luận chương .41 CHƢƠNG 3: ỨNG DỤNG GAN TRONG BÀI TOÁN CHUYỂN ĐỔI ẢNH 42 3.1 Giới thiệu phân tích tốn 42 3.2 Xây dựng chương trình thử nghiệm 43 3.3 Kiểm tra đánh giá kết .54 3.4 Kết luận chương .57 KẾT LUẬN 58 DANH MỤC TÀI LIỆU THAM KHẢO 59 download by : skknchat@gmail.com DANH MỤC CÁC TỪ VIẾT TẮT Chữ viết tắt Nguyên mẫu Diễn giải Artificial Intelligence Trí tuệ nhân tạo ANN Artificial Neural Network Mạng nơ-ron nhân tạo CNN Convolutional Neural Network Mạng nơ-ron tích chập GAN Generative Adversarial Networks Mạng sinh đối nghịch Machine Learning Học máy AI ML download by : skknchat@gmail.com DANH MỤC HÌNH VẼ Hình 1.1: Sơ đồ kiến trúc mạng CNN 21 Hình 1.2: Ví dụ lọc tích chập sử dụng ma trận điểm ảnh 22 Hình 1.3: Trường hợp thêm/khơng thêm viền trắng vào ảnh tích chập 23 Hình 1.4: Phương thức Avarage Pooling Max Pooling 24 Hình 2.1: Sơ đồ kiến trúc mạng GAN 27 Hình 2.2: Mơ tả chức Generator Descriminator 28 Hình 2.3: Sơ đồ kiến trúc generator 29 Hình 2.4: Sơ đồ kiến trúc Discriminator 30 Hình 2.5: Ví dụ mơ hình pix2pix tốn chuyển từ ảnh vẽ (draft) sang ảnh màu đầy đủ giày 33 Hình 2.6: Kiến trúc down sampling upsampling 34 Hình 2.7: Generator pix2pix 35 Hình 2.8: Mơ hình generator pix2pix 36 Hình 2.9: Mơ hình discriminator pix2pix 36 Hình 2.10: Giả sử hình ảnh chia thành k×k patches 38 Hình 2.11: Sơ đồ tổng quát kiến trúc lớp CNN áp dụng patch 70x70 PatchGAN 39 Hình 3.1: Hình ảnh mẫu từ tập liệu 43 Hình 3.2: Hình ảnh dịch từ ảnh phác thảo sang thật Pix2Pix sau 50 epochs 52 Hình 3.3: Hình ảnh dịch từ ảnh phác thảo sang thật Pix2Pix tập huấn luyện 54 Hình 3.4: Hình ảnh dịch từ ảnh phác thảo sang ảnh hoàn chỉnh 54 Hình 3.5: Biểu đồ tổn thất phân biệt (disc_loss) 55 Hình 3.6: Biểu đồ tổn thất tạo với hình ảnh nguồn ( gen_gan_loss) 56 Hình 3.7: Biểu đồ tổn thất tạo với hình ảnh tạo (gen_l1_loss) 56 Hình 3.8: Biểu đồ tổng tổn thất tạo phân biệt (gen_total_loss) 56 download by : skknchat@gmail.com MỞ ĐẦU Lý chọn đề tài Ngày nay, trí tuệ nhân tạo (AI) ứng dụng ngày nhiều lĩnh vực khác nhau, từ việc phục vụ đời sống hàng ngày người giáo dục, tài ngân hàng, y tế… Ứng dụng thực tế trí tuệ nhân tạo giúp nâng cao hiệu suất lao động, cải thiện chất lượng sống người, đem đến hội tăng trưởng kinh tế, phát triển kinh doanh cho doanh nghiệp Và tảng nhiều ứng dụng dịch vụ tương lai Machine Learning (Học máy) tập AI Machine learning giúp máy tính có khả tự học hỏi dựa liệu đưa vào mà khơng phải lập trình cách rõ ràng Những năm gần đây, mà khả tính tốn máy tính ngày nâng cao lượng liệu khổng lồ thu thập cách dễ dàng, Machine Learning ngày phát triển lĩnh vực đời gọi Deep Learning (Học sâu) Deep Learning giúp máy tính thực thi việc tưởng chừng vào 10 năm trước: phân loại ngàn vật thể khác ảnh, tự tạo thích cho ảnh, bắt chước giọng nói chữ viết người, giao tiếp với người, hay chí sáng tác văn thơ hay âm nhạc, Để giải số toán đặt ra, xuất mơ hình Generative Adversarial Networks (GAN) cung cấp số phương pháp mơ hình giải nhiều toán lĩnh vực học sâu GAN giúp chuyển đổi tự động ảnh đen trắng thành ảnh màu hay từ vẽ thơ sơ thành vẽ hồn chỉnh, GAN sử dụng rộng rãi có nhiều ứng dụng thực tế minh họa cho việc máy tính có download by : skknchat@gmail.com thể thay người cơng việc mang tính sáng tạo tự động vẽ tranh, vẽ phim hoạt hình, sáng tác nhạc, Những ứng dụng hấp dẫn kỹ thuật thúc chọn “Nghiên cứu mơ hình Generative Adversarial Networks ứng dụng chuyển đổi ảnh” làm đề tài luận văn thạc sĩ khoa học máy tính Tổng quan tình hình nghiên cứu đề tài GAN giới thiệu lần Ian Goodfellow đồng nghiệp qua báo cáo khoa học vào năm 2014 [2] Vào thời kì đầu, người tập trung vào chức phát sinh liệu GAN Sau đó, tiềm GAN khai thác nhiều nhờ mà GAN sử dụng nhiều lĩnh vực khác Một số kết nghiên cứu tiêu biểu như: Tero Karras [3] nghiên cứu phương pháp đào tạo GAN cho phép cải tạo chất lượng hình ảnh, phương pháp cho phép tạo hình ảnh khn mặt nhân tạo mà khó phân biệt với người thật ngày cải thiện chất lượng hình ảnh Grigory Antipov [4] đề xuất phương pháp để dự báo lão hóa khn mặt người dựa điều kiện tuổi tác Dựa khn mặt tại, mơ hình GAN sinh biến thể theo độ tuổi người Để hỗ trợ người thiết kế nhân vật hoạt hình, Yanghua Jin cộng [5] xây dựng mơ hình GAN giúp tạo hình ảnh khn mặt nhân vật hoạt hình cách tự động Phillip Isola [6] nghiên cứu mơ hình GAN có điều kiện giải pháp cho vấn đề dịch từ ảnh sang ảnh Cùng ảnh chụp quang cảnh, GAN tạo bối cảnh khác trời tối/trời sáng, ban ngày/ban đêm, thay đổi theo mùa,… Han Zhang [7] nghiên cứu việc tổng hợp hình ảnh chất lượng cao từ mô tả văn Trong báo này, tác giả đề xuất mơ hình StackGAN để tạo hình ảnh download by : skknchat@gmail.com thực tế 256x256 với điều kiện dựa mô tả văn Rui Huang [8] nghiên cứu việc tổng hợp góc nhìn từ khn mặt có nhiều ứng dụng lĩnh vực nhận dạng khuôn mặt Christian Ledig [9] trình bày SRGAN cho hình ảnh siêu phân giải Việc có khả tạo hình ảnh rõ nét gấp lần ban đầu Mục đích nhiệm vụ nghiên cứu - Nghiên cứu ý tưởng, cấu trúc mơ hình, thuật tốn sử dụng mơ hình GAN - Cài đặt chương trình thử nghiệm chuyển đổi ảnh phác thảo thành ảnh hoàn chỉnh Đối tƣợng phạm vi nghiên cứu 4.1 Đối tƣợng nghiên cứu: Nghiên cứu sở lý thuyết thuật toán GAN 4.2 Phạm vi nghiên cứu: Ứng dụng GAN việc chuyển đổi ảnh Phƣơng pháp nghiên cứu Phương pháp nghiên cứu đề tài lý thuyết kết hợp với thực nghiệm Quá trình tiến hành dựa việc tìm hiểu tài liệu, cài đặt thử nghiệm sau đánh giá kết thực nghiệm 6.Ý nghĩa khoa học thực tiễn - Nghiên cứu làm chủ việc xây dựng mơ hình GAN, áp dụng giải lớp toán, đặc biệt toán chuyển đổi ảnh - Thử nghiệm tập liệu mẫu giày, dép Kết sở cho nghiên cứu lý thuyết kết hợp thực nghiệm trình bày nghiên cứu khác tương lai Bố cục luận văn: Gồm chương: download by : skknchat@gmail.com 46 ảnh giày, dép phác thảo) tạo ảnh đích (ví dụ ảnh giày, dép thật) Nó thực điều cách lấy mẫu xuống mã hóa hình ảnh đầu vào xuống lớp nút cổ chai, sau lấy mẫu giải mã biểu diễn nút cổ chai thành kích thước hình ảnh đầu Kiến trúc U-Net có nghĩa kết nối bỏ qua thêm vào lớp mã hóa lớp giải mã tương ứng, tạo thành hình chữ U Để thực mơ hình trình tạo mã hóa giải mã U-Net Chúng tơi xây dựng hàm def downsample() để tạo khối lớp cho mã hóa hàm def upsample() để tạo khối lớp cho giải mã Chúng xác định: Các chức mã hóa (downsample) bao gồm:  Một lớp Conv2D  Một lớp optional BatchNorm  Tiếp theo chức kích hoạt LeakyReLU, với độ dốc ( slope) 0,2 Các chức giải mã (upsample) bao gồm:  Một lớp Conv2DTranspose  Một lớp optional BatchNorm  Một lớp optional Dropout, với drop_probability = 0,5  Tiếp theo chức kích hoạt ReLU, với độ dốc (slope )= 0,2 Trọng số lớp Convolution chức mã hóa giải mã khởi tạo từ phân phối đồng đều, với giá trị trung bình mean=0 độ lệch chuẩn standard-deviation = 0,02 khơng có độ lệch (bias) sử dụng Tiếp theo xây dựng UNET Generator, bao gồm mã hóa (downsample) giải mã (upsample) dựa kết nối bỏ qua Chúng xác định lớp đầu vào với hình dạng [256,256,3], hình dạng hình ảnh mà chúng tơi xử lý trước Chúng tiến hành xây dựng mã hóa thơng qua hàm def downsample(), sau: download by : skknchat@gmail.com 47 Các lớp mã hóa xác định danh sách lớp hình ảnh [256, 256, 3] cung cấp làm đầu vào, lấy mẫu theo hệ số lần gọi hàm khối mẫu xuống tổng cộng lần, đạt đến nút cổ chai có kích thước [1, 1, 512] Tất lớp Conv2D:  Sử dụng kernel_size= 4, với bước trượt (stride) hai  Khi đầu vào khối mẫu xuống (downsample block ) giảm nửa (theo chuỗi-chập (strided-convolution)), feature maps tăng gấp đôi, 64 tăng lên 512 nút cổ chai  Lớp Batchnorm sử dụng tất trừ khối mẫu xuống (downsample block) Chúng tiến hành xây dựng giải mã thông qua hàm def upsample(), sau: Các lớp giải mã xác định đầu có kích thước nút cổ chai [1,1,512] lấy làm đầu vào, lấy mẫu (upsampled) thêm theo hệ số khối lấy mẫu ( upsample block) Tổng cộng có lệnh gọi hàm upsample nút cổ chai lên kích thước [128,128, 128] Trong giải mã:  Chúng sử dụng lớp Conv2DTranspose, với kernel_size = khoảng cách hai (lấy mẫu thêm hai lớp)  Tiếp theo lớp BatchNorm chức kích hoạt ReLU, với lớp dropout 1-3 khối mẫu (upsample blocks)  Lớp giải mã cuối cuối nâng cấp đầu [128,128,128] từ khối mẫu (upsample block) lên thành hình ảnh có kích thước [256,256,3]  Để lấy hình ảnh (RGB) làm đầu ra, sử dụng ba lọc filters (OUTPUT_CHANNELS), với kernel_size = strides = download by : skknchat@gmail.com 48  Tanh chức kích hoạt cho lớp cuối liệu chuẩn hóa phạm vi [-1, 1] Bây chúng tơi hồn tất việc xác định cấu trúc mã hóa giải mã mình, để tiến hành đào tạo generator chúng tơi cần phải lặp lại lệnh down_stack up_stack Trong lặp qua phần tử danh sách down_stack sử dụng lệnh nối đầu phần tử danh sách qua hàm skips() Đây bước quan trọng giúp thực kết nối bỏ qua lớp mã hóa giải mã Chỉ đảo ngược thứ tự lớp đầu mã hóa ghép nối với lớp cuối giải mã ngược lại Sau đó, chúng tơi lặp lại danh sách up_stack, nén với danh sách bỏ qua (cả hai có phần tử nhau, tức 7) Khi lặp lại phần tử, kết đầu lấy mẫu nối với phần tử từ danh sách Skips Như vậy, xây dựng xong chức tạo (the generator), chúng tơi thực tính tốn tổn thất tạo phân biệt Xác định tổn thất tạo phân biệt Mơ hình phân biệt đào tạo trực tiếp hình ảnh thực tạo, mơ hình trình tạo khơng Thay vào đó, mơ hình tạo đào tạo thơng qua mơ hình phân biệt Nó cập nhật để giảm thiểu tổn thất phân biệt dự đốn cho hình ảnh tạo đánh dấu “thực ” Vì vậy, khuyến khích để tạo nhiều hình ảnh thực Bộ tạo cập nhật để giảm thiểu tổn thất L1 sai số tuyệt đối trung bình hình ảnh tạo hình ảnh đích Bộ tạo cập nhật thơng qua tổng có trọng số tổn thất đối nghịch tổn thất L1, đề xuất trọng số từ 100 đến có lợi cho tổn thất L1 Điều để khuyến khích trình tạo mạnh mẽ hướng tới download by : skknchat@gmail.com 49 việc tạo dịch hợp lý hình ảnh đầu vào, khơng hình ảnh hợp lý miền đích Các chức generator_loss đưa bốn thông số:  disc_generated_output: Dự đoán đầu từ phân biệt, cung cấp hình ảnh tạo tạo  gen_output: Hình ảnh tạo tạo  target: Hình ảnh Ground-truth cho đầu vào cung cấp cho tạo real_labels: Nhãn Ground-truth (1) Bởi chúng tơi muốn tạo tạo hình ảnh thực cách đánh lừa người phân biệt, nhãn Bộ phân biệt cập nhật theo cách độc lập, trọng số sử dụng lại mơ hình tổng hợp đánh dấu khơng thể đào tạo Mơ hình tổng hợp cập nhật với hai mục tiêu, mục tiêu hình ảnh tạo thực (mất mát chéo), buộc cập nhật trọng lượng lớn trình tạo để tạo hình ảnh thực dịch thực thực thi hình ảnh, so sánh với đầu mơ hình tạo (tổn thất L1) Sự mát phân biệt trung bình real_loss generated_loss Tổn thất Binary Cross-Entropy sử dụng  real_loss tính tốn dự đốn thực (khi hình ảnh thực cung cấp cho phân biệt) real_labels =  fake_loss tổn thất tính tốn dự đốn giả (khi hình ảnh tạo tạo cung cấp cho phân biệt) fake_labels = Sau hồn thành việc xây dựng tính tổn thất tạo phân biệt, chúng tơi cung cấp hình ảnh phác thảo nguồn làm đầu vào cho mơ hình sử dụng để dự đốn hình ảnh giày, dép thật Sau đó, vẽ số hình ảnh trình đào tạo download by : skknchat@gmail.com 50 Tạo hình ảnh: Để thực tạo hình ảnh tiến hành bước: Đầu tiên, truyền hình ảnh từ thử nghiệm sang tạo Sau tạo dịch hình ảnh đầu vào thành đầu Cuối cùng, chúng tơi vẽ biểu đồ nguồn, hình ảnh tạo hình ảnh mục tiêu mong đợi thông qua hàm def generate_images() #def generate_images(model, test_input, tar): Chức gọi với hình ảnh nguồn, hình ảnh tạo hình ảnh mục tiêu Khi chạy kết chọn hình ảnh ngẫu nhiên từ tập liệu đào tạo, dịch sang ảnh giày, dép thật vẽ biểu đồ kết so với hình ảnh mong đợi Kết thay đổi chất ngẫu nhiên thuật tốn quy trình đánh giá, khác biệt độ xác số Chúng xem xét chạy kết vài lần so sánh kết trung bình Cuối cùng, chúng tơi đào tạo mơ hình đào tạo phân biệt Đào tạo mơ hình: Để thực đào tạo mơ hình, chúng tơi thực bước: Đầu tiên, xác định ví dụ đầu vào tạo đầu Bộ phân biệt nhận input_image hình ảnh tạo làm đầu vào Đầu vào thứ hai input_image target_image Tiếp theo, tính tốn tạo tổn thất phân biệt Sau đó, tính tốn mức độ mát liên quan đến biến trình tạo biến phân biệt (đầu vào) áp dụng chúng cho trình tối ưu hóa Chúng tơi xây dựng hàm train_step () thực điều này, lấy trình tạo, phân biệt, mơ hình tổng hợp xác định tập liệu tải làm đầu vào Mỗi bước đào tạo trước tiên bao gồm việc chọn loạt ví dụ thực, download by : skknchat@gmail.com 51 sau sử dụng trình tạo để tạo loạt mẫu giả phù hợp cách sử dụng hình ảnh nguồn thực Bộ phân biệt sau cập nhật hàng loạt ảnh thật sau ảnh giả Tiếp theo, mơ hình tạo cập nhật cung cấp hình ảnh nguồn thực làm đầu vào cung cấp nhãn lớp (thực) hình ảnh đích thực làm đầu dự kiến mơ hình cần thiết để tính tốn tổn thất Bộ tạo có hai điểm tổn thất điểm tổng có trọng số trả Ở đây, tổng tổn thất mơ hình tổng tổn thất tạo phân biệt Chúng sử dụng công cụ TensorBoard.dev Tensorflow để cập nhật tham số mơ hình Thơng thường, mơ hình GAN khơng hội tụ; thay vào đó, điểm cân tìm thấy mơ hình tạo phân biệt Như vậy, dễ dàng đánh giá nên dừng việc đào tạo Do đó, chúng tơi lưu mơ hình sử dụng để tạo dịch mẫu từ ảnh sang ảnh theo định kỳ trình đào tạo, chẳng hạn sau 20 epochs Sau đó, chúng tơi xem lại hình ảnh tạo kết thúc trình đào tạo sử dụng chất lượng hình ảnh để chọn mơ hình cuối Để làm điều vịng lặp đào tạo thực tế, chúng tơi xây dựng hàm def fit() thực bước: Lặp lại số lượng epochs Tại epochs: xóa hình chạy generate_images để hiển thị tiến trình Tại epochs: lặp qua tập liệu huấn luyện, in dấu chấm ( ) để biểu thị tiến trình cho ví dụ Cuối cùng, chúng tơi thực chạy vịng lặp đào tạo lệnh: Def fit(train_dataset, EPOCHS, test_dataset) download by : skknchat@gmail.com 52 Chúng tơi nhận thấy rằng: Hình ảnh tạo sau khoảng 50 epochs đào tạo bắt đầu trơng thực tế, có nghĩa, chất lượng dường tốt phần cịn lại q trình đào tạo Hình ảnh tạo ngồi bên phải; hình ảnh giày, dép thực Hình 3.2: Hình ảnh đƣợc dịch từ ảnh phác thảo sang thật Pix2Pix sau 50 epochs Cuối cùng, để đánh giá kết tạo số hình ảnh cách sử dụng thử nghiệm: # Run the trained model on a few examples from the test set for inp, tar in test_dataset.take(6): generate_images(generator, inp, tar) Kết huấn luyện mơ hình: download by : skknchat@gmail.com 53 download by : skknchat@gmail.com 54 Hình 3.3: Hình ảnh đƣợc dịch từ ảnh phác thảo sang thật Pix2Pix tập huấn luyện 3.3 Kiểm tra đánh giá kết Sau huấn luyện Pix2Pix tập liệu huấn luyện, hiển thị bên thử nghiệm tập liệu xác thực thử nghiệm, tạo Pix2Pix cố gắng cải thiện kết đưa dự đốn trơng giống ảnh thật Hình ảnh giày, dép tạo nhìn thực tế, chất lượng cải thiện Các đường viền chi tiết vị trí màu sắc giày, dép nhìn rõ ràng Cuối cùng, chúng tơi thử lại kết mơ hình cách sử dụng hình ảnh phác thảo giầy, dép để đánh giá hiệu mơ hình, kết cho thấy chất lượng hình ảnh tạo thực tế mong đợi Hình 3.4: Hình ảnh đƣợc dịch từ ảnh phác thảo sang ảnh hoàn chỉnh download by : skknchat@gmail.com 55 Để kiểm tra trình xử lý liệu tính tốn tổn thất mơ hình, chúng tơi sử dụng TensorBoard.dev để kiểm tra kết lần chạy trước TensorBoard.dev công cụ quản lý sử dụng để lưu trữ, theo dõi chia sẻ thử nghiệm mơ hình Các kết cho thấy: Hình 3.5: Biểu đồ tổn thất phân biệt (disc_loss) download by : skknchat@gmail.com 56 Hình 3.6: Biểu đồ tổn thất tạo với hình ảnh nguồn ( gen_gan_loss) Hình 3.7: Biểu đồ tổn thất tạo với hình ảnh đƣợc tạo (gen_l1_loss) Hình 3.8: Biểu đồ tổng tổn thất tạo phân biệt (gen_total_loss) Việc diễn giải ghi từ mơ hình GAN tinh tế mơ hình phân loại(regression model) hồi quy đơn giản (simple classification) Biểu đồ cho thấy:  Từ đường cong tổn thất hình 3.5 3.6 , rõ ràng tổn thất phân biệt tổn thất tạo là đối nghịch Điều có download by : skknchat@gmail.com 57 nghĩa gen_gan_loss disc_loss thấp dấu hiệu cho thấy mơ hình thống trị mơ hình q trình đào tạo mơ hình chưa tốt không thành công  Giá trị log(2) = 0.69 điểm tham chiếu tốt cho tổn thất này, disc_loss có giá trị 0.69 nghĩa phân biệt hoạt động tốt so với tạo, tập hợp kết hợp hình ảnh thực tạo Ngược lại, tạo làm tốt việc đánh lừa phân biệt  Tuy nhiên, trình đào tạo tiến triển, thấy tổn thất tạo hình 3.7 giảm dần, có nghĩa tạo hình ảnh tốt quản lý để đánh lừa phân biệt  Ở hình 3.8, vào khoảng epochs thứ 130, thấy tổng tổn thất tạo phân biệt chạm đáy dần tăng trở lại, điều nhiều yếu tố khác Một lý là, phân biệt đào tạo, thay đổi mát tạo Nó báo hiệu trình đào tạo kết thúc tạo cải thiện thêm sau epochs hay nói cách khác hình ảnh tạo tốt 3.4 Kết luận chương Chuyển đổi từ hình ảnh sang hình ảnh cách sử dụng mơ hình GAN có điều kiện Giải pháp cụ thể xây dựng mơ hình pix2pix ứng dụng tốn chuyển đổi ảnh trình bày chương Kết sau huấn luyện mơ hình từ ảnh phác thảo giày, dép sang ảnh thực chất lượng hình ảnh thu cải thiện tiếp tục thay đổi trình đào tạo download by : skknchat@gmail.com 58 KẾT LUẬN Qua thời gian học tập, nghiên cứu hoàn thành luận văn, đạt kết sau: Thứ nhất, nghiên cứu kiến thức bản, phổ quát vấn đề học máy như: khái niệm, ứng dụng, phân loại, bước để xây dựng chương trình học máy, chúng tơi tập trung mơ tả mạng Neural Chúng nhận thấy mạng Neural thành phần có liên quan mật thiết tới học sâu sở cho mơ hình học sâu Ngồi ra, chúng tơi cịn khái qt số kiến thức học sâu mơ hình mạng CNN, mơ hình học sâu tiên tiến Thứ hai, chúng tơi nghiên cứu mơ hình học máy đặc biệt mơ hình GAN, đồng thời chúng tơi tìm hiểu mơ hình Pix2Pix, lớp mơ hình chun biệt cho tác vụ image-to-image translation Kết cho thấy mơ hình GAN cách tiếp cận đầy hứa hẹn cho nhiều nhiệm vụ dịch từ ảnh sang ảnh, đặc biệt công việc liên quan đến đầu đồ họa có cấu trúc cao Cuối cùng, chúng tơi xây dựng chương trình thử nghiệm liệu edges2shoes Khi huấn luyện mơ hình từ ảnh phác thảo giày, dép sang ảnh thực mơ hình pix2pix chất lượng hình ảnh thu cải thiện tiếp tục thay đổi trình đào tạo Kết tốt cho liệu đầu vào hình ảnh phác thảo Điểm hạn chế đề tài là: Chưa xử lý nhiều tập liệu khác để đánh giá hết khả mô hình GAN Đánh giá hiệu mơ hình đề cập chưa đầy đủ, vấn đề cần kiến thức toán học sâu hơn, hy vọng tiếp tục nghiên cứu sau hoàn thành luận văn download by : skknchat@gmail.com 59 DANH MỤC TÀI LIỆU THAM KHẢO [1] TS Lê Xuân Vinh, “Giáo trình Machine Learning”, Đại học Quy Nhơn [2] Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; WardeFarley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014) Generative Adversarial Networks Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014) pp 2672–2680 [3] Karras, T., Aila, T., Laine, S., & Lehtinen, J (2018) Progressive Growing of GANs for Improved Quality, Stability, and Variation ArXiv, abs/1710.10196 [4] G Antipov, M Baccouche and J Dugelay (2017), "Face aging with conditional generative adversarial networks," 2017 IEEE International Conference on Image Processing (ICIP), Beijing, 2017, pp 2089-2093, doi: 10.1109/ICIP.2017.8296650 [5] Jin, Y., Zhang, J., Li, M., Tian, Y., Zhu, H., & Fang, Z (2017) Towards the Automatic Anime Characters Creation with Generative Adversarial Networks ArXiv, abs/1708.05509 [6] P Isola, J Zhu, T Zhou and A A Efros (2017), "Image-to-Image Translation with Conditional Adversarial Networks," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017, pp 5967-5976, doi: 10.1109/CVPR.2017.632 [7] Zhang, H., Xu, T., & Li, H (2017) StackGAN: Text to Photo-Realistic Image Synthesis with Stacked Generative Adversarial Networks 2017 IEEE International Conference on Computer Vision (ICCV), 5908-5916 download by : skknchat@gmail.com 60 [8] Huang, R., Zhang, S., Li, T., & He, R (2017) Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis 2017 IEEE International Conference on Computer Vision (ICCV), 2458-2467 [9] Ledig, C., Theis, L., Huszár, F., Caballero, J., Aitken, A., Tejani, A., Totz, J., Wang, Z., & Shi, W (2017) Photo-Realistic Single Image SuperResolution Using a Generative Adversarial Network 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 105-114 [10] Olaf Ronneberger, Philipp Fischer, Thomas Brox (2015) Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015, 2015, Volume 9351ISBN : 978-3-319-24573-7 [11] Jin, Lianchao & Tan, Fuxiao & Jiang, Shengming (2020) Generative Adversarial Network Technologies and Applications in Computer Vision Computational Intelligence and Neuroscience 2020 1-17 10.1155/2020/1459107 [12] Jason Brownlee (2019), Generative Adversarial Networks with Python download by : skknchat@gmail.com ... Những ứng dụng hấp dẫn kỹ thuật thúc chọn ? ?Nghiên cứu mơ hình Generative Adversarial Networks ứng dụng chuyển đổi ảnh? ?? làm đề tài luận văn thạc sĩ khoa học máy tính Tổng quan tình hình nghiên cứu. .. thành ảnh hoàn chỉnh Đối tƣợng phạm vi nghiên cứu 4.1 Đối tƣợng nghiên cứu: Nghiên cứu sở lý thuyết thuật toán GAN 4.2 Phạm vi nghiên cứu: Ứng dụng GAN việc chuyển đổi ảnh Phƣơng pháp nghiên cứu. .. Tôi xin cam đoan: Luận văn thạc sỹ chuyên ngành Khoa học máy tính, tên đề tài ? ?Nghiên cứu mơ hình Generative adversarial networks ứng dụng chuyển đổi ảnh? ?? cơng trình nghiên cứu, tìm hiểu trình bày

Tiêu đề	Nghiên Cứu Mô Hình Generative Adversarial Networks Và Ứng Dụng Trong Chuyển Đổi Ảnh
Tác giả	Nguyễn Duy Nam Anh
Người hướng dẫn	TS. Lê Xuân Vinh
Trường học	Trường Đại Học Quy Nhơn
Chuyên ngành	Khoa học máy tính
Thể loại	luận văn thạc sĩ
Năm xuất bản	2021
Thành phố	Bình Định

Định dạng
Số trang	67
Dung lượng	1,65 MB

(LUẬN văn THẠC sĩ) nghiên cứu mô hình generative adversarial networks và ứng dụng trong chuyển đổi ảnh

Kiến trúc của pix2pix

Giới thiệu và phân tích bài toán