(Luận văn) nghiên cứu mô hình generative adversarial networks và ứng dụng trong chuyển đổi ảnh

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC QUY NHƠN NGUYỄN DUY NAM ANH lu an va n NGHIÊN CỨU MƠ HÌNH GENERATIVE ie gh tn to ADVERSARIAL NETWORKS VÀ ỨNG DỤNG p TRONG CHUYỂN ĐỔI ẢNH d oa nl w Mã số : 8.48.01.01 nf va an lu Chuyên ngành : Khoa học máy tính z at nh oi lm ul Ngƣời hƣớng dẫn: TS LÊ XUÂN VINH z m co l gm @ an Lu n va ac th si LỜI CAM ĐOAN Tôi xin cam đoan: Luận văn thạc sỹ chuyên ngành Khoa học máy tính, tên đề tài “Nghiên cứu mơ hình Generative adversarial networks ứng dụng chuyển đổi ảnh” cơng trình nghiên cứu, tìm hiểu trình bày thực hướng dẫn khoa học TS Lê Xuân Vinh, Trường Đại học Quy Nhơn Kết tìm hiểu, nghiên cứu luận văn hồn tồn trung thực, lu an khơng vi phạm điều luật sở hữu trí tuệ pháp luật Việt Nam va n Nếu sai, tơi hồn tồn chịu trách nhiệm trước pháp luật Tất tài liệu, tn to báo, khóa luận, cơng trình nghiên cứu tác giả khác sử dụng lại ie gh luận văn dẫn tường minh tác giả có p danh mục tài liệu tham khảo oa nl w Bình Định, ngày 15 tháng năm 2021 d Tác giả luận văn nf va an lu lm ul Nguyễn Duy Nam Anh z at nh oi z m co l gm @ an Lu n va ac th si LỜI CẢM ƠN Trước tiên, xin gửi lời biết ơn sâu sắc đến người thầy TS Lê Xuân Vinh dành nhiều thời gian tâm huyết hướng dẫn thực luận văn tốt nghiệp Sự tận tình hướng dẫn thầy nguồn động viên lớn tơi suốt thời gian tìm hiểu, nghiên cứu hoàn thành luận văn lu Xin cảm ơn quý thầy, cô giáo khoa Công nghệ thông tin, trường an Đại học Quy Nhơn nơi theo học hồn thành chương trình cao học va n nhiệt tình giảng dạy giúp đỡ to gh tn Và cuối xin cảm ơn gia đình, bạn bè, đồng nghiệp động viên, ủng p ie hộ suốt thời gian học tập, nghiên cứu hoàn thành luận văn nl w Xin chân thành cảm ơn d oa Bình Định, ngày 15 tháng năm 2021 nf va an lu Tác giả luận văn z at nh oi lm ul Nguyễn Duy Nam Anh z m co l gm @ an Lu n va ac th si MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT v DANH MỤC HÌNH VẼ vi MỞ ĐẦU lu CHƢƠNG 1: TỔNG QUAN VỀ HỌC MÁY an 1.1 Giới thiệu va n 1.1.1 Khái niệm .5 to 1.1.3 Phân loại phương pháp học máy ie gh tn 1.1.2 Ứng dụng học máy p 1.1.4 Các bước toán học máy oa nl w 1.2 Mạng Neural 10 1.2.1 Mơ hình nơron nhân tạo .10 d an lu 1.2.2 Mơ hình mạng nơron nhân tạo 11 nf va 1.2.3 Quy tắc delta 12 lm ul 1.2.4 Thuật toán lan truyền ngược 14 z at nh oi 1.3 Deep Learning 20 1.3.1 Khái niệm 20 1.3.2 Cấu trúc mạng CNN 21 z gm @ 1.4 Kết luận chương .25 co l CHƢƠNG 2: MƠ HÌNH GENERATIVE ADVERSARIAL NETWORKS (GAN) 26 m 2.1 Giới thiệu chung 26 an Lu 2.2 Kiến trúc GAN 27 n va ac th si 2.2.1 Generator 29 2.2.2 Discriminator .30 2.3 Hàm tối ưu 30 2.4 Quá trình huấn luyện 32 2.5 Mơ hình Pix2Pix ứng dụng toán chuyển đổi ảnh 33 2.5.1 Mơ hình Pix2pix 33 2.5.2 Kiến trúc pix2pix 34 2.5.3 Hàm tối ưu 39 lu 2.6 Kết luận chương .41 an va CHƢƠNG 3: ỨNG DỤNG GAN TRONG BÀI TOÁN CHUYỂN ĐỔI ẢNH 42 n 3.1 Giới thiệu phân tích tốn 42 gh tn to 3.2 Xây dựng chương trình thử nghiệm 43 p ie 3.3 Kiểm tra đánh giá kết .54 w 3.4 Kết luận chương .57 oa nl KẾT LUẬN 58 d DANH MỤC TÀI LIỆU THAM KHẢO 59 nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si DANH MỤC CÁC TỪ VIẾT TẮT Nguyên mẫu Chữ viết tắt Diễn giải Artificial Intelligence Trí tuệ nhân tạo ANN Artificial Neural Network Mạng nơ-ron nhân tạo CNN Convolutional Neural Network Mạng nơ-ron tích chập GAN Generative Adversarial Networks Mạng sinh đối nghịch Machine Learning Học máy AI ML lu an n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si DANH MỤC HÌNH VẼ Hình 1.1: Sơ đồ kiến trúc mạng CNN 21 Hình 1.2: Ví dụ lọc tích chập sử dụng ma trận điểm ảnh 22 Hình 1.3: Trường hợp thêm/khơng thêm viền trắng vào ảnh tích chập 23 Hình 1.4: Phương thức Avarage Pooling Max Pooling 24 Hình 2.1: Sơ đồ kiến trúc mạng GAN 27 Hình 2.2: Mơ tả chức Generator Descriminator 28 Hình 2.3: Sơ đồ kiến trúc generator 29 Hình 2.4: Sơ đồ kiến trúc Discriminator 30 lu Hình 2.5: Ví dụ mơ hình pix2pix toán chuyển từ ảnh vẽ (draft) sang ảnh màu an đầy đủ giày 33 va n Hình 2.6: Kiến trúc down sampling upsampling 34 tn to Hình 2.7: Generator pix2pix 35 gh Hình 2.8: Mơ hình generator pix2pix 36 p ie Hình 2.9: Mơ hình discriminator pix2pix 36 w Hình 2.10: Giả sử hình ảnh chia thành k×k patches 38 oa nl Hình 2.11: Sơ đồ tổng quát kiến trúc lớp CNN áp dụng patch 70x70 PatchGAN 39 d an lu Hình 3.1: Hình ảnh mẫu từ tập liệu 43 nf va Hình 3.2: Hình ảnh dịch từ ảnh phác thảo sang thật Pix2Pix sau 50 epochs 52 Hình 3.3: Hình ảnh dịch từ ảnh phác thảo sang thật Pix2Pix tập huấn luyện lm ul 54 z at nh oi Hình 3.4: Hình ảnh dịch từ ảnh phác thảo sang ảnh hoàn chỉnh 54 Hình 3.5: Biểu đồ tổn thất phân biệt (disc_loss) 55 Hình 3.6: Biểu đồ tổn thất tạo với hình ảnh nguồn ( gen_gan_loss) 56 z Hình 3.7: Biểu đồ tổn thất tạo với hình ảnh tạo (gen_l1_loss) 56 @ m co l gm Hình 3.8: Biểu đồ tổng tổn thất tạo phân biệt (gen_total_loss) 56 an Lu n va ac th si MỞ ĐẦU Lý chọn đề tài Ngày nay, trí tuệ nhân tạo (AI) ứng dụng ngày nhiều lĩnh vực khác nhau, từ việc phục vụ đời sống hàng ngày người giáo dục, tài ngân hàng, y tế… Ứng dụng thực tế trí tuệ nhân tạo giúp nâng cao hiệu suất lao động, cải thiện chất lượng lu sống người, đem đến hội tăng trưởng kinh tế, phát triển kinh an doanh cho doanh nghiệp Và tảng nhiều ứng va n dụng dịch vụ tương lai to gh tn Machine Learning (Học máy) tập AI Machine learning p ie giúp máy tính có khả tự học hỏi dựa liệu đưa vào mà khơng phải lập trình cách rõ ràng Những năm gần đây, mà khả tính tốn oa nl w máy tính ngày nâng cao lượng liệu khổng lồ thu d thập cách dễ dàng, Machine Learning ngày phát triển lĩnh an lu vực đời gọi Deep Learning (Học sâu) Deep Learning giúp nf va máy tính thực thi việc tưởng chừng vào 10 năm trước: lm ul phân loại ngàn vật thể khác ảnh, tự tạo thích cho z at nh oi ảnh, bắt chước giọng nói chữ viết người, giao tiếp với người, hay chí sáng tác văn thơ hay âm nhạc, z Để giải số toán đặt ra, xuất mơ gm @ hình Generative Adversarial Networks (GAN) cung cấp số phương l pháp mơ hình giải nhiều tốn lĩnh vực học sâu m co GAN giúp chuyển đổi tự động ảnh đen trắng thành an Lu ảnh màu hay từ vẽ thơ sơ thành vẽ hồn chỉnh, GAN sử dụng rộng rãi có nhiều ứng dụng thực tế minh họa cho việc máy tính có n va ac th si thể thay người cơng việc mang tính sáng tạo tự động vẽ tranh, vẽ phim hoạt hình, sáng tác nhạc, Những ứng dụng hấp dẫn kỹ thuật thúc chọn “Nghiên cứu mơ hình Generative Adversarial Networks ứng dụng chuyển đổi ảnh” làm đề tài luận văn thạc sĩ khoa học máy tính Tổng quan tình hình nghiên cứu đề tài GAN giới thiệu lần Ian Goodfellow đồng nghiệp qua báo cáo khoa học vào năm 2014 [2] Vào thời kì đầu, lu an người tập trung vào chức phát sinh liệu GAN Sau đó, tiềm va n GAN khai thác nhiều nhờ mà GAN sử dụng ie gh tn to nhiều lĩnh vực khác Một số kết nghiên cứu tiêu biểu như: Tero Karras [3] nghiên p cứu phương pháp đào tạo GAN cho phép cải tạo chất lượng hình nl w ảnh, phương pháp cho phép tạo hình ảnh khn mặt nhân tạo mà d oa khó phân biệt với người thật ngày cải thiện chất lượng hình an lu ảnh Grigory Antipov [4] đề xuất phương pháp để dự báo lão nf va hóa khuôn mặt người dựa điều kiện tuổi tác Dựa khn mặt lm ul tại, mơ hình GAN sinh biến thể theo độ tuổi z at nh oi người Để hỗ trợ người thiết kế nhân vật hoạt hình, Yanghua Jin cộng [5] xây dựng mô hình GAN giúp tạo hình ảnh khn mặt nhân vật hoạt hình cách tự động Phillip Isola [6] nghiên cứu mơ hình GAN z có điều kiện giải pháp cho vấn đề dịch từ ảnh sang ảnh Cùng @ l gm ảnh chụp quang cảnh, GAN tạo bối cảnh khác co trời tối/trời sáng, ban ngày/ban đêm, thay đổi theo mùa,… Han m Zhang [7] nghiên cứu việc tổng hợp hình ảnh chất lượng cao từ mô tả văn an Lu Trong báo này, tác giả đề xuất mô hình StackGAN để tạo hình ảnh n va ac th si thực tế 256x256 với điều kiện dựa mô tả văn Rui Huang [8] nghiên cứu việc tổng hợp góc nhìn từ khn mặt có nhiều ứng dụng lĩnh vực nhận dạng khn mặt Christian Ledig [9] trình bày SRGAN cho hình ảnh siêu phân giải Việc có khả tạo hình ảnh rõ nét gấp lần ban đầu Mục đích nhiệm vụ nghiên cứu - Nghiên cứu ý tưởng, cấu trúc mô hình, thuật tốn sử dụng mơ hình GAN lu an - Cài đặt chương trình thử nghiệm chuyển đổi ảnh phác thảo thành ảnh n va hoàn chỉnh tn to Đối tƣợng phạm vi nghiên cứu Nghiên cứu sở lý thuyết thuật toán GAN p ie gh 4.1 Đối tƣợng nghiên cứu: nl w 4.2 Phạm vi nghiên cứu: d oa Ứng dụng GAN việc chuyển đổi ảnh an lu Phƣơng pháp nghiên cứu nf va Phương pháp nghiên cứu đề tài lý thuyết kết hợp với thực nghiệm lm ul Quá trình tiến hành dựa việc tìm hiểu tài liệu, cài đặt thử nghiệm z at nh oi sau đánh giá kết thực nghiệm 6.Ý nghĩa khoa học thực tiễn - Nghiên cứu làm chủ việc xây dựng mô hình GAN, áp dụng z gm @ giải lớp toán, đặc biệt toán chuyển đổi ảnh l - Thử nghiệm tập liệu mẫu giày, dép Kết sở cho nghiên cứu khác tương lai an Lu Bố cục luận văn: Gồm chương: m co nghiên cứu lý thuyết kết hợp thực nghiệm trình bày n va ac th si 46 ảnh giày, dép phác thảo) tạo ảnh đích (ví dụ ảnh giày, dép thật) Nó thực điều cách lấy mẫu xuống mã hóa hình ảnh đầu vào xuống lớp nút cổ chai, sau lấy mẫu giải mã biểu diễn nút cổ chai thành kích thước hình ảnh đầu Kiến trúc U-Net có nghĩa kết nối bỏ qua thêm vào lớp mã hóa lớp giải mã tương ứng, tạo thành hình chữ U Để thực mơ hình trình tạo mã hóa giải mã U-Net Chúng tơi xây dựng hàm def downsample() để tạo khối lớp cho mã hóa lu hàm def upsample() để tạo khối lớp cho giải mã Chúng xác định: an n va Các chức mã hóa (downsample) bao gồm: Một lớp Conv2D  Một lớp optional BatchNorm gh tn to  Tiếp theo chức kích hoạt LeakyReLU, với độ dốc ( slope) 0,2 p ie  w Các chức giải mã (upsample) bao gồm: Một lớp Conv2DTranspose  Một lớp optional BatchNorm  Một lớp optional Dropout, với drop_probability = 0,5  Tiếp theo chức kích hoạt ReLU, với độ dốc (slope )= 0,2 d oa nl  nf va an lu lm ul Trọng số lớp Convolution chức mã hóa giải mã z at nh oi khởi tạo từ phân phối đồng đều, với giá trị trung bình mean=0 độ lệch chuẩn standard-deviation = 0,02 khơng có độ lệch (bias) sử dụng Tiếp theo xây dựng UNET Generator, bao gồm mã z gm @ hóa (downsample) giải mã (upsample) dựa kết nối bỏ qua Chúng m co xử lý trước l xác định lớp đầu vào với hình dạng [256,256,3], hình dạng hình ảnh mà an Lu Chúng tiến hành xây dựng mã hóa thơng qua hàm def downsample(), sau: n va ac th si 47 Các lớp mã hóa xác định danh sách lớp hình ảnh [256, 256, 3] cung cấp làm đầu vào, lấy mẫu theo hệ số lần gọi hàm khối mẫu xuống tổng cộng lần, đạt đến nút cổ chai có kích thước [1, 1, 512] Tất lớp Conv2D:  Sử dụng kernel_size= 4, với bước trượt (stride) hai  Khi đầu vào khối mẫu xuống (downsample block ) giảm nửa (theo chuỗi-chập (strided-convolution)), feature maps tăng lu gấp đôi, 64 tăng lên 512 nút cổ chai an  Lớp Batchnorm sử dụng tất trừ khối mẫu xuống va n (downsample block) Các lớp giải mã xác định đầu có kích thước nút cổ p ie gh tn to Chúng tiến hành xây dựng giải mã thông qua hàm def upsample(), sau: nl w chai [1,1,512] lấy làm đầu vào, lấy mẫu (upsampled) thêm theo hệ d oa số khối lấy mẫu ( upsample block) Tổng cộng có lệnh gọi hàm Chúng sử dụng lớp Conv2DTranspose, với kernel_size = lm ul  nf va Trong giải mã: an lu upsample nút cổ chai lên kích thước [128,128, 128] khoảng cách hai (lấy mẫu thêm hai lớp) z at nh oi  Tiếp theo lớp BatchNorm chức kích hoạt ReLU, với lớp dropout 1-3 khối mẫu (upsample blocks) Lớp giải mã cuối cuối nâng cấp đầu z @  thước [256,256,3] co Để lấy hình ảnh (RGB) làm đầu ra, chúng tơi sử dụng ba lọc m  l gm [128,128,128] từ khối mẫu (upsample block) lên thành hình ảnh có kích an Lu filters (OUTPUT_CHANNELS), với kernel_size = strides = n va ac th si 48  Tanh chức kích hoạt cho lớp cuối liệu chuẩn hóa phạm vi [-1, 1] Bây chúng tơi hồn tất việc xác định cấu trúc mã hóa giải mã mình, để tiến hành đào tạo generator cần phải lặp lại lệnh down_stack up_stack Trong lặp qua phần tử danh sách down_stack sử dụng lệnh nối đầu phần tử danh sách qua hàm skips() Đây bước quan trọng giúp thực kết nối bỏ qua lu lớp mã hóa giải mã Chỉ đảo ngược thứ tự an lớp đầu mã hóa ghép nối với lớp cuối giải mã va n ngược lại to gh tn Sau đó, chúng tơi lặp lại danh sách up_stack, nén với danh sách bỏ qua ie (cả hai có phần tử nhau, tức 7) Khi lặp lại phần p tử, kết đầu lấy mẫu nối với phần tử từ danh sách Skips nl w Như vậy, xây dựng xong chức tạo (the generator), d oa chúng tơi thực tính toán tổn thất tạo phân biệt lu nf va an Xác định tổn thất tạo phân biệt Mơ hình phân biệt đào tạo trực tiếp hình ảnh thực lm ul tạo, mơ hình trình tạo khơng z at nh oi Thay vào đó, mơ hình tạo đào tạo thơng qua mơ hình phân biệt Nó cập nhật để giảm thiểu tổn thất phân biệt dự đốn cho z hình ảnh tạo đánh dấu “thực ” Vì vậy, khuyến khích để @ gm tạo nhiều hình ảnh thực Bộ tạo cập nhật để giảm thiểu tổn thất l L1 sai số tuyệt đối trung bình hình ảnh tạo hình ảnh đích m co Bộ tạo cập nhật thơng qua tổng có trọng số tổn thất đối an Lu nghịch tổn thất L1, đề xuất trọng số từ 100 đến có lợi cho tổn thất L1 Điều để khuyến khích trình tạo mạnh mẽ hướng tới n va ac th si 49 việc tạo dịch hợp lý hình ảnh đầu vào, khơng hình ảnh hợp lý miền đích Các chức generator_loss đưa bốn thông số: disc_generated_output: Dự đoán đầu từ phân biệt,  cung cấp hình ảnh tạo tạo  gen_output: Hình ảnh tạo tạo  target: Hình ảnh Ground-truth cho đầu vào cung cấp cho tạo lu real_labels: an Nhãn Ground-truth (1) Bởi chúng tơi muốn tạo tạo n va hình ảnh thực cách đánh lừa người phân biệt, nhãn tn to Bộ phân biệt cập nhật theo cách độc lập, trọng số sử gh dụng lại mô hình tổng hợp đánh dấu khơng thể đào p ie tạo Mơ hình tổng hợp cập nhật với hai mục tiêu, mục tiêu w hình ảnh tạo thực (mất mát chéo), buộc cập nhật trọng lượng lớn oa nl trình tạo để tạo hình ảnh thực dịch thực thực thi d hình ảnh, so sánh với đầu mơ hình tạo (tổn thất L1) an lu nf va Sự mát phân biệt trung bình real_loss generated_loss Tổn thất Binary Cross-Entropy sử dụng lm ul  real_loss tính tốn dự đốn thực (khi hình ảnh thực z at nh oi cung cấp cho phân biệt) real_labels =  fake_loss tổn thất tính tốn dự đốn giả (khi hình ảnh z gm @ tạo tạo cung cấp cho phân biệt) fake_labels = l Sau hồn thành việc xây dựng tính tổn thất tạo m co phân biệt, cung cấp hình ảnh phác thảo nguồn làm đầu vào số hình ảnh trình đào tạo an Lu cho mơ hình sử dụng để dự đốn hình ảnh giày, dép thật Sau đó, vẽ n va ac th si 50 Tạo hình ảnh: Để thực tạo hình ảnh chúng tơi tiến hành bước: Đầu tiên, truyền hình ảnh từ thử nghiệm sang tạo Sau tạo dịch hình ảnh đầu vào thành đầu Cuối cùng, chúng tơi vẽ biểu đồ nguồn, hình ảnh tạo hình ảnh mục tiêu mong đợi thơng qua hàm def generate_images() #def generate_images(model, test_input, tar): Chức gọi với hình ảnh nguồn, hình ảnh lu an tạo hình ảnh mục tiêu Khi chạy kết chọn hình n va ảnh ngẫu nhiên từ tập liệu đào tạo, dịch sang ảnh giày, dép thật vẽ tn to biểu đồ kết so với hình ảnh mong đợi ie gh Kết thay đổi chất ngẫu nhiên thuật toán quy p trình đánh giá, khác biệt độ xác số Chúng tơi xem xét chạy nl w kết vài lần so sánh kết trung bình d oa Cuối cùng, chúng tơi đào tạo mơ hình đào tạo phân biệt lu nf va an Đào tạo mơ hình: Để thực đào tạo mơ hình, thực bước: Đầu tiên, lm ul chúng tơi xác định ví dụ đầu vào tạo đầu Bộ phân biệt z at nh oi nhận input_image hình ảnh tạo làm đầu vào Đầu vào thứ hai input_image target_image Tiếp theo, tính tốn tạo tổn thất z phân biệt Sau đó, tính tốn mức độ mát liên quan đến biến trình @ gm tạo biến phân biệt (đầu vào) áp dụng chúng cho trình tối ưu hóa co l Chúng xây dựng hàm train_step () thực điều này, lấy trình tạo, m phân biệt, mơ hình tổng hợp xác định tập liệu tải làm đầu vào an Lu Mỗi bước đào tạo trước tiên bao gồm việc chọn loạt ví dụ thực, n va ac th si 51 sau sử dụng trình tạo để tạo loạt mẫu giả phù hợp cách sử dụng hình ảnh nguồn thực Bộ phân biệt sau cập nhật hàng loạt ảnh thật sau ảnh giả Tiếp theo, mơ hình tạo cập nhật cung cấp hình ảnh nguồn thực làm đầu vào cung cấp nhãn lớp (thực) hình ảnh đích thực làm đầu dự kiến mơ hình cần thiết để tính tốn tổn thất Bộ tạo có hai điểm tổn thất điểm tổng có trọng số trả Ở đây, tổng tổn thất mơ hình tổng tổn thất tạo phân biệt Chúng sử lu dụng công cụ TensorBoard.dev Tensorflow để cập nhật tham số an n va mơ hình tn to Thơng thường, mơ hình GAN khơng hội tụ; thay vào đó, điểm gh cân tìm thấy mơ hình tạo phân biệt Như vậy, p ie dễ dàng đánh giá nên dừng việc đào tạo Do w đó, chúng tơi lưu mơ hình sử dụng để tạo dịch mẫu từ d epochs oa nl ảnh sang ảnh theo định kỳ trình đào tạo, chẳng hạn sau 20 an lu nf va Sau đó, chúng tơi xem lại hình ảnh tạo kết thúc trình đào tạo sử dụng chất lượng hình ảnh để chọn mơ hình cuối lm ul z at nh oi Để làm điều vòng lặp đào tạo thực tế, xây dựng hàm def fit() thực bước: Lặp lại số lượng epochs Tại epochs: xóa hình chạy generate_images để hiển thị tiến trình Tại z epochs: lặp qua tập liệu huấn luyện, in dấu chấm ( ) để biểu thị tiến l gm @ trình cho ví dụ an Lu Def fit(train_dataset, EPOCHS, test_dataset) m co Cuối cùng, chúng tơi thực chạy vịng lặp đào tạo lệnh: n va ac th si 52 Chúng nhận thấy rằng: Hình ảnh tạo sau khoảng 50 epochs đào tạo bắt đầu trơng thực tế, có nghĩa, chất lượng dường tốt phần cịn lại q trình đào tạo Hình ảnh tạo ngồi bên phải; hình ảnh giày, dép thực lu an n va gh tn to Hình 3.2: Hình ảnh đƣợc dịch từ ảnh phác thảo sang thật Pix2Pix sau 50 epochs p ie Cuối cùng, để đánh giá kết chúng tơi tạo số hình ảnh oa nl w cách sử dụng thử nghiệm: d # Run the trained model on a few examples from the test set an lu for inp, tar in test_dataset.take(6): generate_images(generator, inp, tar) nf va z at nh oi lm ul Kết huấn luyện mơ hình: z m co l gm @ an Lu n va ac th si 53 lu an n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si 54 Hình 3.3: Hình ảnh đƣợc dịch từ ảnh phác thảo sang thật Pix2Pix tập huấn luyện lu an 3.3 Kiểm tra đánh giá kết va n Sau huấn luyện Pix2Pix tập liệu huấn luyện, hiển tn to thị bên thử nghiệm tập liệu xác thực thử nghiệm, tạo ie gh Pix2Pix cố gắng cải thiện kết đưa dự đốn trơng giống p ảnh thật Hình ảnh giày, dép tạo nhìn thực tế, chất lượng cải d oa ràng nl w thiện Các đường viền chi tiết vị trí màu sắc giày, dép nhìn rõ an lu Cuối cùng, thử lại kết mơ hình cách sử dụng nf va hình ảnh phác thảo giầy, dép để đánh giá hiệu mơ hình, kết z at nh oi lm ul cho thấy chất lượng hình ảnh tạo thực tế mong đợi z m co l gm @ an Lu Hình 3.4: Hình ảnh đƣợc dịch từ ảnh phác thảo sang ảnh hoàn chỉnh n va ac th si 55 Để kiểm tra trình xử lý liệu tính tốn tổn thất mơ hình, chúng tơi sử dụng TensorBoard.dev để kiểm tra kết lần chạy trước TensorBoard.dev cơng cụ quản lý sử dụng để lưu trữ, theo dõi chia sẻ thử nghiệm mơ hình Các kết cho thấy: lu an n va p ie gh tn to oa nl w Hình 3.5: Biểu đồ tổn thất phân biệt (disc_loss) d nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si 56 Hình 3.6: Biểu đồ tổn thất tạo với hình ảnh nguồn ( gen_gan_loss) lu an va n Hình 3.7: Biểu đồ tổn thất tạo với hình ảnh đƣợc tạo (gen_l1_loss) p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul Hình 3.8: Biểu đồ tổng tổn thất tạo phân biệt (gen_total_loss) z gm @ Việc diễn giải ghi từ mơ hình GAN tinh tế mơ hình m Từ đường cong tổn thất hình 3.5 3.6 , rõ ràng tổn an Lu  co Biểu đồ cho thấy: l phân loại(regression model) hồi quy đơn giản (simple classification) thất phân biệt tổn thất tạo là đối nghịch Điều có n va ac th si 57 nghĩa gen_gan_loss disc_loss thấp dấu hiệu cho thấy mơ hình thống trị mơ hình q trình đào tạo mơ hình chưa tốt khơng thành cơng Giá trị log(2) = 0.69 điểm tham chiếu tốt cho tổn  thất này, disc_loss có giá trị 0.69 nghĩa phân biệt hoạt động tốt so với tạo, tập hợp kết hợp hình ảnh thực tạo Ngược lại, tạo làm tốt việc đánh lừa phân biệt Tuy nhiên, trình đào tạo tiến triển, thấy tổn  lu an thất tạo hình 3.7 giảm dần, có nghĩa tạo hình ảnh tốt n va quản lý để đánh lừa phân biệt to Ở hình 3.8, vào khoảng epochs thứ 130, thấy tổng tổn thất tn  ie gh tạo phân biệt chạm đáy dần tăng trở lại, điều p nhiều yếu tố khác Một lý là, phân biệt đào tạo, thay nl w đổi mát tạo Nó báo hiệu trình đào tạo kết d oa thúc tạo cải thiện thêm sau epochs hay an lu nói cách khác hình ảnh tạo tốt nf va 3.4 Kết luận chương lm ul Chuyển đổi từ hình ảnh sang hình ảnh cách sử dụng mơ hình z at nh oi GAN có điều kiện Giải pháp cụ thể xây dựng mơ hình pix2pix ứng dụng tốn chuyển đổi ảnh trình bày chương Kết sau huấn luyện mơ hình từ ảnh phác thảo giày, dép sang z đổi trình đào tạo m co l gm @ ảnh thực chất lượng hình ảnh thu cải thiện tiếp tục thay an Lu n va ac th si 58 KẾT LUẬN Qua thời gian học tập, nghiên cứu hồn thành luận văn, chúng tơi đạt kết sau: Thứ nhất, nghiên cứu kiến thức bản, phổ quát vấn đề học máy như: khái niệm, ứng dụng, phân loại, bước để xây dựng chương trình học máy, tập trung mô tả mạng Neural Chúng nhận thấy mạng Neural thành phần có liên quan mật thiết tới học sâu sở cho mơ hình học sâu Ngồi ra, chúng tơi cịn khái lu an qt số kiến thức học sâu mơ hình mạng CNN, n va mơ hình học sâu tiên tiến to tn Thứ hai, nghiên cứu mơ hình học máy đặc biệt mơ ie gh hình GAN, đồng thời chúng tơi tìm hiểu mơ hình Pix2Pix, lớp mơ p hình chun biệt cho tác vụ image-to-image translation Kết cho thấy nl w mơ hình GAN cách tiếp cận đầy hứa hẹn cho nhiều nhiệm vụ dịch an lu cấu trúc cao d oa từ ảnh sang ảnh, đặc biệt công việc liên quan đến đầu đồ họa có nf va Cuối cùng, chúng tơi xây dựng chương trình thử nghiệm liệu lm ul edges2shoes Khi huấn luyện mơ hình từ ảnh phác thảo giày, dép sang ảnh z at nh oi thực mơ hình pix2pix chất lượng hình ảnh thu cải thiện tiếp tục thay đổi trình đào tạo Kết tốt cho liệu đầu vào hình ảnh phác thảo z gm @ Điểm hạn chế đề tài là: Chưa xử lý nhiều tập l liệu khác để đánh giá hết khả mơ hình GAN Đánh giá hiệu m co mơ hình đề cập chưa đầy đủ, vấn đề cần hồn thành luận văn an Lu kiến thức tốn học sâu hơn, hy vọng tiếp tục nghiên cứu sau n va ac th si 59 DANH MỤC TÀI LIỆU THAM KHẢO [1] TS Lê Xuân Vinh, “Giáo trình Machine Learning”, Đại học Quy Nhơn [2] Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; WardeFarley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014) Generative Adversarial Networks Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014) pp 2672–2680 lu an [3] Karras, T., Aila, T., Laine, S., & Lehtinen, J (2018) Progressive va n Growing of GANs for Improved Quality, Stability, and Variation ArXiv, gh tn to abs/1710.10196 p ie [4] G Antipov, M Baccouche and J Dugelay (2017), "Face aging with conditional generative adversarial networks," 2017 IEEE International oa nl w Conference on Image Processing (ICIP), Beijing, 2017, pp 2089-2093, doi: 10.1109/ICIP.2017.8296650 d lu an [5] Jin, Y., Zhang, J., Li, M., Tian, Y., Zhu, H., & Fang, Z (2017) Towards nf va the Automatic Anime Characters Creation with Generative Adversarial lm ul Networks ArXiv, abs/1708.05509 z at nh oi [6] P Isola, J Zhu, T Zhou and A A Efros (2017), "Image-to-Image Translation with Conditional Adversarial Networks," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017, z gm @ pp 5967-5976, doi: 10.1109/CVPR.2017.632 l [7] Zhang, H., Xu, T., & Li, H (2017) StackGAN: Text to Photo-Realistic m co Image Synthesis with Stacked Generative Adversarial Networks 2017 IEEE an Lu International Conference on Computer Vision (ICCV), 5908-5916 n va ac th si 60 [8] Huang, R., Zhang, S., Li, T., & He, R (2017) Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis 2017 IEEE International Conference on Computer Vision (ICCV), 2458-2467 [9] Ledig, C., Theis, L., Huszár, F., Caballero, J., Aitken, A., Tejani, A., Totz, J., Wang, Z., & Shi, W (2017) Photo-Realistic Single Image SuperResolution Using a Generative Adversarial Network 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 105-114 lu an [10] Olaf Ronneberger, Philipp Fischer, Thomas Brox (2015) Medical n va Image Computing and Computer-Assisted Intervention – MICCAI 2015, tn to 2015, Volume 9351ISBN : 978-3-319-24573-7 ie gh [11] Jin, Lianchao & Tan, Fuxiao & Jiang, Shengming (2020) Generative p Adversarial Network Technologies and Applications in Computer Vision Intelligence and Neuroscience 2020 1-17 nl w Computational d oa 10.1155/2020/1459107 nf va an lu [12] Jason Brownlee (2019), Generative Adversarial Networks with Python z at nh oi lm ul z m co l gm @ an Lu n va ac th si

Định dạng
Số trang	67
Dung lượng	1,65 MB