Ứng dụng học máy cho bài toán phát sinh ảnh thời trang từ câu mô tả

58 12 0
Ứng dụng học máy cho bài toán phát sinh ảnh thời trang từ câu mô tả

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Ứng dụng học máy cho bài toán phát sinh ảnh thời trang từ câu mô tả Ứng dụng học máy cho bài toán phát sinh ảnh thời trang từ câu mô tả Ứng dụng học máy cho bài toán phát sinh ảnh thời trang từ câu mô tả Ứng dụng học máy cho bài toán phát sinh ảnh thời trang từ câu mô tả Ứng dụng học máy cho bài toán phát sinh ảnh thời trang từ câu mô tả Ứng dụng học máy cho bài toán phát sinh ảnh thời trang từ câu mô tả Ứng dụng học máy cho bài toán phát sinh ảnh thời trang từ câu mô tả

Trường Đại Học Sư Phạm Kỹ Thuật Khoa Đào Tạo Chất Lượng Cao Ngành Công Nghệ Thông Tin ĐỒ ÁN TỐT NGHIỆP ỨNG DỤNG HỌC MÁY CHO BÀI TOÁN PHÁT SINH ẢNH THỜI TRANG TỪ CÂU MÔ TẢ Sinh Viên Thực Hiện MSSV Sinh Viên Thực Hiện MSSV Khoá Ngành GVHD : : : : : : : NGUYỄN BÁ LÊ AN 15110001 NGUYỄN HỮU KHANG 15110062 K15 CÔNG NGHỆ THƠNG TIN TS NGUYỄN THIÊN BẢO Tp Hồ Chí Minh, tháng 07 năm 2020 LỜI CẢM ƠN Nhóm chúng em xin chân thành c​ảm ơn thầy Nguyễn Thiên Bảo tận tình hướng dẫn hỗ trợ nhóm suốt q trình nghiên cứu đồ án Ngồi ra, nhóm em xin cảm ơn Võ Hồng Anh, anh sinh viên khóa hỗ trợ chỉnh sửa, khắc phục lỗi sai để nhóm em hồn thành đồ án cách tốt Nhóm chúng em xin gửi lời cảm ơn đến tác giả Han Zhang tạo cơng trình mang tính thực tiễn vơ có ích cho nghiên cứu trí tuệ nhân tạo xử lý ảnh số Đây lần đầu chúng em nghiên cứu đề tài nên khơng tránh khỏi cịn nhiều thiếu sót nội dung, kính mong q thầy thơng cảm bỏ qua tận tình góp ý Chân thành cảm ơn! vi TÓM TẮT Ngày nay, với phát triển linh kiện phần cứng máy tính ứng dụng trí tuệ nhân tạo nói chung thị giác máy tính nói riêng phát triển mạnh mẽ Trong đó, phát sinh ảnh số ứng dụng phát triển có tầm ảnh hưởng Tuy nhiên, ứng dụng chưa áp dụng lĩnh vực địi hỏi sáng tạo tính thẩm mỹ cao thiết kế thời trang Vì vậy, nghiên cứu tập trung vào việc ứng dụng trí tuệ nhân tạo để phát sinh ảnh thời trang từ câu mô tả vii SUMMARY Nowadays, along with the development of computer hardware components, computer vision applications in particular and artificial intelligence are generally thriving Initializing photos is one of the most influential and ever-evolving applications However, this application has not been widely applied in areas that require high creativity such as fashion design So this research will focus on the application of machine learning to the creation of fashion photos viii MỤC LỤC TRANG Trang phụ bìa Nhiệm vụ đồ án tốt nghiệp…………………… ………………… … …… i Trang phiếu nhận xét giáo viên hướng dẫn ………………….…… … ii Trang phiếu nhận xét giáo viên phản biện… …….………….…… … iii Lời cảm ơn.……… ………… ………………………………….……… v Tóm tắt.…………….………….…………………………………………… vi Mục lục ……………………….……………………………………… … ix Danh mục chữ viết tắt …… ………………………………… ……… xi Danh mục hình ảnh, biểu đồ ………………………………… ……… xii CHƯƠNG 1​……………………………………………………………………1 TỔNG QUAN ĐỀ TÀI 1.1 Giới thiệu đề tài………….………………………………………….…… 1.2 Phát biểu tốn…………….…………………….………… ……… 1.2.1 Mơ tả tốn………………… …………………………… ……… 1.2.2 Phát biểu hình thức……………… ………………….…… ………… Khó khăn thách thức………….… ………….…………….… .2 1.3 1.4 Mục tiêu đề tài…………………….…………… ………………… .3 1.5 Phạm vi đề tài…………………….……………………………… … CHƯƠNG ​………………………… ………………………………………4 CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN CHƯƠNG 3​………………….……………………………………………… CƠ SỞ LÝ THUYẾT 3.1​ ​Mạng nơ-ron tích chập (CNN)….… …………… …………………… 3.1.1​ ​Giới thiệu…………………… ……………….………………………… 3.1.2​ Cấu trúc CNN…….……….………………….……………………….8 3.2​ ​Mạng nơ-ron hồi quy (RNN)………………… ……… …… ……… 10 3.2.1​ ​Giới thiệu……… ……….……….………………………………… 10 3.2.2​ ​Mạng LSTM (Bộ nhớ dài ngắn hạn)………… ……………………….16 3.3​ ​Các kỹ thuật sử dụng đồ án… … …….…… ………… 24 3.3.1​ ​Upsampling​….………….…… ……………… ….……………….….24 3.3.2​ ​Downsampling​………….…………………………………………….….25 ix CHƯƠNG 4​…… ………………………………………………………… …2 ​MƠ HÌNH ĐỀ XUẤT 4.1​ ​StackGAN-v2​ ……… ……….……………………………………… 27 4.1.1​ ​Giới thiệu …………….……… …………………………………… 27 4.1.2​ ​Xấp xỉ phân phối.… …………….…………………………………… 29 4.1.3​ ​Phân phối ảnh có điều kiện khơng điều kiện………………… …….30 4.2​ AttnGAN​………… …….……………………………………………… 31 4.2.1​ ​Giới thiệu………… …… …………………………………………….31 4.2.2​ ​Cấu trúc………………………………………… …………………….32 CHƯƠNG 5​………………………………………………………………… 38 KẾT QUẢ NGHIÊN CỨU 5.1​ T ​ ập liệu sử dụng.…… ………….…………………………………….38 5.2​ Tiêu chí đánh giá ………………….…………………… …… … ……40 5.2.1​ ​Inception Score (IS)​ …………………………………………………….40 5.2.2​ F​réchet Inception Distance (FID)​.……………… ………… ……… 41 5.3​ Kết mơ hình phát sinh……… ……………………………………….42 CHƯƠNG 6​………………………………………………………………… 45 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1​ K ​ ết luận………………………… …… ……………………………… 45 6.2​ H ​ ướng phát triển……………… ……………………… ………… ….45 TÀI LIỆU THAM KHẢO……………………………………………………47 PHỤ LỤC…………………………………………………………………… 49 x DANH MỤC CHỮ VIẾT TẮT CÁC THUẬT NGỮ GAN AttnGAN CNN RNN Generative Adversarial Network Attentional Generative Adversarial Network Convolution Neural Network Recurrent Neural Network LSTM Long Short Term Memory Networks xi Danh mục biểu đồ hình ảnh 1.1 Mơ tả tốn phát sinh ảnh trang phục từ câu mô tả ………… 3.1 Mơ hình CNN​…………………………………………………… 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.20 3.21 Tầng maxpooling……………………………………………… Mơ hình RNN​…………………………………………………… 10 Mơ hình one to many​…………………………………………… 12 Mơ hình many to one​…………………………………………… 12 Mơ hình many to many​………………………………………… 13 Mơ hình many to many khác​…………………………………… 13 Cách hoạt động RNN………………………………………….15 Sigmod cho vanishing/exploding gradients​……………………… 16 Mơ hình mảng LSTM…………………………………………… 17 Kiến trúc mảng LSTM…………………………………………… 18 Kí hiệu mảng LSTM……………………………………… 18 Đường truyền trạng thái………………………………………… 19 Cổng LSTM……………………………………………………… 20 Thông tin đầu vào LSTM…………………………………… 21 Xử lý thông tin…………………………………………………… 21 Cập nhật vào Cell State……………………………………………23 Thông tin đầu ra………………………………………………… 23 Cấu trúc Upsampling………………………………………… 24 Cấu trúc Downsampling……………………………………….25 Cấu trúc Residual Block……………………………………….26 4.1 Mơ hình StackGAN-v2 đồ án sử dụng cho toán phát sinh ảnh thời trang………………………………………………….28 xii 4.2 4.3 Mơ hình xấp xỉ phân phối hình ảnh………………………………….31 Mơ hình AttnGAN đồ án sử dụng cho toán phát sinh ảnh thời trang……………………………………………………… 32 5.1 5.2 5.3 5.4 Một số mẩu tập liệu Fashion-gen…………………………….38 Thống kê tập liệu theo loại quần áo…​…………………….….39 Thống kê tập liệu theo tập huấn luyện kiểm tra .40 Kết so sánh ảnh StackGAN-v2 At​tnGAN tạo với quần giày………………………………………………………….43 Kết so sánh ảnh StackGAN-v2 At​tnGAN tạo với loại áo thun áo khoác……………………………………… 44 5.5 xiii   Chương TỔNG QUAN ĐỀ TÀI 1.1   Giới thiệu đề tài ● Ngày trước phát triển không ngừng trí tuệ nhân tạo mà cụ thể thị giác máy tính ứng dụng vào nhiều lĩnh vực đời sống như: nhận dạng khuôn mặt, nhận dạng cảm xúc, nhận dạng đối tượng chí ứng dụng lĩnh vực yêu cầu độ xác cao như: y tế (chẩn đốn số bệnh ung thư, xác định vùng bệnh ung thư, ), nông nghiệp, ● Trong thập kỷ gần Học sâu (Deep Learning) trở thành công cụ phổ biến ứng dụng vào nhiều toán, mang lại hiệu đáng kể khơng xét độ xác mà cịn độ hiệu ứng dụng thời gian thực Trước phát triển vượt bậc giải thuật sức mạnh máy tính nay, ứng dụng tưởng chừng không tưởng trước đưa vào để giải có kết đáng kể Một số việc ứng dụng Học máy vào giải toán liên quan đến thời trang, hướng tiếp cận ● Một cách cụ thể, đồ án giải thuật Học máy sử dụng để giải toán thiết kế trang phục từ câu mô tả cho trang phục mà qua thể mong muốn khách hàng Bài tốn mang đến nhiều lợi ích xét ý nghĩa khoa học lẫn ý nghĩa thực tiễn ● Tuy nhiên, tốn đầy thách thức ảnh thời trang có đa dạng, phức tạp hình dáng, màu sắc, chất liệu tương ứng với loại trang phục, ảnh hưởng đối tượng khơng liên quan như: khn mặt, màu da, tóc, xung quanh tác động không nhỏ đến việc giải toán – Hàm mát DAMSM Được sử dụng để huấn luyện mơ hình attention theo cách semi-supervised, giám sát phù hợp tồn hình ảnh toàn câu (một chuỗi từ) Cho batch cặp ảnh-câu (Qi , Di )M i=1 Xác suất hậu nghiệm câu D i phù hợp với ảnh Qi tính sau: Trong đó, γ​3 hệ số tăng cường độ ổn định xác định thông qua thực nghiệm Trong batch câu, có Di phù hợp với ảnh Qi M − câu mô tả khác không phù hợp Hàm mát định nghĩa negative log xác suất hậu nghiệm ảnh phù hợp với câu mơ tả tương ứng Trong đó, ‘w’ viết tắt ‘word’ Đồng thời, ta tối thiểu hàm mát: Trong đó, P (Qi |Di ) xác suất hậu nghiệm mà câu Di khớp với ảnh Qi Cuối cùng, hàm mát DAMSM định nghĩa sau: Dựa vào thực nghiệm tập validation, ta xét tham số sau: γ1​ = 5​, ​γ​2 = 5​, ​γ​3 = 10 ​và ​M = ​ 50​ Mơ hình DAMSM huấn luyện cách tối thiểu hàm mát nhằm sử dụng cặp ảnh-văn thật Vì kích thước ảnh xử lý DAMSM khơng bị giới hạn kích thước ảnh khởi tạo nên kích thước ảnh thật sử dụng 2​ 99 × 299​ Bên cạnh đó, mã hóa văn huấn luyện trước mơ hình DAMSM cung cấp 35 vector từ phân biệt trực quan rút trích từ cặp ảnh - văn để sử dụng cho mơ hình ​attentional generative network.​ Để so sánh, vectơ từ thông thường xử lý trước liệu văn túy thường không phân biệt trực quan được, ví dụ: vectơ từ khác màu sắc, chẳng hạn đỏ, xanh, vàng, v.v., thường phân cụm không gian vectơ, thiếu tảng tín hiệu hình ảnh thực tế Tổng kết lại, có hai mơ hình attention attentional generative network DAMSM, hai mơ hình đóng vai trị khác AttnGAN Cơ chế attention mảng sinh (2) cho phép AttnGAN có khả tự động lựa chọn biến điều kiện cấp độ từ cho việc khởi tạo vùng khác ảnh Với chế attentention (công thức ​4.2.9​), mạng DAMSM có khả tính độ khớp ảnh-văn dựa vào hàm mát L ​ ​DAMSM.​ Chú ý, L​DAMSM​ ​chỉ áp dụng cho generator cuối G​m−​ 1​   36 Chương KẾT QUẢ NGHIÊN CỨU 5.1  Thực nghiệm 5.1.1 Tập liệu sử dụng Đồ án sử dụng liệu Fashion-gen [5] liệu chuẩn sử dụng cho toán phát sinh ảnh thời trang Bộ liệu có số lượng ảnh lớn câu mơ tả kèm hình 5.5 Bộ liệu Fashion-gen chia thành nhiều loại quần áo khác nhau, nhiên giới hạn đồ án này, chọn 14 loại quần áo có số lượng ảnh liệu câu mơ tả nhiều 500 mẫu, với góc độ ảnh trực diện Do số lượng liệu sử dụng cho việc huấn luyện đánh giá mô hình cịn lại bảng 5.1 Các loại quần áo số lượng mẫu tương ứng cho loại quần áo tập huấn luyện kiểm tra mà đồ án sử dụng thể biểu đồ 5.2 5.3 Bảng 5.1: Thống kê số lượng mẫu phân bố tập huấn luyện tập kiểm tra Hình 5.1: Một số mẫu tập liệu Fashion-gen 37 Hình 5.2: Thống kê tập liệu theo loại quần áo 38 Hình 5.3: Thống kê tập liệu theo tập huấn kiểm tra 5.1.2 Chi tiết cài đặt Mơ hình DAMSM (Deep Attentional Multimodal Similarity Model) dùng mạng nơ-ron để ánh xạ vùng ảnh từ ngữ câu sang khơng gian ngữ nghĩa chung, sau đo độ tương tự hình ảnh văn cấp độ từ việc tính hàm mát cho việc sinh ảnh – Bộ mã hóa văn ( text encoder) Là mạng bi-directional Long Short-Term Memory (LSTM) dùng để rút trích vector ngữ nghĩa từ đoạn văn bạn mô tả Trong mảng bi-directional LSTM, từ tương ứng với hai trạng thái ẩn theo hướng Vì vậy, hai trang thái an ghép lại với để biểu diễn ngữ nghĩa từ Ma trận đặc trưng tất từ kí hiệu ​e ​∈ ​RD ​ ​×​T ​ Trong đó, cột thứ ​i e​ i​ l​ vector đặc trưng từ thứ ​i,​ ​D l​ số chiều vector ​T l​ số lượng từ Trong đó, trạng thái ẩn cuối bi-directional LSTM ghép vào vector tồn cục câu, kí hiệu e ∈ ​ ​ ​RD ​ 39 – Bộ mã hóa hình ảnh (image encoder) ​Bộ mã hóa hình ảnh mạng tích chập (CNN) dùng để ánh xạ hình ảnh thành vector ngữ nghĩa Những lớp trung gian mạng CNN rút trích đặc trưng cục vùng khác ảnh Cụ thể, mã hóa hình ảnh xây dựng dựa mơ hình Inception-v3 huấn luyện ImageNet Đầu tiên, hình ảnh thay đổi kích thước 2​ 99 × 299 ​pixels Sau đó, ma trận đặc trưng cục có ​ kích thước ​f ​∈ ​R768×289 ​ (được chuyển đổi từ ​768 × 17 × 17​) rút trích từ lớp “mixed_6e” mạng Inception-v3 Trong đó, 768 số chiều vector đặc trưng cục bộ, 289 số vùng ​ ảnh Trong đó, vector đặc trưng tồn cục f ​∈ ​R2048 rút ​ trích từ lớp average pooling cuối mạng Inception-v3 Cuối cùng, đặc trưng ảnh chuyển đổi sang không gian ngữ nghĩa chung đặc trưng văn việc thêm vào lớp perceptron sau: v= ​ ​Wf, v = W f , (4.2.5) Trong đó, ​v ∈ ​ ​RD ​ ×​ 289 ​và vector cột thứ ​i l​ vector đặc trưng cho ​ vùng thứ ​i c​ ảnh, v ∈ ​ ​RD ​ vector đặc trưng toàn cục ảnh ​D l​ số chiều vector ảnh văn không gian đặc trưng Để hiệu hơn, trọng số lớp mơ hình Inception-v3 giữ nguyên, trọng số lớp thêm vào huấn luyện đồng thời với mảng lại – The attention-driven image-text matching score ​được dùng để đo lường độ khớp cặp ảnh văn dựa vào attention model ảnh văn Bộ mã hóa văn huấn luyện trước mơ hình DAMSM cung cấp vector từ phân biệt trực quan rút trích từ cặp ảnh - văn để sử dụng cho mơ hình attentional generative network.​ Để so sánh, vectơ từ thông thường xử lý trước liệu văn túy thường không phân biệt trực quan được, ví dụ: vectơ từ khác màu sắc, chẳng hạn đỏ, xanh, vàng, v.v., thường phân 40 cụm không gian vectơ, thiếu tảng tín hiệu hình ảnh thực tế Q trình huấn luyện: ● Mơ hình DAMSM huấn luyện 211 epoch, kích thước batch liệu 32 ● Mơ hình AttnGAN huấn luyện theo thời gian, kích thước batch liệu Kết hình ảnh tạo ngày có chất lượng cao chi tiết sau mơ hình huấn luyện nhiều epoch Thể hình sau: Hình 5.1.2: Kết hình ảnh tạo từ câu mơ tả mơ hình huấn luyện 10, 25 43 epoch 41 5.2  Tiêu chí đánh giá 5.2.1 Inception Score (IS) IS [6] tiêu chí đánh giá tính thực tế ảnh phát sinh Hai tiêu chuẩn đánh giá ảnh phát sinh bao gồm: • Các ảnh phát sinh chứa đối tượng có nghĩa, phân phối nhãn có điều kiện (the conditional class distribution) p(y|x) có giá trị entropy thấp • Các ảnh phát sinh đa dạng, phân phối nhãn cận biên (the 52 marginal class distribution) p(y) = R x p(y|x)pg(x) có giá trị entropy cao, trường hợp lý tưởng phân phối có dạng phân phối Kết hợp hai tiêu chuẩn ta có cơng thức tính IS sau: IS(G) = exp(Ex∼PgDKL(p(y|x)||p(y))) (5.2.1) Trong đó: • y nhãn x ảnh phát sinh • DKL() KL-divergence hàm sử dụng để tính khoảng cách p(y|x) p(y) Việc sử dụng hàm mũ exp giúp giá trị dễ dàng để so sánh, lấy ln(IS(G) mà khơng làm tính tổng qt Nếu hai tiêu chuẩn thỏa mãn giá trị KL-divergence hai phân phối p(y) p(y|x) lớn dẫn đến kết IS lớn Có thể xấp xỉ cơng thức tính IS thực tế từ mẫu x (i) sau: Với N số lượng mẫu thường khuyến khích chọn 5000 [6] Một số giới hạn độ đo IS: • Độ đo bị giới hạn phân loại Inception, phụ thuộc vào liệu huấn luyện ImageNet 2014, mơ hình phát sinh đối tượng tập huấn huấn luyện ImageNet 2014 ln ln nhận giá trị IS thấp ảnh phát sinh có chất lượng cao ảnh khơng thể phân loại cách xác • Mạng phân lớp khơng thể phân loại đặc trưng liên quan đến khái niệm chất lượng ảnh CNN chủ yếu tập trung vào thông tin cục thông tin kết cấu hình dáng, ảnh có chất lượng đạt điểm số IS cao 42 • Độ đo phụ thuộc vào giá trị trọng số mơ hình huấn luyện, số mơ hình mạng Inception huấn luyện framework khác dù kết phân loại khơng có tác động đáng kể Tuy nhiên, trọng số khác biệt lại dẫn đến đến điểm số khác biệt tập mẫu [1] • Một khuyết điểm IS làm sai lệch hiệu suất mơ hình trường hợp mơ hình phát sinh ảnh lớp, giá trị IS cao độ đo không đo đạc đa dạng lớp • Nếu phát sinh ghi nhớ liệu huấn luyện chép điểm số cao 5.2.2 Fréschet Inception Distance (FID) Để khắc phục số hạn chế IS Độ đo FID [4] sử dụng để đo đạc chất lượng mẫu phát sinh dựa vào khoảng cách phân phối ảnh thật phân phối ảnh phát sinh Để tính FID ảnh thật ảnh phát sinh, ta sử dụng cụng thc sau: Trong ú: ã à, l giỏ trị trung bình ma trận hiệp phương sai (covariance) phân phối Gaussian • r, g ảnh thật ảnh phát sinh • T r tổng tất phần tử đường chéo FID nhỏ nghĩa ảnh phát sinh có chất lượng tốt(quality) đa dạng(diversity) có nhiều tương tự ảnh phát sinh ảnh thật Có thể nói FID thể tốt trường hợp nhiễu so với IS Vì FID đo đạt tốt tính đa dạng ảnh Ngồi FID cho thấy giá trị bias cao variance thấp nhạy cảm với tượng mode collapse 5.3 Kết mơ hình phát sinh ● Khi tiến hành huấn luyện đánh giá hai mơ hình StackGAN-v2, AttnGAN tập liệu Fashion-gen đồ án tiến hành so sánh hai mơ hình dựa vào hai độ đo phổ biến cho toán phát sinh ảnh IS FID kết thể bảng 5.2 43 Bảng 5.2: Bảng kết so sánh StackGAN-v2 AttnGAN dựa vào phép đo IS, FID tập liệu Fashion-Gen ● Dựa vào bảng kết so sánh, ta thấy xét điểm IS StackGAN-v2 có xu hướng tốt so với AttnGAN đạt điểm số 3.383, điều cho thấy ảnh tạo StackGAN-v2 thỏa mãn tiêu chuẩn chất lượng ảnh tạo nhận dạng đối tượng tạo có khác biệt Tuy nhiên, xét độ đo FID AttnGAN lại có xu hướng tốt so với StackGAN-v2 với FID 30.97 điều cho thấy ảnh tạo AttnGAN có chất lượng tốt gần giống với tập liệu huấn luyện Nếu xét tổng thể, dựa kết thực tế phát sinh ảnh (hình 5.2, 5.3) AttnGAN dường thể cách chi tiết thuộc tính quần áo so với StackGAN-v2, loại quần áo tạo AttnGAN xác so với StackGAN-v2 Bởi độ đo IS khơng thể tính liên hệ mẫu thuộc loại quần áo nên điểm số IS StackGAN-v2 không bị ảnh hưởng Mặc dù vậy, AttnGAN chưa giải vấn đề mode collapse nhiều mẫu phát sinh trùng lặp 44 Hình 5.4: Kết so sánh ảnh StackGANv2 AttnGAN tạo với quần giày 45 Hình 5.5: Kết so sánh ảnh StackGANv2 AttnGAN tạo với loại áo thun áo khoác   46 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 Kết Luận Đề tài đồ án thực số cơng việc sau: ● Tìm hiểu mơ hình phát sinh ảnh từ câu mô tả ● Xây dựng mô hình phát sinh ảnh thời trang từ câu mơ tả dựa cơng trình nghiên cứu tìm hiểu với hai phương pháp phổ biến StackGAN-v2 AttnGAN ● Tiến hành thực nghiệm liệu Fashion-gen từ có so sánh để thấy độ đo IS StackGAN-v2 cho kết tốt so với AttnGAN xét đa dạng ảnh phát sinh Tuy nhiên, xét độ giống ảnh phát sinh ảnh thật AttnGAN cho kết khả quan so với StackGAN-v2 Tuy nhiên, vấn đề mode collapse chưa khắc phục mơ hình AttnGAN tập liệu Fashion-gen   6.2 Hướng phát triển Một số hạn chế đồ án: ● Mặc dù hình ảnh tạo với phân giải cao song vài chi tiết chưa tạo rõ ràng, cụ thể tương lai mơ hình cải thiện vấn đề ● Mơ hình chưa tạo hình ảnh cụ thể, phức tạp ● Vấn đề mode collapse chưa giải ● Từ hạn chế tại, đồ án hy vọng cải thiện mơ hình phát sinh ảnh thời trang từ câu mơ tả đầu vào tương lai 47 Tài liệu tham khảo [1] Shane Barratt and Rishi Sharma A note on the inception score ArXiv​, abs/1801.01973, 2018 [2] Emily L Denton, Soumith Chintala, Arthur Szlam, and Robert Fergus Deep generative image models using a laplacian pyramid of adversarial networks ​CoRR,​ abs/1506.05751, 2015 [3] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Ben- gio Generative adversarial nets In Z Ghahramani, M Welling, C Cortes, N D Lawrence, and K Q Weinberger, editors, ​Ad- vances in Neural Information Processing Systems 27,​ pages 2672– 2680 Curran Associates, Inc., 2014 [4] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, Guănter Klambauer, and Sepp Hochreiter Gans trained by a two time-scale update rule converge to a nash equilibrium ​CoRR​, abs/1706.08500, 2017 [5]N Rostam Zadeh, S Hosseini, T Bouquet, W Stokowiec, Y Zhang, C Jauvin, and C Pal Fashion-Gen: The Generative Fashion Dataset and Challenge ​ArXiv e-prints​, June 2018 [6] Tim Salimans, Ian J Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen Improved techniques for training gans CoRR​, abs/1606.03498, 2016 48 [7] Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, and Xiaodong He Attngan: Fine-grained text to image generation with attentional generative adversarial networks ​CoRR​, abs/1711.10485, 2017 [8] Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaolei Huang, Xiaogang Wang, and Dimitris N Metaxas Stackgan: Text to photorealistic image synthesis with stacked generative adversarial networks ​CoRR​, abs/1612.03242, 2016 [9] Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, and Dimitris N Metaxas Stackgan++: Re-alistic image synthesis with stacked generative adversarial networks ​CoRR​, abs/1710.10916, 2017 [10] Fashion-Gen: The Generative Fashion Dataset and Challenge​ by Negar Rostamzadeh, Seyedarian Hosseini, Thomas Boquet, Wojciech Stokowiec, Ying Zhang, Christian Jauvin, Chris Pal 49 ... Phát biểu toán   1.2.1 Mơ tả tốn Từ câu mơ tả ảnh thời trang cho trước, mơ hình thực xử lý câu mơ tả dựa vào giải thuật Học máy từ phát sinh ảnh thời trang có đặc điểm gần giống với câu mơ tả đầu... vào Hình 1.1: Mơ tả tốn phát sinh ảnh trang phục từ câu mô tả   1.2.2 Phát biểu hình thức yˆ​ ← ​f ​(​t​) (1.2.1) Trong ​yˆ​ ảnh phát sinh tạo từ hàm ​f ​với ​t ​là câu mô tả ảnh đầu vào 1.3  ... án sử dụng cho toán phát sinh ảnh thời trang? ??……………………………………………….28 xii 4.2 4.3 Mơ hình xấp xỉ phân phối hình ảnh? ??……………………………….31 Mơ hình AttnGAN đồ án sử dụng cho toán phát sinh ảnh thời trang? ??……………………………………………………

Ngày đăng: 16/02/2022, 11:30

Tài liệu cùng người dùng

Tài liệu liên quan