(Đồ án tốt nghiệp) ứng dụng học máy cho bài toán phát sinh ảnh thời trang từ câu mô tả

77 82 0
(Đồ án tốt nghiệp) ứng dụng học máy cho bài toán phát sinh ảnh thời trang từ câu mô tả

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ THÔNG TIN ỨNG DỤNG HỌC MÁY CHO BÀI TOÁN PHÁT SINH ẢNH THỜI TRANG TỪ CÂU MÔ TẢ GVHD: TS NGUYỄN THIÊN BẢO SVTH: NGUYỄN BÁ LÊ AN SVTH: NGUYỄN HỮU KHANG SKL007048 Tp Hồ Chí Minh, tháng 07/2020 Trường Đại Học Sư Phạm Kỹ Thuật Khoa Đào Tạo Chất Lượng Cao Ngành Công Nghệ Thông Tin ĐỒ ÁN TỐT NGHIỆP ỨNG DỤNG HỌC MÁY CHO BÀI TOÁN PHÁT SINH ẢNH THỜI TRANG TỪ CÂU MÔ TẢ Sinh Viên Thực Hiện MSSV Sinh Viên Thực Hiện MSSV Khố Ngành GVHD Tp Hồ Chí Minh, tháng 07 năm 2020 Đồ án tốt nghiệp Em xin cam đoan đồ án riêng nhóm em hướng dẫn thầy Nguyễn Thiên Bảo Các nội dung nghiên cứu, kết đề tài trung thực chưa công bố hình thức trước Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi rõ phần tài liệu tham khảo Ngồi ra, đồ án cịn sử dụng số nhận xét, đánh số liệu tác giả khác, quan tổ chức khác có trích dẫn thích nguồn gốc Nếu phát có gian lận em xin hoàn toàn chịu trách nhiệm nội dung đồ án mình.Trường đại học Sư Phạm Kỹ Thuật khơng liên quan đến vi phạm tác quyền, quyền tơi gây q trình thực (nếu có) TP Hồ Chí Minh, ngày 01 tháng 07 năm 2020 Tác giả Nguyễn Bá Lê An Tác giả Nguyễn Hữu Khang CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc ******* Tp Hồ Chí Minh, ngày 01 tháng 07 năm 2020 NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Họ tên sinh viên: Nguyễn Hữu Khang Họ tên sinh viên: Nguyễn Bá Lê An Ngành: Công nghệ thông tin Giảng viên hướng dẫn: TS Nguyễn Thiên Bảo Ngày nhận đề tài: 24/02/2020 MSSV: 15110062 MSSV: 15110001 Khóa: K15 Ngày nộp đề tài: 01/07/2020 1.Tên đề tài: - Tìm hiểu tốn phát sinh ảnh thời trang từ câu mơ tả 2.Các số liệu, tài liệu ban đầu: - Tập liệu Fashion-Gen 3.Nội dung thực đề tài: Tìm hiểu nghiên cứu tài liệu liên quan đến việc phát sinh ảnh từ mơ hình GAN Tìm hiểu mơ hình phát sinh ảnh từ câu mơ tả áp dụng AttnGAN (Attention Gan) Hiện thực hóa mơ hình sử dụng AttnGAN để giải toán Kiểm thử so sánh với mơ hình khác (StackGAN-v2) việc giải tốn phát sinh ảnh thời trang từ câu mơ tả 4.Sản phẩm: - Source code TRƯỞNG NGÀNH Th.S Nguyễn Đăng Quang GIẢNG VIÊN HƯỚNG DẪN T.S Nguyễn Thiên Bảo i CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc ******* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Họ tên sinh viên: Nguyễn Hữu Khang MSSV: 15110062 Họ tên sinh viên: Nguyễn Bá Lê An MSSV: 15110001 Ngành: Công nghệ thơng tin Tên đề tài: Tìm hiểu tốn phát sinh ảnh thời trang từ câu mô tả Giảng viên hướng dẫn: T.S Nguyễn Thiên Bảo NHẬN XÉT Về nội dung đề tài khối lượng thực hiện: Nhóm hoàn thành mục tiêu đề ban đầu đề tài, khoảng thời gian xác định ● Về lý thuyết: o Nắm kiến thức học máy, học sâu CNN, RNN, chế Attention o Tìm hiểu tốn phát sinh ảnh thời trang từ câu mô tả o Sinh viên nắm kiến trúc mơ hình phát sinh ảnh thời trang từ câu mô tả ● Về thực hành: o Sinh viên chạy demo toán phát sinh ảnh từ câu mô tả dùng GAN với chế Attention Ưu điểm: ● Nắm lý thuyết học sâu, trình bày sở lý thuyết, tốn học cách chi tiết mạng nơ-ron nhân tạo ● Tìm hiểu mơ hình phát sinh ảnh từ câu mơ tả ● Xây dựng mơ hình phát sinh ảnh thời trang từ câu mô tả dựa cơng trình nghiên cứu tìm hiểu với hai phương pháp phổ biến StackGAN-v2 AttnGAN ● Tiến hành thực nghiệm liệu Fashion-Gen từ có so sánh 3.Khuyết điểm: ● Mặc dù hình ảnh tạo với phân giải cao song vài chi tiết chưa tạo rõ ràng, cụ thể tương lai mô hình cải thiện vấn đề ● Chưa thể tạo hình ảnh cụ thể, hình phức tạp ii 4.Đề nghị cho bảo vệ hay không? …………………………………………………………………………………………………… 5.Đánh giá loại: …………………………………………………………………………………………………… Điểm: (Bằng chữ: ) Tp Hồ Chí Minh, ngày 01 tháng 07 năm 2020 Giảng viên hướng dẫn (Ký & ghi rõ họ tên) T.S Nguyễn Thiên Bảo iii CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc ******* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN MSSV: 15110062 Họ tên Sinh viên: Nguyễn Hữu Khang MSSV: 15110001 Họ tên Sinh viên: Nguyễn Bá Lê An Ngành: Công nghệ thông tin Tên đề tài: Tìm hiểu tốn phát sinh ảnh thời trang từ câu mô tả Họ tên Giảng viên phản biện: NHẬN XÉT 1.Về nội dung đề tài & khối lượng thực : …………………………………………………………………………………………………… …………………………………………………………………………………………………… …………………………………………………………………………………………………… 2.Ưu điểm : …………………………………………………………………………………………………… …………………………………………………………………………………………………… …………………………………………………………………………………………………… 3.Khuyết điểm : …………………………………………………………………………………………………… …………………………………………………………………………………………………… …………………………………………………………………………………………………… 4.Đề nghị cho bảo vệ hay không ? …………………………………………………………………………………………………… 5.Đánh giá loại : …………………………………………………………………………………………………… iv Điểm: (Bằng chữ: ) Tp Hồ Chí Minh, ngày tháng 07 năm 2020 Giáo viên phản biện (Ký & ghi rõ họ tên) v LỜI CẢM ƠN Nhóm chúng em xin chân thành cảm ơn thầy Nguyễn Thiên Bảo tận tình hướng dẫn hỗ trợ nhóm suốt q trình nghiên cứu đồ án Ngồi ra, nhóm em xin cảm ơn Võ Hồng Anh, anh sinh viên khóa hỗ trợ chỉnh sửa, khắc phục lỗi sai để nhóm em hồn thành đồ án cách tốt Nhóm chúng em xin gửi lời cảm ơn đến tác giả Han Zhang tạo cơng trình mang tính thực tiễn vơ có ích cho nghiên cứu trí tuệ nhân tạo xử lý ảnh số Đây lần đầu chúng em nghiên cứu đề tài nên không tránh khỏi cịn nhiều thiếu sót nội dung, kính mong q thầy thơng cảm bỏ qua tận tình góp ý Chân thành cảm ơn! vi TĨM TẮT Ngày nay, với phát triển linh kiện phần cứng máy tính ứng dụng trí tuệ nhân tạo nói chung thị giác máy tính nói riêng phát triển mạnh mẽ Trong đó, phát sinh ảnh số ứng dụng phát triển có tầm ảnh hưởng Tuy nhiên, ứng dụng chưa áp dụng lĩnh vực đòi hỏi sáng tạo tính thẩm mỹ cao thiết kế thời trang Vì vậy, nghiên cứu tập trung vào việc ứng dụng trí tuệ nhân tạo để phát sinh ảnh thời trang từ câu mô tả vii 5.2 Tiêu chí đánh giá 5.2.1 Inception Score (IS) IS [6] tiêu chí đánh giá tính thực tế ảnh phát sinh Hai tiêu chuẩn đánh giá ảnh phát sinh bao gồm: • Các ảnh phát sinh chứa đối tượng có nghĩa, phân phối nhãn có điều kiện (the conditional class distribution) p(y|x) có giá trị entropy thấp • Các ảnh phát sinh đa dạng, phân phối nhãn cận biên (the 52 marginal class distribution) p(y) = R x p(y|x)pg(x) có giá trị entropy cao, trường hợp lý tưởng phân phối có dạng phân phối Kết hợp hai tiêu chuẩn ta có cơng thức tính IS sau: IS(G) = exp(Ex∼PgDKL(p(y|x)||p(y))) (5.2.1) Trong đó: • y nhãn x ảnh phát sinh • DKL() KL-divergence hàm sử dụng để tính khoảng cách p(y|x) p(y) Việc sử dụng hàm mũ exp giúp giá trị dễ dàng để so sánh, lấy ln(IS(G) mà khơng làm tính tổng qt Nếu hai tiêu chuẩn thỏa mãn giá trị KL-divergence hai phân phối p(y) p(y|x) lớn dẫn đến kết IS lớn Có thể xấp xỉ cơng thức tính IS thực tế từ mẫu x (i) sau: Với N số lượng mẫu thường khuyến khích chọn 5000 [6] Một số giới hạn độ đo IS: • Độ đo bị giới hạn phân loại Inception, phụ thuộc vào liệu huấn luyện ImageNet 2014, mơ hình phát sinh đối tượng khơng thể tập huấn huấn luyện ImageNet 2014 ln ln nhận giá trị IS thấp ảnh phát sinh có chất lượng cao ảnh khơng thể phân loại cách xác • Mạng phân lớp khơng thể phân loại đặc trưng liên quan đến khái niệm chất lượng ảnh CNN chủ yếu tập trung vào thông tin cục thơng tin kết cấu hình dáng, ảnh có chất lượng đạt điểm số IS cao 42 • Độ đo phụ thuộc vào giá trị trọng số mơ hình huấn luyện, số mơ hình mạng Inception huấn luyện framework khác dù kết phân loại khơng có tác động đáng kể Tuy nhiên, trọng số khác biệt lại dẫn đến đến điểm số khác biệt tập mẫu [1] • Một khuyết điểm IS làm sai lệch hiệu suất mơ hình trường hợp mơ hình phát sinh ảnh lớp, giá trị IS cao độ đo không đo đạc đa dạng lớp • Nếu phát sinh ghi nhớ liệu huấn luyện chép điểm số cao 5.2.2 Fréschet Inception Distance (FID) Để khắc phục số hạn chế IS Độ đo FID [4] sử dụng để đo đạc chất lượng mẫu phát sinh dựa vào khoảng cách phân phối ảnh thật phân phối ảnh phát sinh Để tính FID ảnh thật ảnh phát sinh, ta sử dụng công thc sau: Trong ú: ã à, l giỏ tr trung bình ma trận hiệp phương sai (covariance) phân phối Gaussian • r, g ảnh thật ảnh phát sinh • T r tổng tất phần tử đường chéo FID nhỏ nghĩa ảnh phát sinh có chất lượng tốt(quality) đa dạng(diversity) có nhiều tương tự ảnh phát sinh ảnh thật Có thể nói FID thể tốt trường hợp nhiễu so với IS Vì FID đo đạt tốt tính đa dạng ảnh Ngồi FID cịn cho thấy giá trị bias cao variance thấp nhạy cảm với tượng mode collapse 5.3 Kết mơ hình phát sinh ● Khi tiến hành huấn luyện đánh giá hai mơ hình StackGAN-v2, AttnGAN tập liệu Fashion-gen đồ án tiến hành so sánh hai mơ hình dựa vào hai độ đo phổ biến cho toán phát sinh ảnh IS FID kết thể bảng 5.2 Bảng 5.2: Bảng kết so sánh StackGAN-v2 AttnGAN dựa vào phép đo IS, FID tập liệu Fashion-Gen ● Dựa vào bảng kết so sánh, ta thấy xét điểm IS StackGAN-v2 có xu hướng tốt so với AttnGAN đạt điểm số 3.383, điều cho thấy ảnh tạo StackGAN-v2 thỏa mãn tiêu chuẩn chất lượng ảnh tạo nhận dạng đối tượng tạo có khác biệt Tuy nhiên, xét độ đo FID AttnGAN lại có xu hướng tốt so với StackGAN-v2 với FID 30.97 điều cho thấy ảnh tạo AttnGAN có chất lượng tốt gần giống với tập liệu huấn luyện Nếu xét tổng thể, dựa kết thực tế phát sinh ảnh (hình 5.2, 5.3) AttnGAN dường thể cách chi tiết thuộc tính quần áo so với StackGAN-v2, ngồi loại quần áo tạo AttnGAN xác so với StackGAN-v2 Bởi độ đo IS khơng thể tính liên hệ mẫu thuộc loại quần áo nên điểm số IS StackGAN-v2 không bị ảnh hưởng Mặc dù vậy, AttnGAN chưa giải vấn đề mode collapse nhiều mẫu phát sinh trùng lặp 44 Hình 5.4: Kết so sánh ảnh StackGANv2 AttnGAN tạo với quần giày 45 Hình 5.5: Kết so sánh ảnh StackGANv2 AttnGAN tạo với loại áo thun áo khoác 46 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 Kết Luận Đề tài đồ án thực số cơng việc sau: ● Tìm hiểu mơ hình phát sinh ảnh từ câu mô tả ● Xây dựng mơ hình phát sinh ảnh thời trang từ câu mơ tả dựa cơng trình nghiên cứu tìm hiểu với hai phương pháp phổ biến StackGAN-v2 AttnGAN ● Tiến hành thực nghiệm liệu Fashion-gen từ có so sánh để thấy độ đo IS StackGAN-v2 cho kết tốt so với AttnGAN xét đa dạng ảnh phát sinh Tuy nhiên, xét độ giống ảnh phát sinh ảnh thật AttnGAN cho kết khả quan so với StackGAN-v2 Tuy nhiên, vấn đề mode collapse chưa khắc phục mơ hình AttnGAN tập liệu Fashion-gen 6.2 Hướng phát triển Một số hạn chế đồ án: ● Mặc dù hình ảnh tạo với phân giải cao song vài chi tiết chưa tạo rõ ràng, cụ thể tương lai mơ hình cải thiện vấn đề ● Mơ hình chưa tạo hình ảnh cụ thể, phức tạp ● Vấn đề mode collapse chưa giải ● Từ hạn chế tại, đồ án hy vọng cải thiện mơ hình phát sinh ảnh thời trang từ câu mơ tả đầu vào tương lai 47 Tài liệu tham khảo [1] Shane Barratt and Rishi Sharma A note on the inception score ArXiv,abs/1801.01973, 2018 [2] Emily L Denton, Soumith Chintala, Arthur Szlam, and Robert Fergus Deep generative image models using a laplacian pyramid of adversarial networks CoRR,abs/1506.05751, 2015 [3] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Ben- gio Generative adversarial nets In Z Ghahramani, M Welling, C Cortes, N D Lawrence, and K Q Weinberger, editors, Ad- vances in Neural Information Processing Systems 27, pages 2672– 2680 Curran Associates, Inc., 2014 [4] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, Guănter Klambauer, and Sepp Hochreiter Gans trained by a two time-scale update rule converge to a nash equilibrium CoRR, abs/1706.08500, 2017 [5]N Rostam Zadeh, S Hosseini, T Bouquet, W Stokowiec, Y Zhang, C Jauvin, and C Pal Fashion-Gen: The Generative Fashion Dataset and Challenge ArXiv e-prints,June 2018 [6] Tim Salimans, Ian J Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen Improved techniques for training gans CoRR,abs/1606.03498, 2016 48 [7] Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, and Xiaodong He Attngan: Fine-grained text to image generation with attentional generative adversarial networks CoRR, abs/1711.10485, 2017 [8] Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaolei Huang, Xiaogang Wang, and Dimitris N Metaxas Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial net-works CoRR,abs/1612.03242, 2016 [9] Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, and Dimitris N Metaxas Stackgan++: Realistic image synthesis with stacked generative adversarial networks CoRR, abs/1710.10916, 2017 [10] Fashion-Gen: The Generative Fashion Dataset and Challengeby Negar Rostamzadeh, Seyedarian Hosseini, Thomas Boquet, Wojciech Stokowiec, Ying Zhang, Christian Jauvin, Chris Pal 49 ... Đại Học Sư Phạm Kỹ Thuật Khoa Đào Tạo Chất Lượng Cao Ngành Công Nghệ Thông Tin ĐỒ ÁN TỐT NGHIỆP ỨNG DỤNG HỌC MÁY CHO BÀI TOÁN PHÁT SINH ẢNH THỜI TRANG TỪ CÂU MÔ TẢ Sinh Viên Thực Hiện MSSV Sinh. .. đồ án sử dụng cho toán phát sinh ảnh thời trang? ??……………………………………………….28 xii 4.2 Mơ hình xấp xỉ phân phối hình ảnh? ??……………………………….31 4.3 Mơ hình AttnGAN đồ án sử dụng cho toán phát sinh ảnh thời trang? ??……………………………………………………... thực xử lý câu mơ tả dựa vào giải thuật Học máy từ phát sinh ảnh thời trang có đặc điểm gần giống với câu mơ tả đầu vào Hình 1.1: Mơ tả tốn phát sinh ảnh trang phục từ câu mơ tả 1.2.2 Phát biểu

Ngày đăng: 21/12/2021, 09:09

Tài liệu cùng người dùng

Tài liệu liên quan