(Đồ án tốt nghiệp) tìm hiểu bài toán phối trang phục dùng học sâu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỒ ÁN TỐT NGHIỆP NGÀNH CƠNG NGHỆ THƠNG TIN TÌM HIỂU BÀI TOÁN PHỐI TRANG PHỤC DÙNG HỌC SÂU GVHD:NGUYỄN THIÊN BẢO SVTH:HUỲNH DUY ANH MSSV:15110004 SVTH: NGUYÊÑ DANH NGHI MSSV:15110087 SKL007080 Tp Hồ Chí Minh, tháng 07/2020 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUÂṬ THÀNH PHỐ HỒ CHÍMINH KHOA ĐÀO TẠO CHẤT LƯƠNGG̣ CAO ĐỒ ÁN TỐT NGHIỆP TÌM HIỂU BÀI TOÁN GỢI Ý PHỐI TRANG PHỤC DÙNG HỌC SÂU SVTH 1: HUỲNH DUY ANH MSSV: 15110004 SVTH 2: NGUYỄN DANH NGHI MSSV: 15110087 Khóa: 2015 Ngành: CƠNG NGHỆ THƠNG TIN GVHD: TS NGUYỄN THIÊN BẢO Tp Hồ ChíMinh, tháng năm 2020 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc *** Tp Hồ Chí Minh, ngày 01 tháng 07 năm 2020 NHIỆM VỤ ĐỒÁN TỐT NGHI ÊPG̣ Họ tên sinh viên: Huỳnh Duy Anh MSSV: 15110004 Họ tên sinh viên: Nguyêñ Danh Nghi MSSV: 15110087 Ngành: Công Nghệ Thông Tin Lớp: 15110CL2 Giảng viên hướng dẫn: Nguyễn Thiên Bảo ĐT: 0927613761 Ngày nhận đề tài: 24/02/2020 Ngày nộp đề tài: 01/07/2020 Tên đề tài: Tìm hiểu toán phối trang phục dùng học sâu Các số liêu,,̣ tài liêụ ban đầu: - Bài báo: Yujie Lin, Pengjie Ren, Zhumin Chen, Zhaochun Ren, Jun Ma, and Maarten de Rijke, 2018 Explainable Fashion Recommendation with Joint Outfit Matching and Comment Generation (2018) - Data: Tâp,̣ hình ảnh vàdataset Jay Ren fashion recommendation tkde2018 code dataset Nội dung thưc,̣ đề tài: - Tìm hiểu vềhoc,̣ sâu - Tìm hiểu vềmang,̣ nơ ron tich́ chập (CNN) - Tìm hiểu chếmutual attention - Tìm hiểu toán phối trang phục dùng Convolutional Neural Network (CNN) Sản phẩm: Source code giải thuâṭcho toán vềphoi trang phuc,̣ TRƯỞNG NGÀNH GIẢNG VIÊN HƯỚNG DẪN Nguyễn Đăng Quang TS Nguyễn Thiên Bảo i CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tư – Hạnh phúc ******* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Họ tên sinh viên: Huỳnh Duy Anh MSSV: 15110004 MSSV: 15110087 Họ tên sinh viên: Nguyễn Danh Nghi Ngành: Công nghệ thông tin Tên đề tài: Tìm hiểu tốn phối trang phục dùng học sâu Họ tên giáo viên hướng dẫn: Nguyễn Thiên Bảo NHẬN XÉT Về nội dung đề tài & khối lượng thưc hiện: Nhóm hồn thành mục tiêu đề ban đầu đề tài, khoảng thời gian xác định + Về lý thuyết:  Nắm đươc kiến thức học máy, học sâu CNN, RNN, chế Attention  Tìm hiểu tốn gợi ý phối trang phục dùng học sâu  Sinh viên nắm kiến trúc mơ hình gợi ý trang phục dùng học sâu từ áp dụng vào thực tế + Về thực hành: Sinh viên chạy demo gợi ý trang phục dùng CNN với chế Attention tập dataset FashionCV Ưu điểm:  Sinh viên chịu khó tìm hiểu, cố gắng tìm kiếm tài liệu liên quan đề tài  Sinh viên thực tốt công việc deadline  Thái độ làm việc: làm việc nghiêm túc, chủ động liên hệ với GVHD Khuyết điểm:  Hạn chế nguồn lực phần cứng  Chưa có kinh nghiệm chạy deep learning môi trường google colab  Chưa đưa độ đo đánh giá cuối chạy thực nghiệm  Kết mặt trực quan cần cải thiện thêm ii Đềnghị cho bảo vệ hay không? Đánh giá loại: Khá Điểm: (Bằng chữ: ) Tp Hồ Chí Minh, ngày tháng năm 2020 Giảng viên hướng dẫn (Ký & ghi rõ họ tên) ̃ TS NGUYÊN THIÊN BẢO iii CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tư G̣do – Hạnh phúc ******* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Họ tên sinh viên: Huỳnh Duy Anh MSSV: 15110004 MSSV: 15110087 Họ tên sinh viên: Nguyễn Danh Nghi Ngành: Công nghệ thông tin Tên đề tài: Tìm hiểu tốn phối trang phục dùng học sâu Họ vàtên Giáo viên phản biện: NHẬN XÉT Về nội dung đề tài & khối lượng thưc hiện: Ưu điểm: Khuyết điểm: iv Đánh giá loại: Điểm: (Bằng chữ: ) Tp Hồ Chí Minh, ngày tháng năm 2020 Giảng viên phản biện (Ký & ghi rõ họ tên) v LỜI CẢM ƠN Nhóm chúng em xin chân thành cảm ơn thầy Nguyễn Thiên Bảo hướng dẫn, giảng giải, Võ Hồng Anh, anh/chị/bạn khóa trước nhiệt tình giúp đỡ, đưa ý kiến hữu ích để chúng em hoàn thành tốt báo cáo Em xin chân thành cảm ơn quý thầy cô khoa Công nghệ thông tin trường Đại học Sư phạm Kỹ thuật thành phố Hồ Chí Minh tận tình truyền đạt kiến thức năm em học tập trường Với vốn kiến thức tiếp thu q trình học tập khơng tảng cho q trình nghiên cứu khóa luận mà hành trang để em bước vào đời cách vững Với vốn kiến thức hạn hẹp thời gian thực có hạn nên em khơng tránh khỏi thiếu sót Rất mong nhận ý kiến đóng góp q thầy để em tiếp tục phát triển luận văn lên thành đồ án tốt nghiệp Xin chân thành cảm ơn! vi LỜI MỞ ĐẦU Có nhìn tổng quan AI, Machine Learning Tìm hiểu sâu kiến thức cơng trình nghiên cứu để ứng dụng lĩnh vực vào thực tế, đặc biệt Deep Learning Từ sở lý thuyết kiến thức từ cơng trình nghiên cứu cơng bố mà nhóm tìm hiểu, từ nhóm muốn thấy lợi ích việc ứng dụng AI, Machine Learning vào thực tế nhằm đem đến lợi ích nhiều lĩnh vực quan trọng kinh tế, giáo dục, y tế, quốc phòng, xã hội… vii MỤC LỤC ̀ ́ NHIỆM VỤ ĐÔ ÁN TÔT NGHIÊP,̣ .i PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN ii PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN iv LỜI CẢM ƠN vi LỜI MỞ ĐẦU vii MỤC LỤC viii DANH MỤC CÁC CHỮ VIẾT TẮT x DANH MỤC CÁC BẢNG BIỂU xi DANH MỤC HÌNH ẢNH xii CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 13 CHƯƠNG 2: BÀI TOÁN GỢI Ý TRANG PHỤC 16 CHƯƠNG 3: TỔNG QUAN VỀ HỌC SÂU 16 3.1 Deep Learning 18 3.2 Convolutional Neural Network 18 3.3 Recurrent Neural Network 22 CHƯƠNG 4: GIẢI PHÁP ĐỀ XUẤT CHO BÀI TOÁN GỢI Ý TRANG PHỤC .24 4.1 Tổng quan 24 4.2 Bộ mã hóa hình ảnh phần phần 26 4.3 Matching Decoder 30 4.4 Hàm mát 31 CHƯƠNG 5: CÀI ĐẶT THỬ NGHIỆM 32 5.1 Ứng dụng vào việc phân vùng đối tượng ảnh thời trang 32 5.2 Tập liệu 32 5.3 Môi trường 32 5.4 Kết 33 CHƯƠNG 6: KẾT LUẬN 38 viii tính hình ảnh từ tất khu vực địa phương để có tính hình ảnh tổng qt g ∈ ℝ biểu thức 3: g =1 Sau đó, khu vực địa phương thứ i , tính trọng số ý , với biểu thức [17] Trong biểu thức 5: Sau đó, chúng tơi tính tổng trọng số =1 , để có attentive global (6) Tương tự, tính tốn trọng số ý từ lên có attentive global visual features g : g Sau đó, chiếu ℝ : ReLU dựa tư tưởng việc loại bỏ bớt tham số khơng quan trọng q trình training điều cho mạng trở nên nhẹ việc training nhanh chóng có hiệu Hàm thực việc rât đơn giản 28 sau: giữ nguyên giá trị đầu vào lớn 0, nếu giá trị đầu vào nhỏ coi =(), Cuối cùng, dựa hiểu biết sâu sắc từ phương pháp dựa ́u tố ma trận [19,20,3], × × chúng tơi tìm hiểu yếu tố tiềm ẩn top T ∈ ℝ yếu tố tiềm ẩn bottom B ∈ ℝ thơng qua chúng tơi kết hợp thơng tin lọc cộng tác để bổ sung cho tính trực quan Cụ thể, với đỉnh t đáy b, có yếu tố tiềm ẩn : yếu tố tiềm ẩn để có biểu diễn tiềm ẩn Khivà 29 4.3 Matching Decoder Như hiển thị Hình 4.1(b), sử dụng mạng thần kinh nhiều lớp để tính xác suất khớp t b Cho đại diện tiềm ẩn tính biểu thức 10, đầu tiên ánh xạ vào khơng gian chung: ℎ ∈ Sau đó, chúng tơi ước tính xác suất khớp sau: ∈ ứng với p( = 1)) = (tương ứng với p( = 0)) t b khớp = biểu thị t b không khớp Cuối cùng, chúng tơi đề xuất đỉnh đáy theo p( ) 30 4.4 Hàm mát Sử dụng negative log-likelihood (NIL) cho tác vụ khớp Đối với tác vụ khớp, xác định hàm mát sau: + = {( dương, cặp top bottom trích xuất từ kết hợp trang phục Polyvore − + = {( , ) | ∈ , ∈ ∧ ( , ) ∉ } tập hợp kết hợp âm, hình thành đỉnh đáy lấy mẫu ngẫu nhiên Ở đây, kết hợp dương, p ( ) có nghĩa xác suất p ( = 1)., tức là, cặp cho khớp; cặp âm, p ( ) có nghĩa xác suất p ( = 0)., tức là, cặp cho không khớp 31 CHƯƠNG 5: CÀI ĐẶT THỬ NGHIỆM 5.1 Ứng dụng vào việc phân vùng đối tượng ảnh thời trang Trong báo cáo mơ hình CNN trích xuất đặc điểm hình ảnh trang phục, sau chuyển đổi thành biểu diễn tiềm ẩn dùng Matching Decoder dự đoán số phù hợp Đầu vào ảnh thời trang, đầu ảnh thời trang đầu vào đối tượng ảnh có đa giác bao xung quanh 5.2 Tập liệu FashionVC: 25,000 hinh̀ ảnh trang phục thu thập Polyvore: - Hình màu (RGB), 150x150 - Top: 14867; Bottom: 13661 5.3 Môi trường  Thưc,̣ nghiệm Google Colaboratory: - Think iPython + Google Drive - Notebook-based với backend Python  Chip xử lý: Intel(R) Xeon(R) CPU @ 2.30GHz  RAM: 25 GB  Disk: 140 GB  GPU: Nvidia Tesla P1000 16GB 32 5.4 Kết (Khi cho top vào ta nhận bottom phù hợp với số điểm tương ứng.)  Với tập train 400 hình: Input (Top) 0.6513389 Id: 197603446 0.6276382 Id: 120648842 Id: 177841780 0.57148856 Id: 119281562 0.5637948 Id: 177304182 Bảng 5.1: Kết train với tập gồm 400 hình ảnh thời trang 33  Với tập train 5000 hình: Input (Top) 0.68861955 Id: 186138466 0.6823128 Id: 177304182 Id: 177841780 0.6777388 Id: 197142144 0.6675345 Id: 148069634 Bảng 5.2: Kết train với tập gồm 5000 hình ảnh thời trang 34  Với tập train 10000 hình: Input (Top) 0.726945 Id: 172915735 0.7176412 Id: 200359037 Id: 177841780 0.7053268 Id: 124605419 0.7044494 Id: 177304182 Bảng 5.3: Kết train với tập gồm 10000 hình ảnh thời trang 35  Với tập train 18000 hình: Top 0.694852 Id: 179538691 0.689612 Id: 120648842 Id: 177841780 0.68788755 Id: 159267861 0.6821649 Id: 187130785 Bảng 5.4: Kết train với tập gồm 18000 hình ảnh thời trang 36  Với tập train 25000 hình Input (Top) 0.81329304 Id: 174494652 0.7958464 Id: 18913740 Id: 177841780 0.78493565 Id: 174193990 0.7541059 Id: 179538691 Bảng 5.5: Kết train với tập gồm 25000 hình ảnh thời trang 37 CHƯƠNG 6: KẾT LUẬN 6.1 Tổng kết Báo cáo nghiên cứu nhiệm vụ gợi ý trang phục mơ hình CNN với chế ý lẫn để trích xuất đặc điểm hình ảnh trang phục Sử dụng liệu fashionCV để chứng minh sự cải tiến đáng kể mặt MAP, MRR AUC Điều chế ý lẫn hữu ích cho việc gợi ý trang phục 6.2 Ưu điểm, nhược điểm  Ưu điểm: Phương pháp đề xuất chứng minh có hiệu thử nghiệm liệu có liệu quy mơ lớn xây dựng có mục đích  Nhược điểm: Mơ hình cịn hạn chế sự đa dạng mặt hàng thời trang phụ kiện kính, mũ, giày, … 6.3 Công việc tương lai Trong tương lai, chúng em hi vọng khám phá thêm nhiều sự kết hợp thời trang Kết hợp nhiều mơ hình khác để làm việc gợi ý trang phục ngày đơn giản dễ dàng 38 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Bitcoin Vietnam News (12/2019) “Deep Learning gì? Tiềm Deep Learning” https://bitcoinvietnamnews.com/deep-learning-la-gi [2] Deep Learning (3/2019) “Convolutional neural network” https://nttuan8.com/bai-6-convolutional-neural-network/ [3] Do Duong (2018) “ Recurrent Neural Network” https://viblo.asia/p/recurrent-neural-networkphan-1-tong-quan-va-ung-dungjvElaB4m5kw [4] “Mạng nơ-ron tích chập - Convolutional Neural Network (CNN)” https://dlapplications.github.io/2018-07-17-cnn-introduction/ [5] “Nền tảng deep learning - Multi-layer Perceptron” (15/6/2018) https://dlapplications.github.io/2018-06-15-MLP/ [6] https://mc.ai/understanding-of-recurrent-neural-networks-lstm-gru/ Tiếng Anh [1] Tomoharu Iwata, Shinji Watanabe, and Hiroshi Sawada, “Fashion coordinates recommender system using photographs from fashion magazines,” in International Joint Conference on Artificial Intelligence, 2011, pp 2262–2267 https://aclweb.org/anthology/D16-1244 [2] Si Liu, Jiashi Feng, Zheng Song, Tianzhu Zhang, Hanqing Lu, Changsheng Xu, and Shuicheng Yan, “Hi, magic closet, tell me what to wear!” in ACM Multimedia, 2012, pp 619–628 [3] Ruslan Salakhutdinov and Andriy Mnih, “Probabilistic matrix factorization,” in Annual Conference on Neural Information Processing Systems, 2007, pp 1257–1264 39 [4] Xuemeng Song, Fuli Feng, Jinhuan Liu, Zekun Li, Liqiang Nie, and Jun Ma, “Neurostylist: Neural compatibility modeling for clothing matching,” in ACM Multimedia, 2017, pp 753–761 [5] Yang Hu, Xi Yi, and Larry S Davis, “Collaborative fashion recommendation: A functional tensor factorization approach,” in ACM Multimedia, 2015, pp 129–138 [6] Steffen Rendle, Christoph Freudenthaler, Zeno Gantner, and Lars Schmidt-Thieme, “Bpr: Bayesian personalized ranking from implicit feedback,” in Conference on Uncertainty in Artificial Intelligence, 2009, pp 452–461 [7] Vignesh Jagadeesh, Robinson Piramuthu, Anurag Bhardwaj, Wei Di, and Neel Sundaresan, “Large scale visual recommendations from street fashion images,” in ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 2014, pp 1925–1934 [8] Julian McAuley, Christopher Targett, Qinfeng Shi, and Anton van den Hengel, “Image-based recommendations on styles and substitutes,” in International Conference on Research and Development in Information Retrieval, 2015, pp 43–52 [9] Ruining He and Julian McAuley, “VBPR: Visual bayesian personalized ranking from implicit feedback,” in AAAI Conference on Artificial Intelligence, 2016, pp 144–150 [10] Yuncheng Li, Liangliang Cao, Jiang Zhu, and Jiebo Luo, “Mining fashion outfit composition using an endto-end deep learning approach on set data,” in IEEE Transactions on Multimedia, vol 19 IEEE, 2017, pp 1946–1955 [11] Wang Cheng Kang, Chen Fang, Zhaowen Wang, and Julian McAuley, “Visually- aware fashion recommendation and design with generative image models,” in [12] Xintong Han, Zuxuan Wu, Yu-Gang Jiang, and Larry S Davis, “Learning fashion compatibility with bidirectional lstms,” in ACM Multimedia, 2017, pp 1078–1086 40 [13] Xuemeng Song, Fuli Feng, Xianjing Han, Xin Yang, Wei Liu, and Liqiang Nie, “Neural compatibility modeling with attentive knowledge distillation,” in International Conference on Research on Development in Information Retrieval (SIGIR’18), 2018 [14] Yann LeCun, L´eon Bottou, Yoshua Bengio, and Patrick Haffner, “Gradient-based learning applied to document recognition,” in Proceedings of the IEEE, vol 86, no 11 IEEE, 1998, pp 2278–2324 [15] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun, “Deep residual learning for image recognition,” in IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp 770–778 [16] Gao Huang, Zhuang Liu, Laurens van der Maaten, and Kilian Q Weinberger, “Densely connected convolutional networks,” in IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp 4700–4708 [17] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio, “Neural machine translation by jointly learning to align and translate,” in International Conference on [18] Minh Thang Luong, Hieu Pham, and Christopher D Manning, “Effective approaches to attention-based neural machine translation,” in Empirical Methods on Natural Language Processing, 2015, pp 1412–1421 [19] Yehuda Koren, Robert Bell, and Chris Volinsky, “Matrix factorization techniques for recommender systems,” in IEEE Computer Society Press, vol 42, no IEEE, 2009, pp 30–37 [20] Daniel D Lee and H Sebastian Seung, “Algorithms for non-negative matrix factorization,” in Annual Conference on Neural Information Processing Systems, 2000, pp 535–541 41 ... Nắm đươc kiến thức học máy, học sâu CNN, RNN, chế Attention  Tìm hiểu toán gợi ý phối trang phục dùng học sâu  Sinh viên nắm kiến trúc mô hình gợi ý trang phục dùng học sâu từ áp dụng vào... dataset Nội dung thưc,̣ đề tài: - Tìm hiểu vềhoc,̣ sâu - Tìm hiểu vềmang,̣ nơ ron tich́ chập (CNN) - Tìm hiểu chếmutual attention - Tìm hiểu tốn phối trang phục dùng Convolutional Neural Network... Trang phục từ Chictopia Người dùng chia sẻ rộng rãi thành phần trang phục họ với công chúng 13 Nhiệm vụ cần làm đề xuất mơ hình gợi ý phối trang phục dùng học sâu Bài toán đưa phần (ví dụ: áo sơ

Tiêu đề	Tìm Hiểu Bài Toán Phối Trang Phục Dùng Học Sâu
Tác giả	Huỳnh Duy Anh, Nguyễn Danh Nghi
Người hướng dẫn	TS. Nguyễn Thiên Bảo
Trường học	Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Đồ án tốt nghiệp
Năm xuất bản	2020
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	44
Dung lượng	1,39 MB