1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(Đồ án tốt nghiệp) tìm hiểu bài toán phối trang phục dùng học sâu

44 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỒ ÁN TỐT NGHIỆP NGÀNH CƠNG NGHỆ THƠNG TIN TÌM HIỂU BÀI TOÁN PHỐI TRANG PHỤC DÙNG HỌC SÂU GVHD:NGUYỄN THIÊN BẢO SVTH:HUỲNH DUY ANH MSSV:15110004 SVTH: NGUYÊÑ DANH NGHI MSSV:15110087 SKL007080 Tp Hồ Chí Minh, tháng 07/2020 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUÂṬ THÀNH PHỐ HỒ CHÍMINH KHOA ĐÀO TẠO CHẤT LƯƠNGG̣ CAO ĐỒ ÁN TỐT NGHIỆP TÌM HIỂU BÀI TOÁN GỢI Ý PHỐI TRANG PHỤC DÙNG HỌC SÂU SVTH 1: HUỲNH DUY ANH MSSV: 15110004 SVTH 2: NGUYỄN DANH NGHI MSSV: 15110087 Khóa: 2015 Ngành: CƠNG NGHỆ THƠNG TIN GVHD: TS NGUYỄN THIÊN BẢO Tp Hồ ChíMinh, tháng năm 2020 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc *** Tp Hồ Chí Minh, ngày 01 tháng 07 năm 2020 NHIỆM VỤ ĐỒÁN TỐT NGHI ÊPG̣ Họ tên sinh viên: Huỳnh Duy Anh MSSV: 15110004 Họ tên sinh viên: Nguyêñ Danh Nghi MSSV: 15110087 Ngành: Công Nghệ Thông Tin Lớp: 15110CL2 Giảng viên hướng dẫn: Nguyễn Thiên Bảo ĐT: 0927613761 Ngày nhận đề tài: 24/02/2020 Ngày nộp đề tài: 01/07/2020 Tên đề tài: Tìm hiểu toán phối trang phục dùng học sâu Các số liêu,,̣ tài liêụ ban đầu: - Bài báo: Yujie Lin, Pengjie Ren, Zhumin Chen, Zhaochun Ren, Jun Ma, and Maarten de Rijke, 2018 Explainable Fashion Recommendation with Joint Outfit Matching and Comment Generation (2018) - Data: Tâp,̣ hình ảnh vàdataset Jay Ren fashion recommendation tkde2018 code dataset Nội dung thưc,̣ đề tài: - Tìm hiểu vềhoc,̣ sâu - Tìm hiểu vềmang,̣ nơ ron tich́ chập (CNN) - Tìm hiểu chếmutual attention - Tìm hiểu toán phối trang phục dùng Convolutional Neural Network (CNN) Sản phẩm: Source code giải thuâṭcho toán vềphoi trang phuc,̣ TRƯỞNG NGÀNH GIẢNG VIÊN HƯỚNG DẪN Nguyễn Đăng Quang TS Nguyễn Thiên Bảo i CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tư – Hạnh phúc ******* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Họ tên sinh viên: Huỳnh Duy Anh MSSV: 15110004 MSSV: 15110087 Họ tên sinh viên: Nguyễn Danh Nghi Ngành: Công nghệ thông tin Tên đề tài: Tìm hiểu tốn phối trang phục dùng học sâu Họ tên giáo viên hướng dẫn: Nguyễn Thiên Bảo NHẬN XÉT Về nội dung đề tài & khối lượng thưc hiện: Nhóm hồn thành mục tiêu đề ban đầu đề tài, khoảng thời gian xác định + Về lý thuyết:  Nắm đươc kiến thức học máy, học sâu CNN, RNN, chế Attention  Tìm hiểu tốn gợi ý phối trang phục dùng học sâu  Sinh viên nắm kiến trúc mơ hình gợi ý trang phục dùng học sâu từ áp dụng vào thực tế + Về thực hành: Sinh viên chạy demo gợi ý trang phục dùng CNN với chế Attention tập dataset FashionCV Ưu điểm:  Sinh viên chịu khó tìm hiểu, cố gắng tìm kiếm tài liệu liên quan đề tài  Sinh viên thực tốt công việc deadline  Thái độ làm việc: làm việc nghiêm túc, chủ động liên hệ với GVHD Khuyết điểm:  Hạn chế nguồn lực phần cứng  Chưa có kinh nghiệm chạy deep learning môi trường google colab  Chưa đưa độ đo đánh giá cuối chạy thực nghiệm  Kết mặt trực quan cần cải thiện thêm ii Đềnghị cho bảo vệ hay không? Đánh giá loại: Khá Điểm: (Bằng chữ: ) Tp Hồ Chí Minh, ngày tháng năm 2020 Giảng viên hướng dẫn (Ký & ghi rõ họ tên) ̃ TS NGUYÊN THIÊN BẢO iii CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tư G̣do – Hạnh phúc ******* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Họ tên sinh viên: Huỳnh Duy Anh MSSV: 15110004 MSSV: 15110087 Họ tên sinh viên: Nguyễn Danh Nghi Ngành: Công nghệ thông tin Tên đề tài: Tìm hiểu tốn phối trang phục dùng học sâu Họ vàtên Giáo viên phản biện: NHẬN XÉT Về nội dung đề tài & khối lượng thưc hiện: Ưu điểm: Khuyết điểm: iv Đánh giá loại: Điểm: (Bằng chữ: ) Tp Hồ Chí Minh, ngày tháng năm 2020 Giảng viên phản biện (Ký & ghi rõ họ tên) v LỜI CẢM ƠN Nhóm chúng em xin chân thành cảm ơn thầy Nguyễn Thiên Bảo hướng dẫn, giảng giải, Võ Hồng Anh, anh/chị/bạn khóa trước nhiệt tình giúp đỡ, đưa ý kiến hữu ích để chúng em hoàn thành tốt báo cáo Em xin chân thành cảm ơn quý thầy cô khoa Công nghệ thông tin trường Đại học Sư phạm Kỹ thuật thành phố Hồ Chí Minh tận tình truyền đạt kiến thức năm em học tập trường Với vốn kiến thức tiếp thu q trình học tập khơng tảng cho q trình nghiên cứu khóa luận mà hành trang để em bước vào đời cách vững Với vốn kiến thức hạn hẹp thời gian thực có hạn nên em khơng tránh khỏi thiếu sót Rất mong nhận ý kiến đóng góp q thầy để em tiếp tục phát triển luận văn lên thành đồ án tốt nghiệp Xin chân thành cảm ơn! vi LỜI MỞ ĐẦU Có nhìn tổng quan AI, Machine Learning Tìm hiểu sâu kiến thức cơng trình nghiên cứu để ứng dụng lĩnh vực vào thực tế, đặc biệt Deep Learning Từ sở lý thuyết kiến thức từ cơng trình nghiên cứu cơng bố mà nhóm tìm hiểu, từ nhóm muốn thấy lợi ích việc ứng dụng AI, Machine Learning vào thực tế nhằm đem đến lợi ích nhiều lĩnh vực quan trọng kinh tế, giáo dục, y tế, quốc phòng, xã hội… vii MỤC LỤC ̀ ́ NHIỆM VỤ ĐÔ ÁN TÔT NGHIÊP,̣ .i PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN ii PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN iv LỜI CẢM ƠN vi LỜI MỞ ĐẦU vii MỤC LỤC viii DANH MỤC CÁC CHỮ VIẾT TẮT x DANH MỤC CÁC BẢNG BIỂU xi DANH MỤC HÌNH ẢNH xii CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 13 CHƯƠNG 2: BÀI TOÁN GỢI Ý TRANG PHỤC 16 CHƯƠNG 3: TỔNG QUAN VỀ HỌC SÂU 16 3.1 Deep Learning 18 3.2 Convolutional Neural Network 18 3.3 Recurrent Neural Network 22 CHƯƠNG 4: GIẢI PHÁP ĐỀ XUẤT CHO BÀI TOÁN GỢI Ý TRANG PHỤC .24 4.1 Tổng quan 24 4.2 Bộ mã hóa hình ảnh phần phần 26 4.3 Matching Decoder 30 4.4 Hàm mát 31 CHƯƠNG 5: CÀI ĐẶT THỬ NGHIỆM 32 5.1 Ứng dụng vào việc phân vùng đối tượng ảnh thời trang 32 5.2 Tập liệu 32 5.3 Môi trường 32 5.4 Kết 33 CHƯƠNG 6: KẾT LUẬN 38 viii tính hình ảnh từ tất khu vực địa phương để có tính hình ảnh tổng qt g ∈ ℝ biểu thức 3: g =1 Sau đó, khu vực địa phương thứ i , tính trọng số ý , với biểu thức [17] Trong biểu thức 5: Sau đó, chúng tơi tính tổng trọng số =1 , để có attentive global (6) Tương tự, tính tốn trọng số ý từ lên có attentive global visual features g : g Sau đó, chiếu ℝ : ReLU dựa tư tưởng việc loại bỏ bớt tham số khơng quan trọng q trình training điều cho mạng trở nên nhẹ việc training nhanh chóng có hiệu Hàm thực việc rât đơn giản 28 sau: giữ nguyên giá trị đầu vào lớn 0, nếu giá trị đầu vào nhỏ coi =(), Cuối cùng, dựa hiểu biết sâu sắc từ phương pháp dựa ́u tố ma trận [19,20,3], × × chúng tơi tìm hiểu yếu tố tiềm ẩn top T ∈ ℝ yếu tố tiềm ẩn bottom B ∈ ℝ thơng qua chúng tơi kết hợp thơng tin lọc cộng tác để bổ sung cho tính trực quan Cụ thể, với đỉnh t đáy b, có yếu tố tiềm ẩn : yếu tố tiềm ẩn để có biểu diễn tiềm ẩn Khivà 29 4.3 Matching Decoder Như hiển thị Hình 4.1(b), sử dụng mạng thần kinh nhiều lớp để tính xác suất khớp t b Cho đại diện tiềm ẩn tính biểu thức 10, đầu tiên ánh xạ vào khơng gian chung: ℎ ∈ Sau đó, chúng tơi ước tính xác suất khớp sau: ∈ ứng với p( = 1)) = (tương ứng với p( = 0)) t b khớp = biểu thị t b không khớp Cuối cùng, chúng tơi đề xuất đỉnh đáy theo p( ) 30 4.4 Hàm mát Sử dụng negative log-likelihood (NIL) cho tác vụ khớp Đối với tác vụ khớp, xác định hàm mát sau: + = {( dương, cặp top bottom trích xuất từ kết hợp trang phục Polyvore − + = {( , ) | ∈ , ∈ ∧ ( , ) ∉ } tập hợp kết hợp âm, hình thành đỉnh đáy lấy mẫu ngẫu nhiên Ở đây, kết hợp dương, p ( ) có nghĩa xác suất p ( = 1)., tức là, cặp cho khớp; cặp âm, p ( ) có nghĩa xác suất p ( = 0)., tức là, cặp cho không khớp 31 CHƯƠNG 5: CÀI ĐẶT THỬ NGHIỆM 5.1 Ứng dụng vào việc phân vùng đối tượng ảnh thời trang Trong báo cáo mơ hình CNN trích xuất đặc điểm hình ảnh trang phục, sau chuyển đổi thành biểu diễn tiềm ẩn dùng Matching Decoder dự đoán số phù hợp Đầu vào ảnh thời trang, đầu ảnh thời trang đầu vào đối tượng ảnh có đa giác bao xung quanh 5.2 Tập liệu FashionVC: 25,000 hinh̀ ảnh trang phục thu thập Polyvore: - Hình màu (RGB), 150x150 - Top: 14867; Bottom: 13661 5.3 Môi trường  Thưc,̣ nghiệm Google Colaboratory: - Think iPython + Google Drive - Notebook-based với backend Python  Chip xử lý: Intel(R) Xeon(R) CPU @ 2.30GHz  RAM: 25 GB  Disk: 140 GB  GPU: Nvidia Tesla P1000 16GB 32 5.4 Kết (Khi cho top vào ta nhận bottom phù hợp với số điểm tương ứng.)  Với tập train 400 hình: Input (Top) 0.6513389 Id: 197603446 0.6276382 Id: 120648842 Id: 177841780 0.57148856 Id: 119281562 0.5637948 Id: 177304182 Bảng 5.1: Kết train với tập gồm 400 hình ảnh thời trang 33  Với tập train 5000 hình: Input (Top) 0.68861955 Id: 186138466 0.6823128 Id: 177304182 Id: 177841780 0.6777388 Id: 197142144 0.6675345 Id: 148069634 Bảng 5.2: Kết train với tập gồm 5000 hình ảnh thời trang 34  Với tập train 10000 hình: Input (Top) 0.726945 Id: 172915735 0.7176412 Id: 200359037 Id: 177841780 0.7053268 Id: 124605419 0.7044494 Id: 177304182 Bảng 5.3: Kết train với tập gồm 10000 hình ảnh thời trang 35  Với tập train 18000 hình: Top 0.694852 Id: 179538691 0.689612 Id: 120648842 Id: 177841780 0.68788755 Id: 159267861 0.6821649 Id: 187130785 Bảng 5.4: Kết train với tập gồm 18000 hình ảnh thời trang 36  Với tập train 25000 hình Input (Top) 0.81329304 Id: 174494652 0.7958464 Id: 18913740 Id: 177841780 0.78493565 Id: 174193990 0.7541059 Id: 179538691 Bảng 5.5: Kết train với tập gồm 25000 hình ảnh thời trang 37 CHƯƠNG 6: KẾT LUẬN 6.1 Tổng kết Báo cáo nghiên cứu nhiệm vụ gợi ý trang phục mơ hình CNN với chế ý lẫn để trích xuất đặc điểm hình ảnh trang phục Sử dụng liệu fashionCV để chứng minh sự cải tiến đáng kể mặt MAP, MRR AUC Điều chế ý lẫn hữu ích cho việc gợi ý trang phục 6.2 Ưu điểm, nhược điểm  Ưu điểm: Phương pháp đề xuất chứng minh có hiệu thử nghiệm liệu có liệu quy mơ lớn xây dựng có mục đích  Nhược điểm: Mơ hình cịn hạn chế sự đa dạng mặt hàng thời trang phụ kiện kính, mũ, giày, … 6.3 Công việc tương lai Trong tương lai, chúng em hi vọng khám phá thêm nhiều sự kết hợp thời trang Kết hợp nhiều mơ hình khác để làm việc gợi ý trang phục ngày đơn giản dễ dàng 38 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Bitcoin Vietnam News (12/2019) “Deep Learning gì? Tiềm Deep Learning” https://bitcoinvietnamnews.com/deep-learning-la-gi [2] Deep Learning (3/2019) “Convolutional neural network” https://nttuan8.com/bai-6-convolutional-neural-network/ [3] Do Duong (2018) “ Recurrent Neural Network” https://viblo.asia/p/recurrent-neural-networkphan-1-tong-quan-va-ung-dungjvElaB4m5kw [4] “Mạng nơ-ron tích chập - Convolutional Neural Network (CNN)” https://dlapplications.github.io/2018-07-17-cnn-introduction/ [5] “Nền tảng deep learning - Multi-layer Perceptron” (15/6/2018) https://dlapplications.github.io/2018-06-15-MLP/ [6] https://mc.ai/understanding-of-recurrent-neural-networks-lstm-gru/ Tiếng Anh [1] Tomoharu Iwata, Shinji Watanabe, and Hiroshi Sawada, “Fashion coordinates recommender system using photographs from fashion magazines,” in International Joint Conference on Artificial Intelligence, 2011, pp 2262–2267 https://aclweb.org/anthology/D16-1244 [2] Si Liu, Jiashi Feng, Zheng Song, Tianzhu Zhang, Hanqing Lu, Changsheng Xu, and Shuicheng Yan, “Hi, magic closet, tell me what to wear!” in ACM Multimedia, 2012, pp 619–628 [3] Ruslan Salakhutdinov and Andriy Mnih, “Probabilistic matrix factorization,” in Annual Conference on Neural Information Processing Systems, 2007, pp 1257–1264 39 [4] Xuemeng Song, Fuli Feng, Jinhuan Liu, Zekun Li, Liqiang Nie, and Jun Ma, “Neurostylist: Neural compatibility modeling for clothing matching,” in ACM Multimedia, 2017, pp 753–761 [5] Yang Hu, Xi Yi, and Larry S Davis, “Collaborative fashion recommendation: A functional tensor factorization approach,” in ACM Multimedia, 2015, pp 129–138 [6] Steffen Rendle, Christoph Freudenthaler, Zeno Gantner, and Lars Schmidt-Thieme, “Bpr: Bayesian personalized ranking from implicit feedback,” in Conference on Uncertainty in Artificial Intelligence, 2009, pp 452–461 [7] Vignesh Jagadeesh, Robinson Piramuthu, Anurag Bhardwaj, Wei Di, and Neel Sundaresan, “Large scale visual recommendations from street fashion images,” in ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 2014, pp 1925–1934 [8] Julian McAuley, Christopher Targett, Qinfeng Shi, and Anton van den Hengel, “Image-based recommendations on styles and substitutes,” in International Conference on Research and Development in Information Retrieval, 2015, pp 43–52 [9] Ruining He and Julian McAuley, “VBPR: Visual bayesian personalized ranking from implicit feedback,” in AAAI Conference on Artificial Intelligence, 2016, pp 144–150 [10] Yuncheng Li, Liangliang Cao, Jiang Zhu, and Jiebo Luo, “Mining fashion outfit composition using an endto-end deep learning approach on set data,” in IEEE Transactions on Multimedia, vol 19 IEEE, 2017, pp 1946–1955 [11] Wang Cheng Kang, Chen Fang, Zhaowen Wang, and Julian McAuley, “Visually- aware fashion recommendation and design with generative image models,” in [12] Xintong Han, Zuxuan Wu, Yu-Gang Jiang, and Larry S Davis, “Learning fashion compatibility with bidirectional lstms,” in ACM Multimedia, 2017, pp 1078–1086 40 [13] Xuemeng Song, Fuli Feng, Xianjing Han, Xin Yang, Wei Liu, and Liqiang Nie, “Neural compatibility modeling with attentive knowledge distillation,” in International Conference on Research on Development in Information Retrieval (SIGIR’18), 2018 [14] Yann LeCun, L´eon Bottou, Yoshua Bengio, and Patrick Haffner, “Gradient-based learning applied to document recognition,” in Proceedings of the IEEE, vol 86, no 11 IEEE, 1998, pp 2278–2324 [15] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun, “Deep residual learning for image recognition,” in IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp 770–778 [16] Gao Huang, Zhuang Liu, Laurens van der Maaten, and Kilian Q Weinberger, “Densely connected convolutional networks,” in IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp 4700–4708 [17] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio, “Neural machine translation by jointly learning to align and translate,” in International Conference on [18] Minh Thang Luong, Hieu Pham, and Christopher D Manning, “Effective approaches to attention-based neural machine translation,” in Empirical Methods on Natural Language Processing, 2015, pp 1412–1421 [19] Yehuda Koren, Robert Bell, and Chris Volinsky, “Matrix factorization techniques for recommender systems,” in IEEE Computer Society Press, vol 42, no IEEE, 2009, pp 30–37 [20] Daniel D Lee and H Sebastian Seung, “Algorithms for non-negative matrix factorization,” in Annual Conference on Neural Information Processing Systems, 2000, pp 535–541 41 ... Nắm đươc kiến thức học máy, học sâu CNN, RNN, chế Attention  Tìm hiểu toán gợi ý phối trang phục dùng học sâu  Sinh viên nắm kiến trúc mô hình gợi ý trang phục dùng học sâu từ áp dụng vào... dataset Nội dung thưc,̣ đề tài: - Tìm hiểu vềhoc,̣ sâu - Tìm hiểu vềmang,̣ nơ ron tich́ chập (CNN) - Tìm hiểu chếmutual attention - Tìm hiểu tốn phối trang phục dùng Convolutional Neural Network... Trang phục từ Chictopia Người dùng chia sẻ rộng rãi thành phần trang phục họ với công chúng 13 Nhiệm vụ cần làm đề xuất mơ hình gợi ý phối trang phục dùng học sâu Bài toán đưa phần (ví dụ: áo sơ

Ngày đăng: 20/12/2021, 06:15

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w