(Đồ án hcmute) tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỒ ÁN TỐT NGHIỆP NGÀNH CƠNG NGHỆ THƠNG TIN TÌM HIỂU BÀI TỐN TẠO CÂU MƠ TẢ CHO ẢNH THỜI TRANG DÙNG HỌC SÂU GVHD: NGUYỄN THIÊN BẢO SVTH: VŨ NGUYÊN HƯNG MSSV:16110110 SKL0 7 Tp Hồ Chí Minh, tháng 07/2020 an TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA ĐÀO TẠO CHẤT LƯỢNG CAO ĐỒ ÁN TỐT NGHIỆP TÌM HIỂU BÀI TỐN TẠO CÂU MÔ TẢ CHO ẢNH THỜI TRANG DÙNG HỌC SÂU SVTH: VŨ NGUYÊN HƯNG MSSV: 16110110 Khóa: 2016-2020 Ngành: Công nghệ thông tin GVHD: TS Nguyễn Thiên Bảo TP Hồ Chí Minh, tháng năm 2020 an CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh Phúc ******* TP.Hồ Chí Minh, ngày tháng 07 năm 2020 NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Họ tên Sinh viên: Vũ Nguyên Hưng MSSV: 16110110 Ngành: Công nghệ thông tin Lớp: 16110ST2 GV hướng dẫn : TS.Nguyễn Thiên Bảo SĐT: 0927613761 Ngày nhận đề tài: 24/02/2020 Ngày nộp đề tài: 01/07/2020 Tên đề tài: Tìm hiểu tốn tạo câu mơ tả ảnh thời trang ứng dụng học sâu Các số liệu tài liệu ban đầu: - Các báo nghiên cứu liên quan đến đề tài - Tập liệu FashionGen Nội dung thực đề tài: - Tìm hiểu tốn mơ tả ảnh thời trang - Tìm hiểu học sâu mạng thần kinh nhân tạo liên quan - Tìm hiểu phương pháp dùng học sâu để tiếp cận giải tốn mơ tả ảnh thời trang - Hiện thực hố mơ hình sử dụng học sâu để giải tốn mơ tả ảnh thời trang, đề xuất cải tiến - Kiểm thử mơ hình gốc mơ hình cải tiến liệu để so sánh kết Sản phẩm - Mã nguồn đề tài - Mô hình sau huấn luyện TRƯỞNG NGÀNH GIÁO VIÊN HƯỚNG DẪN i an CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh Phúc ******* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Họ tên Sinh viên: Vũ Nguyên Hưng MSSV: 16110110 Ngành: Cơng nghệ Thơng tin Tên đề tài : Tìm hiểu tốn tạo câu mơ tả ảnh thời trang dùng học sâu Họ tên Giáo viên hướng dẫn : TS Nguyễn Thiên Bảo NHẬN XÉT Về nội dung đề tài & khối lượng thực : - Tìm hiểu nội dung kiến thức học sâu: kiến trúc, chế hoạt động, chế attention - Tìm hiểu tốn tạo câu mơ tả ảnh thời trang Ứng dụng học sâu để giải toán Ưu điểm : - Nắm lý thuyết học sâu, mạng nơ-ron nhân tạo, - Hiểu cách áp dụng lý thuyết để giải toán tạo câu mơ tả ảnh thời trang - Hiện thực hóa mơ hình - Có khả tự tìm hiểu, nghiên cứu kiến thức - Tương tác tốt với GVHD Khuyết điểm : - Chưa thực hóa mơ hình Spatial-Channel wise - Hạn chế mặt tài ngun để huấn luyện mơ hình - Chưa có kinh nghiệm thực tế với thực nghiệm Đề nghị cho bảo vệ hay không?: Đề nghị cho bảo vệ Đánh giá loại : Điểm : Tp Hồ Chí Minh, ngày tháng 07 năm 2020 Giáo viên hướng dẫn (Ký & ghi rõ họ tên) ii an CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh Phúc ******* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Họ tên Sinh viên: Vũ Nguyên Hưng MSSV: 16110110 Ngành: Công nghệ Thông tin Tên đề tài : Tìm hiểu tốn mơ tả ảnh thời trang dùng học sâu Họ tên Giáo viên phản biện:…………………………………………………………………… NHẬN XÉT Về nội dung đề tài & khối lượng thực : …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… Ưu điểm : …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… Khuyết điểm : …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… Đề nghị cho bảo vệ hay không ? Đánh giá loại : Điểm : Tp Hồ Chí Minh, ngày tháng 07 năm 2020 Giáo viên phản biện (Ký & ghi rõ họ tên) iii an LỜI CẢM ƠN Trong thời gian thực khóa luận tốt nghiệp, em nhận nhiều giúp đỡ, hỗ trợ từ phía thầy anh chị khóa trước Trước tiên em xin gửi lời cảm ơn chân thành đến thầy Nguyễn Thiên Bảo tận tình hướng dẫn, truyền đạt kiến thức, kinh nghiệm cho em suốt trình thực đề tài Xin gửi lời cảm ơn đến quý thầy cô Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Kỹ thuật Tp Hồ Chí Minh, người truyền đạt kiến thức quý báu cho em suốt thời gian học tập vừa qua Một lần nữa, xin chân thành cảm ơn iv an MỤC LỤC NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP i PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN ii PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN iii LỜI CẢM ƠN iv DANH MỤC CÁC HÌNH vii DANH MỤC CÁC BẢNG ix DANH MỤC CÁC TỪ VIẾT TẮT x TÓM TẮT NỘI DUNG ĐỀ TÀI xi CHƯƠNG 1: MỞ ĐẦU 1.1 Sự cần thiết đề tài 1.2 Mục đích đề tài 1.3 Cách tiếp cận phương pháp nghiên cứu CHƯƠNG 2: BÀI TỐN MƠ TẢ HÌNH ẢNH THỜI TRANG 2.1 Giới thiệu toán 2.2 Giải pháp cho toán CHƯƠNG 3: HỌC SÂU 3.1 Giới thiệu Học sâu (Deep learning) 3.2 Mạng nơ-ron nhân tạo (Artificial Neural Network) 3.2.1 Cấu trúc 3.2.2 Phương thức hoạt động 3.2.3 Phương pháp huấn luyện 12 3.3 Mạng nơ-ron tích chập (Convolutional neural network) 15 3.4 Mạng nơ-ron hồi quy (Recurrent neural network-RNN) 19 3.5 Mạng nhớ Dài-Ngắn (Long-Short term memory network) 22 CHƯƠNG 4: HỌC SÂU VÀ BÀI TỐN MƠ TẢ ẢNH THỜI TRANG 26 4.1 Kiến trúc mơ hình học sâu toán 26 v an 4.2 Bộ mã hóa (Encoder) 27 4.3 Bộ giải mã (Decoder) 27 4.4 Cơ chế Attention 29 4.5 Cơ chế đánh giá 31 4.5.1 Các độ đo sử dụng 31 CHƯƠNG 5: HIỆN THỰC VÀ ĐÁNH GIÁ MƠ HÌNH 35 5.1 Bộ liệu FashionGen 35 5.2 Hiện thực 35 5.3 Kết đánh giá 38 CHƯƠNG 6: KẾT LUẬN 41 6.1 Tổng kết 41 6.2 Ưu nhược điểm 41 6.3 Hướng phát triển tương lai 41 TÀI LIỆU THAM KHẢO 43 vi an DANH MỤC CÁC HÌNH Hình 3.1: Cấu trúc nơ-ron sinh học Hình 3.2: Cấu tạo nơ-ron nhân tạo Hình 3.3: Đồ thị hàm step (trái) hàm Sigmoid (phải) Hình 3.4: Cấu trúc mạng nơ-ron nhân tạo Hình 3.5: Cấu trục ANN với tham số Hình 3.6: Learning rate Gradient Descent Hình 3.7: So sánh BGD, MGD, SGD Hình 3.8: Recceptive field CNN Hình 3.9: Phép tích chập Hình 3.10: Padding Stride Hình 3.11: Pooling layer CNN Hình 3.12: Kiến trúc mạng CNN Hình 3.13: Mơ hình dạng tốn RNN Hình 3.14: Kết nối RNN Hình 3.15: Tổng quan mơ hình LSTM Hình 3.16: Cổng qn LSTM cơng thức Hình 3.17: Cổng vào LSTM cơng thức Hình 3.18: Tế bào trạng thái LSTM cơng thức Hình 3.19: Cổng LSTM cơng thức Hình 4.1: Mơ hình tốn mơ tả ảnh Hình 4.2: Kiến trúc giải mã Hình 4.3: Mơ hình tốn áp dụng chế Attention Hình 5.1: Ảnh đồ chụp nhiều góc đồ kèm theo câu mơ tả Hình 5.2 Cấu trúc mạng nơ-ron tích chập Resnet50 vii an Hình 5.3 Hình ảnh kèm câu mơ tả sinh từ mơ hình câu mơ tả chun gia thời trang Hình 5.1 Mơ hình đề xuất đưa câu mơ tả chưa xác viii an Chương 4: Học sâu tốn mơ tả ảnh thời trang Sau đó, mơ hình sinh từ thứ t cơng thức: ℎ𝑡 = 𝐿𝑆𝑇𝑀(ℎ𝑡−1 , 𝑋 𝐿 , 𝑦𝑡−1 ), 𝑦𝑡 ∼ 𝑝𝑡 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 (ℎ𝑡 , 𝑦𝑡−1 ) Với L tổng số lượng lớp tích chập Việc đồng thời tính trọng số attention 𝛾 𝑙 tốn nhiều chi phí, tài ngun GPU Do đó, ta tách tính tốn trọng số spatial attention 𝛼 𝑙 trọng số channel-wise attention 𝛽 𝑙 riêng biệt với nhau: 𝛼 𝑙 = 𝛷𝑠 (ℎ𝑡−1 , 𝑉 𝑙 ) 𝛽 𝑙 = 𝛷𝑐 (ℎ𝑡−1 , 𝑉 𝑙 ) Với 𝛷𝑠 , 𝛷𝑐 hàm số tính trọng số channel-wise spatial attention Việc tách giúp giảm chi phí tính toán cách đáng kể từ 𝒪(𝑊 𝑙 𝐻 𝑙 𝐶 𝑙 𝑘) xuống 𝒪(𝑊 𝑙 𝐻 𝑙 𝑘) cho spatial attention 𝒪(𝐶 𝑙 𝑘) cho channel-wise attention Trong tốn mơ tả ảnh thời trang ta áp dụng chế channel-wise attention trước, sau spatial attention 𝛽 = 𝛷𝑐 (ℎ𝑡−1 , 𝑉) 𝛼 = 𝛷𝑠 (ℎ𝑡−1 , 𝑓𝑐 (𝑉, 𝛽 )), 𝑋 = 𝑓(𝑉, 𝛼, 𝛽) Với kết hợp hai chế attention, mơ hình hiểu rõ vị trí (spatial attention) đối tượng (channel-wise attention) ảnh cần ý q trình sinh câu mơ tả Giúp cho tác vụ tạo câu mô tả đạt hiệu cao 4.5 Cơ chế đánh giá 4.5.1 Các độ đo sử dụng 4.5.1.1 BLEU BLEU (Bilingual Evaluation Understudy Score) [14] phương pháp đánh giá độ tương quan câu văn sinh từ máy tính người Ý tưởng BLEU câu sinh từ máy tính (candidate translation) câu mẫu (reference translation) giống tốt Phương pháp tính BLEU đếm số từ giống candidate reference, kết số từ giống chia cho 31 an Chương 4: Học sâu tốn mơ tả ảnh thời trang tổng số từ candidate Tuy nhiên phương pháp gặp vấn đề từ khớp với reference lặp lại nhiều lần candidate Ví dụ: Reference: “She is beautiful” Candidate: “She she she” Lúc này, 𝑃 = 𝑚 𝑤 = 3 , với m số từ câu candidate xuất câu reference, w tổng số từ câu candidate.Kết đồng nghĩa với việc hồn tồn trùng khớp, phương pháp cịn gọi BLEU-1 Phương pháp chưa tối ưu cụm từ chung với Vì thế, ta tính BLEU-1 BLEU-2, BLEU-3… hay cịn gọi n-grams Công thức tổng quát sau: 𝐵𝑃 = { 𝑖𝑓 𝑐 > 𝑟 𝑟 𝑒 (1−𝑐 ) 𝑖𝑓 𝑐 ≤ 𝑟 Sau đó: 𝑁 𝐵𝐿𝐸𝑈 = 𝐵𝑃 × 𝑒𝑥𝑝(∑(𝑤𝑛 )𝑙𝑜𝑔(𝑃𝑛 )) 𝑛=1 Với 𝑐 chiều dài candidate 𝑟 chiều dài từ có câu reference 𝑁 số từ xuất lúc BLEU-4 𝑁 = 𝑊𝑛 = 𝑁 Và miền giá trị BLEU nằm khoảng [0,1], BLEU cao số từ xuất câu sinh từ máy học so với câu mô tả mẫu nhiều Vậy câu ngắn độ đo BLEU cao, nên cần có độ đo khác để đánh giá chất lượng câu mô tả 4.5.1.2 ROUGE ROUGE (Recall-Oriented Understudy for Gisting Evaluation) [15], tương tự BLEU, ROUGE đánh giá chất lượng văn máy so với câu mơ tả mẫu Ta xét ví dụ: Reference: I usually go to school by bus Candidate; I always go to school by bike 32 an Chương 4: Học sâu tốn mơ tả ảnh thời trang Nếu xét từ một, số từ trùng khớp hai câu Để cho kết tốt, ROUGE tính tốn precision recall cách sử dụng overlap Precision: Được tính tổng số từ trùng hai câu văn chia cho tổng số từ câu candidate Recall: Được tính tổng số từ trùng hai câu văn chưa cho tổng số từ câu reference Ta tính Fmeasure precision recall kết ổn định 𝐹𝑀𝑒𝑎𝑠𝑢𝑟𝑒 = 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 ROUGE-L: cải tiến ROUGE, đo lường câu trùng dài Các câu trùng dài không thiết phải liên trật tự xuất câu 4.5.1.3 CIDEr CIDEr (Consensus-based Image Description Evaluation) [16] đơn vị đánh giá độ tương quan hai câu văn chủ yếu tập trung cho mô hình mơ tả ảnh thời trang Cho hình Ii, ta đánh giá câu sinh từ mô hình gọi ci câu nhãn người tạo gọi Si Tất từ văn chuyển thành từ gốc Ví dụ “dogs” chuyển thành “dog” Đầu tiên, ta tính trọng số cho từ xuất lúc liên tiếp với hay gọi n-gram Những n-gram mà xuất nhiều tập dataset có hệ số nhỏ n-gram mang thơng tin Cơng thức tính hệ số n-gram tính dựa Term Frequency Inverse Document Frequency (TF-IDF) Số lần xuất n-gram wk xuất dataset ký hiệu ℎ𝑘 (𝑆𝑖𝑗 ) ℎ𝑘 (𝑐𝑖 ) trùng với câu mơ hình sinh Với 𝑔𝑘 (𝑆𝑖𝑗 ) trọng số TF-IDF n-gram wk tính theo cơng thức 𝑔𝑘 (𝑆𝑖𝑗 ) = ℎ𝑘 |𝐼| 𝑙𝑜𝑔( ) ∑𝑤𝑖 ∈Ω ℎ𝑙 (𝑆𝑖𝑗 ) ∑𝐼𝑝 ∈I 𝑚𝑖𝑛(1, ∑𝑞 ℎ𝑘 𝑆𝑞𝑝 ) Với Ω tập từ vựng chứa n-gram I tập tất hình ảnh dataset Hàm logarit tính theo |I| chia cho tổng số n-gram xuất dataset Sau đó, CIDErn điểm số cho chiều dài n-gram tính theo cơng thức sau: 33 an Chương 4: Học sâu tốn mơ tả ảnh thời trang 𝑔𝑛 (𝑐𝑖 ) 𝑔𝑛 (𝑠𝑖𝑖 ) 𝐶𝐼𝐷𝐸𝑟𝑛 (𝑐𝑖 , 𝑠𝑖 ) = ∑ 𝑛 𝑚 ||𝑔 (𝑐𝑖 )|| ||𝑔𝑛 (𝑠𝑖𝑖 )|| 𝑗 Với 𝑔𝑛 (𝑐𝑖 ) vector ký hiệu 𝑔𝑘 (𝑐𝑖 ) để biểu thị chiều dài n-gram ||𝑔𝑛 (𝑐𝑖 )|| độ dài vector Tương tự cho 𝑔𝑛 (𝑠𝑖𝑖 ) Cuối cùng, CIDEr tính theo cơng thức: 𝑁 CIDEr(𝑐𝑖 , 𝑠𝑖 ) = ∑ 𝑤𝑛 𝐶𝐼𝐷𝐸𝑟𝑛 (𝑐𝑖 , 𝑠𝑖 ) 𝑛=1 Thực nghiệm mơ hình mơ tả ảnh thời trang khóa luận tơi sử dụng N = wn = 1/N 34 an Chương 5: Hiện thực đánh giá mơ hình CHƯƠNG 5: HIỆN THỰC VÀ ĐÁNH GIÁ MƠ HÌNH 5.1 Bộ liệu FashionGen FashionGen [17] liệu bao gồm: - - Số lượng ảnh bao gồm 293.008 hình ảnh thời trang chất lượng cao, gồm 260,480 hình ảnh cho tập huấn luyện, 32,528 hình ảnh cho tập đánh giá 32,528 hình ảnh cho tập kiểm thử Định dạng PNG, kích thước 1360 x 1360 điểm ảnh Một trang phục chụp từ đến góc khác tùy thuộc vào loại mặt hàng Mỗi mặt hàng thời trang kèm với đoạn mô tả chi tiết viết chuyên gia thời trang Hình 5.1: Ảnh đồ chụp nhiều góc đồ kèm theo câu mô tả 5.2 Hiện thực Bộ mã hóa sử dụng mạng nơ-ron tích chập (CNN) để trích xuất thơng tin từ hình ảnh đầu vào Cụ thể, feature maps lớp convolutional cuối mạng nơ-ron trích xuất Mạng nơ-ron tích chập ResNet50 chọn làm mã hố mơ hình mô tả ảnh thời trang, mạng nơ-ron tích chập phổ biến với kết nối residual giúp trình huấn luyện đc hiểu quá, trách tình trạng vanishing gradient 35 an Chương 5: Hiện thực đánh giá mơ hình Hình 5.2 Cấu trúc mạng nơ-ron tích chập Resnet50 Feature maps trích xuất từ lớp tích chập cuối mạng Resnet50 có chiều 2048 × × Mạng sử dụng pretrained model với dataset ImageNet để dự đốn thuộc tính ảnh Sau feature maps trích xuất phục vụ cho trình huấn luyện giải mã Bộ giải mã mạng nơ-ron hồi quy (RNN) với liệu đầu vào véc-tơ nói lại từ véc-tơ là: embedding véc-tơ từ sinh trước câu yt−1, véc-tơ hidden state lần sinh từ trước ht−1 véc-tơ ngữ cảnh ct Véc-tơ đầu vào RNN xt = [yt−1 , ht−1 , ct ] Sau đó, ta sử dụng mạng nơ-ron nhân tạo thông thường (ANN) để dự đoán xác suất từ câu yt dựa vào véc-tơ đầu vào embedding véc-tơ từ sinh trước câu yt−1, véc-tơ đầu RNN ht véc-tơ ngữ cảnh ct Mạng RNN gồm lớp mạng LSTM với kích thước hidden state 512 Quá trình huấn luyện diễn sau: 36 an Chương 5: Hiện thực đánh giá mơ hình Mơ hình huấn luyện thuật tốn tối ưu hóa hàm mát Adam với learning rate 1e-4, kích thước batch liệu 32 huấn luyện 12 epoch Cuối cùng, mơ hình chọn mơ hình có điểm BLEU tập validation cao Ngồi ra, chúng tơi sử dụng beam size lấy mẫu câu mơ tả từ mơ hình phương pháp beam search Thuật tốn beam search có tham số beam size Tại bước dự đoán từ tiếp theo, thay tìm từ có xác suất lớn nhất, ta chọn beam size kết có xác suất cao nhất, tiếp tục tính tốn xác suất thời điểm sinh end token xuất câu ứng viên Ta chọn câu ứng viên có xác suất cao làm kết cuối cho chuỗi đầu Việc sử dụng beam search có khả tăng độ xác cho câu mô tả đầu ra, nhiên việc lưu lại thông tin xác suất chuỗi dài làm tăng thời gian huấn luyện mơ hình u cầu nhiêu tài nguyên phần cứng 37 an Chương 5: Hiện thực đánh giá mơ hình 5.3 Kết đánh giá Bảng 5.1 thể kết mơ hình áp dụng chế attention khác Lần lượt Spatial attention, Channel-wise attention, Channel-wise attention kết hợp Spatial attention Method BLEU-1 BLEU-2 BLEU-3 BLEU-4 ROUGE-L CIDEr SpatialAttention 0.408 0.333 0.267 0.221 0.502 0.913 Channelwise Attention 0.280 0.205 0.144 0.109 0.345 0.412 0.449 0.366 0.293 0.242 0.519 0.984 C-S Attention Bảng 5.1 Kết huấn luyện so sánh Soft-attention mơ hình đề xuất Dựa vào kết huấn luyện thấy phương pháp kết hợp Channel-wise attention Spatial attention phương pháp hiểu để tăng độ xác cho mơ hình mơ tả ảnh thời trang Phương pháp áp dụng vào mơ hình mơ tả ảnh thời trang sử dụng chế attention có 38 an Chương 5: Hiện thực đánh giá mơ hình Dưới số câu mơ tả sinh từ hình ảnh thời trang mơ hình Channel wise – Spatial Attention Các hình ảnh mà mơ hình dự đốn xác so với câu đích: Hình 5.3 Hình ảnh kèm câu mơ tả sinh từ mơ hình câu mô tả chuyên gia thời trang 39 an Chương 5: Hiện thực đánh giá mơ hình Các hình ảnh mà mơ hình đề xuất tạo câu mơ tả khơng xác thuộc tính có xuất ảnh: Hình 5.2 Mơ hình đề xuất đưa câu mơ tả chưa xác Có thể thấy mơ hình nắm bắt thuộc tính bên hình ảnh từ loại mặt hàng đến kiểu dáng, phong cách, màu sắc, … thể tính chất ngơn ngữ tự nhiên người cách mạch lạc Tuy nhiên cịn sót câu mơ tả 40 an Chương 6: Kết luận CHƯƠNG 6: KẾT LUẬN 6.1 Tổng kết Qua trình nghiên cứu, em nắm bắt kiến thức học sâu, mạng nơ-ron nhân tạo phương pháp giải tốn tạo câu mơ tả cho hình ảnh thời trang, sau huấn luyện mơ hình tạo câu mơ tả cho ảnh thời trang Mơ hình phát sinh câu mơ tả có xác tương đối nội dung ảnh thời trang, hứa hẹn tương lai áp dụng vào thực tế 6.2 Ưu nhược điểm Ưu điểm: Nắm lý thuyết học sâu, mạng nơ-ron nhân tạo Hiểu toán tạo câu mơ tả cho ảnh thời trang khó khăn toán - Nắm bắt cách áp dụng lý thuyết để giải toán tạo câu mô tả cho ảnh thời trang - Huấn luyện mơ hình kết hợp Channel wise – Spatial Attention - Nhược điểm: Các câu mô tả sinh từ mơ hình chưa đám bảo độ xác để áp dụng vào thực tế - Chưa huấn luyện mơ hình kết hợp Spatial - Channel wise Attention - 6.3 Hướng phát triển tương lai Trong lĩnh vực xử lý ảnh nói chung tốn tạo câu mơ tả ảnh nói riêng cịn q rộng lớn nhiều phương pháp, kỹ thuật để nghiên cứu nên em có hướng phát triển sau: Về lý thuyết: Tìm hiểu nghiên cứu phương pháp lĩnh vực tạo câu mô tả cho ảnh thời trang để áp dụng tăng độ xác cho câu mơ tả mà mơ hình sinh 41 an Chương 6: Kết luận Về thực tiễn:  Thử nghiệm áp dụng tập liệu lớn hơn, bao quát (nhiều phụ kiện thời trang hơn, ảnh có nhiều người…) việc huấn luyện  Nghiên cứu áp dụng mô hình R-CNN mã hóa để tăng khả định vị nhận diện vật thể Em nghiên cứu, tìm hiểu tài liệu nghiên cứu khoa học lĩnh vực tạo câu mơ tả cho hình ảnh thời trang trình độ có hạn, chưa có nhiều kinh nghiệm nên khơng thể tránh khỏi thiếu sót, hạn chế Mong q thầy bảo, góp ý để giúp em hoàn thiện tiến 42 an TÀI LIỆU THAM KHẢO [1] K Xu, J Ba, R Kiros, K Cho, A Courville, R Salakhudinov, R Zemel Yoshua, “Show, attend and tell: Neural image caption generation with visual attention,” International Conference on Machine Learning, Lille, 2015 [3] L B Y B a P H Yann LeCun, “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, pp 2278-2234, 1998 [4] Alex Sherstinsky, "Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) Network" [5] M Z Hossain, F Sohel, M F Shiratuddin H Laga, “A Comprehensive Survey of Deep Learning for Image Captioning,” arXiv.org, pp 2-3, 13 May 2018 [6] Cho, Kyunghyun, v Merrienboer, Bart, Gulcehre, Caglar, Bougares, Fethi, Schwenk, Holger, Bengio Yoshua, “Learning phrase representations using RNN encoder-decoder for statistical machine translation,” EMNLP, Doha, 2014 [7] R Socher, A Karpathy, Q V Le, C D Manning A Y Ng, “Grounded compositional semantics for finding and describing images with sentences,” Transactions of the Association for Computational Linguistics, pp 207-218, 2014 [8] A Karpathy, A Joulin F F F Li, “Deep fragment embeddings for bidirectional image sentence mapping,” Advances in neural information processing systems, Montreal, 2014 [9] F Rosenblatt, “The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain,” Psychological Review, p 386–408, 1958 [10] Zhang, Tong (2004) "Solving large scale linear prediction problems using stochastic gradient descent algorithms" Proceedings of the 21st International Conference on Machine Learning (ICML'04): 116 doi:10.1145/1015330.1015332 ISBN 1-58113-838-5 [11] CS231n Convolutional Neural Networks Recognition" cs231n.github.io Retrieved 2018-12-13 for Visual 43 an [12] Sepp Hochreiter; Jürgen Schmidhuber (1997) "Long memory" Neural Computation (8): 1735–1780 doi: neco.1997.9.8.1735 PMID 9377276 short-term 10.1162/ [13] SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning Long Chen, Hanwang Zhang, Jun Xiao, Liqiang Nie, Jian Shao, Wei Liu, Tat-Seng Chua [14] K & R S & W T & Z W.-j Papineni, “BLEU: a Method for Automatic Evaluation of Machine Translation,” Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, 2002 [15] C.-Y Lin, “ROUGE: A Package for Automatic Evaluation of Summaries,” Proceedings of the ACL Workshop: Text Summarization Braches Out 2004, 2004 [16] C L Z D P Ramakrishna Vedantam, “CIDEr: Consensus-based Image Description Evaluation,” 2014 [17] Negar Rostamzadeh, Seyedarian Hosseini, Thomas Boquet, Wojciech Stokowiec, Ying Zhang, Christian Jauvin, Chris Pal,"Fashion-Gen: The Generative Fashion Dataset and Challenge" ArXiv e-prints, 2018 44 an S an K L 0 ... - Tìm hiểu tốn tạo câu mơ tả ảnh thời trang Ứng dụng học sâu để giải toán Ưu điểm : - Nắm lý thuyết học sâu, mạng nơ-ron nhân tạo, - Hiểu cách áp dụng lý thuyết để giải tốn tạo câu mơ tả ảnh thời. .. đến mô tả ảnh, lý thuyết học sâu, mạng nơ-ron chế attention an Chương 2: Bài tốn mơ tả ảnh thời trang CHƯƠNG 2: BÀI TỐN MƠ TẢ HÌNH ẢNH THỜI TRANG 2.1 Giới thiệu tốn Tạo câu mơ tả hình ảnh thời trang. .. mơ tả ảnh thời trang - Tìm hiểu học sâu mạng thần kinh nhân tạo liên quan - Tìm hiểu phương pháp dùng học sâu để tiếp cận giải tốn mơ tả ảnh thời trang - Hiện thực hố mơ hình sử dụng học sâu