Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
5,73 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỒ ÁN TỐT NGHIỆP NGÀNH CƠNG NGHỆ THƠNG TIN TÌM HIỂU BÀI TỐN MƠ TẢ ẢNH THỜI TRANG GVHD:NGUYỄN THIÊN BẢO SVTT: NGUYỄN ĐÌNH LỘC MSSV:15110243 SVTT:PHẠM QUỐC BẢO MSSV:15110161 SKL 0 Tp Hồ Chí Minh, tháng 7/2019 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN NGUYỄN ĐÌNH LỘC - 15110243 PHẠM QUỐC BẢO - 15110161 Đề tài: TÌM HIỂU BÀI TỐN MƠ TẢ ẢNH THỜI TRANG KHỐ LUẬN TƠT NGHIỆP NGÀNH HỆ THỐNG THƠNG TIN GIÁO VIÊN HƯỚNG DẪN TS NGUYỄN THIÊN BẢO KHÓA 2015-2019 ĐH SƯ PHẠM KỸ THUẬT TP.HCM KHOA CNTT ******* CỘNG HOÀ Xà HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh Phúc ******* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Họ tên Sinh viên : Nguyễn Đình Lộc MSSV 1: 15110243 Họ tên Sinh viên : Phạm Quốc Bảo MSSV 2: 15110161 Ngành: Cơng nghệ Thơng tin Tên đề tài : Tìm hiểu tốn mơ tả ảnh thời trang Họ tên Giáo viên hướng dẫn : T.S Nguyễn Thiên Bảo NHẬN XÉT Về nội dung đề tài & khối lượng thực : Tìm hiểu kiến thức học sâu, kiến trúc, cách hoạt động, huấn luyện số mạng nơ-ron Tìm hiểu tốn mơ tả ảnh thời trang số phương pháp giải tốn mơ tả ảnh thời Xây dựng huấn luyện mơ hình cho tốn mơ tả ảnh thời trang Đề xuất cải tiến cho mô hình mơ tả ảnh thời trang, thực hố mơ hình so sánh kết với mơ hình gốc Ưu điểm : Nắm lý thuyết học sâu, trình bày sở lý thuyết, toán học cách chi tiết mạng nơ-ron nhân tạo Đề xuất cải tiến thành công, tăng độ xác cho mơ hình mơ tả ảnh thời trang Khuyết điểm : Đề xuất cải tiến chưa đạt hiệu cao Mơ hình mơ tả ảnh thời trang xây dựng chưa đạt độ xác để ứng dụng thực tế Đề nghị cho bảo vệ hay không ? Đánh giá loại : Điểm : Tp Hồ Chí Minh, ngày 16 tháng năm 2019 Giáo viên hướng dẫn (Ký & ghi rõ họ tên) ĐH SƯ PHẠM KỸ THUẬT TP.HCM KHOA CNTT ******* CỘNG HOÀ Xà HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh Phúc ******* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Họ tên Sinh viên : Nguyễn Đình Lộc MSSV 1: 15110243 Họ tên Sinh viên : Phạm Quốc Bảo MSSV 2: 15110161 Ngành: Công nghệ Thơng tin Tên đề tài : Tìm hiểu tốn mô tả ảnh thời trang Họ tên Giáo viên phản biện : T.S Nguyễn Thành Sơn NHẬN XÉT Về nội dung đề tài & khối lượng thực : ……………………………………………………………………………………………………………… ……………………………………………………………………………………………………………… ……………………………………………………………………………………………………………… ……………………………………………………………………………………………………………… Ưu điểm : ……………………………………………………………………………………………………………… ……………………………………………………………………………………………………………… ……………………………………………………………………………………………………………… ……………………………………………………………………………………………………………… Khuyết điểm : ……………………………………………………………………………………………………………… ……………………………………………………………………………………………………………… ……………………………………………………………………………………………………………… ……………………………………………………………………………………………………………… Đề nghị cho bảo vệ hay không ? Đánh giá loại : Điểm : Tp Hồ Chí Minh, ngày tháng Giáo viên phản biện (Ký & ghi rõ họ tên) năm 2019 LỜI CẢM ƠN Khoá luận hoàn thành Trường Đại học Sư phạm Kỹ thuật Tp Hồ Chí Minh Trong q trình làm khoá luận chúng em nhận nhiều giúp đỡ để hoàn tất đề tài Trước tiên em xin gửi lời cảm ơn chân thành đến thầy Nguyễn Thiên Bảo tận tình hướng dẫn, truyền đạt kiến thức, kinh nghiệm cho chúng em suốt trình thực đề tài Xin gửi lời cảm ơn đến quý thầy cô Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Kỹ thuật Tp Hồ Chí Minh, người truyền đạt kiến thức quý báu cho chúng em suốt thời gian học tập vừa qua Sau xin gửi lời cảm ơn đến gia đình, bạn bè bạn sinh viên lớp 151102A ln động viên, giúp đỡ chúng em q trình nghiên cứu Một lần nữa, xin chân thành cảm ơn! ĐH SƯ PHẠM KỸ THUẬT TP.HCM KHOA CNTT ******* CỘNG HOÀ Xà HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh Phúc ******* ĐỀ CƯƠNG TIỂU LUẬN CHUYÊN NGÀNH Họ tên Sinh viên : Nguyễn Đình Lộc MSSV 1: 15110243 Họ tên Sinh viên : Phạm Quốc Bảo MSSV 2: 15110161 Thời gian làm luận văn : từ ngày tháng năm 2019, đến ngày 14 tháng năm 2019 Chuyên ngành : Hệ thống thơng tin Tên luận văn : Tìm hiểu tốn mơ tả ảnh thời trang GV hướng dẫn : Nguyễn Thiên Bảo Nhiệm Vụ Của Luận Văn : Tìm hiểu tốn mơ tả ảnh thời trang Tìm hiểu học sâu mơ hình mạng thần kinh nhân tạo liên quan Tìm hiểu phương pháp dùng học sâu để giải tốn mơ tả ảnh thời trang Hiện thực hố mơ hình sử dụng học sâu để giải tốn mơ tả ảnh thời trang, đề xuất cải tiến Kiểm thử mơ hình gốc mơ hình cải tiến liệu để so sánh kết Đề cương viết luận văn : MỤC LỤC CHƯƠNG 1: MỞ ĐẦU 1.1 Sự cần thiết đề tài 1.2 Mục đích đề tài 1.3 Cách tiếp cận phương pháp nghiên cứu - Đối tượng nghiên cứu - Phạm vi nghiên cứu 1.4 Những cơng trình liên quan 1.5 Kết dự kiến đạt CHƯƠNG 2: GIỚI THIỆU VỀ BÀI TỐN MƠ TẢ ẢNH THỜI TRANG 2.1 Bài tốn mơ tả ảnh thời trang 2.2 Một số mơ hình cho tốn mô tả ảnh thời trang CHƯƠNG 3: HỌC SÂU 3.1 Giới thiệu học sâu 3.2 Mạng nơ-ron nhân tạo (ANN) 3.2 Cấu trúc 3.3 Hoạt động 3.4 Phương pháp huấn luyện 3.5 Mạng nơ-ron tích chập (CNN) 3.6 Mạng nơ-ron hồi quy (RNN) CHƯƠNG 4: HỌC SÂU CHO BÀI TỐN MƠ TẢ ẢNH THỜI TRANG 4.1 Kiến trúc tổng thể mơ hình học sâu cho tốn mơ tả ảnh thời trang 4.2 Bộ mã hoá (Encoder) 4.3 Bộ giải mã (Decoder) 4.4 Cơ chế Attention CHƯƠNG 5: HIỆN THỰC VÀ ĐÁNH GIÁ MƠ HÌNH 5.1 Bộ liệu 5.2 Chi tiết cài đặt 5.3 Kết đánh giá CHƯƠNG 6: KẾT LUẬN 6.1 Kết 6.2 Ưu nhược điểm 6.3 Hướng phát triển Tài liệu tham khảo KẾ HOẠCH THỰC HIỆN STT Thời gian 2/2/2019 đến Cơng việc Tìm kiếm tài liệu nghiên cứu học 15/3/2019 sâu 16/3/2019 đến Tìm hiểu cấu trúc, cách hoạt động 31/3/2019 phương pháp huấn luyện mạng nơ-ron nhân tạo 1/4/2019 đến Tìm hiểu mạng nơ-ron tích chập 15/4/2019 (CNN) mạng nơ-ron hồi quy (RNN) 16/4/2019 đến Tìm hiểu phương pháp giải 30/4/2019 tốn mơ tả ảnh sử dụng học sâu 1/5/2019 đến Thực nghiệm huấn luyện mơ hình 8/5/2019 mơ tả ảnh 9/5/2019 đến Tìm kiếm lựa chọn liệu 16/5/2019 thời trang phù hợp cho tốn mơ tả hình ảnh thời trang 17/5/2019 đến Huấn luyện mơ hình mơ tả ảnh 24/5/2019 liệu thời trang Ghi 25/5/2019 đến Phân tích kết nghiên cứu phương 14/6/2019 pháp cải tiến cho mơ hình 15/6/2019 đến Tiến hành huấn luyện mơ hình mơ tả ảnh 22/6/2019 thời trang, đánh giá kết chọn mô hình cho kết cao 10 23/6/2019 đến Hồn thành báo cáo khoá luận tốt nghiệp 15/7/2019 Ngày 15 tháng năm 2019 Người viết đề cương Ý kiến giáo viên hướng dẫn (ký ghi rõ họ tên) T.S Nguyễn Thiên Bảo MỤC LỤC TÓM TẮT NỘI DUNG ĐỀ TÀI CHƯƠNG 1: MỞ ĐẦU 1.1 SỰ CẦN THIẾT CỦA ĐỀ TÀI 1.2 MỤC ĐÍCH CỦA ĐỀ TÀI 1.3 CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU 1.4 NHỮNG CƠNG TRÌNH LIÊN QUAN 1.5 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC CHƯƠNG : GIỚI THIỆU VỀ BÀI TỐN MƠ TẢ ẢNH THỜI TRANG 2.1 BÀI TỐN MƠ TẢ ẢNH THỜI TRANG 2.2 MỘT SỐ GIẢI PHÁP CHO BÀI TỐN MƠ TẢ ẢNH THỜI TRANG CHƯƠNG 3: HỌC SÂU 3.1 GIỚI THIỆU VỀ HỌC SÂU 3.2 MẠNG NƠ-RON NHÂN TẠO (ANN) 3.3 CẤU TRÚC 3.3.1 Mạng thần kinh sinh học 3.3.2 Nơ-ron thần kinh nhân tạo 3.3.3 Mạng thần kinh nhân tạo 10 3.4 HOẠT ĐỘNG 12 3.5 PHƯƠNG PHÁP HUẤN LUYỆN 14 3.5.1 Hàm mát 14 3.5.2 Thuật toán Gradient Desent 15 3.5.3 Thuật toán lan truyền ngược 18 3.6 MẠNG NƠ-RON TÍCH CHẬP (CNN) 24 3.7 MẠNG NƠ-RON HỒI QUY (RNN) 28 Hình 26 Phân bố hình ảnh theo loại mặt hàng liệu FashionGen Bộ liệu FashionGen liệu sử dụng để huấn luyện mơ hình mơ tả ảnh thời trang Sau mã hoá huấn luyện DeepFashion, hai mạng mã hoá - giải mã huấn luyện lúc FashionGen Các thuộc tính thời trang DeepFashion hầu hết xuất câu mô tả FashionGen, điều Trang 40 đảm bảo thơng tin học DeepFashion hữu ích, đảm bảo cho việc huấn luyện mơ hình nhanh chóng 5.2 CHI TIẾT CÀI ĐẶT Bộ mã hóa sử dụng mạng nơ-ron tích chập để trích xuất thơng tin từ hình ảnh đầu vào Cụ thể, feature maps lớp convolutional cuối mạng nơ-ron trích xuất Mạng nơ-ron tích chập ResNet50 [33] chọn làm mã hố mơ hình mơ tả ảnh thời trang, mạng nơ-ron tích chập phổ biến với kết nối residual giúp trình huấn luyện đc hiểu quá, trách tình trạng vanishing gradient Hình 27 Cấu trúc mạng nơ-ron tích chập Resnet50 Feature maps trích xuất từ lớp convolutional cuối mạng Resnet50 có chiều 2048 × × Đầu tiên mạng huấn luyện liệu DeepFashion để dự đốn thuộc tính có ảnh thời trang trước Sau feature maps trích xuất phục vụ cho trình huấn luyện giải mã Trang 41 Bộ giải mã mạng nơ-ron hồi quy với liệu đầu vào véc-tơ nói lại từ véc-tơ là: embedding véc-tơ từ sinh trước câu 𝑦 state lần sinh từ trước ℎ [𝑦 ,ℎ , véc-tơ hidden véc-tơ ngữ cảnh 𝑐 Véc-tơ đầu vào RNN 𝑥 = , 𝑐 ] Sau đó, chúng tơi sử dụng mạng nơ-ron nhân tạo ANN thông thường để dự đoán xác suất từ câu 𝑦 dựa vào véc-tơ đầu vào embedding véc-tơ từ sinh trước câu 𝑦 , véc-tơ đầu RNN ℎ véc-tơ ngữ cảnh 𝑐 Mạng RNN sử dụng gồm lớp mạng LSTM với kích thước hidden state 512 Quá trình huấn luyện diễn sau: Thứ nhất, giải mã huấn luyện riêng biệt thuật tốn tối ưu hóa hàm mát Adam với learning rate 10e-4 vòng 10 epoch sau huấn luyện hai mã hóa giải mã với learning rate 1e-5 Thứ hai, chúng tơi đặt kích thước batch liệu 64 huấn luyện lên tới 100 epoch Cuối cùng, mơ hình chọn mơ hình có điểm BLUE tập validation cao Ngồi ra, chúng tơi sử dụng beam size lấy mẫu câu mơ tả từ mơ hình phương pháp beam search 5.3 KẾT QUẢ VÀ ĐÁNH GIÁ 5.3.1 Các độ đo sử dụng 5.3.1.1 BLEU BLEU (Bilingual Evaluation Understudy Score) [34] thuật toán đánh giá mức độ tương quan câu văn sinh từ máy học người Ý tưởng BLEU câu văn sinh từ máy học người giống với tốt BLEU phản ánh tính hệ thống câu liệu văn cụ thể với câu so sánh Hay nói cách khác, với ngữ cảnh mơ tả nhiều câu mơ tả khác câu sinh từ máy có Chính vậy, tùy thuộc vào câu miêu tả gốc chọn cho kết đánh giá khác so với câu mô tả từ máy học Vậy cần hiểu rõ BLEU để sử dụng cách Cho ví dụ: Ta có câu sau: Reference: the the the the the the the Candidate 1: The cat is on the mat Trang 42 Candidate 2: There is a cat on the mat Với từ candidate, tất chúng xuất câu Reference Do đó, unigram precision tính theo cơng thức: 𝑃= 𝑚 = 𝑤 Với 𝑚 số từ câu Candidate xuất câu Reference Và 𝑤 tổng số từ câu Candidate 𝑃 cho giá trị lớn ý nghĩa hai câu lại khơng hồn tồn giống Do đó, BLEU cải tiến để tránh việc cách lấy 𝑚 số lần xuất cao từ câu Reference Như vậy, 𝑚 = từ ‘the’ xuất hai lần câu Candidate lần câu Candidate Vậy: 𝑃= 𝑚 = 𝑤 Hay nói cách tổng quát ta lấy tổng từ riêng biệt xuất câu Reference chia cho tổng số chữ câu Candidate Đó chình đơn vị đo BLEU-1, cách tính chưa tối ưu cụm từ hay chung với Do vậy, ta tính BLEU-2, BLEU-3, BLEU-4,… hay cịn gọi n-gram Đó từ xuất lúc liên tiếp với Và công thức tổng quan BLEU là: 𝐵𝑃 = 𝑒( ) , 𝑖𝑓 𝑐 > 𝑟 , 𝑖𝑓 𝑐 ≤ 𝑟 Sau đó: 𝐵𝐿𝐸𝑈 = 𝐵𝑃 × 𝑒𝑥𝑝( (𝑤 )𝑙𝑜𝑔(𝑃 )) Với 𝑐 chiều dài Candidate 𝑟 chiều dài từ có câu Reference 𝑁 số từ xuất lúc BLEU-4 𝑁 = 𝑊 = Và miền giá trị BLEU nằm khoảng [0,1], BLEU cao số từ xuất câu sinh từ máy học so với câu gốc người viết nhiều Vậy câu ngắn độ đo BLEU cao, nên cần có độ đo khác để đánh giá chất lượng văn sinh từ máy tính Trang 43 5.3.1.2 ROUGE ROUGE (Recall-Oriented Understudy for Gisting Evaluation) [35] giống BLEU, ROUGE đánh giá chất lượng văn máy so với người Để hiểu rõ ROUGE ta xem ví dụ sau Cho hai câu: Reference : the cat was under the bed Candidate: the cat was found under the bed Nếu ta xem từ riêng biệt một, số từ xuất trùng hai câu Để cho kết tốt, ROUGE tính tốn 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑟𝑒𝑐𝑎𝑙𝑙 cách sử dụng 𝑜𝑣𝑒𝑟𝑙𝑎𝑝 𝑅𝑒𝑐𝑎𝑙𝑙: tính số từ trùng hai câu văn chia cho tổng số từ câu Reference: 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑠ố 𝑡ừ 𝑡𝑟ù𝑛𝑔 𝑛ℎ𝑎𝑢 𝑡𝑟𝑜𝑛𝑔 ℎ𝑎𝑖 𝑐â𝑢 = 𝑡ổ𝑛𝑔 𝑠ố 𝑡ừ 𝑡𝑟𝑜𝑛𝑔 𝑐â𝑢 𝑟𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛: Tương tự Recall, tính tổng số từ trùng hai câu văn chia chô tổng số từ câu Candidate 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑠ố 𝑡ừ 𝑡𝑟ù𝑛𝑔 𝑛ℎ𝑎𝑢 𝑡𝑟𝑜𝑛𝑔 ℎ𝑎𝑖 𝑐â𝑢 = 𝑡ổ𝑛𝑔 𝑠ố 𝑡ừ 𝑡𝑟𝑜𝑛𝑔 𝑐â𝑢 𝑠𝑦𝑠𝑡𝑒𝑚 Ta xét câu Candidate: the tiny little cat was found under the big funny bed 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 6/11 = 0.55 Kết khơng tốt có q nhiều từ không cần thiết câu Candidate Để kết ổn định ta tính F-measure Precision Recall: 𝐹𝑀𝑒𝑎𝑠𝑢𝑟𝑒 = 2(𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑟𝑒𝑐𝑎𝑙𝑙) 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 ROUGE-L: cải tiến ROUGE, đo lường câu trùng dài Các câu trùng dài không thiết phải liên trật tự xuất câu 5.3.1.3 CIDEr Trang 44 CIDEr (Consensus-based Image Description Evaluation) [36] đơn vị đánh giá độ tương quan hai câu văn chủ yếu tập trung cho mơ hình mơ tả ảnh thời trang Cho hình Ii, ta đánh giá câu sinh từ mơ hình gọi ci câu nhãn người tạo gọi Si Tất từ văn chuyển thành từ gốc Ví dụ “fishes” chuyển thành “fish” Đầu tiên, ta tính trọng số cho từ xuất lúc liên tiếp với hay gọi n-gram Những n-gram mà xuất nhiều tập dataset có hệ số nhỏ n-gram mang thơng tin Cơng thức tính hệ số n-gram tính dựa Term Frequency Inverse Document Frequency (TF-IDF) Số lần xuất n-gram wk xuất dataset ký hiệu ℎ (𝑆 ) ℎ (𝑐 ) trùng với câu mơ hình sinh Với 𝑔 (𝑆 ) trọng số TF-IDF n-gram wk tính theo cơng thức 𝑔 (𝑆 ) = ℎ 𝑙𝑜𝑔( ∑ ∈Ω ℎ (𝑆 ) ∑ ∈ |𝐼| ) 𝑚𝑖𝑛(1, ∑ ℎ 𝑆 ) Với Ω tập từ vựng chứa n-gram I tập tất hình ảnh dataset Hàm logarit tính theo |I| chia cho tổng số n-gram xuất dataset Sau đó, CIDErn điểm số cho chiều dài n-gram tính theo cơng thức sau: 𝐶𝐼𝐷𝐸𝑟 (𝑐 , 𝑠 ) = 𝑚 𝑔 (𝑐 ) 𝑔 (𝑠 ) ||𝑔 (𝑐 )|| ||𝑔 (𝑠 )|| Với 𝑔 (𝑐 ) vector ký hiệu 𝑔 (𝑐 ) để biểu thị chiều dài n-gram ||𝑔 (𝑐 )|| độ dài vector Tương tự cho 𝑔 (𝑠 ) Cuối cùng, CIDEr tính theo cơng thức: CIDEr(𝑐 , 𝑠 ) = 𝑤 𝐶𝐼𝐷𝐸𝑟 (𝑐 , 𝑠 ) Thực nghiệm mơ hình mơ tả ảnh thời trang khóa luận tơi sử dụng N = wn = 1/N 5.3.2 Kết đánh giá: Chúng tơi lựa chọn mơ hình so sánh Soft-attention [2] thấy hiệu depth-attention, phương pháp mà đề xuất Trang 45 Bảng Kết huấn luyện so sánh Soft-attention mô hình đề xuất chúng tơi Phương pháp BLEU-1 BLEU-2 BLEU-3 BLEU-4 ROUGE-L CIDEr Softattention [2] 43.7% 35.0% 27.8% 22.1% 50.0% 86.8% Mơ hình chúng tơi 45.6% 36.4% 28.8% 22.8% 50.6% 89.7% Dựa vào kết huấn luyện thấy phương pháp depth-attention phương pháp hiểu để tăng độ xác cho mơ hình mô tả ảnh thời trang Với kiến trúc đơn giản, phương pháp áp dụng vào mơ hình mơ tả ảnh thời trang sử dụng chế attention có Dưới số câu mơ tả sinh từ hình ảnh thời trang mơ hình chúng tơi xây dựng Các hình ảnh mà mơ hình dự đốn xác so với câu đích: Hình 28 Hình ảnh kèm câu mơ tả sinh từ mơ hình câu mô tả chuyên gia thời trang Trang 46 Các hình ảnh mà mơ hình đề xuất tạo câu mơ tả khơng xác thuộc tính có xuất ảnh: Hình 29 Mơ hình đề xuất đưa câu mơ tả chưa xác loại quần áo, màu sắc sản phẩm Có thể thấy mơ hình mà chúng tơi xây dựng nắm bắt thuộc tính bên hình ảnh từ loại mặt hàng đến kiểu dáng, phong cách, màu sắc, … thể tính chất ngơn ngữ tự nhiên người cách mạch lạc Tuy nhiên có số sai sót câu mơ tả, cho thấy chúng tơi cần nhiều nghiêm cứu thực nghiệm nhiều để xây dựng mơ hình có đọ xác cao ứng dụng thực tế Trang 47 CHƯƠNG 6: KẾT LUẬN 6.1 KẾT QUẢ Sau nghiên cứu này, nắm bắt kiến thức học sâu, mạng nơ-ron nhân tạo, tìm hiểu phương pháp giải tốn mơ tả ảnh thời trang từ xây dựng huấn luyện mơ hình mơ tả ảnh thời trang trang Cùng với kiến thức tìm hiểu chúng tơi mạnh dạn đề xuất cải tiến nhỏ cho tốn mơ tả ảnh thời trang depth attention thành công tăng độ xác so với mơ hình trước Mơ hình mơ tả ảnh thời trang mà chúng tơi huấn luyện hồn tốn mơ tả cách tương đối ảnh thời trang, hứa hẹn cho ứng dụng tự động mô tả ảnh thời trang tự động sử dụng tương lai 6.2 ƯU VÀ NHƯỢC ĐIỂM 6.2.1 Ưu điểm Với đề xuất cải tiến depth attention hứa hẹn phương pháp đơn giản dễ dàng tích hợp vào mơ hình mơ tả ảnh có để tăng độ xác, đề tài cịn trình bày chi tiết sở lý thuyết, toán học, kiến thức liên quan, mơ hình sử dụng phổ biến học sâu, cách thức huấn luyện phương pháp đánh giá mơ hình mơ tả ảnh thời trang 6.2.2 Nhược điểm Đề xuất cải tiến depth attention chưa tăng độ xác đáng kể, câu mơ tả sinh từ mơ hình chưa đảm bảo độ xác để ứng dụng thức tế 6.3 HƯỚNG PHÁT TRIỂN Trong trình tìm hiểu hoàn thành đề tài, dù đạt số kết định kiến thức, thực tế, thân thấy tốn mơ tả ảnh thời trang nói riêng mơ tả ảnh nói chung lĩnh vực nghiên cứu rộng lớn đầy Trang 48 triển vọng bao gồm nhiều phương pháp, kỹ thuật, nhiều hướng nghiên cứu, cách tiếp cận khác Vì vậy, sở mà đề tài thực đạt được, hướng phát triển đề tài sau: Về thực tiễn: phát triển thành toán với số liệu lớn hơn, bao quát hơn, nhiều chọn lựa tìm kiếm tham số tối ưu trình huấn luyện Giúp tăng độ xác cho mơ hình Về lý thuyết: tiếp tục nghiên cứu tiếp phương pháp, cách tiếp cận tốn mơ tả ảnh thời trang chọn phương pháp hiệu giúp cho mô hình hoạt động tốt Mặc dù cố gắng tập trung nghiên cứu tham khảo nhiều tài liệu, báo, tạp chí khoa học ngồi nước, trình độ cịn có nhiều giới hạn khơng thể tránh khỏi thiếu sót hạn chế, mong bảo đóng góp nhiều quý thầy cô giáo nhà nghiên cứu… Trang 49 TÀI LIỆU THAM KHẢO [1] V P S D S L Y C A C B a T L B Girish Kulkarni, “Baby talk: Understanding and generating simple image descriptions,” CVPR, Colorado, 2011 [2] K Xu, J Ba, R Kiros, K Cho, A Courville, R Salakhudinov, R Zemel Yoshua, “Show, attend and tell: Neural image caption generation with visual attention,” International Conference on Machine Learning, Lille, 2015 [3] O Vinyals, A Toshev, S Bengio D Erhan, “Show and tell: Lessons learned from the 2015 mscoco image captioning challenge,” IEEE transactions on pattern analysis and machine intelligence, pp 652-663, 2017 [4] T Ojala, M PietikÃďinen T MÃďenpÃďÃď, “Gray scale and rotation invariant texture classification,” European Conference on Computer Vision, Dublin, 2000 [5] D G Lowe, “Distinctive image features from scale-invariant keypoints,” International journal of computer, pp 91-110, 2004 [6] D Navneet T Bill, “Histograms of oriented gradients for human detection,” Computer Vision and Pattern Recognition, San Diego, 2005 [7] B E Boser, I M Guyon V N Vapnik, “A training algorithm for optimal margin classifiers,” Proceedings of the fifth annual workshop on Computational learning theory, Pittsburgh, 1992 [8] L B Y B a P H Yann LeCun, “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, pp 2278-2234, 1998 [9] M Z Hossain, F Sohel, M F Shiratuddin H Laga, “A Comprehensive Survey of Deep Learning for Image Captioning,” arXiv.org, pp 2-3, 13 May 2018 Trang 50 [10] M Hodosh, P Young J Hockenmaier, “Framing image description as a ranking task: Data, models,” Journal of Artificial Intelligence Research 47, pp 853-899, 2013 [11] O Vinyals, A Toshev, S Bengio D Erhan, “Show and Tell: A Neural Image Caption Generator,” The IEEE conference on computer vision and pattern recognition, Boston, 2015 [12] J Johnson, A Karpathy L Fei-Fei, “ Densecap: Fully convolutional localization networks for dense captioning,” The IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, 2016 [13] Cho, Kyunghyun, v Merrienboer, Bart, Gulcehre, Caglar, Bougares, Fethi, Schwenk, Holger, Bengio Yoshua, “Learning phrase representations using RNN encoder-decoder for statistical machine translation,” EMNLP, Doha, 2014 [14] R Socher, A Karpathy, Q V Le, C D Manning A Y Ng, “Grounded compositional semantics for finding and describing images with sentences,” Transactions of the Association for Computational Linguistics, pp 207-218, 2014 [15] A Karpathy, A Joulin F F F Li, “Deep fragment embeddings for bidirectional image sentence mapping,” Advances in neural information processing systems, Montreal, 2014 [16] S V M R R M K S T D J M J H A T O C Lisa Anne Hendricks, “Deep compositional captioning: Describing novel object categories without paired training data,” The IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, 2016 [17] F Rosenblatt, “The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain,” Psychological Review, p 386–408, 1958 Trang 51 [18] L Lab, “Convolutional Neural Networks (LeNet) – DeepLearning 0.1 documentation,” DeepLearning 0.1 LISA Lab, 2013 [19] H H Aghdam E J Heravi, Guide to convolutional neural networks : a practical application to traffic-sign detection and classification, Cham, Switzerland: Springer, 2017 [20] D Ciresan, U Meier, J Masci, L M Gambardella J Schmidhuber, “Flexible, High Performance Convolutional Neural Networks for Image Classification,” Twenty-Second international joint conference on Artificial Intelligence, Barcelona, 2011 [21] A Krizhevsky, ImageNet Classification with Deep Convolutional Neural Networks, 2013 [22] A Karpathy, “CS231n Convolutional Neural Networks for Visual Recognition,” [Trực tuyến] Available: http://cs231n.github.io [23] D Ciresan, U Meier J Schmidhuber, “Multi-column deep neural networks for image classification,” The IEEE Conference on Computer Vision and Pattern Recognition, New York, 2012 [24] H Cruse, Neural Networks as Cybernetic Systems, 2nd and revised edition [25] P Sermanet, D Eigen, X Zhan, M Mathieu, R Fergus Y LeCun, “OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks,” arXiv.org, 2013 [26] P Werbos, Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences, 1975 [27] L Boltzmann, Studies on the balance of living force between moving material points, 1868 Trang 52 [28] A Zell, Simulation of Neural Networks, Addison-Wesley, 1994 [29] S a S J Hochreiter, “Long short-term memory,” Neural Computation, 1997, p 1735–1780 [30] R G C C K a B Y Pascanu, “How to construct deep recurrent neural networks,” ICLR, Banff, 2014 [31] Z a L P a Q S a W X a T X Liu, “DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations,” Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016 [32] N a { S a { T a { W a {Rostamzadeh}, “Fashion-Gen: The Generative Fashion Dataset and Challenge,” ArXiv e-prints, 2018 [33] X Z S R J S Kaiming He, “Deep Residual Learning for Image Recognition,” 2015 [34] K & R S & W T & Z W.-j Papineni, “BLEU: a Method for Automatic Evaluation of Machine Translation,” Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, 2002 [35] C.-Y Lin, “ROUGE: A Package for Automatic Evaluation of Summaries,” Proceedings of the ACL Workshop: Text Summarization Braches Out 2004, 2004 [36] C L Z D P Ramakrishna Vedantam, “CIDEr: Consensus-based Image Description Evaluation,” 2014 [37] A Z K Simonyan, “Very Deep Convolutional Networks for Large-Scale Image Recognition,” arXiv, 2014 Trang 53 ... trước Trang CHƯƠNG : GIỚI THIỆU VỀ BÀI TỐN MƠ TẢ ẢNH THỜI TRANG 2.1 BÀI TỐN MƠ TẢ ẢNH THỜI TRANG Bài tốn mơ tả ảnh thời trang phần tốn mơ tả nội dung ảnh nói chung Bài tốn mơ tả nội dung ảnh lĩnh... mạng nơ-ron Tìm hiểu tốn mơ tả ảnh thời trang số phương pháp giải tốn mơ tả ảnh thời Xây dựng huấn luyện mơ hình cho tốn mơ tả ảnh thời trang Đề xuất cải tiến cho mơ hình mơ tả ảnh thời trang, thực... tầm quan trọng tốn mơ tả ảnh thời trang, nhóm em xin chọn đề tài “Mơ tả ảnh thời trang? ?? làm đề tài khoá luận tốt nghiệp 1.2 MỤC ĐÍCH CỦA ĐỀ TÀI Tìm hiểu tốn mô tả ảnh thời trang, lý thuyết học