(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu

54 2 0
(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu(Đồ án tốt nghiệp) Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA ĐÀO TẠO CHẤT LƯỢNG CAO ĐỒ ÁN TỐT NGHIỆP TÌM HIỂU BÀI TỐN TẠO CÂU MƠ TẢ CHO ẢNH THỜI TRANG DÙNG HỌC SÂU SVTH: VŨ NGUYÊN HƯNG MSSV: 16110110 Khóa: 2016-2020 Ngành: Cơng nghệ thơng tin GVHD: TS Nguyễn Thiên Bảo TP Hồ Chí Minh, tháng năm 2020 LỜI CẢM ƠN Trong thời gian thực khóa luận tốt nghiệp, em nhận nhiều giúp đỡ, hỗ trợ từ phía thầy anh chị khóa trước Trước tiên em xin gửi lời cảm ơn chân thành đến thầy Nguyễn Thiên Bảo tận tình hướng dẫn, truyền đạt kiến thức, kinh nghiệm cho em suốt trình thực đề tài Xin gửi lời cảm ơn đến quý thầy cô Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Kỹ thuật Tp Hồ Chí Minh, người truyền đạt kiến thức quý báu cho em suốt thời gian học tập vừa qua Một lần nữa, xin chân thành cảm ơn iv MỤC LỤC NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP i PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN ii PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN iii LỜI CẢM ƠN iv DANH MỤC CÁC HÌNH vii DANH MỤC CÁC BẢNG ix DANH MỤC CÁC TỪ VIẾT TẮT x TÓM TẮT NỘI DUNG ĐỀ TÀI xi CHƯƠNG 1: MỞ ĐẦU 1.1 Sự cần thiết đề tài 1.2 Mục đích đề tài 1.3 Cách tiếp cận phương pháp nghiên cứu CHƯƠNG 2: BÀI TỐN MƠ TẢ HÌNH ẢNH THỜI TRANG 2.1 Giới thiệu toán 2.2 Giải pháp cho toán CHƯƠNG 3: HỌC SÂU 3.1 Giới thiệu Học sâu (Deep learning) 3.2 Mạng nơ-ron nhân tạo (Artificial Neural Network) 3.2.1 Cấu trúc 3.2.2 Phương thức hoạt động 3.2.3 Phương pháp huấn luyện 12 3.3 Mạng nơ-ron tích chập (Convolutional neural network) 15 3.4 Mạng nơ-ron hồi quy (Recurrent neural network-RNN) 19 3.5 Mạng nhớ Dài-Ngắn (Long-Short term memory network) 22 CHƯƠNG 4: HỌC SÂU VÀ BÀI TỐN MƠ TẢ ẢNH THỜI TRANG 26 4.1 Kiến trúc mơ hình học sâu toán 26 v 4.2 Bộ mã hóa (Encoder) 27 4.3 Bộ giải mã (Decoder) 27 4.4 Cơ chế Attention 29 4.5 Cơ chế đánh giá 31 4.5.1 Các độ đo sử dụng 31 CHƯƠNG 5: HIỆN THỰC VÀ ĐÁNH GIÁ MƠ HÌNH 35 5.1 Bộ liệu FashionGen 35 5.2 Hiện thực 35 5.3 Kết đánh giá 38 CHƯƠNG 6: KẾT LUẬN 41 6.1 Tổng kết 41 6.2 Ưu nhược điểm 41 6.3 Hướng phát triển tương lai 41 TÀI LIỆU THAM KHẢO 43 vi DANH MỤC CÁC HÌNH Hình 3.1: Cấu trúc nơ-ron sinh học Hình 3.2: Cấu tạo nơ-ron nhân tạo Hình 3.3: Đồ thị hàm step (trái) hàm Sigmoid (phải) Hình 3.4: Cấu trúc mạng nơ-ron nhân tạo Hình 3.5: Cấu trục ANN với tham số Hình 3.6: Learning rate Gradient Descent Hình 3.7: So sánh BGD, MGD, SGD Hình 3.8: Recceptive field CNN Hình 3.9: Phép tích chập Hình 3.10: Padding Stride Hình 3.11: Pooling layer CNN Hình 3.12: Kiến trúc mạng CNN Hình 3.13: Mơ hình dạng tốn RNN Hình 3.14: Kết nối RNN Hình 3.15: Tổng quan mơ hình LSTM Hình 3.16: Cổng qn LSTM cơng thức Hình 3.17: Cổng vào LSTM cơng thức Hình 3.18: Tế bào trạng thái LSTM cơng thức Hình 3.19: Cổng LSTM cơng thức Hình 4.1: Mơ hình tốn mơ tả ảnh Hình 4.2: Kiến trúc giải mã Hình 4.3: Mơ hình tốn áp dụng chế Attention Hình 5.1: Ảnh đồ chụp nhiều góc đồ kèm theo câu mơ tả Hình 5.2 Cấu trúc mạng nơ-ron tích chập Resnet50 vii Hình 5.3 Hình ảnh kèm câu mơ tả sinh từ mơ hình câu mơ tả chun gia thời trang Hình 5.1 Mơ hình đề xuất đưa câu mơ tả chưa xác viii DANH MỤC CÁC BẢNG Bảng 5.1 Kết huấn luyện so sánh Soft-attention mơ hình đề xuất ix DANH MỤC CÁC TỪ VIẾT TẮT NN: Neural network ANN: Artificial neural network CNN: Convolutional neural network RNN: Recurrent neural network SCA: Spatial and Channel-wise Attention LSTM: Long-Short term memory BLEU: Bilingual Evaluation Understudy Score ROUGE: Recall-Oriented Understudy for Gisting Evaluation CIDEr Consensus-based Image Description Evaluation x TÓM TẮT NỘI DUNG ĐỀ TÀI Nội dụng khóa luận tốt nghiệp trình bày kiến thức liên quan đến lĩnh vực học sâu (Deep learning) bao gồm mạng nơ-ron nhân tạo (Artificial Neural Network), mạng nơ-ron tích chập (Convolutional Neural Network) áp dụng thị giác máy tính (Computer vision) mạng nơ-ron hồi quy (Recurrent Neural Network) tác vụ xử lý ngôn ngữ tự nhiên (Natural Language Processing), giải pháp cho tốn tạo câu mơ tả ảnh thời trang dụng kiến trúc mã hóa-giải mã (Encoder-Decoder) chế ý (Attention) Mục tiêu tốn tạo câu mơ tả hình ảnh thời trang ngơn ngữ tự nhiên cách tự động Để làm việc này, liệu đầu vào ảnh xử lý trích xuất thơng tin ảnh mạng nơ-ron tích chập, sau bước ta nhận véc-tơ mang thông tin ảnh Véc-tơ áp dụng chế ý (Attention) để xác định đối tượng, đặc tính quan trọng ảnh cần sử dụng bước sinh từ cho câu mơ tả Việc đánh giá mơ hình thơng qua độ đo, độ đo nói lên tương quan câu mô tả sinh so với câu mơ tả gốc Vì vậy, việc lựa chọn độ đo phù hợp với toán vấn đề quan trọng việc đánh giá xi Chương 1: Mở đầu CHƯƠNG 1: MỞ ĐẦU 1.1 Sự cần thiết đề tài Thị giác máy tính (Computer vision) nhánh lĩnh vực trí tuệ nhân tạo (Artificial Intelligence) Khoa học máy tính (Computer science) Lĩnh vực giúp máy tính có khả thị giác người, giúp máy tính nhận diện hiểu biết hình ảnh mang tính điện tử Thị giác máy tính áp dụng mạnh mẽ tác vụ nhận diện hình ảnh Trong đề tài mục tiêu giúp cho máy tính tạo câu mơ tả cho hình ảnh thời trang tĩnh Trong thời đại công nghệ số phát triển mạnh mẽ, dẫn đến việc thương mại điện tử phát triển không ngừng, số lượng mặt hàng sản phẩm ngày tăng thay đổi nhanh chóng, điều dẫn đến việc mô tả cho sản phẩm ngày khó khăn, nhiều thời gian chi phí Giải pháp cho vấn đề áp dụng thị giác máy tính vào tác vụ mơ tả ảnh, máy tính giúp người tạo ta câu mô tả cho sản phẩm cách trực quan, đầy đủ ý nghĩa, giúp giảm thiểu chi phí thời gian cho người Do đó, tốn tạo câu mơ tả ảnh thời trang tốn có tính ứng dụng cao thực tiễn nhiều người quan tâm Nhưng để máy tính nhìn vào ảnh hiểu sau đưa câu mơ tả ngôn ngữ tự nhiên điều không dễ dàng Nó địi hỏi thuật tốn phù hợp, nguồn liệu đầu vào phong phú xác, đặc biệt việc gắn nhãn cho liệu đầu vào liệu câu mô tả cho ảnh thời trang Thấy tầm quan trọng tốn mơ tả hình ảnh thời trang, em chọn đề tài “Tạo câu mơ tả hình ảnh thời trang ứng dụng Học sâu” để làm khóa luận 1.2 Mục đích đề tài Đề tài tập trung vào mục đích sau: - Tìm hiểu tốn mơ tả ảnh thời trang - Các kiến thức Mạng thần kinh nhân tạo (ANN- ANeural network), Học sâu, mơ hình mạng nơ-ron mạng nơ-ron tích chập (Convolution Neural Network - CNN), mạng nơ-ron hồi quy (Recurrent Neural Network – RNN) Chương 4: Học sâu tốn mơ tả ảnh thời trang Sau đó, mơ hình sinh từ thứ t công thức: ℎ𝑡 = 𝐿𝑆𝑇𝑀(ℎ𝑡−1 , 𝑋 𝐿 , 𝑦𝑡−1 ), 𝑦𝑡 ∼ 𝑝𝑡 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 (ℎ𝑡 , 𝑦𝑡−1 ) Với L tổng số lượng lớp tích chập Việc đồng thời tính trọng số attention 𝛾 𝑙 tốn nhiều chi phí, tài ngun GPU Do đó, ta tách tính toán trọng số spatial attention 𝛼 𝑙 trọng số channel-wise attention 𝛽 𝑙 riêng biệt với nhau: 𝛼 𝑙 = 𝛷𝑠 (ℎ𝑡−1 , 𝑉 𝑙 ) 𝛽 𝑙 = 𝛷𝑐 (ℎ𝑡−1 , 𝑉 𝑙 ) Với 𝛷𝑠 , 𝛷𝑐 hàm số tính trọng số channel-wise spatial attention Việc tách giúp giảm chi phí tính tốn cách đáng kể từ 𝒪(𝑊 𝑙 𝐻 𝑙 𝐶 𝑙 𝑘) xuống 𝒪(𝑊 𝑙 𝐻 𝑙 𝑘) cho spatial attention 𝒪(𝐶 𝑙 𝑘) cho channel-wise attention Trong tốn mơ tả ảnh thời trang ta áp dụng chế channel-wise attention trước, sau spatial attention 𝛽 = 𝛷𝑐 (ℎ𝑡−1 , 𝑉) 𝛼 = 𝛷𝑠 (ℎ𝑡−1 , 𝑓𝑐 (𝑉, 𝛽 )), 𝑋 = 𝑓(𝑉, 𝛼, 𝛽) Với kết hợp hai chế attention, mơ hình hiểu rõ vị trí (spatial attention) đối tượng (channel-wise attention) ảnh cần ý q trình sinh câu mơ tả Giúp cho tác vụ tạo câu mô tả đạt hiệu cao 4.5 Cơ chế đánh giá 4.5.1 Các độ đo sử dụng 4.5.1.1 BLEU BLEU (Bilingual Evaluation Understudy Score) [14] phương pháp đánh giá độ tương quan câu văn sinh từ máy tính người Ý tưởng BLEU câu sinh từ máy tính (candidate translation) câu mẫu (reference translation) giống tốt Phương pháp tính BLEU đếm số từ giống candidate reference, kết số từ giống chia cho 31 Chương 4: Học sâu tốn mơ tả ảnh thời trang tổng số từ candidate Tuy nhiên phương pháp gặp vấn đề từ khớp với reference lặp lại nhiều lần candidate Ví dụ: Reference: “She is beautiful” Candidate: “She she she” Lúc này, 𝑃 = 𝑚 𝑤 = 3 , với m số từ câu candidate xuất câu reference, w tổng số từ câu candidate.Kết đồng nghĩa với việc hoàn toàn trùng khớp, phương pháp gọi BLEU-1 Phương pháp chưa tối ưu cụm từ chung với Vì thế, ta tính BLEU-1 BLEU-2, BLEU-3… hay cịn gọi n-grams Công thức tổng quát sau: 𝐵𝑃 = { 𝑖𝑓 𝑐 > 𝑟 𝑟 𝑒 (1−𝑐 ) 𝑖𝑓 𝑐 ≤ 𝑟 Sau đó: 𝑁 𝐵𝐿𝐸𝑈 = 𝐵𝑃 × 𝑒𝑥𝑝(∑(𝑤𝑛 )𝑙𝑜𝑔(𝑃𝑛 )) 𝑛=1 Với 𝑐 chiều dài candidate 𝑟 chiều dài từ có câu reference 𝑁 số từ xuất lúc BLEU-4 𝑁 = 𝑊𝑛 = 𝑁 Và miền giá trị BLEU nằm khoảng [0,1], BLEU cao số từ xuất câu sinh từ máy học so với câu mô tả mẫu nhiều Vậy câu ngắn độ đo BLEU cao, nên cần có độ đo khác để đánh giá chất lượng câu mô tả 4.5.1.2 ROUGE ROUGE (Recall-Oriented Understudy for Gisting Evaluation) [15], tương tự BLEU, ROUGE đánh giá chất lượng văn máy so với câu mô tả mẫu Ta xét ví dụ: Reference: I usually go to school by bus Candidate; I always go to school by bike 32 Chương 4: Học sâu tốn mơ tả ảnh thời trang Nếu xét từ một, số từ trùng khớp hai câu Để cho kết tốt, ROUGE tính tốn precision recall cách sử dụng overlap Precision: Được tính tổng số từ trùng hai câu văn chia cho tổng số từ câu candidate Recall: Được tính tổng số từ trùng hai câu văn chưa cho tổng số từ câu reference Ta tính Fmeasure precision recall kết ổn định 𝐹𝑀𝑒𝑎𝑠𝑢𝑟𝑒 = 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 ROUGE-L: cải tiến ROUGE, đo lường câu trùng dài Các câu trùng dài không thiết phải liên trật tự xuất câu 4.5.1.3 CIDEr CIDEr (Consensus-based Image Description Evaluation) [16] đơn vị đánh giá độ tương quan hai câu văn chủ yếu tập trung cho mơ hình mơ tả ảnh thời trang Cho hình Ii, ta đánh giá câu sinh từ mơ hình gọi ci câu nhãn người tạo gọi Si Tất từ văn chuyển thành từ gốc Ví dụ “dogs” chuyển thành “dog” Đầu tiên, ta tính trọng số cho từ xuất lúc liên tiếp với hay gọi n-gram Những n-gram mà xuất nhiều tập dataset có hệ số nhỏ n-gram mang thơng tin Cơng thức tính hệ số n-gram tính dựa Term Frequency Inverse Document Frequency (TF-IDF) Số lần xuất n-gram wk xuất dataset ký hiệu ℎ𝑘 (𝑆𝑖𝑗 ) ℎ𝑘 (𝑐𝑖 ) trùng với câu mô hình sinh Với 𝑔𝑘 (𝑆𝑖𝑗 ) trọng số TF-IDF n-gram wk tính theo cơng thức 𝑔𝑘 (𝑆𝑖𝑗 ) = ℎ𝑘 |𝐼| 𝑙𝑜𝑔( ) ∑𝑤𝑖 ∈Ω ℎ𝑙 (𝑆𝑖𝑗 ) ∑𝐼𝑝 ∈I 𝑚𝑖𝑛(1, ∑𝑞 ℎ𝑘 𝑆𝑞𝑝 ) Với Ω tập từ vựng chứa n-gram I tập tất hình ảnh dataset Hàm logarit tính theo |I| chia cho tổng số n-gram xuất dataset Sau đó, CIDErn điểm số cho chiều dài n-gram tính theo công thức sau: 33 Chương 4: Học sâu tốn mơ tả ảnh thời trang 𝑔𝑛 (𝑐𝑖 ) 𝑔𝑛 (𝑠𝑖𝑖 ) 𝐶𝐼𝐷𝐸𝑟𝑛 (𝑐𝑖 , 𝑠𝑖 ) = ∑ 𝑛 𝑚 ||𝑔 (𝑐𝑖 )|| ||𝑔𝑛 (𝑠𝑖𝑖 )|| 𝑗 Với 𝑔𝑛 (𝑐𝑖 ) vector ký hiệu 𝑔𝑘 (𝑐𝑖 ) để biểu thị chiều dài n-gram ||𝑔𝑛 (𝑐𝑖 )|| độ dài vector Tương tự cho 𝑔𝑛 (𝑠𝑖𝑖 ) Cuối cùng, CIDEr tính theo cơng thức: 𝑁 CIDEr(𝑐𝑖 , 𝑠𝑖 ) = ∑ 𝑤𝑛 𝐶𝐼𝐷𝐸𝑟𝑛 (𝑐𝑖 , 𝑠𝑖 ) 𝑛=1 Thực nghiệm mơ hình mơ tả ảnh thời trang khóa luận tơi sử dụng N = wn = 1/N 34 Chương 5: Hiện thực đánh giá mơ hình CHƯƠNG 5: HIỆN THỰC VÀ ĐÁNH GIÁ MƠ HÌNH 5.1 Bộ liệu FashionGen FashionGen [17] liệu bao gồm: - - Số lượng ảnh bao gồm 293.008 hình ảnh thời trang chất lượng cao, gồm 260,480 hình ảnh cho tập huấn luyện, 32,528 hình ảnh cho tập đánh giá 32,528 hình ảnh cho tập kiểm thử Định dạng PNG, kích thước 1360 x 1360 điểm ảnh Một trang phục chụp từ đến góc khác tùy thuộc vào loại mặt hàng Mỗi mặt hàng thời trang kèm với đoạn mô tả chi tiết viết chuyên gia thời trang Hình 5.1: Ảnh đồ chụp nhiều góc đồ kèm theo câu mô tả 5.2 Hiện thực Bộ mã hóa sử dụng mạng nơ-ron tích chập (CNN) để trích xuất thơng tin từ hình ảnh đầu vào Cụ thể, feature maps lớp convolutional cuối mạng nơ-ron trích xuất Mạng nơ-ron tích chập ResNet50 chọn làm mã hố mơ hình mô tả ảnh thời trang, mạng nơ-ron tích chập phổ biến với kết nối residual giúp trình huấn luyện đc hiểu quá, trách tình trạng vanishing gradient 35 Chương 5: Hiện thực đánh giá mơ hình Hình 5.2 Cấu trúc mạng nơ-ron tích chập Resnet50 Feature maps trích xuất từ lớp tích chập cuối mạng Resnet50 có chiều 2048 × × Mạng sử dụng pretrained model với dataset ImageNet để dự đốn thuộc tính ảnh Sau feature maps trích xuất phục vụ cho trình huấn luyện giải mã Bộ giải mã mạng nơ-ron hồi quy (RNN) với liệu đầu vào véc-tơ nói lại từ véc-tơ là: embedding véc-tơ từ sinh trước câu yt−1, véc-tơ hidden state lần sinh từ trước ht−1 véc-tơ ngữ cảnh ct Véc-tơ đầu vào RNN xt = [yt−1 , ht−1 , ct ] Sau đó, ta sử dụng mạng nơ-ron nhân tạo thơng thường (ANN) để dự đốn xác suất từ câu yt dựa vào véc-tơ đầu vào embedding véc-tơ từ sinh trước câu yt−1, véc-tơ đầu RNN ht véc-tơ ngữ cảnh ct Mạng RNN gồm lớp mạng LSTM với kích thước hidden state 512 Quá trình huấn luyện diễn sau: 36 Chương 5: Hiện thực đánh giá mơ hình Mơ hình huấn luyện thuật tốn tối ưu hóa hàm mát Adam với learning rate 1e-4, kích thước batch liệu 32 huấn luyện 12 epoch Cuối cùng, mơ hình chọn mơ hình có điểm BLEU tập validation cao Ngồi ra, chúng tơi cịn sử dụng beam size lấy mẫu câu mô tả từ mơ hình phương pháp beam search Thuật tốn beam search có tham số beam size Tại bước dự đốn từ tiếp theo, thay tìm từ có xác suất lớn nhất, ta chọn beam size kết có xác suất cao nhất, tiếp tục tính tốn xác suất thời điểm sinh end token xuất câu ứng viên Ta chọn câu ứng viên có xác suất cao làm kết cuối cho chuỗi đầu Việc sử dụng beam search có khả tăng độ xác cho câu mơ tả đầu ra, nhiên việc lưu lại thông tin xác suất chuỗi dài làm tăng thời gian huấn luyện mơ hình u cầu nhiêu tài ngun phần cứng 37 Chương 5: Hiện thực đánh giá mơ hình 5.3 Kết đánh giá Bảng 5.1 thể kết mơ hình áp dụng chế attention khác Lần lượt Spatial attention, Channel-wise attention, Channel-wise attention kết hợp Spatial attention Method BLEU-1 BLEU-2 BLEU-3 BLEU-4 ROUGE-L CIDEr SpatialAttention 0.408 0.333 0.267 0.221 0.502 0.913 Channelwise Attention 0.280 0.205 0.144 0.109 0.345 0.412 0.449 0.366 0.293 0.242 0.519 0.984 C-S Attention Bảng 5.1 Kết huấn luyện so sánh Soft-attention mơ hình đề xuất Dựa vào kết huấn luyện thấy phương pháp kết hợp Channel-wise attention Spatial attention phương pháp hiểu để tăng độ xác cho mơ hình mơ tả ảnh thời trang Phương pháp áp dụng vào mơ hình mơ tả ảnh thời trang sử dụng chế attention có 38 Chương 5: Hiện thực đánh giá mơ hình Dưới số câu mơ tả sinh từ hình ảnh thời trang mơ hình Channel wise – Spatial Attention Các hình ảnh mà mơ hình dự đốn xác so với câu đích: Hình 5.3 Hình ảnh kèm câu mơ tả sinh từ mơ hình câu mô tả chuyên gia thời trang 39 Chương 5: Hiện thực đánh giá mơ hình Các hình ảnh mà mơ hình đề xuất tạo câu mơ tả khơng xác thuộc tính có xuất ảnh: Hình 5.2 Mơ hình đề xuất đưa câu mơ tả chưa xác Có thể thấy mơ hình nắm bắt thuộc tính bên hình ảnh từ loại mặt hàng đến kiểu dáng, phong cách, màu sắc, … thể tính chất ngơn ngữ tự nhiên người cách mạch lạc Tuy nhiên cịn sót câu mơ tả 40 Chương 6: Kết luận CHƯƠNG 6: KẾT LUẬN 6.1 Tổng kết Qua trình nghiên cứu, em nắm bắt kiến thức học sâu, mạng nơ-ron nhân tạo phương pháp giải toán tạo câu mơ tả cho hình ảnh thời trang, sau huấn luyện mơ hình tạo câu mơ tả cho ảnh thời trang Mơ hình phát sinh câu mơ tả có xác tương đối nội dung ảnh thời trang, hứa hẹn tương lai áp dụng vào thực tế 6.2 Ưu nhược điểm Ưu điểm: Nắm lý thuyết học sâu, mạng nơ-ron nhân tạo Hiểu tốn tạo câu mơ tả cho ảnh thời trang khó khăn toán - Nắm bắt cách áp dụng lý thuyết để giải tốn tạo câu mơ tả cho ảnh thời trang - Huấn luyện mơ hình kết hợp Channel wise – Spatial Attention - Nhược điểm: Các câu mơ tả sinh từ mơ hình chưa đám bảo độ xác để áp dụng vào thực tế - Chưa huấn luyện mơ hình kết hợp Spatial - Channel wise Attention - 6.3 Hướng phát triển tương lai Trong lĩnh vực xử lý ảnh nói chung tốn tạo câu mơ tả ảnh nói riêng cịn q rộng lớn nhiều phương pháp, kỹ thuật để nghiên cứu nên em có hướng phát triển sau: Về lý thuyết: Tìm hiểu nghiên cứu phương pháp lĩnh vực tạo câu mô tả cho ảnh thời trang để áp dụng tăng độ xác cho câu mơ tả mà mơ hình sinh 41 Chương 6: Kết luận Về thực tiễn:  Thử nghiệm áp dụng tập liệu lớn hơn, bao quát (nhiều phụ kiện thời trang hơn, ảnh có nhiều người…) việc huấn luyện  Nghiên cứu áp dụng mơ hình R-CNN mã hóa để tăng khả định vị nhận diện vật thể Em nghiên cứu, tìm hiểu tài liệu nghiên cứu khoa học lĩnh vực tạo câu mơ tả cho hình ảnh thời trang trình độ có hạn, chưa có nhiều kinh nghiệm nên khơng thể tránh khỏi thiếu sót, hạn chế Mong quý thầy bảo, góp ý để giúp em hồn thiện tiến 42 TÀI LIỆU THAM KHẢO [1] K Xu, J Ba, R Kiros, K Cho, A Courville, R Salakhudinov, R Zemel Yoshua, “Show, attend and tell: Neural image caption generation with visual attention,” International Conference on Machine Learning, Lille, 2015 [3] L B Y B a P H Yann LeCun, “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, pp 2278-2234, 1998 [4] Alex Sherstinsky, "Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) Network" [5] M Z Hossain, F Sohel, M F Shiratuddin H Laga, “A Comprehensive Survey of Deep Learning for Image Captioning,” arXiv.org, pp 2-3, 13 May 2018 [6] Cho, Kyunghyun, v Merrienboer, Bart, Gulcehre, Caglar, Bougares, Fethi, Schwenk, Holger, Bengio Yoshua, “Learning phrase representations using RNN encoder-decoder for statistical machine translation,” EMNLP, Doha, 2014 [7] R Socher, A Karpathy, Q V Le, C D Manning A Y Ng, “Grounded compositional semantics for finding and describing images with sentences,” Transactions of the Association for Computational Linguistics, pp 207-218, 2014 [8] A Karpathy, A Joulin F F F Li, “Deep fragment embeddings for bidirectional image sentence mapping,” Advances in neural information processing systems, Montreal, 2014 [9] F Rosenblatt, “The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain,” Psychological Review, p 386–408, 1958 [10] Zhang, Tong (2004) "Solving large scale linear prediction problems using stochastic gradient descent algorithms" Proceedings of the 21st International Conference on Machine Learning (ICML'04): 116 doi:10.1145/1015330.1015332 ISBN 1-58113-838-5 [11] CS231n Convolutional Neural Networks Recognition" cs231n.github.io Retrieved 2018-12-13 for Visual 43 [12] Sepp Hochreiter; Jürgen Schmidhuber (1997) "Long memory" Neural Computation (8): 1735–1780 doi: neco.1997.9.8.1735 PMID 9377276 short-term 10.1162/ [13] SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning Long Chen, Hanwang Zhang, Jun Xiao, Liqiang Nie, Jian Shao, Wei Liu, Tat-Seng Chua [14] K & R S & W T & Z W.-j Papineni, “BLEU: a Method for Automatic Evaluation of Machine Translation,” Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, 2002 [15] C.-Y Lin, “ROUGE: A Package for Automatic Evaluation of Summaries,” Proceedings of the ACL Workshop: Text Summarization Braches Out 2004, 2004 [16] C L Z D P Ramakrishna Vedantam, “CIDEr: Consensus-based Image Description Evaluation,” 2014 [17] Negar Rostamzadeh, Seyedarian Hosseini, Thomas Boquet, Wojciech Stokowiec, Ying Zhang, Christian Jauvin, Chris Pal,"Fashion-Gen: The Generative Fashion Dataset and Challenge" ArXiv e-prints, 2018 44 S K L 0 ... việc gắn nhãn cho liệu đầu vào liệu câu mô tả cho ảnh thời trang Thấy tầm quan trọng tốn mơ tả hình ảnh thời trang, em chọn đề tài ? ?Tạo câu mô tả hình ảnh thời trang ứng dụng Học sâu? ?? để làm khóa... đến mô tả ảnh, lý thuyết học sâu, mạng nơ-ron chế attention Chương 2: Bài tốn mơ tả ảnh thời trang CHƯƠNG 2: BÀI TỐN MƠ TẢ HÌNH ẢNH THỜI TRANG 2.1 Giới thiệu tốn Tạo câu mơ tả hình ảnh thời trang. .. hợp câu mơ tả có Các phương pháp trước tiên tìm hình ảnh tương tự mặt hình ảnh với câu mơ tả chúng từ tập Chương 2: Bài toán mô tả ảnh thời trang liệu huấn luyện Những câu mô gọi câu mô tả ứng

Ngày đăng: 30/01/2023, 05:48

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan