Tìm hiểu bài toán tạo câu bình luận cho ảnh thời trang

MỤC LỤC Chương I Giới thiệu 1 Đặt vấn đề Mục tiêu Phạm vi đề tài Chương II Tổng quan học sâu (Deep Learning) Giới thiệu Deep Learning Mạng tích chập (Convolutional Neural Network) 2.1 Đặc trưng (Feature) 2.2 Tích chập (Convolutional) 2.3 Pooling 2.4 Fully connected layers Mạng hồi quy (Recurrent Neural Network) 3.1 RNN (Recurrent Neural Network) 3.2 GRU (Gated Recurrent Unit) 10 Chương III Phương pháp đề xuất 11 NFR framework 11 Kiến trúc NFR framework 11 Encoder – Decoder Architecture 12 Sequence to Sequence Model 13 Attention Model 14 Transformer Architecture 18 6.1 Mơ hình kiến trúc Transformer 18 6.2 Input Embedding Positional Embedding 20 6.3 Giai đoạn Encoder 21 6.3.1 Seft-Attention Transformer 22 6.3.2 Scaled Dot-Product Attention 26 6.3.3 Multi head seft attention 28 vii 6.3.4 Position-wise Feed Forward Networks 30 6.3.5 Residual connection 30 6.4 Giai đoạn Decoder 31 6.5 Ưu điểm nhược điểm kiến trúc Transformer 32 Chương IV Hiện thực hóa hệ thống 34 Dataset 34 Môi trường 34 Hiện thực hệ thống 34 Kết 35 Chương V Tổng kết hướng phát triển 37 Các công việc làm 37 Hạn chế 37 Hướng phát triển 37 TÀI LIỆU THAM KHẢO 38 viii DANH MỤC HÌNH VẼ Hình 1: Minh họa đơn giản nguyên lý hoặt động CNNs Hình 2: Cách so sánh CNN Hình 3: Nguyên lý tạo feature map Hình 4: Thực tồn q trình tích chập cho feature khác Hình 5: ReLU activation function Hình 6: Cách hoạt động Pooling Hình 7: Thu gọn feature map quan trọng sau qua pooling Hình 8: Miêu tả quy trinh lớp CNN Hình 9: Kiến trúc mơ hình RNN Hình 10: Gated Recurrent Unit (GRU) 10 Hình 11: Sơ đồ kiến trúc tổng quan neural fashion recommendation (NFR) 11 Hình 12: Sơ đồ kiến trúc Encoder – Decoder Architecture 12 Hình 13: Encoder-decoder model dịch câu “she is eating a green apple” sang tiếng Trung 13 Hình 14: Mơ hình tạo từ yt thời điểm t cách áp dụng chế Attention 15 Hình 15: Mức độ tương quan (correlation) liệu nguồn (source) liệu dự đoán (target) 17 Hình 16: Kiến trúc mơ hình Transformer 19 Hình 17: Các khối encoder/decoder xếp chồng mơ hình Transformer 20 Hình 18: Một lớp giai đoạn encoder 22 Hình 19: Mã hóa từ "it" encoder layer thứ 23 Hình 20: Miêu tả việc tạo vector query, key, value cho từ việc nhân embedding vector với matix số tương ứng 24 ix Hình 21: Miêu tả việc tạo ma trận query, key, value cho câu liệu nguồn, hàng ma trận X thể từ câu liệu nguồn 24 Hình 22: Giai đoan Encoder layer thứ 1, miêu tả việc xử lý vector đại diện qua sublayer 25 Hình 23: Scaled Dot-Product Attention 26 Hình 24: Tính điểm attention score hàm tương thích Scaled Dot-Product Attention, số hình minh họa 27 Hình 25: Multi-Head Attention gồm nhiều lớp h attention chạy song song 28 Hình 26: Miêu tả chi tiết Multi head Attention xử lý liệu song song qua multihead để thành vector đại diện 29 Hình 27: Miêu tả mối quan hệ từ “it” với từ lại câu, sau sử dụng multi-head attention 29 Hình 28: Giai đoạn decoder 31 Hình 29: Sau kết thúc giai đoạn encoder, ma trận K V đưa vào giai đoạn decoder Mỗi bước giai đoạn decoder dự đoán từ chuỗi đầu 32 x Chương I Giới thiệu Đặt vấn đề Thị lực máy tính (Computer vision) nhánh lĩnh vực trí tuệ nhân tạo (Artificial Intelligence) Khoa học máy tính (Computer science) Lĩnh vực giúp máy tính có khả thị giác người, giúp máy tính nhận diện hiểu biết hình ảnh Xã hội ngày phát triển, với nhịp sống người bận rộn theo Xu hướng mua hàng online, ngày giới trẻ người nhiều thời gian mua sắm lựa chọn Đây lí mà lĩnh vực có nhiều tìm để khai thác nhằm cao chất lượng phục vụ tạo sự quan tâm đến cho khách hàng Lấy ý tưởng từ việc gợi ý mẫu thời trang cho người mua hàng trang mua sắm online tiếng Amazon, Lazada, Alibaba, Tiki,… hệ thống gợi ý tập trung vào việc dựa vào lịch sử người dùng tìm kiếm từ gợi ý sản phẩm tương tự cho người dùng Để mở rộng chức gợi ý mẫu thời trang cho người dùng, giúp cho người dùng chủ động việc lựa chọn trang phục ưa thích, có thêm nhiều lựa chọn mà khơng tốn nhiều thời gian cần có hệ thống AI/Machine learning tích hợp hệ thống website ứng dụng di động để thực việc Mục tiêu Để giải qút bái tốn tạo câu bình luận cho ảnh thời trang, nhiều mô hình nghiên cứu không ngừng cải tiến Gần viết “Fashion Coordinates Recommender System using Photographs from Fashion Magazines” [1] Tomoharu Iwata cộng sự, “Hi, Magic Closet, Tell Me What to Wear!” [2] Si Liu cộng sự đề xuất tập trung vào gợi ý mẫu thời hạn chế liệu xu hướng đa dạng việc mua sắm người dừng Bài viết “Explainable Fashion Recommendation with Joint Outfit Matching and Comment Generation” [3] Yujie Lin, Pengjie Ren cộng sự công bố tháng 12 năm 2018 đề xuất Neural Fashion Recommendation framework (NFR), mơ hình gợi ý mẫu trang phục phối với từ mẫu trang phục phát sinh câu bình luận Mơ hình NFR Yujie Lin, Pengjie Ren cộng sự cơng bố có nhiều ưu điểm mặt cải tiến độ xác theo bảng so sánh kết với mơ hình nghiên cứu trước công bố [3] chức phối trang phục phát sinh câu bình luận Tuy nhiên, NFR nhiều mặt hạn chế mặt liệu câu bình luận phát sinh chưa thực sự hiệu Vậy mục tiêu đề tài thực lại mô hình NFR để áp dụng vào tốn tạo câu bình luận cho ảnh thời trang Phạm vi đề tài Trong đề tài này, dựa nghiên cứu Neural Fashion Recommendation framework Yujie Lin, Pengjie Ren cộng sự đề xuất, nhóm tập trung vào nhiệm vụ phát sinh câu bình luận cho trang phục mơ hình NFR, từ đề xuất cải tiến cho mơ hình NFR để đạt câu bình luận xác Chương II Tổng quan học sâu (Deep Learning) Giới thiệu Deep Learning Deep Learning phần ngành máy học dựa tập hợp thuật tốn để cố gắng mơ hình liệu trừu tượng hóa mức cao cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, cách khác bao gồm nhiều biến đổi phi tuyến [5] Các nghiên cứu lĩnh vực Deep Learning cố gắng thực đại diện (representation) tốt tạo mơ hình để tìm hiểu đại diện (representation) từ liệu không dán nhãn quy mô lớn [5] Một số đại diện lấy cảm hứng tiến khoa học thần kinh dựa giải thích mơ hình xử lý truyền thông tin hệ thống thần kinh người Nhiều kiến trúc Deep Learning nghiên cứu mạng neuron sâu (deep neural networks), mạng neuron tái phát (recurrent neural networks), mạng neuron tích chập (convolutional neural networks) ứng dụng vào nhiều lĩnh vực thị giác máy tính (computer vision), nhận dạng giọng nói (speech recognition), xử lý ngơn ngữ tự nhiên (natural language processing), phân tích hình ảnh y tế (medical image analysis), v.v Những ứng dụng Deep Learning chứng minh tạo kết tương đương số trường hợp vượt trội so với người Mạng tích chập (Convolutional Neural Network) Convolutional Neural Network (CNN ConvNet) lớp mạng lưới thần kinh sâu [6], ứng dụng hầu hết phổ biến để phân tích hình ảnh thị giác (visual imagery) nhận diện hình ảnh video (image and video recognition), phân loại ảnh (image classification), phân tích ảnh y tế (medical image analysis) Hình 1: Minh họa đơn giản nguyên lý hoặt động CNNs [34] 2.1 Đặc trưng (Feature) Hình 2: Cách so sánh CNN [34] Trong CNN việc so sánh chia nhỏ mảnh để so sánh, mảnh gọi đặc trưng (feature) Mỗi feature có kích thước mảng chiều Bằng cách tìm mức thơ feature khớp vị trí hai hình ảnh, CNNs nhìn sự tương đồng tốt nhiều so với việc khớp toàn ảnh 2.2 Tích chập (Convolutional) Hình 3: Ngun lý tạo feature map [34] Khi xem hình ảnh mới, CNN khơng biết xác nơi feature khớp nên thử chúng khắp nơi Khi tính tốn sự khớp feature tồn ảnh, làm thành filter (bộ lọc), để tính tốn sự khớp ta nhân điểm ảnh feature với giá trị điểm ảnh tương ứng mảnh hình ảnh so sánh, tính trung bình cộng (cộng tổng lại chia cho số lượng điểm ảnh feature) Nếu tất điểm ảnh khớp, ta cộng lại chia trung bình cộng Hình 4: Thực tồn q trình tích chập cho feature khác [34] Kết tập hợp hình ảnh lọc (feature map), ứng với filter Rectified Linear Unit (ReLU) hàm activation (activation function) dùng để tinh chỉnh lại đơn vị tuyến tính, cụ thể nơi có số âm thì hốn đổi với Hình 5: ReLU activation function [34] 2.3 Pooling Pooling cách lấy hình ảnh lớn làm co chúng lại giữ thơng tin quan trọng Hình 6: Cách hoạt động Pooling [34] Duyệt bước ô vuông cửa sổ nhỏ dọc hình ảnh lấy giá trị lớn từ cửa sổ bước Sau pooling, hình ảnh có khoảng phần tư số điểm ảnh so với ban đầu giá trị lớn từ cửa sổ chọn Lấy ví dụ từ chuỗi đưa vào (input source), sử dụng hàm Scaled Dot-Product Attention để tính điểm ý (attention score) từ “Think” với từ lại câu hình 24 bên Hình 24: Tính điểm attention score hàm tương thích Scaled Dot-Product Attention, số hình minh họa [31] Sau có vector query, value, key từ “Thinking”, Seft-attention sử dụng để tính điểm (score) từ khác câu liệu đầu vào (input sentence) từ “Think”, điểm mức độ ý từ từ khác câu liệu đầu vào (input sentence) Điểm ý (attention score) tính hàm tương thích (compatibility function), cụ thể Scaled Dot-Product Attention Trước tiên ta tính tích vô hướng (dot product) vec-tơ 𝑞𝑖 𝑘𝑖 theo từ vị trí 𝑖 câu Lấy kích thước không gian vecto query, key, score 64 không gian vec-tơ word embedding 512 theo nghiên cứu gốc [37] Tiếp ta lấy điểm (score) vừa tính từ chia cho (vì bậc không gian véc-tơ query key 27 64) Sau chuẩn hóa kết qua hàm Softmax, trọng số nằm khoảng từ đến Cuối cùng, trọng số nhân với value từ, mục đích để giữ nguyên vẹn giá trị từ mà muốn tập trung vào, làm hạ thấp trọng số từ không liên quan (ví dụ cách nhân chúng với số nhỏ 0,001) Lúc ta thu vec tơ đại diện (vector representation) ký hiệu 𝑧𝑖 cho từ câu, thể mức độ ý từ vị trí 𝑖 đến vị trí khác chuỗi 6.3.3 Multi head self attention Thay sử dụng lớp Seft attention, Multi head self attention tính tốn vec-tơ đại diện 𝑧ℎ thời điểm ℎ khác với ma trận trọng số (weight matrics) khác Muti-head attention cho phép mơ hình tham gia thơng tin từ không gian đại diện khác vị trí khác [27], điều có nghĩa với từ có nhiều khơng gian đại diện (representation subspaces) thể sự đa dạng ngữ nghĩa từ 𝑀𝑢𝑙𝑡𝑖𝐻𝑒𝑎𝑑(𝑄, 𝐾, 𝑉 ) = 𝐶𝑜𝑛𝑐𝑎𝑡(ℎ𝑒𝑎𝑑1, , ℎ𝑒𝑎𝑑ℎ)𝑊0 𝑄 Với ℎ𝑒𝑎𝑑𝑖 = 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑄𝑊𝑖 , 𝐾𝑊𝑖𝐾 , 𝑉𝑊𝑖𝑉 ) Hình 25: Multi-Head Attention gồm nhiều lớp h attention chạy song song 28 Hình 26: Miêu tả chi tiết Multi head Attention xử lý liệu song song qua multihead để thành vector đại diện Với multi-head attention, ma trận trọng số khác tổng hợp vector đại diện khác biểu diễn cho từ Hình 27: Miêu tả mối quan hệ từ “it” với từ lại câu, sau sử dụng multi-head attention [31] 29 Bởi từ ‘it” mã hóa với multi-head attention nên vector đại diện từ tổng hợp với nhiều không gian vector biểu diễn khác (representation subspaces), dẫn đến attention head ý vào từ “The animal” attention khác trọng vào từ “tire” 6.3.4 Position-wise Feed Forward Networks The pointwise feed-forward layer nhận giá trị (input) từ multi-head attention layer, chuyển đổi giá trị qua phép biến đổi tuyến tính (linear transformation) với hàm kích hoạt (ReLU activation) Lớp feed-forward xem lớp convolution với kernel size =1 6.3.5 Residual connection Giữa sublayer có kết nối gọi residual connection Residual connection giúp tránh tượng bùng nổ đạo hàm (vanishing gradient) mạng sâu (deep networks) Đầu sublayer là: 𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑥 + 𝑆𝑢𝑏𝑙𝑎𝑦𝑒𝑟(𝑥 )) Với x vector đại diện lieu đầu vào, Sublayer(x) vector đại diện tạo qua sublayer 6.4 Giai đoạn Decoder Giai đoạn decoder gồm có số lượng lớp xếp chơng (stack) với encoder Kiến trúc decoder tương tự encoder, sử dụng thêm lớp bổ sung Mask Multi Head Attention Lớp bổ sung giúp ngăn chặn vị trí tham dự vào vị trí tiếp theo [31] 30 Hình 28: Giai đoạn decoder [27] Đầu mã hóa (top of encoder) sau chuyển thành tập vectơ ý (attention vector) K V, vector sử dụng cho lớp decoder 31 Hình 29: Sau kết thúc giai đoạn encoder, ma trận K V đưa vào giai đoạn decoder Mỗi bước giai đoạn decoder dự đoán từ chuỗi đầu [31] Đầu bước đưa đến decoder bước tiếp theo decoder tạo kết giải mã giống encoder làm Giống đầu vào encoder, từ dự đoán nhúng thêm mã hóa vị trí (positional encoder) vào đầu vào encoder để vị trí từ Lớp cuối lớp tuyến tính softmax Lớp tuyến tính mạng nơ ron fully connected neural network, biến vectơ tạo lớp chồng giải mã (stack of decoder), thành vectơ lớn hơn, gọi vectơ logits Lớp softmax sau biến điểm số thành phân bố xác suất (từ đến 1) Xác suất cao chọn từ liên kết với tạo [31] 6.5 Ưu điểm nhược điểm kiến trúc Transformer Mơ hình Transformer xử lý đầu vào có kich thước thay đổi cách sử dụng nhiều lớp xếp chồng seft-attention (stacks of seft-attention layer), khiến cho kiến trúc có nhiều ưu điểm: [30] 32  Nó không đưa giả định mối quan hệ thời gian / không gian (temporal/spatial relationship) liệu Điều lý tưởng để xử lý tập hợp đối tượng  Các đầu lớp tính song song, thay chuỗi RNN  Các liệu khoảng cách xa (distant items) ảnh hưởng đến đầu mà không qua nhiều bước RNN lớp chập  Nó học phụ thuộc tầm xa Đây thách thức nhiều nhiệm vụ trình tự Nhìn khía cạnh trực quan kiến trúc có điểm bất lợi:  Đối với chuỗi thời gian, đầu cho time-step tính từ tồn lịch sử thay đầu vào trạng thái ẩn Điều hiệu  Nếu đầu vào khơng có mối quan hệ thời gian / không gian, văn bản, số mã hóa vị trí (positional encoding) phải thêm vào 33 Chương IV Hiện thực hóa hệ thống Dataset ExpFashion liệu bao gồm:  Số lượng ảnh 50.015 ảnh thời trang với 29.113 ảnh thể trang phục (top) 20.902 ảnh thể trang phục (bottom)  Mỗi ảnh có kích thước 224x224, ảnh trắng, định dạng JPG  Số lượng cặp ảnh trang phục 200.745  Số câu bình luận 1.052.821  Bộ từ vựng gồm 92.295 từ (thực nghiệm 16.519 từ) Môi trường Google Colab Service, ram cung cấp 12GB, dung lượng disk 358.27GB Hiện thực hệ thống - Thực training với tập liệu tách từ tập liệu ban đầu:  1.876 ảnh bao gồm 729 top 1.147 bottom (5 epoch)  6.595 ảnh bao gồm 3.113 top 3.482 bottom (1 epoch) - Bộ mã hóa sử dụng mạng nơ-ron tích chập (CNN) lớp để trích xuất thơng tin từ hình ảnh đầu vào, cụ thể kernel size 3x3, stride = 1, padding = 1, pooling size 16x16 Feature maps lớp convolutional cuối mạng nơ-ron trích xuất phục vụ cho q trình decoder - Giai đoạn decoder đầu tiên sử dụng chế Mutual Attention lấy chéo feature top bottom để tìm cặp top-bottom phù hợp - Giai đoạn decoder tiếp theo RNN sử dụng GRU với chế Cross-modality Attention để tính tốn hidden state ban đầu, đọc previous word embedding, context vector hidden state làm liệu đầu vào để tính tốn hidden state current output từ tạo câu bình luận 34 - Trong trình huấn luyện, tham số mô hình khởi tạo ngẫu nhiên phương pháp Xavier, thuật tốn tối ưu hóa sử dụng Adam với learning rate = 0.001 batch size = 64 Kết Câu bình luận & Đánh giá Cặp trang phục Bottom Top surely you , and this is sweet like cake ! Tốt Stylish fashion such a nice combo for this season Tốt Wow ! this is fabulous dear, love it all very much- well done :)) Tốt 35 Hey, thanks for following us ! Không tốt Thanks girl Không tốt Đánh giá kết đầu Bleu1: Epoch NFR (Tập liệu 1) Top down Down top 0.054 0.060 0.049 0.060 0.054 0.051 0.034 0.043 0.044 0.068 Epoch NFR (Tập liệu 2) Top down Down top 0.357 0.408 36 Chương V Tổng kết hướng phát triển Các công việc làm - Nghiên cứu mơ hình để xử lý tốn xử lý hình ảnh, văn Deep Learning, Machine Learning - Tìm hiểu ứng dụng giải quyết vấn đề /bài toán gợi ý phát sinh câu bình luận cho trang phục - Nghiên cứu mơ hình, kỹ thuật để ứng dụng vào việc giải qút mơ hình phát sinh câu bình luận từ ảnh tĩnh - Hiện thực lại mô hình “Tự động phát sinh bình luận cho ảnh thời trang” Hạn chế - Cơ sở vật chất chưa đủ tốt - Kinh nghiệm tiến hành thực nghiệm hạn chế - Kết việc thực nghiệm chưa thật sự mong muốn Hướng phát triển - Thu thập tái chỉnh sữa lại toàn liệu huấn luyện - Thực việc huấn luyện lại mơ hình với tập liệu lớn - Áp dụng thực nghiệm kỹ thuật Attribute Recognization, Visual Attention Model,… để phát triển mơ hình vào thuộc tính để dựa vào đưa câu bình luận đáng tin hợp lý cho người dùng 37 TÀI LIỆU THAM KHẢO [1] Tomoharu Iwata, Shinji Watanabe and Hiroshi Sawada (2011), “Fashion coordinates recommender system using photographs from fashion magazines“ International Joint Conference on Artificial Intelligence, pp 2262–2267 [2] Si Liu, Jiashi Feng, Zheng Song, Tianzhu Zhang, Hanqing Lu, Changsheng Xu and Shuicheng Yan, “Hi, magic closet, tell me what to wear!” in ACM Multimedia, 2012, pp 619–628 [3] Yujie Lin (5 Mar 2019), “Explainable Outfit Recommendation with Joint Outfit Matching and Comment Generation”, ” https://arxiv.org/pdf/1806.08977.pdf” [4] Ashish Vaswani et al (6 Dec 2017), “Attention Is All You Need”, “https://arxiv.org/pdf/1706.03762.pdf” [5] Wikipedia, Deep Learning, “https://en.wikipedia.org/wiki/Deep_learning” [6] Wikipedia, A Deep neural network (DNN), “https://en.wikipedia.org/wiki/Deep_learning#Deep_neural_networks” [7] Ilya Sutskever, Oriol Vinyals, Quoc V Le (14 Dec 2014), “Sequence to Sequence Learning with Neural Networks”, “https://arxiv.org/pdf/1409.3215.pdf” [8] Encoder-Decoder Architectures (Mar 7, 2017), “https://www.quora.com/What-isan-Encoder-Decoder-in-Deep-Learning” [9] Kyunghyun Cho Bart van Merrienboer Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares Holger Schwenk, Yoshua Bengio (3 Sep 2014), “Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation”, “https://arxiv.org/pdf/1406.1078.pdf” 38 [10] Jason Brownlee (October 13, 2017), “How Does Attention Work in EncoderDecoder Recurrent Neural Networks”, “https://machinelearningmastery.com/howdoes-attention-work-in-encoder-decoder-recurrent-neural-networks/” [11] Lilian Weng (Jun 24 2018), “Attention? Attention!” , “https://lilianweng.github.io/lillog/2018/06/24/attention-attention.html#whats-wrong-with-seq2seq-model” [12] Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, Yoshua Bengio (11 Dec 2014), “Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling”, “https://arxiv.org/pdf/1412.3555.pdf” [13] Problem of RNN and understanding LSTM Networks (August 27, 2015), “http://colah.github.io/posts/2015-08-Understanding-LSTMs/” [14] Ta-Chun Su (3 Oct 20118), “Seq2seq pay Attention to Self Attention”, ” https://medium.com/@bgg/seq2seq-pay-attention-to-self-attention-part-1d332e85e9aad” [15] Dzmitry Bahdanau, KyungHyun Cho Yoshua Bengio (19 May 2016), “NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE”, “https://arxiv.org/pdf/1409.0473.pdf” [16] Phan Huy Hoang (16 Jan 2017), “ Attention, Attention, Attention,” “https://viblo.asia/p/machine-learning-attention-attention-attention-eW65GPJYKDO” [17] Alex Graves et…al (10 Dec 2014), “Neural Turing Machines”, “https://arxiv.org/pdf/1410.5401.pdf” [18] Minh-Thang Luong et al (20 Sep 2015), “Effective Approaches to Attentionbased Neural Machine Translation”, “https://arxiv.org/pdf/1508.04025.pdf” 39 [19] Ashish Vaswani and Anna Huang (2016), “Self-Attention For Generative Models”, “https://web.stanford.edu/class/cs224n/slides/cs224n-2019-lecture14transformers.pdf” [20] Aditya Thiruvengadam (Oct 9, 2018), “Transformer Architecture: Attention Is All You Need” , “https://medium.com/@adityathiruvengadam/transformer-architectureattention-is-all-you-need-aeccd9f50d09” [21] Hojjat Salehinejad et al (22 Feb 2018), “Recent Advances in Recurrent Neural Networks, https://arxiv.org/pdf/1801.01078.pdf [22] Ashish Vaswani et…al (6 Dec 2017), “Attention Is All You Need”, “https://arxiv.org/pdf/1706.03762.pdf” [23] Keitakurita (29 Dec 2017 ), “Explanin Attention Is All You Need”, http://mlexplained.com/2017/12/29/attention-is-all-you-need-explained/ [24] Gongbo Tang1 et…al (11 Nov 2018), “Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures”, “https://arxiv.org/pdf/1808.08946.pdf” [25] Alibaba Cloud (12 Sep 2018 ), “ Self-Attention Mechanisms in Natural Language Processing”, ” https://medium.com/@Alibaba_Cloud/self-attention-mechanisms-innatural-language-processing-9f28315ff905” [26] Zhixing Tan , Mingxuan Wang et…al (5 Dec 2017), ”Deep Semantic Role Labeling with Self-Attention”, “https://arxiv.org/pdf/1712.01586.pdf” [27] (Intra-att)Ankur P Parikh et…al (2016), “A Decomposable Attention Model for Natural Language Inference”, https://aclweb.org/anthology/D16-1244 [28] Peter Shaw et…al (2017), Self-Attention with Relative Position Representations, https://arxiv.org/pdf/1803.02155.pdf 40 [29] Maxime Allard (Jan 2019), “What is a Transformer?“, “https://medium.com/inside-machine-learning/what-is-a-transformer-d07dd1fbec04“ [30] Tensorflow, “Transformer model for language understanding”, “https://www.tensorflow.org/beta/tutorials/text/transformer” [31] Jay Alammar (June 27 2018,) “The Illustrated Transformer”, “http://jalammar.github.io/illustrated-transformer/“ [32] Giuliano Giacaglia (Mar 11 2018), “How Transformers Work”, “https://towardsdatascience.com/transformers-141e32e69591” [33] Michal Chromiak (Tue, 12 Sep 2017) “The Transformer – Attention is all you need”, “https://mchromiak.github.io/articles/2017/Sep/12/Transformer-Attention-is-allyou-need/#positional-encoding-pe” [34] e2eML “How Convolutional Neural Networks work?”, August 18, 2016, “https://e2eml.school/how_convolutional_neural_networks_work ” [35] (Sep 30 2018) “Understanding of RECURRENT NEURAL NETWORKS (LSTM, GRU)”, “https://mc.ai/understanding-of-recurrent-neural-networks-lstm-gru/” [36] SuperDataScience Team (Aug 23 2018) “Recurrent Neural Networks (RNN) - The Vanishing Gradient Problem”, “https://www.superdatascience.com/blogs/recurrentneural-networks-rnn-the-vanishing-gradient-problem” [37] Simeon Kostadinov (Dec 16 2017), “Understanding GRU Networks”, ”https://towardsdatascience.com/understanding-gru-networks-2ef37df6c9be” 41 ... gợi ý thời trang tạo câu bình luận trừu tượng cho trang phục phối NFR có nhiệm vụ bao gồm: phối trang phục cho phù hợp từ trang phục phù hợp phát sinh câu bình luận để miêu tả cảm xúc trang phục... thời trang Trong trình tạo từ cho câu bình luận, chế Cross-modality Attention [4] áp dụng để lấy đặc tính (feature) từ đặc tính (feature) cặp ảnh nhằm tăng độ xác cho bình luận cặp ảnh thời trang. .. Số lượng ảnh 50.015 ảnh thời trang với 29.113 ảnh thể trang phục (top) 20.902 ảnh thể trang phục (bottom)  Mỗi ảnh có kích thước 224x224, ảnh trắng, định dạng JPG  Số lượng cặp ảnh trang phục

Định dạng
Số trang	45
Dung lượng	2,45 MB