1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu bài toán tạo câu bình luận cho ảnh thời trang

45 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

MỤC LỤC Chương I Giới thiệu 1 Đặt vấn đề Mục tiêu Phạm vi đề tài Chương II Tổng quan học sâu (Deep Learning) Giới thiệu Deep Learning Mạng tích chập (Convolutional Neural Network) 2.1 Đặc trưng (Feature) 2.2 Tích chập (Convolutional) 2.3 Pooling 2.4 Fully connected layers Mạng hồi quy (Recurrent Neural Network) 3.1 RNN (Recurrent Neural Network) 3.2 GRU (Gated Recurrent Unit) 10 Chương III Phương pháp đề xuất 11 NFR framework 11 Kiến trúc NFR framework 11 Encoder – Decoder Architecture 12 Sequence to Sequence Model 13 Attention Model 14 Transformer Architecture 18 6.1 Mơ hình kiến trúc Transformer 18 6.2 Input Embedding Positional Embedding 20 6.3 Giai đoạn Encoder 21 6.3.1 Seft-Attention Transformer 22 6.3.2 Scaled Dot-Product Attention 26 6.3.3 Multi head seft attention 28 vii 6.3.4 Position-wise Feed Forward Networks 30 6.3.5 Residual connection 30 6.4 Giai đoạn Decoder 31 6.5 Ưu điểm nhược điểm kiến trúc Transformer 32 Chương IV Hiện thực hóa hệ thống 34 Dataset 34 Môi trường 34 Hiện thực hệ thống 34 Kết 35 Chương V Tổng kết hướng phát triển 37 Các công việc làm 37 Hạn chế 37 Hướng phát triển 37 TÀI LIỆU THAM KHẢO 38 viii DANH MỤC HÌNH VẼ Hình 1: Minh họa đơn giản nguyên lý hoặt động CNNs Hình 2: Cách so sánh CNN Hình 3: Nguyên lý tạo feature map Hình 4: Thực tồn q trình tích chập cho feature khác Hình 5: ReLU activation function Hình 6: Cách hoạt động Pooling Hình 7: Thu gọn feature map quan trọng sau qua pooling Hình 8: Miêu tả quy trinh lớp CNN Hình 9: Kiến trúc mơ hình RNN Hình 10: Gated Recurrent Unit (GRU) 10 Hình 11: Sơ đồ kiến trúc tổng quan neural fashion recommendation (NFR) 11 Hình 12: Sơ đồ kiến trúc Encoder – Decoder Architecture 12 Hình 13: Encoder-decoder model dịch câu “she is eating a green apple” sang tiếng Trung 13 Hình 14: Mơ hình tạo từ yt thời điểm t cách áp dụng chế Attention 15 Hình 15: Mức độ tương quan (correlation) liệu nguồn (source) liệu dự đoán (target) 17 Hình 16: Kiến trúc mơ hình Transformer 19 Hình 17: Các khối encoder/decoder xếp chồng mơ hình Transformer 20 Hình 18: Một lớp giai đoạn encoder 22 Hình 19: Mã hóa từ "it" encoder layer thứ 23 Hình 20: Miêu tả việc tạo vector query, key, value cho từ việc nhân embedding vector với matix số tương ứng 24 ix Hình 21: Miêu tả việc tạo ma trận query, key, value cho câu liệu nguồn, hàng ma trận X thể từ câu liệu nguồn 24 Hình 22: Giai đoan Encoder layer thứ 1, miêu tả việc xử lý vector đại diện qua sublayer 25 Hình 23: Scaled Dot-Product Attention 26 Hình 24: Tính điểm attention score hàm tương thích Scaled Dot-Product Attention, số hình minh họa 27 Hình 25: Multi-Head Attention gồm nhiều lớp h attention chạy song song 28 Hình 26: Miêu tả chi tiết Multi head Attention xử lý liệu song song qua multihead để thành vector đại diện 29 Hình 27: Miêu tả mối quan hệ từ “it” với từ lại câu, sau sử dụng multi-head attention 29 Hình 28: Giai đoạn decoder 31 Hình 29: Sau kết thúc giai đoạn encoder, ma trận K V đưa vào giai đoạn decoder Mỗi bước giai đoạn decoder dự đoán từ chuỗi đầu 32 x Chương I Giới thiệu Đặt vấn đề Thị lực máy tính (Computer vision) nhánh lĩnh vực trí tuệ nhân tạo (Artificial Intelligence) Khoa học máy tính (Computer science) Lĩnh vực giúp máy tính có khả thị giác người, giúp máy tính nhận diện hiểu biết hình ảnh Xã hội ngày phát triển, với nhịp sống người bận rộn theo Xu hướng mua hàng online, ngày giới trẻ người nhiều thời gian mua sắm lựa chọn Đây lí mà lĩnh vực có nhiều tìm để khai thác nhằm cao chất lượng phục vụ tạo sự quan tâm đến cho khách hàng Lấy ý tưởng từ việc gợi ý mẫu thời trang cho người mua hàng trang mua sắm online tiếng Amazon, Lazada, Alibaba, Tiki,… hệ thống gợi ý tập trung vào việc dựa vào lịch sử người dùng tìm kiếm từ gợi ý sản phẩm tương tự cho người dùng Để mở rộng chức gợi ý mẫu thời trang cho người dùng, giúp cho người dùng chủ động việc lựa chọn trang phục ưa thích, có thêm nhiều lựa chọn mà khơng tốn nhiều thời gian cần có hệ thống AI/Machine learning tích hợp hệ thống website ứng dụng di động để thực việc Mục tiêu Để giải qút bái tốn tạo câu bình luận cho ảnh thời trang, nhiều mô hình nghiên cứu không ngừng cải tiến Gần viết “Fashion Coordinates Recommender System using Photographs from Fashion Magazines” [1] Tomoharu Iwata cộng sự, “Hi, Magic Closet, Tell Me What to Wear!” [2] Si Liu cộng sự đề xuất tập trung vào gợi ý mẫu thời hạn chế liệu xu hướng đa dạng việc mua sắm người dừng Bài viết “Explainable Fashion Recommendation with Joint Outfit Matching and Comment Generation” [3] Yujie Lin, Pengjie Ren cộng sự công bố tháng 12 năm 2018 đề xuất Neural Fashion Recommendation framework (NFR), mơ hình gợi ý mẫu trang phục phối với từ mẫu trang phục phát sinh câu bình luận Mơ hình NFR Yujie Lin, Pengjie Ren cộng sự cơng bố có nhiều ưu điểm mặt cải tiến độ xác theo bảng so sánh kết với mơ hình nghiên cứu trước công bố [3] chức phối trang phục phát sinh câu bình luận Tuy nhiên, NFR nhiều mặt hạn chế mặt liệu câu bình luận phát sinh chưa thực sự hiệu Vậy mục tiêu đề tài thực lại mô hình NFR để áp dụng vào tốn tạo câu bình luận cho ảnh thời trang Phạm vi đề tài Trong đề tài này, dựa nghiên cứu Neural Fashion Recommendation framework Yujie Lin, Pengjie Ren cộng sự đề xuất, nhóm tập trung vào nhiệm vụ phát sinh câu bình luận cho trang phục mơ hình NFR, từ đề xuất cải tiến cho mơ hình NFR để đạt câu bình luận xác Chương II Tổng quan học sâu (Deep Learning) Giới thiệu Deep Learning Deep Learning phần ngành máy học dựa tập hợp thuật tốn để cố gắng mơ hình liệu trừu tượng hóa mức cao cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, cách khác bao gồm nhiều biến đổi phi tuyến [5] Các nghiên cứu lĩnh vực Deep Learning cố gắng thực đại diện (representation) tốt tạo mơ hình để tìm hiểu đại diện (representation) từ liệu không dán nhãn quy mô lớn [5] Một số đại diện lấy cảm hứng tiến khoa học thần kinh dựa giải thích mơ hình xử lý truyền thông tin hệ thống thần kinh người Nhiều kiến trúc Deep Learning nghiên cứu mạng neuron sâu (deep neural networks), mạng neuron tái phát (recurrent neural networks), mạng neuron tích chập (convolutional neural networks) ứng dụng vào nhiều lĩnh vực thị giác máy tính (computer vision), nhận dạng giọng nói (speech recognition), xử lý ngơn ngữ tự nhiên (natural language processing), phân tích hình ảnh y tế (medical image analysis), v.v Những ứng dụng Deep Learning chứng minh tạo kết tương đương số trường hợp vượt trội so với người Mạng tích chập (Convolutional Neural Network) Convolutional Neural Network (CNN ConvNet) lớp mạng lưới thần kinh sâu [6], ứng dụng hầu hết phổ biến để phân tích hình ảnh thị giác (visual imagery) nhận diện hình ảnh video (image and video recognition), phân loại ảnh (image classification), phân tích ảnh y tế (medical image analysis) Hình 1: Minh họa đơn giản nguyên lý hoặt động CNNs [34] 2.1 Đặc trưng (Feature) Hình 2: Cách so sánh CNN [34] Trong CNN việc so sánh chia nhỏ mảnh để so sánh, mảnh gọi đặc trưng (feature) Mỗi feature có kích thước mảng chiều Bằng cách tìm mức thơ feature khớp vị trí hai hình ảnh, CNNs nhìn sự tương đồng tốt nhiều so với việc khớp toàn ảnh 2.2 Tích chập (Convolutional) Hình 3: Ngun lý tạo feature map [34] Khi xem hình ảnh mới, CNN khơng biết xác nơi feature khớp nên thử chúng khắp nơi Khi tính tốn sự khớp feature tồn ảnh, làm thành filter (bộ lọc), để tính tốn sự khớp ta nhân điểm ảnh feature với giá trị điểm ảnh tương ứng mảnh hình ảnh so sánh, tính trung bình cộng (cộng tổng lại chia cho số lượng điểm ảnh feature) Nếu tất điểm ảnh khớp, ta cộng lại chia trung bình cộng Hình 4: Thực tồn q trình tích chập cho feature khác [34] Kết tập hợp hình ảnh lọc (feature map), ứng với filter Rectified Linear Unit (ReLU) hàm activation (activation function) dùng để tinh chỉnh lại đơn vị tuyến tính, cụ thể nơi có số âm thì hốn đổi với Hình 5: ReLU activation function [34] 2.3 Pooling Pooling cách lấy hình ảnh lớn làm co chúng lại giữ thơng tin quan trọng Hình 6: Cách hoạt động Pooling [34] Duyệt bước ô vuông cửa sổ nhỏ dọc hình ảnh lấy giá trị lớn từ cửa sổ bước Sau pooling, hình ảnh có khoảng phần tư số điểm ảnh so với ban đầu giá trị lớn từ cửa sổ chọn Lấy ví dụ từ chuỗi đưa vào (input source), sử dụng hàm Scaled Dot-Product Attention để tính điểm ý (attention score) từ “Think” với từ lại câu hình 24 bên Hình 24: Tính điểm attention score hàm tương thích Scaled Dot-Product Attention, số hình minh họa [31] Sau có vector query, value, key từ “Thinking”, Seft-attention sử dụng để tính điểm (score) từ khác câu liệu đầu vào (input sentence) từ “Think”, điểm mức độ ý từ từ khác câu liệu đầu vào (input sentence) Điểm ý (attention score) tính hàm tương thích (compatibility function), cụ thể Scaled Dot-Product Attention Trước tiên ta tính tích vô hướng (dot product) vec-tơ 𝑞𝑖 𝑘𝑖 theo từ vị trí 𝑖 câu Lấy kích thước không gian vecto query, key, score 64 không gian vec-tơ word embedding 512 theo nghiên cứu gốc [37] Tiếp ta lấy điểm (score) vừa tính từ chia cho (vì bậc không gian véc-tơ query key 27 64) Sau chuẩn hóa kết qua hàm Softmax, trọng số nằm khoảng từ đến Cuối cùng, trọng số nhân với value từ, mục đích để giữ nguyên vẹn giá trị từ mà muốn tập trung vào, làm hạ thấp trọng số từ không liên quan (ví dụ cách nhân chúng với số nhỏ 0,001) Lúc ta thu vec tơ đại diện (vector representation) ký hiệu 𝑧𝑖 cho từ câu, thể mức độ ý từ vị trí 𝑖 đến vị trí khác chuỗi 6.3.3 Multi head self attention Thay sử dụng lớp Seft attention, Multi head self attention tính tốn vec-tơ đại diện 𝑧ℎ thời điểm ℎ khác với ma trận trọng số (weight matrics) khác Muti-head attention cho phép mơ hình tham gia thơng tin từ không gian đại diện khác vị trí khác [27], điều có nghĩa với từ có nhiều khơng gian đại diện (representation subspaces) thể sự đa dạng ngữ nghĩa từ 𝑀𝑢𝑙𝑡𝑖𝐻𝑒𝑎𝑑(𝑄, 𝐾, 𝑉 ) = 𝐶𝑜𝑛𝑐𝑎𝑡(ℎ𝑒𝑎𝑑1, , ℎ𝑒𝑎𝑑ℎ)𝑊0 𝑄 Với ℎ𝑒𝑎𝑑𝑖 = 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑄𝑊𝑖 , 𝐾𝑊𝑖𝐾 , 𝑉𝑊𝑖𝑉 ) Hình 25: Multi-Head Attention gồm nhiều lớp h attention chạy song song 28 Hình 26: Miêu tả chi tiết Multi head Attention xử lý liệu song song qua multihead để thành vector đại diện Với multi-head attention, ma trận trọng số khác tổng hợp vector đại diện khác biểu diễn cho từ Hình 27: Miêu tả mối quan hệ từ “it” với từ lại câu, sau sử dụng multi-head attention [31] 29 Bởi từ ‘it” mã hóa với multi-head attention nên vector đại diện từ tổng hợp với nhiều không gian vector biểu diễn khác (representation subspaces), dẫn đến attention head ý vào từ “The animal” attention khác trọng vào từ “tire” 6.3.4 Position-wise Feed Forward Networks The pointwise feed-forward layer nhận giá trị (input) từ multi-head attention layer, chuyển đổi giá trị qua phép biến đổi tuyến tính (linear transformation) với hàm kích hoạt (ReLU activation) Lớp feed-forward xem lớp convolution với kernel size =1 6.3.5 Residual connection Giữa sublayer có kết nối gọi residual connection Residual connection giúp tránh tượng bùng nổ đạo hàm (vanishing gradient) mạng sâu (deep networks) Đầu sublayer là: 𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑥 + 𝑆𝑢𝑏𝑙𝑎𝑦𝑒𝑟(𝑥 )) Với x vector đại diện lieu đầu vào, Sublayer(x) vector đại diện tạo qua sublayer 6.4 Giai đoạn Decoder Giai đoạn decoder gồm có số lượng lớp xếp chơng (stack) với encoder Kiến trúc decoder tương tự encoder, sử dụng thêm lớp bổ sung Mask Multi Head Attention Lớp bổ sung giúp ngăn chặn vị trí tham dự vào vị trí tiếp theo [31] 30 Hình 28: Giai đoạn decoder [27] Đầu mã hóa (top of encoder) sau chuyển thành tập vectơ ý (attention vector) K V, vector sử dụng cho lớp decoder 31 Hình 29: Sau kết thúc giai đoạn encoder, ma trận K V đưa vào giai đoạn decoder Mỗi bước giai đoạn decoder dự đoán từ chuỗi đầu [31] Đầu bước đưa đến decoder bước tiếp theo decoder tạo kết giải mã giống encoder làm Giống đầu vào encoder, từ dự đoán nhúng thêm mã hóa vị trí (positional encoder) vào đầu vào encoder để vị trí từ Lớp cuối lớp tuyến tính softmax Lớp tuyến tính mạng nơ ron fully connected neural network, biến vectơ tạo lớp chồng giải mã (stack of decoder), thành vectơ lớn hơn, gọi vectơ logits Lớp softmax sau biến điểm số thành phân bố xác suất (từ đến 1) Xác suất cao chọn từ liên kết với tạo [31] 6.5 Ưu điểm nhược điểm kiến trúc Transformer Mơ hình Transformer xử lý đầu vào có kich thước thay đổi cách sử dụng nhiều lớp xếp chồng seft-attention (stacks of seft-attention layer), khiến cho kiến trúc có nhiều ưu điểm: [30] 32  Nó không đưa giả định mối quan hệ thời gian / không gian (temporal/spatial relationship) liệu Điều lý tưởng để xử lý tập hợp đối tượng  Các đầu lớp tính song song, thay chuỗi RNN  Các liệu khoảng cách xa (distant items) ảnh hưởng đến đầu mà không qua nhiều bước RNN lớp chập  Nó học phụ thuộc tầm xa Đây thách thức nhiều nhiệm vụ trình tự Nhìn khía cạnh trực quan kiến trúc có điểm bất lợi:  Đối với chuỗi thời gian, đầu cho time-step tính từ tồn lịch sử thay đầu vào trạng thái ẩn Điều hiệu  Nếu đầu vào khơng có mối quan hệ thời gian / không gian, văn bản, số mã hóa vị trí (positional encoding) phải thêm vào 33 Chương IV Hiện thực hóa hệ thống Dataset ExpFashion liệu bao gồm:  Số lượng ảnh 50.015 ảnh thời trang với 29.113 ảnh thể trang phục (top) 20.902 ảnh thể trang phục (bottom)  Mỗi ảnh có kích thước 224x224, ảnh trắng, định dạng JPG  Số lượng cặp ảnh trang phục 200.745  Số câu bình luận 1.052.821  Bộ từ vựng gồm 92.295 từ (thực nghiệm 16.519 từ) Môi trường Google Colab Service, ram cung cấp 12GB, dung lượng disk 358.27GB Hiện thực hệ thống - Thực training với tập liệu tách từ tập liệu ban đầu:  1.876 ảnh bao gồm 729 top 1.147 bottom (5 epoch)  6.595 ảnh bao gồm 3.113 top 3.482 bottom (1 epoch) - Bộ mã hóa sử dụng mạng nơ-ron tích chập (CNN) lớp để trích xuất thơng tin từ hình ảnh đầu vào, cụ thể kernel size 3x3, stride = 1, padding = 1, pooling size 16x16 Feature maps lớp convolutional cuối mạng nơ-ron trích xuất phục vụ cho q trình decoder - Giai đoạn decoder đầu tiên sử dụng chế Mutual Attention lấy chéo feature top bottom để tìm cặp top-bottom phù hợp - Giai đoạn decoder tiếp theo RNN sử dụng GRU với chế Cross-modality Attention để tính tốn hidden state ban đầu, đọc previous word embedding, context vector hidden state làm liệu đầu vào để tính tốn hidden state current output từ tạo câu bình luận 34 - Trong trình huấn luyện, tham số mô hình khởi tạo ngẫu nhiên phương pháp Xavier, thuật tốn tối ưu hóa sử dụng Adam với learning rate = 0.001 batch size = 64 Kết Câu bình luận & Đánh giá Cặp trang phục Bottom Top surely you , and this is sweet like cake ! Tốt Stylish fashion such a nice combo for this season Tốt Wow ! this is fabulous dear, love it all very much- well done :)) Tốt 35 Hey, thanks for following us ! Không tốt Thanks girl Không tốt Đánh giá kết đầu Bleu1: Epoch NFR (Tập liệu 1) Top down Down top 0.054 0.060 0.049 0.060 0.054 0.051 0.034 0.043 0.044 0.068 Epoch NFR (Tập liệu 2) Top down Down top 0.357 0.408 36 Chương V Tổng kết hướng phát triển Các công việc làm - Nghiên cứu mơ hình để xử lý tốn xử lý hình ảnh, văn Deep Learning, Machine Learning - Tìm hiểu ứng dụng giải quyết vấn đề /bài toán gợi ý phát sinh câu bình luận cho trang phục - Nghiên cứu mơ hình, kỹ thuật để ứng dụng vào việc giải qút mơ hình phát sinh câu bình luận từ ảnh tĩnh - Hiện thực lại mô hình “Tự động phát sinh bình luận cho ảnh thời trang” Hạn chế - Cơ sở vật chất chưa đủ tốt - Kinh nghiệm tiến hành thực nghiệm hạn chế - Kết việc thực nghiệm chưa thật sự mong muốn Hướng phát triển - Thu thập tái chỉnh sữa lại toàn liệu huấn luyện - Thực việc huấn luyện lại mơ hình với tập liệu lớn - Áp dụng thực nghiệm kỹ thuật Attribute Recognization, Visual Attention Model,… để phát triển mơ hình vào thuộc tính để dựa vào đưa câu bình luận đáng tin hợp lý cho người dùng 37 TÀI LIỆU THAM KHẢO [1] Tomoharu Iwata, Shinji Watanabe and Hiroshi Sawada (2011), “Fashion coordinates recommender system using photographs from fashion magazines“ International Joint Conference on Artificial Intelligence, pp 2262–2267 [2] Si Liu, Jiashi Feng, Zheng Song, Tianzhu Zhang, Hanqing Lu, Changsheng Xu and Shuicheng Yan, “Hi, magic closet, tell me what to wear!” in ACM Multimedia, 2012, pp 619–628 [3] Yujie Lin (5 Mar 2019), “Explainable Outfit Recommendation with Joint Outfit Matching and Comment Generation”, ” https://arxiv.org/pdf/1806.08977.pdf” [4] Ashish Vaswani et al (6 Dec 2017), “Attention Is All You Need”, “https://arxiv.org/pdf/1706.03762.pdf” [5] Wikipedia, Deep Learning, “https://en.wikipedia.org/wiki/Deep_learning” [6] Wikipedia, A Deep neural network (DNN), “https://en.wikipedia.org/wiki/Deep_learning#Deep_neural_networks” [7] Ilya Sutskever, Oriol Vinyals, Quoc V Le (14 Dec 2014), “Sequence to Sequence Learning with Neural Networks”, “https://arxiv.org/pdf/1409.3215.pdf” [8] Encoder-Decoder Architectures (Mar 7, 2017), “https://www.quora.com/What-isan-Encoder-Decoder-in-Deep-Learning” [9] Kyunghyun Cho Bart van Merrienboer Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares Holger Schwenk, Yoshua Bengio (3 Sep 2014), “Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation”, “https://arxiv.org/pdf/1406.1078.pdf” 38 [10] Jason Brownlee (October 13, 2017), “How Does Attention Work in EncoderDecoder Recurrent Neural Networks”, “https://machinelearningmastery.com/howdoes-attention-work-in-encoder-decoder-recurrent-neural-networks/” [11] Lilian Weng (Jun 24 2018), “Attention? Attention!” , “https://lilianweng.github.io/lillog/2018/06/24/attention-attention.html#whats-wrong-with-seq2seq-model” [12] Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, Yoshua Bengio (11 Dec 2014), “Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling”, “https://arxiv.org/pdf/1412.3555.pdf” [13] Problem of RNN and understanding LSTM Networks (August 27, 2015), “http://colah.github.io/posts/2015-08-Understanding-LSTMs/” [14] Ta-Chun Su (3 Oct 20118), “Seq2seq pay Attention to Self Attention”, ” https://medium.com/@bgg/seq2seq-pay-attention-to-self-attention-part-1d332e85e9aad” [15] Dzmitry Bahdanau, KyungHyun Cho Yoshua Bengio (19 May 2016), “NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE”, “https://arxiv.org/pdf/1409.0473.pdf” [16] Phan Huy Hoang (16 Jan 2017), “ Attention, Attention, Attention,” “https://viblo.asia/p/machine-learning-attention-attention-attention-eW65GPJYKDO” [17] Alex Graves et…al (10 Dec 2014), “Neural Turing Machines”, “https://arxiv.org/pdf/1410.5401.pdf” [18] Minh-Thang Luong et al (20 Sep 2015), “Effective Approaches to Attentionbased Neural Machine Translation”, “https://arxiv.org/pdf/1508.04025.pdf” 39 [19] Ashish Vaswani and Anna Huang (2016), “Self-Attention For Generative Models”, “https://web.stanford.edu/class/cs224n/slides/cs224n-2019-lecture14transformers.pdf” [20] Aditya Thiruvengadam (Oct 9, 2018), “Transformer Architecture: Attention Is All You Need” , “https://medium.com/@adityathiruvengadam/transformer-architectureattention-is-all-you-need-aeccd9f50d09” [21] Hojjat Salehinejad et al (22 Feb 2018), “Recent Advances in Recurrent Neural Networks, https://arxiv.org/pdf/1801.01078.pdf [22] Ashish Vaswani et…al (6 Dec 2017), “Attention Is All You Need”, “https://arxiv.org/pdf/1706.03762.pdf” [23] Keitakurita (29 Dec 2017 ), “Explanin Attention Is All You Need”, http://mlexplained.com/2017/12/29/attention-is-all-you-need-explained/ [24] Gongbo Tang1 et…al (11 Nov 2018), “Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures”, “https://arxiv.org/pdf/1808.08946.pdf” [25] Alibaba Cloud (12 Sep 2018 ), “ Self-Attention Mechanisms in Natural Language Processing”, ” https://medium.com/@Alibaba_Cloud/self-attention-mechanisms-innatural-language-processing-9f28315ff905” [26] Zhixing Tan , Mingxuan Wang et…al (5 Dec 2017), ”Deep Semantic Role Labeling with Self-Attention”, “https://arxiv.org/pdf/1712.01586.pdf” [27] (Intra-att)Ankur P Parikh et…al (2016), “A Decomposable Attention Model for Natural Language Inference”, https://aclweb.org/anthology/D16-1244 [28] Peter Shaw et…al (2017), Self-Attention with Relative Position Representations, https://arxiv.org/pdf/1803.02155.pdf 40 [29] Maxime Allard (Jan 2019), “What is a Transformer?“, “https://medium.com/inside-machine-learning/what-is-a-transformer-d07dd1fbec04“ [30] Tensorflow, “Transformer model for language understanding”, “https://www.tensorflow.org/beta/tutorials/text/transformer” [31] Jay Alammar (June 27 2018,) “The Illustrated Transformer”, “http://jalammar.github.io/illustrated-transformer/“ [32] Giuliano Giacaglia (Mar 11 2018), “How Transformers Work”, “https://towardsdatascience.com/transformers-141e32e69591” [33] Michal Chromiak (Tue, 12 Sep 2017) “The Transformer – Attention is all you need”, “https://mchromiak.github.io/articles/2017/Sep/12/Transformer-Attention-is-allyou-need/#positional-encoding-pe” [34] e2eML “How Convolutional Neural Networks work?”, August 18, 2016, “https://e2eml.school/how_convolutional_neural_networks_work ” [35] (Sep 30 2018) “Understanding of RECURRENT NEURAL NETWORKS (LSTM, GRU)”, “https://mc.ai/understanding-of-recurrent-neural-networks-lstm-gru/” [36] SuperDataScience Team (Aug 23 2018) “Recurrent Neural Networks (RNN) - The Vanishing Gradient Problem”, “https://www.superdatascience.com/blogs/recurrentneural-networks-rnn-the-vanishing-gradient-problem” [37] Simeon Kostadinov (Dec 16 2017), “Understanding GRU Networks”, ”https://towardsdatascience.com/understanding-gru-networks-2ef37df6c9be” 41 ... gợi ý thời trang tạo câu bình luận trừu tượng cho trang phục phối NFR có nhiệm vụ bao gồm: phối trang phục cho phù hợp từ trang phục phù hợp phát sinh câu bình luận để miêu tả cảm xúc trang phục... thời trang Trong trình tạo từ cho câu bình luận, chế Cross-modality Attention [4] áp dụng để lấy đặc tính (feature) từ đặc tính (feature) cặp ảnh nhằm tăng độ xác cho bình luận cặp ảnh thời trang. .. Số lượng ảnh 50.015 ảnh thời trang với 29.113 ảnh thể trang phục (top) 20.902 ảnh thể trang phục (bottom)  Mỗi ảnh có kích thước 224x224, ảnh trắng, định dạng JPG  Số lượng cặp ảnh trang phục

Ngày đăng: 01/11/2022, 12:13

Xem thêm: