1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu

58 34 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm Hiểu Bài Toán Tạo Câu Mô Tả Cho Ảnh Thời Trang Dùng Học Sâu
Tác giả Vũ Nguyên Hưng
Người hướng dẫn TS. Nguyễn Thiên Bảo
Trường học Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành Công Nghệ Thông Tin
Thể loại Đồ Án Tốt Nghiệp
Năm xuất bản 2020
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 58
Dung lượng 4,42 MB

Nội dung

Ngày đăng: 27/11/2021, 10:30

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel và Yoshua, “Show, attend and tell: Neural image caption generation with visual attention,” trong International Conference on Machine Learning, Lille, 2015 Sách, tạp chí
Tiêu đề: Show, attend and tell: Neural image caption generation with visual attention
[3] L. B. Y. B. a. P. H. Yann LeCun, “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, pp. 2278-2234, 1998 Sách, tạp chí
Tiêu đề: Gradient-based learning applied to document recognition
[5] M. Z. Hossain, F. Sohel, M. F. Shiratuddin và H. Laga, “A Comprehensive Survey of Deep Learning for Image Captioning,” arXiv.org, pp. 2-3, 13 May 2018 Sách, tạp chí
Tiêu đề: A Comprehensive Survey of Deep Learning for Image Captioning
[6] Cho, Kyunghyun, v. Merrienboer, Bart, Gulcehre, Caglar, Bougares, Fethi, Schwenk, Holger, Bengio và Yoshua, “Learning phrase representations using RNN encoder-decoder for statistical machine translation,” trong EMNLP, Doha, 2014 Sách, tạp chí
Tiêu đề: Learning phrase representations using RNN encoder-decoder for statistical machine translation
[7] R. Socher, A. Karpathy, Q. V. Le, C. D. Manning và A. Y. Ng, “Grounded compositional semantics for finding and describing images with sentences,”Transactions of the Association for Computational Linguistics, pp. 207-218, 2014 Sách, tạp chí
Tiêu đề: Grounded compositional semantics for finding and describing images with sentences
[8] A. Karpathy, A. Joulin và F. F. F. Li, “Deep fragment embeddings for bidirectional image sentence mapping,” trong Advances in neural information processing systems, Montreal, 2014 Sách, tạp chí
Tiêu đề: Deep fragment embeddings for bidirectional image sentence mapping
[9] F. Rosenblatt, “The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain,” Psychological Review, p. 386–408, 1958 Sách, tạp chí
Tiêu đề: The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain
[10] Zhang, Tong (2004). "Solving large scale linear prediction problems using stochastic gradient descent algorithms". Proceedings of the 21st InternationalConference on Machine Learning (ICML'04) Sách, tạp chí
Tiêu đề: Solving large scale linear prediction problems using stochastic gradient descent algorithms
Tác giả: Zhang, Tong
Năm: 2004
[12] Sepp Hochreiter; Jürgen Schmidhuber (1997). "Long short-term memory". Neural Computation. 9 (8): 1735–1780. doi: 10.1162/neco.1997.9.8.1735. PMID 9377276 Sách, tạp chí
Tiêu đề: Long short-term memory
Tác giả: Sepp Hochreiter; Jürgen Schmidhuber
Năm: 1997
[14] K. &. R. S. &. W. T. &. Z. W.-j. Papineni, “BLEU: a Method for Automatic Evaluation of Machine Translation,” trong Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, 2002 Sách, tạp chí
Tiêu đề: BLEU: a Method for Automatic Evaluation of Machine Translation
[15] C.-Y. Lin, “ROUGE: A Package for Automatic Evaluation of Summaries,” trong Proceedings of the ACL Workshop: Text Summarization Braches Out 2004, 2004 Sách, tạp chí
Tiêu đề: ROUGE: A Package for Automatic Evaluation of Summaries
[16] C. L. Z. D. P. Ramakrishna Vedantam, “CIDEr: Consensus-based Image Description Evaluation,” 2014 Sách, tạp chí
Tiêu đề: CIDEr: Consensus-based Image Description Evaluation
[17] Negar Rostamzadeh, Seyedarian Hosseini, Thomas Boquet, Wojciech Stokowiec, Ying Zhang, Christian Jauvin, Chris Pal,"Fashion-Gen: The Generative Fashion Dataset and Challenge" ArXiv e-prints, 2018 Sách, tạp chí
Tiêu đề: Fashion-Gen: The Generative Fashion Dataset and Challenge
[4] Alex Sherstinsky, "Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) Network&#34 Khác
[11] CS231n Convolutional Neural Networks for Visual Recognition". cs231n.github.io. Retrieved 2018-12-13 Khác
[13] SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning Long Chen, Hanwang Zhang, Jun Xiao, Liqiang Nie, Jian Shao, Wei Liu, Tat-Seng Chua Khác

HÌNH ẢNH LIÊN QUAN

Hình 3.1: Cấu trúc nơ-ron sinh học - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
Hình 3.1 Cấu trúc nơ-ron sinh học (Trang 19)
Hình 3.3: Đồ thị của hàm step (trái) và hàm Sigmoid (phải). - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
Hình 3.3 Đồ thị của hàm step (trái) và hàm Sigmoid (phải) (Trang 21)
Mỗi mô hình mạng luôn có một input layer và một output layer, hidden layer có thể có hoặc không - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
i mô hình mạng luôn có một input layer và một output layer, hidden layer có thể có hoặc không (Trang 22)
Hình 3.5: Cấu trục ANN cùng với các tham số. - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
Hình 3.5 Cấu trục ANN cùng với các tham số (Trang 23)
Hình 3.6: Learning rate của Gradient Descent. - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
Hình 3.6 Learning rate của Gradient Descent (Trang 26)
Hình 3.7: So sánh giữa BGD, MGD, SGD. - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
Hình 3.7 So sánh giữa BGD, MGD, SGD (Trang 27)
Hình 3.8: Recceptive field trong CNN. - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
Hình 3.8 Recceptive field trong CNN (Trang 29)
Để hiểu rõ hơn, ta xét ví dụ trong hình trên. Trong đó ma trận  - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
hi ểu rõ hơn, ta xét ví dụ trong hình trên. Trong đó ma trận (Trang 30)
Hình 3.11: Pooling layer trong CNN. - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
Hình 3.11 Pooling layer trong CNN (Trang 31)
Hình 3.10: Padding và Stride. - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
Hình 3.10 Padding và Stride (Trang 31)
hợp (conv-pool) liên tiếp nhau càng về phía sau mô hình học được càng nhiều các đặc  tính  cao  cấp  của  dữ  liệu,  cụm  conv-pool  cuối  cùng  sẽ  được  chuyển  từ  ten-xơ  thành véc-tơ và được kết nối đầy đủ sau đó xử lí để đưa ra kết quả dự đoán mong  - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
h ợp (conv-pool) liên tiếp nhau càng về phía sau mô hình học được càng nhiều các đặc tính cao cấp của dữ liệu, cụm conv-pool cuối cùng sẽ được chuyển từ ten-xơ thành véc-tơ và được kết nối đầy đủ sau đó xử lí để đưa ra kết quả dự đoán mong (Trang 32)
Mô hình trên mô tả phép triển khai nội dung của một RNN. Tương ứng với mỗi từ trong câu input thì sẽ có tương ứng số tầng nơ-ron - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
h ình trên mô tả phép triển khai nội dung của một RNN. Tương ứng với mỗi từ trong câu input thì sẽ có tương ứng số tầng nơ-ron (Trang 34)
Hình 16: Cổng quên trong LSTM và công thức. - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
Hình 16 Cổng quên trong LSTM và công thức (Trang 36)
Hình 3.18: Tế bào trạng thái trong LSTM và công thức. - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
Hình 3.18 Tế bào trạng thái trong LSTM và công thức (Trang 37)
Hình 3.17: Cổng vào trong LSTM và công thức. - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
Hình 3.17 Cổng vào trong LSTM và công thức (Trang 37)
Hình 3.19: Cổng ra trong LSTM và công thức. - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
Hình 3.19 Cổng ra trong LSTM và công thức (Trang 38)
dụng làm bộ mã hoá – mã hoá hình ảnh thành các thông tin cần thiết, một mạng RNN làm bộ giải mã – giải mã các thông tin về hình ảnh thành câu mô tả và để thực hiện  cơ chế attention, một mô hình attention sẽ đảm nhận giao tiếp trung gian giữa CNN  và RNN - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
d ụng làm bộ mã hoá – mã hoá hình ảnh thành các thông tin cần thiết, một mạng RNN làm bộ giải mã – giải mã các thông tin về hình ảnh thành câu mô tả và để thực hiện cơ chế attention, một mô hình attention sẽ đảm nhận giao tiếp trung gian giữa CNN và RNN (Trang 40)
Hình 4.2: Kiến trúc bộ giải mã. - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
Hình 4.2 Kiến trúc bộ giải mã (Trang 42)
Mô hình tổng thể SCA cho bài toán tạo câu mô tả ảnh thời trang như sau: - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
h ình tổng thể SCA cho bài toán tạo câu mô tả ảnh thời trang như sau: (Trang 43)
HIỆN THỰC VÀ ĐÁNH GIÁ MÔ HÌNH - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
HIỆN THỰC VÀ ĐÁNH GIÁ MÔ HÌNH (Trang 48)
Chương 5: Hiện thực và đánh giá mô hình - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
h ương 5: Hiện thực và đánh giá mô hình (Trang 48)
Chương 5: Hiện thực và đánh giá mô hình - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
h ương 5: Hiện thực và đánh giá mô hình (Trang 49)
Chương 5: Hiện thực và đánh giá mô hình - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
h ương 5: Hiện thực và đánh giá mô hình (Trang 51)
Chương 5: Hiện thực và đánh giá mô hình - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
h ương 5: Hiện thực và đánh giá mô hình (Trang 52)
Chương 5: Hiện thực và đánh giá mô hình - Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu
h ương 5: Hiện thực và đánh giá mô hình (Trang 53)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w