Hướng phát triển tương lai

Một phần của tài liệu Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu (Trang 54 - 58)

Trong lĩnh vực xử lý ảnh nói chung và bài toán tạo câu mô tả ảnh nói riêng vẫn còn quá rộng lớn và nhiều phương pháp, kỹ thuật để nghiên cứu nên em có những hướng phát triển sau:

Về lý thuyết: Tìm hiểu và nghiên cứu những phương pháp mới trong lĩnh vực tạo câu mô tả cho ảnh thời trang để áp dụng và tăng độ chính xác cho câu mô tả mà mô hình sinh ra.

Chương 6: Kết luận

42

Về thực tiễn:

 Thử nghiệm áp dụng tập dữ liệu lớn hơn, bao quát hơn (nhiều phụ kiện thời trang hơn, ảnh có nhiều người…) trong việc huấn luyện.

 Nghiên cứu và áp dụng mô hình R-CNN ở bộ mã hóa để tăng khả năng định vị và nhận diện vật thể.

Em đã nghiên cứu, tìm hiểu tài liệu nghiên cứu khoa học về lĩnh vực tạo câu mô tả cho hình ảnh thời trang nhưng vì trình độ có hạn, chưa có nhiều kinh nghiệm nên không thể tránh khỏi những thiếu sót, hạn chế. Mong quý thầy cô chỉ bảo, góp ý để giúp em hoàn thiện và tiến bộ hơn.

43

TÀI LIỆU THAM KHẢO

[1] K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel và Yoshua, “Show, attend and tell: Neural image caption generation with visual attention,” trong International Conference on Machine Learning, Lille, 2015. [3] L. B. Y. B. a. P. H. Yann LeCun, “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, pp. 2278-2234, 1998.

[4] Alex Sherstinsky, "Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) Network"

[5] M. Z. Hossain, F. Sohel, M. F. Shiratuddin và H. Laga, “A Comprehensive Survey of Deep Learning for Image Captioning,” arXiv.org, pp. 2-3, 13 May 2018.

[6] Cho, Kyunghyun, v. Merrienboer, Bart, Gulcehre, Caglar, Bougares, Fethi, Schwenk, Holger, Bengio và Yoshua, “Learning phrase representations using RNN encoder-decoder for statistical machine translation,” trong EMNLP, Doha, 2014.

[7] R. Socher, A. Karpathy, Q. V. Le, C. D. Manning và A. Y. Ng, “Grounded compositional semantics for finding and describing images with sentences,” Transactions of the Association for Computational Linguistics, pp. 207-218, 2014.

[8] A. Karpathy, A. Joulin và F. F. F. Li, “Deep fragment embeddings for bidirectional image sentence mapping,” trong Advances in neural information processing systems, Montreal, 2014.

[9] F. Rosenblatt, “The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain,” Psychological Review, p. 386–408, 1958.

[10] Zhang, Tong (2004). "Solving large scale linear prediction problems using stochastic gradient descent algorithms". Proceedings of the 21st International Conference on Machine Learning (ICML'04): 116. doi:10.1145/1015330.1015332. ISBN 1-58113-838-5.

[11] CS231n Convolutional Neural Networks for Visual Recognition". cs231n.github.io. Retrieved 2018-12-13.

44

[12] Sepp Hochreiter; Jürgen Schmidhuber (1997). "Long short-term memory". Neural Computation. 9 (8): 1735–1780. doi: 10.1162/ neco.1997.9.8.1735. PMID 9377276.

[13] SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning Long Chen, Hanwang Zhang, Jun Xiao, Liqiang Nie, Jian Shao, Wei Liu, Tat-Seng Chua

[14] K. &. R. S. &. W. T. &. Z. W.-j. Papineni, “BLEU: a Method for Automatic Evaluation of Machine Translation,” trong Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, 2002.

[15] C.-Y. Lin, “ROUGE: A Package for Automatic Evaluation of Summaries,” trong Proceedings of the ACL Workshop: Text Summarization Braches Out 2004, 2004.

[16] C. L. Z. D. P. Ramakrishna Vedantam, “CIDEr: Consensus-based Image Description Evaluation,” 2014.

[17] Negar Rostamzadeh, Seyedarian Hosseini, Thomas Boquet, Wojciech Stokowiec, Ying Zhang, Christian Jauvin, Chris Pal,"Fashion-Gen: The Generative Fashion Dataset and Challenge" ArXiv e-prints, 2018.

Một phần của tài liệu Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu (Trang 54 - 58)

Tải bản đầy đủ (PDF)

(58 trang)