Tài liệu tham khảo |
Loại |
Chi tiết |
[1] A. Agrawal, J. Lu, S. Antol, M. Mitchell, C. L. Zitnick, D. Batra, and D. Parikh, Vqa:Visual question answering, 2016. arXiv: 1505.00468 [cs.CL] |
Sách, tạp chí |
Tiêu đề: |
Vqa:"Visual question answering |
|
[2] I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning. MIT Press, 2016, http://www.deeplearningbook.org |
Sách, tạp chí |
Tiêu đề: |
Deep Learning |
Tác giả: |
Ian Goodfellow, Yoshua Bengio, Aaron Courville |
Nhà XB: |
MIT Press |
Năm: |
2016 |
|
[3] D. P. Kingma and J. Ba, Adam: A method for stochastic optimization, 2014. [Online].Available: http://arxiv.org/abs/1412.6980 |
Sách, tạp chí |
Tiêu đề: |
Adam: A method for stochastic optimization |
Tác giả: |
D. P. Kingma, J. Ba |
Nhà XB: |
ICLR |
Năm: |
2014 |
|
[4] T.-Y. Lin, M. Maire, S. Belongie, L. Bourdev, R. Girshick, J. Hays, P. Perona, D.Ramanan, C. L. Zitnick, and P. Dollár, Microsoft coco: Common objects in context, 2014. [Online]. Available: http://arxiv.org/abs/1405.0312 |
Sách, tạp chí |
Tiêu đề: |
Microsoft COCO: Common Objects in Context |
Tác giả: |
T.-Y. Lin, M. Maire, S. Belongie, L. Bourdev, R. Girshick, J. Hays, P. Perona, D. Ramanan, C. L. Zitnick, P. Dollár |
Năm: |
2014 |
|
[5] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei, “Imagenet: A large- scale hierarchical image database”, in 2009 IEEE conference on computer vision and pattern recognition, Ieee, 2009, pp. 248–255 |
Sách, tạp chí |
Tiêu đề: |
Imagenet: A large-scale hierarchical image database”, in"2009 IEEE conference on computer vision andpattern recognition |
|
[6] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks”, in Proceedings of the 25th International Conference on Neural Information Processing Systems - Volume 1, ser. NIPS’12, Lake Tahoe, Nevada: Curran Associates Inc., 2012, pp. 1097–1105 |
Sách, tạp chí |
Tiêu đề: |
Imagenet classification with deep convolutional neural networks |
Tác giả: |
A. Krizhevsky, I. Sutskever, G. E. Hinton |
Nhà XB: |
Curran Associates Inc. |
Năm: |
2012 |
|
[7] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition”, CoRR, vol. abs/1409.1556, 2014. [Online]. Available: http://arxiv.org/abs/1409.1556 |
Sách, tạp chí |
Tiêu đề: |
Very deep convolutional networks for large-scale image recognition |
Tác giả: |
K. Simonyan, A. Zisserman |
Nhà XB: |
CoRR |
Năm: |
2014 |
|
[8] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition”, 2015. eprint: https://arxiv.org/abs/1512.03385 |
Sách, tạp chí |
Tiêu đề: |
Deep residual learning for image recognition |
Tác giả: |
K. He, X. Zhang, S. Ren, J. Sun |
Năm: |
2015 |
|
[9] N. Dalal and B. Triggs, “Histograms of oriented gradients for human detection”, in 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recogni- tion (CVPR’05), vol. 1, 2005, 886–893 vol. 1. DOI : 10.1109/CVPR.2005.177 |
Sách, tạp chí |
Tiêu đề: |
Histograms of oriented gradients for human detection |
Tác giả: |
N. Dalal, B. Triggs |
Nhà XB: |
IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05) |
Năm: |
2005 |
|
[10] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accu- rate object detection and semantic segmentation”, 2013. eprint: https://arxiv.org/abs/1311.2524 |
Sách, tạp chí |
Tiêu đề: |
Rich feature hierarchies for accurate object detection and semantic segmentation |
Tác giả: |
R. Girshick, J. Donahue, T. Darrell, J. Malik |
Năm: |
2013 |
|
[12] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards real-time object de- tection with region proposal networks”, 2016. eprint: https://arxiv.org/abs/1506.01497 |
Sách, tạp chí |
Tiêu đề: |
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks |
Tác giả: |
S. Ren, K. He, R. Girshick, J. Sun |
Năm: |
2016 |
|
[13] T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Efficient estimation of word repre- sentations in vector space”, 2013. eprint: https://arxiv.org/abs/1301.3781 |
Sách, tạp chí |
Tiêu đề: |
Efficient estimation of word representations in vector space |
Tác giả: |
T. Mikolov, K. Chen, G. Corrado, J. Dean |
Năm: |
2013 |
|
[14] J. Pennington, R. Socher, and C. D. Manning. (2014). “Global vectors for word repre- sentation”, [Online]. Available: https://nlp.stanford.edu/projects/glove/ |
Sách, tạp chí |
Tiêu đề: |
Global vectors for word representation |
Tác giả: |
J. Pennington, R. Socher, C. D. Manning |
Năm: |
2014 |
|
[15] P.D.Khanh, “Lý thuyết về mạng lstm part 2”, 2019. eprint: https://phamdinhkhanh.github.io/2019/04/22/Ly_thuyet_ve_mang_LSTM.html |
Sách, tạp chí |
Tiêu đề: |
Lý thuyết về mạng lstm part 2 |
Tác giả: |
P.D.Khanh |
Năm: |
2019 |
|
[16] R. Zellers, Y. Bisk, A. Farhadi, and Y. Choi, “From recognition to cognition: Visual commonsense reasoning”, in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun. 2019 |
Sách, tạp chí |
Tiêu đề: |
From recognition to cognition: Visual commonsense reasoning |
Tác giả: |
R. Zellers, Y. Bisk, A. Farhadi, Y. Choi |
Nhà XB: |
The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) |
Năm: |
2019 |
|
[17] J.-H. Kim, S.-W. Lee, D.-H. Kwak, M.-O. Heo, J. Kim, J.-W. Ha, and B.-T. Zhang, Multimodal residual learning for visual qa, 2016. arXiv: 1606.01455 [cs.CV] |
Sách, tạp chí |
Tiêu đề: |
Multimodal residual learning for visual qa |
Tác giả: |
J.-H. Kim, S.-W. Lee, D.-H. Kwak, M.-O. Heo, J. Kim, J.-W. Ha, B.-T. Zhang |
Nhà XB: |
arXiv |
Năm: |
2016 |
|
[18] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, and A. N., “Attention is all you need”, 2017. eprint: https://arxiv.org/abs/1706.03762 |
Sách, tạp chí |
Tiêu đề: |
Attention isall you need |
|
[19] Z. Yang, X. He, J. Gao, L. Deng, and A. Smola, Stacked attention networks for image question answering, 2016. arXiv: 1511.02274 [cs.LG] |
Sách, tạp chí |
Tiêu đề: |
Stacked attention networks for image question answering |
Tác giả: |
Z. Yang, X. He, J. Gao, L. Deng, A. Smola |
Nhà XB: |
arXiv |
Năm: |
2016 |
|
[20] A. Fukui, D. H. Park, D. Yang, A. Rohrbach, T. Darrell, and M. Rohrbach, Multimodal compact bilinear pooling for visual question answering and visual grounding, 2016.arXiv: 1606.01847 [cs.CV] |
Sách, tạp chí |
Tiêu đề: |
Multimodalcompact bilinear pooling for visual question answering and visual grounding |
|
[21] Z. Yu, J. Yu, J. Fan, and D. Tao, Multi-modal factorized bilinear pooling with co- attention learning for visual question answering, 2017. arXiv: 1708.01471 [cs.CV] |
Sách, tạp chí |
Tiêu đề: |
Multi-modal factorized bilinear pooling with co-attention learning for visual question answering |
|