1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Áp dụng mạng slowfast cho bài toán nhận dạng hành động trong video

30 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 30
Dung lượng 1,57 MB

Nội dung

Áp dụng mạng SlowFast cho bài toán nhận dạng hành động trong video ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phùng Thế Ngọc ÁP DỤNG MẠNG SLOWFAST CHO BÀI TOÁN NHẬN DẠNG HÀNH ĐỘNG TRONG VIDEO BÁO CÁO MÔN HỌC TRÍ TUỆ NHÂN TẠO NÂNG CAO Ngành Khoa học máy tính HÀ NỘI 2022 TÓM TẮT Tóm tắt Bài báo trình bày về việc áp dụng mạng SlowFast cho bài toán nhận dạng hành động trong video Mô hình được đề cập tại đây bao gồm 2 nhánh chính Nhánh đầu tiên là nhánh chậm, xử lý với một tốc độ xử lý khung hì.

Ngày đăng: 18/05/2022, 14:12

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] David H Hubel and Torsten N Wiesel (1965). “Receptive fields and functional ar- chitecture in two nonstriate visual areas (18 and 19) of the cat”. In: Journal of neurophysiology 28.2, pp. 229–289 Sách, tạp chí
Tiêu đề: Receptive fields and functional ar-chitecture in two nonstriate visual areas (18 and 19) of the cat”. In: "Journal ofneurophysiology
Tác giả: David H Hubel and Torsten N Wiesel
Năm: 1965
[2] AM Derrington and P Lennie (1984). “Spatial and temporal contrast sensitivities of neurones in lateral geniculate nucleus of macaque.” In: The Journal of physiology 357.1, pp. 219–240 Sách, tạp chí
Tiêu đề: Spatial and temporal contrast sensitivities ofneurones in lateral geniculate nucleus of macaque.” In: "The Journal of physiology
Tác giả: AM Derrington and P Lennie
Năm: 1984
[3] Margaret Livingstone and David Hubel (1988). “Segregation of form, color, move- ment, and depth: anatomy, physiology, and perception”. In: Science 240.4853, pp. 740–749 Sách, tạp chí
Tiêu đề: Segregation of form, color, move-ment, and depth: anatomy, physiology, and perception”. In:"Science
Tác giả: Margaret Livingstone and David Hubel
Năm: 1988
[4] Yair Weiss, Eero P Simoncelli, and Edward H Adelson (2002). “Motion illusions as optimal percepts”. In: Nature neuroscience 5.6, pp. 598–604 Sách, tạp chí
Tiêu đề: Motion illusionsas optimal percepts”. In:"Nature neuroscience
Tác giả: Yair Weiss, Eero P Simoncelli, and Edward H Adelson
Năm: 2002
[5] Piotr Dollár et al. (2005). “Behavior recognition via sparse spatio-temporal fea- tures”. In: 2005 IEEE international workshop on visual surveillance and perfor- mance evaluation of tracking and surveillance. IEEE, pp. 65–72 Sách, tạp chí
Tiêu đề: Behavior recognition via sparse spatio-temporal fea-tures”. In: "2005 IEEE international workshop on visual surveillance and perfor-mance evaluation of tracking and surveillance
Tác giả: Piotr Dollár et al
Năm: 2005
[6] Alexander Klaser, Marcin Marszałek, and Cordelia Schmid (2008). “A spatio- temporal descriptor based on 3d-gradients”. In: BMVC 2008-19th British Machine Vision Conference. British Machine Vision Association, pp. 275–1 Sách, tạp chí
Tiêu đề: A spatio-temporal descriptor based on 3d-gradients”. In: "BMVC 2008-19th British MachineVision Conference
Tác giả: Alexander Klaser, Marcin Marszałek, and Cordelia Schmid
Năm: 2008
[7] Ivan Laptev et al. (2008). “Learning realistic human actions from movies”. In: 2008 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, pp. 1–8 Sách, tạp chí
Tiêu đề: Learning realistic human actions from movies”. In:"2008IEEE Conference on Computer Vision and Pattern Recognition
Tác giả: Ivan Laptev et al
Năm: 2008
[8] Jia Deng et al. (2009). “Imagenet: A large-scale hierarchical image database”. In:2009 IEEE conference on computer vision and pattern recognition. Ieee, pp. 248–255 Sách, tạp chí
Tiêu đề: Imagenet: A large-scale hierarchical image database”. In:"2009 IEEE conference on computer vision and pattern recognition
Tác giả: Jia Deng et al
Năm: 2009
[9] Graham W Taylor et al. (2010). “Convolutional learning of spatio-temporal fea- tures”. In: European conference on computer vision. Springer, pp. 140–153 Sách, tạp chí
Tiêu đề: Convolutional learning of spatio-temporal fea-tures”. In:"European conference on computer vision
Tác giả: Graham W Taylor et al
Năm: 2010
[10] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton (2012). “Imagenet clas- sification with deep convolutional neural networks”. In: Advances in neural infor- mation processing systems 25 Sách, tạp chí
Tiêu đề: Imagenet clas-sification with deep convolutional neural networks”. In: "Advances in neural infor-mation processing systems
Tác giả: Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton
Năm: 2012
[11] Karen Simonyan and Andrew Zisserman (2014). “Two-stream convolutional net- works for action recognition in videos”. In: Advances in neural information pro- cessing systems 27 Sách, tạp chí
Tiêu đề: Two-stream convolutional net-works for action recognition in videos”. In: "Advances in neural information pro-cessing systems
Tác giả: Karen Simonyan and Andrew Zisserman
Năm: 2014
[12] Du Tran et al. (2015). “Learning spatiotemporal features with 3d convolutional networks”. In: Proceedings of the IEEE international conference on computer vi- sion, pp. 4489–4497 Sách, tạp chí
Tiêu đề: Learning spatiotemporal features with 3d convolutionalnetworks”. In: "Proceedings of the IEEE international conference on computer vi-sion
Tác giả: Du Tran et al
Năm: 2015
[13] Christoph Feichtenhofer, Axel Pinz, and Andrew Zisserman (2016). “Convolu- tional two-stream network fusion for video action recognition”. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1933–1941 Sách, tạp chí
Tiêu đề: Convolu-tional two-stream network fusion for video action recognition”. In:"Proceedings ofthe IEEE conference on computer vision and pattern recognition
Tác giả: Christoph Feichtenhofer, Axel Pinz, and Andrew Zisserman
Năm: 2016
[14] Kaiming He et al. (2016). “Deep residual learning for image recognition”. In:Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770–778 Sách, tạp chí
Tiêu đề: Deep residual learning for image recognition”. In:"Proceedings of the IEEE conference on computer vision and pattern recognition
Tác giả: Kaiming He et al
Năm: 2016
[15] Gunnar A Sigurdsson et al. (2016). “Hollywood in homes: Crowdsourcing data collection for activity understanding”. In: European Conference on Computer Vi- sion. Springer, pp. 510–526 Sách, tạp chí
Tiêu đề: Hollywood in homes: Crowdsourcing datacollection for activity understanding”. In: "European Conference on Computer Vi-sion
Tác giả: Gunnar A Sigurdsson et al
Năm: 2016
[16] Joao Carreira and Andrew Zisserman (2017). “Quo vadis, action recognition? a new model and the kinetics dataset”. In: proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 6299–6308 Sách, tạp chí
Tiêu đề: Quo vadis, action recognition? anew model and the kinetics dataset”. In: "proceedings of the IEEE Conference onComputer Vision and Pattern Recognition
Tác giả: Joao Carreira and Andrew Zisserman
Năm: 2017
[17] Christoph Feichtenhofer, Axel Pinz, and Richard P Wildes (2017). “Spatiotempo- ral multiplier networks for video action recognition”. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 4768–4777 Sách, tạp chí
Tiêu đề: Spatiotempo-ral multiplier networks for video action recognition”. In: "Proceedings of the IEEEconference on computer vision and pattern recognition
Tác giả: Christoph Feichtenhofer, Axel Pinz, and Richard P Wildes
Năm: 2017
[18] Will Kay et al. (2017). “The kinetics human action video dataset”. In: arXiv preprint arXiv:1705.06950 Sách, tạp chí
Tiêu đề: The kinetics human action video dataset”. In
Tác giả: Will Kay et al
Năm: 2017
[19] Tsung-Yi Lin et al. (2017). “Feature pyramid networks for object detection”. In:Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 2117–2125 Sách, tạp chí
Tiêu đề: Feature pyramid networks for object detection”. In:"Proceedings of the IEEE conference on computer vision and pattern recognition
Tác giả: Tsung-Yi Lin et al
Năm: 2017
[20] Allah Bux Sargano, Plamen Angelov, and Zulfiqar Habib (2017). “A comprehen- sive review on handcrafted and learning-based action representation approaches for human activity recognition”. In: applied sciences 7.1, p. 110 Sách, tạp chí
Tiêu đề: A comprehen-sive review on handcrafted and learning-based action representation approaches forhuman activity recognition”. In:"applied sciences
Tác giả: Allah Bux Sargano, Plamen Angelov, and Zulfiqar Habib
Năm: 2017

HÌNH ẢNH LIÊN QUAN

Dựa trên những trường hợp này, bài báo đề xuất mô hình SlowFast 2 nhánh cho bài toán nhận dạng video - Áp dụng mạng slowfast cho bài toán nhận dạng hành động trong video
a trên những trường hợp này, bài báo đề xuất mô hình SlowFast 2 nhánh cho bài toán nhận dạng video (Trang 8)
Hình 2.1: Phân loại video sử dụng phương pháp phân loại từng khung hình [25]. - Áp dụng mạng slowfast cho bài toán nhận dạng hành động trong video
Hình 2.1 Phân loại video sử dụng phương pháp phân loại từng khung hình [25] (Trang 11)
hoặc flatten được mô tả như Hình 2.2. Cách này giúp mô hình học thêm các thông tin về không gian, thời gian, chuyển động của người trong từng khung hình. - Áp dụng mạng slowfast cho bài toán nhận dạng hành động trong video
ho ặc flatten được mô tả như Hình 2.2. Cách này giúp mô hình học thêm các thông tin về không gian, thời gian, chuyển động của người trong từng khung hình (Trang 11)
2.1.3. Kết hợp sớm các khung hình - Áp dụng mạng slowfast cho bài toán nhận dạng hành động trong video
2.1.3. Kết hợp sớm các khung hình (Trang 12)
Hình 2.4: Phân loại video sử dụng đầu vào là optical-flow [7]. - Áp dụng mạng slowfast cho bài toán nhận dạng hành động trong video
Hình 2.4 Phân loại video sử dụng đầu vào là optical-flow [7] (Trang 13)
Hình 3.1: Cấu trúc chi tiết của 1 mạng SlowFast cụ thể. - Áp dụng mạng slowfast cho bài toán nhận dạng hành động trong video
Hình 3.1 Cấu trúc chi tiết của 1 mạng SlowFast cụ thể (Trang 17)
Bảng 4.1: So sánh các mạng huấn luyện trên tập Kinetics-400 - Áp dụng mạng slowfast cho bài toán nhận dạng hành động trong video
Bảng 4.1 So sánh các mạng huấn luyện trên tập Kinetics-400 (Trang 21)
Hình 4.1: So sánh độ chính xác và hiệu suất của mô hình SlowFast với mô hình chỉ có một nhánh chậm. - Áp dụng mạng slowfast cho bài toán nhận dạng hành động trong video
Hình 4.1 So sánh độ chính xác và hiệu suất của mô hình SlowFast với mô hình chỉ có một nhánh chậm (Trang 22)
Bảng 4.3: So sánh các mạng huấn luyện trên tập Charades - Áp dụng mạng slowfast cho bài toán nhận dạng hành động trong video
Bảng 4.3 So sánh các mạng huấn luyện trên tập Charades (Trang 23)
Hợp nhất SlowFast. Bảng 4.4 chỉ ra các cách hợp nhất nhánh nhanh và nhánh chậm Bảng 4.4: Hợp nhất nhánh nhanh và nhánh chậm với các cách kết nối khác nhau - Áp dụng mạng slowfast cho bài toán nhận dạng hành động trong video
p nhất SlowFast. Bảng 4.4 chỉ ra các cách hợp nhất nhánh nhanh và nhánh chậm Bảng 4.4: Hợp nhất nhánh nhanh và nhánh chậm với các cách kết nối khác nhau (Trang 24)
Bảng 4.5: So sánh kết quả khi thay đổi tỉ số công suất kênh của nhánh nhanh - Áp dụng mạng slowfast cho bài toán nhận dạng hành động trong video
Bảng 4.5 So sánh kết quả khi thay đổi tỉ số công suất kênh của nhánh nhanh (Trang 25)
• Các khung hình đầu vào có 1 kênh - khung hình xám. - Áp dụng mạng slowfast cho bài toán nhận dạng hành động trong video
c khung hình đầu vào có 1 kênh - khung hình xám (Trang 25)
Bảng 4.7 sẽ trình bày so sánh các thực nghiệm với mô hình 3D R-50 cơ sở. Có thể nhận thấy rằng, quá trình huấn luyện có thể đạt kết quả tốt như mô hình khác đã được huấn luyện trước với ImageNet, trong khi đó công thức được trình bày trong [24] không học  - Áp dụng mạng slowfast cho bài toán nhận dạng hành động trong video
Bảng 4.7 sẽ trình bày so sánh các thực nghiệm với mô hình 3D R-50 cơ sở. Có thể nhận thấy rằng, quá trình huấn luyện có thể đạt kết quả tốt như mô hình khác đã được huấn luyện trước với ImageNet, trong khi đó công thức được trình bày trong [24] không học (Trang 26)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w