1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Human action and detect abnormal behavor from camera ,hành vi con người và phát hiện hành vi không bình thường từ camera

54 28 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 2,09 MB

Nội dung

UNIVERSITE NATIONAL DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL COULIBALY Adama Human action and detect abnormal behavor from camera Hành vi ngưíi phát hi»n hành vi khơng bình thưíng tø camera MÉMOIRE DE FIN D’ÉTUDES DE MASTER EN INFORMATIQUE ¨ HANOI 2020 UNIVERSITE NATIONAL DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL COULIBALY Adama Human action and detect abnormal behavor from camera Hành vi ngưíi phát hi»n hành vi khơng bình thưíng tø camera Spécialité : Système Intelligent et multimédia Code : Programme pilote MÉMOIRE DE FIN D’ÉTUDES DE MASTER EN INFORMATIQUE Sous la direction de : — Dr Phuc Trong Nguyen, Responsable du laboratoire de recherche et développement de IFI SOLUTION Lu et approuvộ ă HANOI - 2020 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été pu-bliés ailleurs La source des informations citées dans ce mémoire a été bien précisée LÍI CAM ĐOAN Tơi cam đoan cơng trình nghiên cùu cõa riêng tụi Cỏc số liằu, kát quÊ nờu Luên trung thüc chưa tøng đưđc cơng bè b§t kỳ cơng trình khác Các thơng tin trớch dăn Luên ó ủc ch rừ nguỗn gèc Signature de l’étudiant COULIBALY Adama Remerciement Je souhaite avant tout remercier mon encadreur pédagogique de stage M NGUYEN Phan Quang responsable du département de logiciel N1 de IFI SOLUTION, qui je voudrais témoigner toute ma vive gratitude Je tiens également remercier Dr NGUYEN Trong Phuc et M NGUYEN Khoi, pour le temps qu’ils ont consa-cré m’apporter les outils méthodologiques indispensables la conduite de cette recherche Leurs exigence m’ont grandement stimulé Un grand merci également toute l’équipe de IFI SOLUTION trop nombreux pour les citer, qui ont participé de prêt comme de loin la réalisation et validation de ce projet Ce travail n’aurait pu être accompli sans leur effort et leur contribution passionnées Je voudrais remercier notre responsable de Master Dr Ho Tuong Vinh ainsi que tous les personnels pédagogiques et administratifs de l’Institut Francophone Inter-national, Université National de Vietnam Hanoi Je leur suis reconnaissant de tout cœur pour avoir assuré et amélioré la qualité de notre formation En particu-lier, je tiens exprimer ma profonde gratitude mes parents, ma famille pour tout leurs efforts mon éducation, ma santé et bien d’autre chose que je ne peut toute les énuméré, qui m’ont permit d’être aujourd’hui J’aimerais aussi exprimer ma gratitude M NGUYEN Quang pour son encadrement et ces conseils lors du module Travaux Personnel Encadré durant le Master Sans oublier mes amis qui ont toujours été pour moi Votre soutien inconditionnel et vos encouragements ont été d’une grande aide Je vous remercie Table des figures Violence detection by 3D convolutional networks in ref [10] 10 Le logo de IFI SOLUTION 12 Exemple de Violences 13 Organigramme général de l’approche proposée 16 Le processus général pour la génération de sacs-de-mots audio-visuels 17 Détection des événements anormaux dans les séquences vidéo 18 Processus de fusion multimodale 19 Archtecture basées sur les trames (changements inter-images) 20 Une illustration des descripteurs de mouvement binaires locaux 21 10 L’encodeur spatio-temporel 23 11 Présentation d’une cellule BiConvLSTM 26 12 Schéma du codeur spatial 13 L’architecture cadre unique 14 L’architecture cadre multiple 31 15 L’architecture du modèle Darknet-19 33 16 ReLU f(x) 34 17 ReLU 35 18 Max Pooling1 36 19 Max Pooling2 36 20 Max Pooling3 36 21 Graphe de la précisions du modèle cadre unique 40 22 Graphe de la perte du modèle cadre unique 40 23 Graphe de la précision du modèle cadre multiple 41 24 Graphe de la perte du modèle cadre multiple 41 25 Détection de non violence dans la vidéo 01 42 26 Détection de non violence dans la vidéo 02 43 27 Détection de violence dans la vidéo 01 28 Détection de violence dans la vidéo 02 29 Violence non détecter dans la vidéo 01 30 L’architecture de la solution Résumé La sécurité des citoyens dans les environnements urbains modernes est un aspect important de la qualité de la vie La mise en œuvre d’une approche de la vidéo-surveillance basée sur les villes intelligentes dépend en grande partie de la capacité de collecte et de traitement de grandes quantités de données urbaines en direct L’analyse des données provenant de flux vidéo de surveillance bande passante élevée fournis par des réseaux de capteurs distribués de grande taille est particu-lièrement difficile Le sujet de ce stage s’inscrit dans le contexte de la détection automatique du comportement violent partir de séquences vidéos de surveillance, qui est une des préoccupations majeures dans le domaine de la vision par ordina-teur Les domaines d’application pour les systèmes de vision sont nombreux On peut citer notamment la vidéo surveillance, la recherche et l’indexation automa-tique de vidéos ou encore l’assistance aux personnes âgées et fragiles Cette tâche reste très problématique par le fait des grandes variations dans la manière de réa-liser les comportements, l’apparence de la personne et les variations des conditions d’acquisition Le travail réalisé s’inscrit dans le cadre du projet Bahavior Abnormal Detection (Détection de comportement anormal) et fait usage des méthodes de deep lear-ning de la computer vision sur des vidéos issues des caméras de surveillance La première tache faire était d’étudier le domaine de la détection d’anomalie dans une vidéo de surveillance, de mettre en évidence les différences cas possible, ces relations, sa sollicité dans le monde réel La seconde tache était de proposer une solution au problème en spécifiant un cas d’application bien définir et qui soit un besoin réel dans notre quotidien Suite une étude bibliographique approfondir du domaine, en réponse l’objectif rechercher, nous optons pour la détection de violence dans une vidéo de surveillance Pour ce faire, nous avons fait usage de la combinaison de réseaux de neurones convolution (CNN), pour l’aspect spatio-temporel afin d’extraire les caractéris-tiques pertinentes ainsi que du réseau de neurones récurrente (RNN) reconnu pour le traitement séquentiel des données, le but d’améliorer les résultats obtenus Le modèle mise en place prend suite notre spécification de domaine, prend en entrée des vidéos pour les modelés CNN, c’est dire une séquence d’images ex-traire de la vidéo Ils sont capables de faire une prédiction avec un bon taux de précision et de reconnaˆıtre les comportements violent effectuées par des personne dans une vidéo Les actions constituant notre base de vidéos sont de deux catégories (Violence et Non-violence), avec lesquelles nous avons fait différentes expérimentations avec la validation sur l’ensemble de nos deux actions et l’issu des entraˆınements nous avons obtenons de bon résultats, mais avec certaines confusion dans certaines ac-tions Mots clés : réseaux de neurones convolutionnel ; réseaux de neurones récurrente ; l’apprentissage en profondeur ; vision par ordinateur ; détection de comportement anormale ; détection de la violence ; Villes intelligentes Abstract Citizen security in modern urban environments is an important aspect of the qua-lity of life The implementation of a video surveillance approach based on smart cities largely depends on the capacity to collect and process large quantities of live urban data Analysis of data from high bandwidth surveillance video streams provided by large distributed sensor networks is particularly difficult The subject of this internship is in the context of automatic detection of violent behavior from surveillance video sequences, which is one of the major concerns in the field of computer vision The fields of application for vision systems are numerous These include video surveillance, automatic search and indexing video or the elderly and frail assistance This task remains very problematic because of the great variations in the way behaviors achieving, the person appearance of and the variations in the acquisition conditions The work carried out is part of the Bahavior Abnormal Detection project and makes use of deep learning methods, computer vision methods on videos from sur-veillance cameras The first task to was to study the anomaly detection field in a surveillance video, to highlight the differences cases possible, these relationships, its demand in the real world The second task was to propose a solution to the problem by specifying a well defined application case which is a real need in our daily life Following a thorough bibliographic study of the field, in response to the objective sought, we opt for the violence detection in a surveillance video About it, we used the combination of convolutional neural networks (CNN), for the spatio-temporal aspect in order to extract the relevant characteristics, as well as the recurrent neu-ral network (RNN) recognized for the sequential data processing, the purpose of improving the results obtained The model implemented follows our domain speci-fication, takes as input videos for CNN models, ie a sequence of images extracted from the video They are able to make a prediction with a good rate of accuracy and to recognize violent behavior carried out by people in a video The actions constituting our video base are of two categories (Violence and No-violence), with which we have made different experiments with validation on all of our two actions and at the end of the training we have obtained good results , but with certain confusion in certain actions Keywords : Convolutional neural networks ; recurrent neural networks ; deep learning ; computer vision ; detection of abnormal behavior ; detection of violence ; Smart cities Acronymes DL : Deep Learning ; CV : Computer Vision ; CNN : Convolution Neuronal Network ; RNN : Recurrent Neuronal Network ; LSTM : Long short-term memory ; LDA : Latent Dirichlet Allocation ; SVM : Support Vector Machine ; Table des matières Présentation du projet 1.1 Structure d’accueil État de l’art 2.1 Détection de violence : 2.1.1 2.1.2 2.1.3 2.1.4 2.1.5 2.1.6 2.2 Architecture des modèles de la détec 2.2.1 2.2.2 Solutions envisagées et contributions 3.1 Base de données 3.1.1 3.1.2 3.2 Nos classes (étiquettes) 3.3 Modèles 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 3.3.6 Résultats et analyses 4.1 Résultats 4.1.1 4.1.2 4.1.3 4.2 Résultat attendu 4.3 Architecture de la solution Chapitre 4 Résultats et analyses Faisant une analyse comparative, un benchmark des techniques utilisables pour la dé-tection de violence, nous avons essayés de considérer plusieurs techniques différentes Sˆurement, ces techniques ont des avantages et des inconvénients, et parfois prenant connaissance des manques existant pour chaque technique, nous arrivons mieux les composer afin d’arriver une solution beaucoup plus robuste Pour rendre notre conclu-sion encore plus exacte, il est important de faire des analyses sur la qualité et la quantité du résultat, 4.1 Résultats Nous présentons ici les résultats issus de plusieurs expérimentations lors de notre tra-vail, dont chaque technique sera représenté par des tableaux et graphes de sortie Les résultats utilisés pour la présentation ont été extrait des fichiers binaires contenant les informations de notre formation dans le but de rendre la vue beaucoup plus explicite Les expérimentations sont faites la plateforme google colabotory sur des scénarios d’en-traˆınement subissant des perturbations de l’environnement dˆu, sois la connections de la plate-forme, sois la capacité de stockage insuffisante sur google drive pour stocker les resultats de la formation 38 4.1.1 Outils et environnement de travail Pour la réalisation de notre projet, nous avons faire usage de différent outils que nous énumérons ci-dessous Matériels : Comment matériels informatique pour notre travail, nous avons utili-ser, un ordinateur de marque DELL, core i5, 16 GB de Ram, avec une mémoire de terabyte ; Environnement de travail : Pour ce qui est notre environnement de travail nous les citons ci-dessous, — Système d’exploitation : Ubuntu 18.04, C’est un système d’exploitation GNU/Linux basé sur la distribution Linux Debian Il est développé, commercialisé et maintenu pour les ordinateurs individuels par la société Canonical — L’environnement de travail : Anaconda , une distribution libre et open source des langages de programmation Python et R appliqué au développement d’ap-plications dédiées la science des données et l’apprentissage automatique, qui vise simplifier la gestion des paquets et de déploiement — Langage de programmation : Python , un langage de programmation interprété, multi-paradigme et multiplateformes Il favorise la programmation impérative structurée, fonctionnelle et orientée objet 10 — Google Colab ou Colaboratory : C’est un service cloud, offert par Google (gratuit), basé sur Jupyter Notebook et destiné la formation et la recherche dans l’apprentissage automatique, C’est une plateforme permetant d’entraˆıner nos modèles de Machine Learning, directement dans le cloud 11 — Google Drive : C’est un service de stockage et de partage de fichiers dans le cloud La plateforme nous a servit de mémoire de stockage contenant notre projet et les résultats de formation, en liaisons avec la plateforme google colab Bibliothèques : Pour nos différent algorithme, nous utilisons les bibliothèque tel que : — OpenCV est une bibliothèque graphique libre, initialement développée par Intel, spécialisée dans le traitement d’images en temps réel ; — NumPy est une extension du langage de programmation Python, destinée manipuler des matrices ou tableaux multidimensionnels ainsi que des fonc-tions mathématiques opérant sur ces tableaux ; — Matplotlib est une bibliothèque du langage de programmation Python destinée tracer et visualiser des données sous formes de graphiques, — Scikit-learn est une bibliothèque libre Python dédiée l’apprentissage auto-matique 10 11 https ://fr.wikipedia.org/wiki/Ubuntu_(syst%C3%A8me_d’exploitation) https ://fr.wikipedia.org/wiki/Anaconda_(Python_distribution) https ://fr.wikipedia.org/wiki/Python_(langage) https ://ledatascientist.com/google-colab-le-guide-ultime/ https ://fr.wikipedia.org/wiki/GoogleDrive 39 4.1.2 Expérimentation du modèle cadre unique, Darknet19+3FC Nos modèles ont été entraˆınés sur les donnes d’entraˆınement de notre jeux de données ensuite testés par rapport aux vidéos réservées des fins de test Le tableau montre les performances du modèle cadre unique après 10, 15, 20, 25, et 30 époques en termes de pourcentage de précision Nous voyons qu’après 20 époques, la précision ne converge pas, au lieu de ca¸ elle diminuer une certaine marge Ainsi, nous avons pris la précision après 20 époques comme référence (benchmark) pour ce modèle Epochs 10 15 20 25 29 Table – Précision du modèle cadre unique Cependant, la figure 21 montre le graphe de la précision du modèle Darknet19+3FC Le graphique montre que le modèle est coupable de sur-ajustement (overfitting) une certaine échelle et la précision varie de 71% 90% La figure 22 est celle du graphe de la perte du modèle Darknet19+3FC qui nous montre une perte fluctuante de l’ensemble de test, des changements brusque Figure 21 – Graphe de la préci- Figure 22 – Graphe de la perte sions du modèle cadre unique du modèle cadre unique Ce modèle, comme nous pouvons le constater, est également coupable de surajustement et la précision ainsi que la perte ne sont pas également cohérentes Alors, nous avons optés pour le modèle pré-formé pour tirer parti du modèle cadre multiple 40 4.1.3 Expérimentation du modèle cadre multiple, Darknet19+CNN+LSTM De ce fait, nous avons adopté pour la deuxième approche tout en utilisant et maintenu le même modèle pré-formé gelé avec une couche entièrement connectée en entête Dans cette approche, nous avons utilisé des CNN avant le LSTM avec des couches entièrement connectées tandis que dans le modèle précédent, nous avons juste utilisés le modèle préformé gelé puis ajouter des couches des couches entièrement connectées en entête Le tableau montre les performances du modèle en termes de pourcentage de précision Epochs 20 25 30 35 40 45 50 Table – Précisions du modèle CNN+LSTM Les figures 23 et 24 montrent le graphique des précisions et des perte du modèle CNN+LSTM On voit que les modèles fonctionnent bien en termes de précision par rapport au modèle précédent et dont leurs métriques fluctuent beaucoup moins que l’autre modèles Nous observons également que l’ajout d’une couche de réseau neuronal convolutif devant les couches LSTM améliore la précision par une grande marge Figure 23 – Graphe de la précision du Figure 24 – Graphe de la perte du modèle cadre multiple modèle cadre multiple Le tableau montre la précision de nos deux modèles d’apprentissage par transfert 41 Table – Précisions du modèle CNN+LSTM en terme de Cependant, le modèle d’apprentissage par transfert, avec un modele pré-formé semble fonctionner mieux en termes de précision parmi les modèles Le tableau montre que le CNN et le LSTM combinés sont cohérents pour détecter les vidéos violentes et non vio-lentes de notre ensemble de données bas sur la généralité tandis que le modèle cadre unique a des difficultés détecter les vidéos violentes Nous montrons dans les figures suivantes quelque exemple du modèle CNN+LSTM Les figures 25 et 26 nous montrent quelques exemples de la détection du modèle CNN+LSTM sur les images vidéo Dans ces deux figures nous avons une détection de non violence dans la scène, ce qui est indiquer par la couleur verte de notre cadre d’image Le modèle a détecter correctement dans ces images vidéo comme non violence Figure 25 – Détection de non violence dans la vidéo 01 42 Figure 26 – Détection de non violence dans la vidéo 02 D’autre part, la figure 27 et 28 montrent images vidéo des détections de violences de chaque vidéo de test Le modèle a détecter correctement ces images vidéo comme violentes, donc la couleur du cadre change et nous donne une couleur rouge que nous avons designer comme la couleur de violence détecter Figure 27 – Détection de violence dans la vidéo 01 43 Figure 28 – Détection de violence dans la vidéo 02 Par contre, dans la figure 29 nous avons des violences qui sont détecter comme des comportements non violent de vidéo de test des détection de images vidéo d’une vidéo violente de l’ensemble de données collectées Le modèle n’a pas correctement détecté ces actions dans la vidéo comme violentes Il n’a pas réussi préciser l’action dans cette partie de la vidéo car il fait des confusions entre l’action violente et l’action non violente Figure 29 – Violence non détecter dans la vidéo 01 44 4.2 Résultat attendu Pour notre projet, l’objectif principal était de réaliser un système de détection de violence dans une vidéo de surveillance, de distinguer les comportement humain violent et des comportements humain non violent dans une vidéo Ces objectif attendu ont été réaliser avec succès Nous avons mis en place un algorithme dont nous avons combinés deux technique de l’apprentissage automatique, que sont respectivement le CNN et RNN, adapter a notre dataset que nous avons aussi pris soin de sélecter selon nos objectifs et critère que nous avons proposé pour la détection de violence d’action humaine Comme extension nous envisageons ajouter une grande variété de données, essayer d’autre technique du domaine puis faire une analyse comparative de l’ensemble de ces technique 4.3 Architecture de la solution Dans la figure 30, nous présentons la structure globale de notre système, dans le quel nous avons la caméras qui capte les évènements de la scène dont les vidéos sont enregistrés dans le serveur d’enregistrement, puis en parallèlement gérer par le poste de gestion d’où est tester nos algorithmes de détectons qui va ensuite déterminer si oui ou non il y a une violence dans la scène en temps réel Figure 30 – L’architecture de la solution 45 Cette architecture est notre architecture par défaut de notre système pour tester notre algorithme en production Nous n’avions pas en possession tous les composants de cette architecture Alors nous avons tester notre algorithme avec les composants de base dont nous avions a notre disposition pour le travail Les caméras ont été compassés par des vidéos déjà enregistrer et stoker sur le poste de travail qui nous ont servirent de tester de l’algorithme mise en place 46 Chapitre 5 5.1 CONCLUSION et PERSPECTIVES CONCLUSION GÉNÉRALES En conclusion, ce travail nous a permis de faire une première tentative de la résolution de la détection d’anomalie dans une vidéo de surveillance Plusieurs problématique ont été abordées, par les biais de différents cas d’application et divers point de vue du pro-blème dans le monde réel, ce qui a nécessite le choix de la détection de violence dans une vidéo de surveillance Nous avons essayé d’aborder ce problème en utilisant l’architec-ture cadre unique dans la partie 3.3.1, utilisant un modèle pré-former avec des couches entièrement connecté ce qui ne répondait pas aux objectives donc n’a pas donné un bon résultat Par la suite, nous avons effectué d’autres techniques nécessitant les modèles cadre multiple dans la partie 3.3.2, base des réseaux de neurones CNN et RNN en particulier la mémoire long terme et long terme (LSTM) Dans ce travail, nous nous sommes intéressés la détection de violence qui est une partie du domaine de la reconnaissance d’actions dont la détection des comportements anormal dans une vidéo de surveillance, partir de données vidéos collection lors de la réalisation du projet Dans cette théma-tique, nous avons proposé modèles dans le contexte de notre stage afin de répondre la problématique du projet au sein de IFI SOLUTION Nous mettons en évidence l’usage de quelque technique de l’apprentissage profond parmi tant d’autre et de la vision par ordinateur dans cette thématique Pour la première technique elle consiste faire une classification en se focaliser sur les caractéristique local et ne prenant pas en compte les informations temporelles, autre-ment dis il ne n’a pas besoin d’apprendre les caractéristiques de mouvement des objets en mouvement Ce qui ne répond pas au objectifs rechercher dans notre travail, dont les données concernent différents endroit donc ce qui nécessite plusieurs aspects Cette approche dans notre travail n’est pas optimal avec nos données utiliser dont les quelles sont caractérisé pas l’objective cible Pour la seconde technique, contrairement la première elle prend en compte les caractéristique temporelles globales et des caractéristiques temporelles locale en prenant deux images vidéo en entrée imitant ainsi l’effet du flux optique dont la vertu est due son invariance dans son apparence ainsi qu’à sa précision aux limites ainsi qu’aux petits déplacements 47 5.2 PERSPECTIVES Comme perspectives, il faut préciser que le projet nécessite encore plus d’amélioration de performance, les prochaines étapes dans ce projet seront : — de s’équiper d’un ordinateur avec une carte graphique, un GPU afin d’approfondir l’entraˆınement du modèle avec plus de données possible ; — élargir la comparaison en essayant d’autre approche de l’apprentissage profond et de la vision par ordinateur, dans le but d’avoir un modèle encore plus performant et léger ; — de valider nos approches sur des équipement de production, tel que déployer ou d’embarquer ce projet sur un système de sécurités adéquate ou sur un Raspberry Pi 48 Références [1] Juan, I.E.; Juan, M.; Barco, R A low-complexity vision-based system for realtime traffic monitoring IEEE Trans Intell Transp Syst 2017, 18, 1279–1288 [2] Mohammad, R.; Sami, F Adaptive vision-based crack detection using 3D scene reconstruction for condition assessment of structures Autom Constr 2012, 22, 567–576 [3] Bermejo Nievas, E.; Deniz, O.; Bueno, G.; Sukthankar, R Violence detection in video using computer vision techniques In Proceedings of the International Conference on Computer Analysis of Images and Patterns, Seville, Spain, 29– 31 August 2011; pp 332–339 [4] Bautista-Durán, M.; García-Gómez, J.; Gil-Pita, R.; Mohíno-Herranz, I.; RosaZurera, M Energy-Efficient Acoustic Violence Detector for Smart Cities Int J Computat Intell Syst 2017, 10, 1298–1305 Sensors 2019, 19, 1676 [5] Hadjkacem, B.; Ayedi, W.; Abid, M.; Snoussi, H A new method of videosurveillance data analytics for the security in camera networks In Proceedings of the IEEE International Conference on Internet of Things, Embedded Systems and Communications IINTEC 2017, Gafsa, Tunisia, 20–22 October 2017; pp 140–145 [6] Mabrouk, A.B.; Ezzeddine, Z Abnormal behavior recognition for intelligent video surveillance systems: A review Expert Syst Appl 2018, 91, 480–491 [7] Saif, S.; Tehseen, S.; Kausar, S A survey of the techniques for the identification and classification of human actions from visual data Sensors 2018, 18, 3979 [8] W Sultani, C Chen, and M Shah Real-world Anomaly Detection in Surveillance Videos [9] E Bermejo, O Deniz, G Bueno, and R Sukthankar Violence Detection in Video Using Computer Vision Techniques [10] C Ding, S Fan, M Zhu, W Feng, and B Jia Violence Detection in Video by Using 3D Convolutional Neural Networks [11] A Karpathy, G Toderici, S Shetty, T Leung, R Sukthankar, and L Fei-Fei Large-scale video classification with convolutional neural networks [12] D Gordon, A Farhadi, and D Fox Re3: Real-Time Recurrent Regression Networks for Visual Tracking of Generic Objects [13] L Sevilla-Lara, Y Liao, F Guney, V Jampani, A Geiger, and M J Black On the Integration of Optical Flow and Action Recognition 49 [14] [8] J Redmon and A Farhadi Yolo9000: Better, faster, stronger.In Computer Vision and Pattern Recognition [15] Wang L, Xiong Y, Wang Z, Qiao Y, Lin D, Tang X, et al Réseaux de segments temporels: vers de bonnes pratiques pour la reconnaissance d’actions en profondeur Dans: Conférence européenne sur la vision par ordinateur Springer; 2016 p 20–36 [16] T Hospedales, S Gong, and T Xiang A markov clustering topic model for mining behaviour in video In ICCV, 2009 [17] J Kooij, M Liem, J Krijnders, T Andringa, and D Gavrila Multi-modal human aggression detection Computer Vision and Image Understanding, 2016 [18] C Lu, J Shi, and J Jia Abnormal event detection at 150 fps in matlab In ICCV, 2013 [19] S Mohammadi, A Perina, H Kiani, and M Vittorio Angry crowds: Detecting violent events in videos In ECCV, 2016 [20] S Wu, B E Moore, and M Shah Chaotic invariants of lagrangian particle trajectories for anomaly detection in crowded scenes In CVPR, 2010 [21] D Xu, E Ricci, Y Yan, J Song, and N Sebe Learning deep representations of appearance and motion for anomalous event detection In BMVC, 2015 [22] Chen, D., Wactlar, H., Chen, M.y., Gao, C., Bharucha, A., Hauptmann, A.: Recognition of aggressive human behavior using binary local motion descriptors In: [23] Cui, Z., Ke, R., Wang, Y.: Deep bidirectional and unidirectional lstm recurrent neural network for network-wide traffic speed prediction CoRR abs/1801.02143 (2018) [24] Deniz, O., Serrano, I., Bueno, G., Kim, T.K.: Fast violence detection in video In: Computer Vision Theory and Applications (VISAPP), 2014 International Conference on vol 2, pp 478–485 IEEE (2014) [25] Dong, Z., Qin, J., Wang, Y.: Multi-stream deep networks for person to person violence detection in videos In: Tan, T., Li, X., Chen, X., Zhou, J., Yang, J., Cheng, H (eds.) Pattern Recognition pp 517–531 Springer Singapore, Singapore (2016) [26] Giannakopoulos, T., Kosmopoulos, D., Aristidou, A., Theodoridis, S.: Violence content classification using audio features In: Hellenic Conference on Artificial Intelligence pp 502–507 Springer (2006) [27] Graves, A., Jaitly, N., rahman Mohamed, A.: Hybrid speech recognition with deep bidirectional lstm In: In IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU (2013) 50 [28] Greff, K., Srivastava, R.K., Koutnık, J., Steunebrink, B.R., Schmidhuber, J.: Lstm: A search space odyssey IEEE transactions on neural networks and learning systems 28(10), 2222–2232 (2017) [29] Huang, Y., Wang, W., Wang, L.: Video super-resolution via bidirectional recurrent convolutional networks IEEE Transactions on Pattern Analysis and Machine Intelligence 40(4), 1015–1028 (April 2018) https://doi.org/10.1109/TPAMI.2017.2701380 [30] Medel, J.R., Savakis, A.E.: Anomaly detection in video using predictive convolutional long short-term memory networks CoRR abs/1612.00390 (2016) [31] Mousavi, H., Mohammadi, S., Perina, A., Chellali, R., Murino, V.: Analyzing track- lets for the detection of abnormal crowd behavior In: Applications of Computer Vision (WACV), 2015 IEEE Winter Conference on pp 148–155 IEEE (2015) [32] Nam, J., Alghoniemy, M., Tewfik, A.H.: Audio-visual content-based violent scene characterization In: Proceedings 1998 International Conference on Image Processing ICIP98 (Cat No.98CB36269) vol 1, pp 353–357 vol.1 (Oct 1998) https://doi.org/10.1109/ICIP.1998.723496 [33] Schuster, M., Paliwal, K.K.: Bidirectional Recurrent Neural Net-works IEEE Transactions on Signal Processing 45(11) (1997), https://pdfs.semanticscholar.org/4b80/89bc9b49f84de43acc2eb8900035f7d492b2 df [34] Simonyan, K., Zisserman, A.: Two-stream convolutional networks for action recognition in videos In: Ghahramani, Z., Welling, M., Cortes, C., Lawrence, N.D., Weinberger, K.Q (eds.) Advances in Neural Information Processing Systems 27, pp 568– 576 Curran Associates, Inc (2014), http://papers.nips.cc/paper/5353-two-stream-convolutionalnetworks-for-action-recogni [35] Simonyan, K., Zisserman, A.: Very deep convolutional networks for largescale image recognition In International Conference on Learning Representations (2015), http://arxiv.org/abs/1409.1556 [36] Sudhakaran, S., Lanz, O.: Learning to detect violent videos using convolutional long short-term memory In: Advanced Video and Signal Based Surveillance (AVSS), 2017 14th IEEE International Conference on pp 1–6 IEEE (2017) [37] Xingjian, S., Chen, Z., Wang, H., Yeung, D.Y., Wong, W.K., Woo, W.c.: Convolutional lstm network: A machine learning approach for precipitation nowcasting In: Advances in neural information processing systems pp 802–810 (2015) 51 [38] Zhang, T., Jia, W., He, X., Yang, J.: Discriminative dictionary learning with motion weber local descriptor for violence de-tection IEEE Trans Cir and Sys for Video Technol 27(3), 696–709 (Mar 2017) https://doi.org/10.1109/TCSVT.2016.2589858, https://doi.org/10.1109/TCSVT.2016.2589858 52 ... NATIONAL DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL COULIBALY Adama Human action and detect abnormal behavor from camera Hành vi ngưíi phát hi»n hành vi khơng bình thưíng tø camera Spécialité... good rate of accuracy and to recognize violent behavior carried out by people in a video The actions constituting our video base are of two categories (Violence and No-violence), with which we... Deniz, G Bueno, and R Sukthankar Violence Detection in Video Using Computer Vision Techniques [10] C Ding, S Fan, M Zhu, W Feng, and B Jia Violence Detection in Video by Using 3D Convolutional

Ngày đăng: 30/10/2020, 21:21

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[29] Huang, Y., Wang, W., Wang, L.: Video super-resolution via bidirectional recurrent convolutional networks. IEEE Transactions on Pattern Analysis and Machine Intelligence 40(4), 1015–1028 (April 2018).https://doi.org/10.1109/TPAMI.2017.2701380 Link
[32] Nam, J., Alghoniemy, M., Tewfik, A.H.: Audio-visualcontent-based violent scene characterization. In: Proceedings 1998 International Conference on Image Processing. ICIP98 (Cat.No.98CB36269). vol. 1, pp. 353–357 vol.1 (Oct 1998).https://doi.org/10.1109/ICIP.1998.723496 Link
576. Curran Associates, Inc. (2014), http://papers.nips.cc/paper/5353-two-stream-convolutional-networks-for-action-recogni Link
[38] Zhang, T., Jia, W., He, X., Yang, J.: Discriminative dictionary learning with motion weber local descriptor for violence de-tection. IEEE Trans. Cir. and Sys. for Video Technol. 27(3), 696–709 (Mar 2017).https://doi.org/10.1109/TCSVT.2016.2589858, https://doi.org/10.1109/TCSVT.2016.2589858 Link
[1] Juan, I.E.; Juan, M.; Barco, R. A low-complexity vision-based system for real- time traffic monitoring. IEEE Trans. Intell. Transp. Syst. 2017, 18, 1279–1288 Khác
[14] [8] J. Redmon and A. Farhadi. Yolo9000: Better, faster, stronger.In Computer Vision and Pattern Recognition Khác
[15] Wang L, Xiong Y, Wang Z, Qiao Y, Lin D, Tang X, et al. Réseaux de segments temporels: vers de bonnes pratiques pour la reconnaissance d’actions en profondeur. Dans: Conférence européenne sur la vision par ordinateur.Springer; 2016. p. 20–36 Khác
[16] T. Hospedales, S. Gong, and T. Xiang. A markov clustering topic model for mining behaviour in video. In ICCV, 2009 Khác
[17] J. Kooij, M. Liem, J. Krijnders, T. Andringa, and D. Gavrila. Multi-modal human aggression detection. Computer Vision and Image Understanding, 2016 Khác
[18] C. Lu, J. Shi, and J. Jia. Abnormal event detection at 150 fps in matlab. In ICCV, 2013 Khác
[19] S. Mohammadi, A. Perina, H. Kiani, and M. Vittorio. Angry crowds: Detecting violent events in videos. In ECCV, 2016 Khác
[20] S. Wu, B. E. Moore, and M. Shah. Chaotic invariants of lagrangian particle trajectories for anomaly detection in crowded scenes. In CVPR, 2010 Khác
[21] D. Xu, E. Ricci, Y. Yan, J. Song, and N. Sebe. Learning deep representations of appearance and motion for anomalous event detection. In BMVC, 2015 Khác
[22] Chen, D., Wactlar, H., Chen, M.y., Gao, C., Bharucha, A., Hauptmann, A.: Recognition of aggressive human behavior using binary local motion descriptors.In Khác
[23] Cui, Z., Ke, R., Wang, Y.: Deep bidirectional and unidirectional lstm recurrent neural network for network-wide traffic speed prediction. CoRR abs/1801.02143 (2018) Khác
[24] Deniz, O., Serrano, I., Bueno, G., Kim, T.K.: Fast violence detection in video. In Khác
Computer Vision Theory and Applications (VISAPP), 2014 International Conference on. vol. 2, pp. 478–485. IEEE (2014) Khác
[25] Dong, Z., Qin, J., Wang, Y.: Multi-stream deep networks for person to person violence detection in videos. In: Tan, T., Li, X., Chen, X., Zhou, J., Yang, J., Cheng, H. (eds.) Pattern Recognition. pp Khác
[26] Giannakopoulos, T., Kosmopoulos, D., Aristidou, A., Theodoridis, S.: Violence content classification using audio features. In: Hellenic Conference on Artificial Intelligence. pp. 502–507. Springer (2006) Khác
[27] Graves, A., Jaitly, N., rahman Mohamed, A.: Hybrid speech recognition with deep bidirectional lstm. In: In IEEE Workshop on Automatic Speech Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w