(Luận văn thạc sĩ) human action and detect abnormal behavor from camera ,hành vi con người và phát hiện hành vi không bình thường từ camera

UNIVERSITE NATIONAL DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL COULIBALY Adama Human action and detect abnormal behavor from camera Hành vi người phát hành vi khơng bình thường từ camera MÉMOIRE DE FIN D’ÉTUDES DE MASTER EN INFORMATIQUE HANOăI 2020 UNIVERSITE NATIONAL DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL COULIBALY Adama Human action and detect abnormal behavor from camera Hành vi người phát hành vi không bình thường từ camera Spécialité : Système Intelligent et multimédia Code : Programme pilote MÉMOIRE DE FIN D’ÉTUDES DE MASTER EN INFORMATIQUE Sous la direction de : — Dr Phuc Trong Nguyen, Responsable du laboratoire de recherche et développement de IFI SOLUTION Lu et approuvộ HANOăI - 2020 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Các thơng tin trích dẫn Luận văn rõ nguồn gốc Signature de l’étudiant COULIBALY Adama Remerciement Je souhaite avant tout remercier mon encadreur pédagogique de stage M NGUYEN Phan Quang responsable du département de logiciel N1 de IFI SOLUTION, qui je voudrais témoigner toute ma vive gratitude Je tiens également remercier Dr NGUYEN Trong Phuc et M NGUYEN Khoi, pour le temps qu’ils ont consacré m’apporter les outils méthodologiques indispensables la conduite de cette recherche Leurs exigence m’ont grandement stimulé Un grand merci également toute l’équipe de IFI SOLUTION trop nombreux pour les citer, qui ont participé de prêt comme de loin la réalisation et validation de ce projet Ce travail n’aurait pu être accompli sans leur effort et leur contribution passionnées Je voudrais remercier notre responsable de Master Dr Ho Tuong Vinh ainsi que tous les personnels pédagogiques et administratifs de l’Institut Francophone International, Université National de Vietnam Hanoi Je leur suis reconnaissant de tout cœur pour avoir assuré et amélioré la qualité de notre formation En particulier, je tiens exprimer ma profonde gratitude mes parents, ma famille pour tout leurs efforts mon éducation, ma santé et bien d’autre chose que je ne peut toute les énuméré, qui m’ont permit d’être aujourd’hui J’aimerais aussi exprimer ma gratitude M NGUYEN Quang pour son encadrement et ces conseils lors du module Travaux Personnel Encadré durant le Master Sans oublier mes amis qui ont toujours été pour moi Votre soutien inconditionnel et vos encouragements ont été d’une grande aide Je vous remercie Table des figures 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Violence detection by 3D convolutional networks in ref [10] Le logo de IFI SOLUTION Exemple de Violences Organigramme général de l’approche proposée Le processus général pour la génération de sacs-de-mots audio-visuels Détection des événements anormaux dans les séquences vidéo Processus de fusion multimodale Archtecture basées sur les trames (changements inter-images) Une illustration des descripteurs de mouvement binaires locaux L’encodeur spatio-temporel Présentation d’une cellule BiConvLSTM Schéma du codeur spatial L’architecture cadre unique L’architecture cadre multiple L’architecture du modèle Darknet-19 ReLU f(x) ReLU Max Pooling1 Max Pooling2 Max Pooling3 Graphe de la précisions du modèle cadre unique Graphe de la perte du modèle cadre unique Graphe de la précision du modèle cadre multiple Graphe de la perte du modèle cadre multiple Détection de non violence dans la vidéo 01 Détection de non violence dans la vidéo 02 Détection de violence dans la vidéo 01 Détection de violence dans la vidéo 02 Violence non détecter dans la vidéo 01 L’architecture de la solution 10 12 13 16 17 18 19 20 21 23 26 27 30 31 33 34 35 36 36 36 40 40 41 41 42 43 43 44 44 45 Résumé La sécurité des citoyens dans les environnements urbains modernes est un aspect important de la qualité de la vie La mise en œuvre d’une approche de la vidéosurveillance basée sur les villes intelligentes dépend en grande partie de la capacité de collecte et de traitement de grandes quantités de données urbaines en direct L’analyse des données provenant de flux vidéo de surveillance bande passante élevée fournis par des réseaux de capteurs distribués de grande taille est particulièrement difficile Le sujet de ce stage s’inscrit dans le contexte de la détection automatique du comportement violent partir de séquences vidéos de surveillance, qui est une des préoccupations majeures dans le domaine de la vision par ordinateur Les domaines d’application pour les systèmes de vision sont nombreux On peut citer notamment la vidéo surveillance, la recherche et l’indexation automatique de vidéos ou encore l’assistance aux personnes âgées et fragiles Cette tâche reste très problématique par le fait des grandes variations dans la manière de réaliser les comportements, l’apparence de la personne et les variations des conditions d’acquisition Le travail réalisé s’inscrit dans le cadre du projet Bahavior Abnormal Detection (Détection de comportement anormal) et fait usage des méthodes de deep learning de la computer vision sur des vidéos issues des caméras de surveillance La première tache faire était d’étudier le domaine de la détection d’anomalie dans une vidéo de surveillance, de mettre en évidence les différences cas possible, ces relations, sa sollicité dans le monde réel La seconde tache était de proposer une solution au problème en spécifiant un cas d’application bien définir et qui soit un besoin réel dans notre quotidien Suite une étude bibliographique approfondir du domaine, en réponse l’objectif rechercher, nous optons pour la détection de violence dans une vidéo de surveillance Pour ce faire, nous avons fait usage de la combinaison de réseaux de neurones convolution (CNN), pour l’aspect spatio-temporel afin d’extraire les caractéristiques pertinentes ainsi que du réseau de neurones récurrente (RNN) reconnu pour le traitement séquentiel des données, le but d’améliorer les résultats obtenus Le modèle mise en place prend suite notre spécification de domaine, prend en entrée des vidéos pour les modelés CNN, c’est dire une séquence d’images extraire de la vidéo Ils sont capables de faire une prédiction avec un bon taux de précision et de reconnaˆıtre les comportements violent effectuées par des personne dans une vidéo Les actions constituant notre base de vidéos sont de deux catégories (Violence et Non-violence), avec lesquelles nous avons fait différentes expérimentations avec la validation sur l’ensemble de nos deux actions et l’issu des entraˆınements nous avons obtenons de bon résultats, mais avec certaines confusion dans certaines actions Mots clés : réseaux de neurones convolutionnel ; réseaux de neurones récurrente ; l’apprentissage en profondeur ; vision par ordinateur ; détection de comportement anormale ; détection de la violence ; Villes intelligentes Abstract Citizen security in modern urban environments is an important aspect of the quality of life The implementation of a video surveillance approach based on smart cities largely depends on the capacity to collect and process large quantities of live urban data Analysis of data from high bandwidth surveillance video streams provided by large distributed sensor networks is particularly difficult The subject of this internship is in the context of automatic detection of violent behavior from surveillance video sequences, which is one of the major concerns in the field of computer vision The fields of application for vision systems are numerous These include video surveillance, automatic search and indexing video or the elderly and frail assistance This task remains very problematic because of the great variations in the way behaviors achieving, the person appearance of and the variations in the acquisition conditions The work carried out is part of the Bahavior Abnormal Detection project and makes use of deep learning methods, computer vision methods on videos from surveillance cameras The first task to was to study the anomaly detection field in a surveillance video, to highlight the differences cases possible, these relationships, its demand in the real world The second task was to propose a solution to the problem by specifying a well defined application case which is a real need in our daily life Following a thorough bibliographic study of the field, in response to the objective sought, we opt for the violence detection in a surveillance video About it, we used the combination of convolutional neural networks (CNN), for the spatio-temporal aspect in order to extract the relevant characteristics, as well as the recurrent neural network (RNN) recognized for the sequential data processing, the purpose of improving the results obtained The model implemented follows our domain specification, takes as input videos for CNN models, ie a sequence of images extracted from the video They are able to make a prediction with a good rate of accuracy and to recognize violent behavior carried out by people in a video The actions constituting our video base are of two categories (Violence and No-violence), with which we have made different experiments with validation on all of our two actions and at the end of the training we have obtained good results , but with certain confusion in certain actions Keywords : Convolutional neural networks ; recurrent neural networks ; deep learning ; computer vision ; detection of abnormal behavior ; detection of violence ; Smart cities Acronymes DL : Deep Learning ; CV : Computer Vision ; CNN : Convolution Neuronal Network ; RNN : Recurrent Neuronal Network ; LSTM : Long short-term memory ; LDA : Latent Dirichlet Allocation ; SVM : Support Vector Machine ; Table des matières Présentation du projet 1.1 Structure d’accueil 1.1.1 Contexte du projet 1.1.2 Problématique 1.1.3 Objectifs du stage État de l’art 2.1 Détection de violence : 2.1.1 L’approche l’aide de fonctionnalités de bas niveau 2.1.2 L’approches l’aide du descripteur audio-visuel 2.1.3 L’approche heuristique du comportement 2.1.4 L’approche basées sur fonctionnalités audio 2.1.5 L’approche basées sur les trames 2.1.6 L’approche basées sur les points d’intérêt 2.2 Architecture des modèles de la détection de violences 2.2.1 Architecture d’encodage spatio-temporel 2.2.2 Architecture du codeur spatial Solutions envisagées et contributions 3.1 Base de données 3.1.1 Collecte de données 3.1.2 Nos jeu de données 3.2 Nos classes (étiquettes) 3.3 Modèles 3.3.1 Les modèles cadre unique 3.3.2 Les modèles cadre multiple 3.3.3 Darknet-19 3.3.4 Paramètres du modèle 3.3.5 Optimisation des modèles 3.3.6 Évaluation de nos modèles 12 12 13 13 14 15 15 15 16 17 19 20 20 22 23 26 28 28 28 28 29 29 29 31 32 34 36 37 Résultats et analyses 38 4.1 Résultats 38 4.1.1 Outils et environnement de travail 39 4.1.2 Expérimentation du modèle cadre unique, Darknet19+3FC 40 4.1.3 Expérimentation du modèle cadre multiple, Darknet19+CNN+LSTM 41 4.2 Résultat attendu 45 4.3 Architecture de la solution 45 Chapitre 4 Résultats et analyses Faisant une analyse comparative, un benchmark des techniques utilisables pour la détection de violence, nous avons essayés de considérer plusieurs techniques différentes Sˆ urement, ces techniques ont des avantages et des inconvénients, et parfois prenant connaissance des manques existant pour chaque technique, nous arrivons mieux les composer afin d’arriver une solution beaucoup plus robuste Pour rendre notre conclusion encore plus exacte, il est important de faire des analyses sur la qualité et la quantité du résultat, 4.1 Résultats Nous présentons ici les résultats issus de plusieurs expérimentations lors de notre travail, dont chaque technique sera représenté par des tableaux et graphes de sortie Les résultats utilisés pour la présentation ont été extrait des fichiers binaires contenant les informations de notre formation dans le but de rendre la vue beaucoup plus explicite Les expérimentations sont faites la plateforme google colabotory sur des scénarios d’entraˆınement subissant des perturbations de l’environnement dˆ u, sois la connections de la plate-forme, sois la capacité de stockage insuffisante sur google drive pour stocker les resultats de la formation 38 4.1.1 Outils et environnement de travail Pour la réalisation de notre projet, nous avons faire usage de différent outils que nous énumérons ci-dessous Matériels : Comment matériels informatique pour notre travail, nous avons utiliser, un ordinateur de marque DELL, core i5, 16 GB de Ram, avec une mémoire de terabyte ; Environnement de travail : Pour ce qui est notre environnement de travail nous les citons ci-dessous, — Système d’exploitation : Ubuntu 18.04, C’est un système d’exploitation GNU/Linux basé sur la distribution Linux Debian Il est développé, commercialisé et maintenu pour les ordinateurs individuels par la société Canonical — L’environnement de travail : Anaconda , une distribution libre et open source des langages de programmation Python et R appliqué au développement d’applications dédiées la science des données et l’apprentissage automatique, qui vise simplifier la gestion des paquets et de déploiement — Langage de programmation : Python , un langage de programmation interprété, multi-paradigme et multiplateformes Il favorise la programmation impérative structurée, fonctionnelle et orientée objet — Google Colab ou Colaboratory 10 : C’est un service cloud, offert par Google (gratuit), basé sur Jupyter Notebook et destiné la formation et la recherche dans l’apprentissage automatique, C’est une plateforme permetant d’entraˆıner nos modèles de Machine Learning, directement dans le cloud — Google Drive 11 : C’est un service de stockage et de partage de fichiers dans le cloud La plateforme nous a servit de mémoire de stockage contenant notre projet et les résultats de formation, en liaisons avec la plateforme google colab Bibliothèques : Pour nos différent algorithme, nous utilisons les bibliothèque tel que : — OpenCV est une bibliothèque graphique libre, initialement développée par Intel, spécialisée dans le traitement d’images en temps réel ; — NumPy est une extension du langage de programmation Python, destinée manipuler des matrices ou tableaux multidimensionnels ainsi que des fonctions mathématiques opérant sur ces tableaux ; — Matplotlib est une bibliothèque du langage de programmation Python destinée tracer et visualiser des données sous formes de graphiques, — Scikit-learn est une bibliothèque libre Python dédiée l’apprentissage automatique 10 11 https https https https https ://fr.wikipedia.org/wiki/Ubuntu_(syst%C3%A8me_d’exploitation) ://fr.wikipedia.org/wiki/Anaconda_(Python_distribution) ://fr.wikipedia.org/wiki/Python_(langage) ://ledatascientist.com/google-colab-le-guide-ultime/ ://fr.wikipedia.org/wiki/GoogleD rive 39 4.1.2 Expérimentation du modèle cadre unique, Darknet19+3FC Nos modèles ont été entraˆınés sur les donnes d’entraˆınement de notre jeux de données ensuite testés par rapport aux vidéos réservées des fins de test Le tableau montre les performances du modèle cadre unique après 10, 15, 20, 25, et 30 époques en termes de pourcentage de précision Nous voyons qu’après 20 époques, la précision ne converge pas, au lieu de c¸a elle diminuer une certaine marge Ainsi, nous avons pris la précision après 20 époques comme référence (benchmark) pour ce modèle Epochs 10 15 20 25 29 Training Accuracy 97% 98% 98% 98% 99% Testing Accuracy 89% 89% 91% 89% 75% Table – Précision du modèle cadre unique Cependant, la figure 21 montre le graphe de la précision du modèle Darknet19+3FC Le graphique montre que le modèle est coupable de sur-ajustement (overfitting) une certaine échelle et la précision varie de 71% 90% La figure 22 est celle du graphe de la perte du modèle Darknet19+3FC qui nous montre une perte fluctuante de l’ensemble de test, des changements brusque Figure 21 – Graphe de la préci- Figure 22 – Graphe de la perte sions du modèle cadre unique du modèle cadre unique Ce modèle, comme nous pouvons le constater, est également coupable de sur-ajustement et la précision ainsi que la perte ne sont pas également cohérentes Alors, nous avons optés pour le modèle pré-formé pour tirer parti du modèle cadre multiple 40 4.1.3 Expérimentation du modèle cadre multiple, Darknet19+CNN+LSTM De ce fait, nous avons adopté pour la deuxième approche tout en utilisant et maintenu le même modèle pré-formé gelé avec une couche entièrement connectée en entête Dans cette approche, nous avons utilisé des CNN avant le LSTM avec des couches entièrement connectées tandis que dans le modèle précédent, nous avons juste utilisés le modèle préformé gelé puis ajouter des couches des couches entièrement connectées en entête Le tableau montre les performances du modèle en termes de pourcentage de précision Epochs 20 25 30 35 40 45 50 Training Accuracy 99% 99% 99% 99% 99% 99% 99% Testing Accuracy 96% 97% 96% 96% 96% 97% 97% Table – Précisions du modèle CNN+LSTM Les figures 23 et 24 montrent le graphique des précisions et des perte du modèle CNN+LSTM On voit que les modèles fonctionnent bien en termes de précision par rapport au modèle précédent et dont leurs métriques fluctuent beaucoup moins que l’autre modèles Nous observons également que l’ajout d’une couche de réseau neuronal convolutif devant les couches LSTM améliore la précision par une grande marge Figure 23 – Graphe de la précision du Figure 24 – Graphe de la perte du modèle cadre multiple modèle cadre multiple Le tableau montre la précision de nos deux modèles d’apprentissage par transfert 41 Aproches Darknet19+3F Darknet19+CNN+LSTM Training Accuracy 98% 99% Testing Accuracy 91% 97% Table – Précisions du modèle CNN+LSTM en terme de Cependant, le modèle d’apprentissage par transfert, avec un modele pré-formé semble fonctionner mieux en termes de précision parmi les modèles Le tableau montre que le CNN et le LSTM combinés sont cohérents pour détecter les vidéos violentes et non violentes de notre ensemble de données bas sur la généralité tandis que le modèle cadre unique a des difficultés détecter les vidéos violentes Nous montrons dans les figures suivantes quelque exemple du modèle CNN+LSTM Les figures 25 et 26 nous montrent quelques exemples de la détection du modèle CNN+LSTM sur les images vidéo Dans ces deux figures nous avons une détection de non violence dans la scène, ce qui est indiquer par la couleur verte de notre cadre d’image Le modèle a détecter correctement dans ces images vidéo comme non violence Figure 25 – Détection de non violence dans la vidéo 01 42 Figure 26 – Détection de non violence dans la vidéo 02 D’autre part, la figure 27 et 28 montrent images vidéo des détections de violences de chaque vidéo de test Le modèle a détecter correctement ces images vidéo comme violentes, donc la couleur du cadre change et nous donne une couleur rouge que nous avons designer comme la couleur de violence détecter Figure 27 – Détection de violence dans la vidéo 01 43 Figure 28 – Détection de violence dans la vidéo 02 Par contre, dans la figure 29 nous avons des violences qui sont détecter comme des comportements non violent de vidéo de test des détection de images vidéo d’une vidéo violente de l’ensemble de données collectées Le modèle n’a pas correctement détecté ces actions dans la vidéo comme violentes Il n’a pas réussi préciser l’action dans cette partie de la vidéo car il fait des confusions entre l’action violente et l’action non violente Figure 29 – Violence non détecter dans la vidéo 01 44 4.2 Résultat attendu Pour notre projet, l’objectif principal était de réaliser un système de détection de violence dans une vidéo de surveillance, de distinguer les comportement humain violent et des comportements humain non violent dans une vidéo Ces objectif attendu ont été réaliser avec succès Nous avons mis en place un algorithme dont nous avons combinés deux technique de l’apprentissage automatique, que sont respectivement le CNN et RNN, adapter a notre dataset que nous avons aussi pris soin de sélecter selon nos objectifs et critère que nous avons proposé pour la détection de violence d’action humaine Comme extension nous envisageons ajouter une grande variété de données, essayer d’autre technique du domaine puis faire une analyse comparative de l’ensemble de ces technique 4.3 Architecture de la solution Dans la figure 30, nous présentons la structure globale de notre système, dans le quel nous avons la caméras qui capte les évènements de la scène dont les vidéos sont enregistrés dans le serveur d’enregistrement, puis en parallèlement gérer par le poste de gestion d’où est tester nos algorithmes de détectons qui va ensuite déterminer si oui ou non il y a une violence dans la scène en temps réel Figure 30 – L’architecture de la solution 45 Cette architecture est notre architecture par défaut de notre système pour tester notre algorithme en production Nous n’avions pas en possession tous les composants de cette architecture Alors nous avons tester notre algorithme avec les composants de base dont nous avions a notre disposition pour le travail Les caméras ont été compassés par des vidéos déjà enregistrer et stoker sur le poste de travail qui nous ont servirent de tester de l’algorithme mise en place 46 Chapitre 5 5.1 CONCLUSION et PERSPECTIVES CONCLUSION GÉNÉRALES En conclusion, ce travail nous a permis de faire une première tentative de la résolution de la détection d’anomalie dans une vidéo de surveillance Plusieurs problématique ont été abordées, par les biais de différents cas d’application et divers point de vue du problème dans le monde réel, ce qui a nécessite le choix de la détection de violence dans une vidéo de surveillance Nous avons essayé d’aborder ce problème en utilisant l’architecture cadre unique dans la partie 3.3.1, utilisant un modèle pré-former avec des couches entièrement connecté ce qui ne répondait pas aux objectives donc n’a pas donné un bon résultat Par la suite, nous avons effectué d’autres techniques nécessitant les modèles cadre multiple dans la partie 3.3.2, base des réseaux de neurones CNN et RNN en particulier la mémoire long terme et long terme (LSTM) Dans ce travail, nous nous sommes intéressés la détection de violence qui est une partie du domaine de la reconnaissance d’actions dont la détection des comportements anormal dans une vidéo de surveillance, partir de données vidéos collection lors de la réalisation du projet Dans cette thématique, nous avons proposé modèles dans le contexte de notre stage afin de répondre la problématique du projet au sein de IFI SOLUTION Nous mettons en évidence l’usage de quelque technique de l’apprentissage profond parmi tant d’autre et de la vision par ordinateur dans cette thématique Pour la première technique elle consiste faire une classification en se focaliser sur les caractéristique local et ne prenant pas en compte les informations temporelles, autrement dis il ne n’a pas besoin d’apprendre les caractéristiques de mouvement des objets en mouvement Ce qui ne répond pas au objectifs rechercher dans notre travail, dont les données concernent différents endroit donc ce qui nécessite plusieurs aspects Cette approche dans notre travail n’est pas optimal avec nos données utiliser dont les quelles sont caractérisé pas l’objective cible Pour la seconde technique, contrairement la première elle prend en compte les caractéristique temporelles globales et des caractéristiques temporelles locale en prenant deux images vidéo en entrée imitant ainsi l’effet du flux optique dont la vertu est due son invariance dans son apparence ainsi qu’à sa précision aux limites ainsi qu’aux petits déplacements 47 5.2 PERSPECTIVES Comme perspectives, il faut préciser que le projet nécessite encore plus d’amélioration de performance, les prochaines étapes dans ce projet seront : — de s’équiper d’un ordinateur avec une carte graphique, un GPU afin d’approfondir l’entraˆınement du modèle avec plus de données possible ; — élargir la comparaison en essayant d’autre approche de l’apprentissage profond et de la vision par ordinateur, dans le but d’avoir un modèle encore plus performant et léger ; — de valider nos approches sur des équipement de production, tel que déployer ou d’embarquer ce projet sur un système de sécurités adéquate ou sur un Raspberry Pi 48 Références [1] Juan, I.E.; Juan, M.; Barco, R A low-complexity vision-based system for real-time traffic monitoring IEEE Trans Intell Transp Syst 2017, 18, 1279–1288 [2] Mohammad, R.; Sami, F Adaptive vision-based crack detection using 3D scene reconstruction for condition assessment of structures Autom Constr 2012, 22, 567–576 [3] Bermejo Nievas, E.; Deniz, O.; Bueno, G.; Sukthankar, R Violence detection in video using computer vision techniques In Proceedings of the International Conference on Computer Analysis of Images and Patterns, Seville, Spain, 29–31 August 2011; pp 332–339 [4] Bautista-Durán, M.; García-Gómez, J.; Gil-Pita, R.; Mohíno-Herranz, I.; Rosa-Zurera, M Energy-Efficient Acoustic Violence Detector for Smart Cities Int J Computat Intell Syst 2017, 10, 1298–1305 Sensors 2019, 19, 1676 [5] Hadjkacem, B.; Ayedi, W.; Abid, M.; Snoussi, H A new method of video-surveillance data analytics for the security in camera networks In Proceedings of the IEEE International Conference on Internet of Things, Embedded Systems and Communications IINTEC 2017, Gafsa, Tunisia, 20–22 October 2017; pp 140–145 [6] Mabrouk, A.B.; Ezzeddine, Z Abnormal behavior recognition for intelligent video surveillance systems: A review Expert Syst Appl 2018, 91, 480–491 [7] Saif, S.; Tehseen, S.; Kausar, S A survey of the techniques for the identification and classification of human actions from visual data Sensors 2018, 18, 3979 [8] W Sultani, C Chen, and M Shah Real-world Anomaly Detection in Surveillance Videos [9] E Bermejo, O Deniz, G Bueno, and R Sukthankar Violence Detection in Video Using Computer Vision Techniques [10] C Ding, S Fan, M Zhu, W Feng, and B Jia Violence Detection in Video by Using 3D Convolutional Neural Networks [11] A Karpathy, G Toderici, S Shetty, T Leung, R Sukthankar, and L Fei-Fei Large-scale video classification with convolutional neural networks [12] D Gordon, A Farhadi, and D Fox Re3: Real-Time Recurrent Regression Networks for Visual Tracking of Generic Objects [13] L Sevilla-Lara, Y Liao, F Guney, V Jampani, A Geiger, and M J Black On the Integration of Optical Flow and Action Recognition 49 [14] [8] J Redmon and A Farhadi Yolo9000: Better, faster, stronger.In Computer Vision and Pattern Recognition [15] Wang L, Xiong Y, Wang Z, Qiao Y, Lin D, Tang X, et al Réseaux de segments temporels: vers de bonnes pratiques pour la reconnaissance d’actions en profondeur Dans: Conférence européenne sur la vision par ordinateur Springer; 2016 p 20–36 [16] T Hospedales, S Gong, and T Xiang A markov clustering topic model for mining behaviour in video In ICCV, 2009 [17] J Kooij, M Liem, J Krijnders, T Andringa, and D Gavrila Multi-modal human aggression detection Computer Vision and Image Understanding, 2016 [18] C Lu, J Shi, and J Jia Abnormal event detection at 150 fps in matlab In ICCV, 2013 [19] S Mohammadi, A Perina, H Kiani, and M Vittorio Angry crowds: Detecting violent events in videos In ECCV, 2016 [20] S Wu, B E Moore, and M Shah Chaotic invariants of lagrangian particle trajectories for anomaly detection in crowded scenes In CVPR, 2010 [21] D Xu, E Ricci, Y Yan, J Song, and N Sebe Learning deep representations of appearance and motion for anomalous event detection In BMVC, 2015 [22] Chen, D., Wactlar, H., Chen, M.y., Gao, C., Bharucha, A., Hauptmann, A.: Recognition of aggressive human behavior using binary local motion descriptors In: [23] Cui, Z., Ke, R., Wang, Y.: Deep bidirectional and unidirectional lstm recurrent neural network for network-wide traffic speed prediction CoRR abs/1801.02143 (2018) [24] Deniz, O., Serrano, I., Bueno, G., Kim, T.K.: Fast violence detection in video In: Computer Vision Theory and Applications (VISAPP), 2014 International Conference on vol 2, pp 478–485 IEEE (2014) [25] Dong, Z., Qin, J., Wang, Y.: Multi-stream deep networks for person to person violence detection in videos In: Tan, T., Li, X., Chen, X., Zhou, J., Yang, J., Cheng, H (eds.) Pattern Recognition pp 517–531 Springer Singapore, Singapore (2016) [26] Giannakopoulos, T., Kosmopoulos, D., Aristidou, A., Theodoridis, S.: Violence content classification using audio features In: Hellenic Conference on Artificial Intelligence pp 502–507 Springer (2006) [27] Graves, A., Jaitly, N., rahman Mohamed, A.: Hybrid speech recognition with deep bidirectional lstm In: In IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU (2013) 50 [28] Greff, K., Srivastava, R.K., Koutnık, J., Steunebrink, B.R., Schmidhuber, J.: Lstm: A search space odyssey IEEE transactions on neural networks and learning systems 28(10), 2222–2232 (2017) [29] Huang, Y., Wang, W., Wang, L.: Video super-resolution via bidirectional recurrent convolutional networks IEEE Transactions on Pattern Analysis and Machine Intelligence 40(4), 1015–1028 (April 2018) https://doi.org/10.1109/TPAMI.2017.2701380 [30] Medel, J.R., Savakis, A.E.: Anomaly detection in video using predictive convolutional long short-term memory networks CoRR abs/1612.00390 (2016) [31] Mousavi, H., Mohammadi, S., Perina, A., Chellali, R., Murino, V.: Analyzing track- lets for the detection of abnormal crowd behavior In: Applications of Computer Vision (WACV), 2015 IEEE Winter Conference on pp 148–155 IEEE (2015) [32] Nam, J., Alghoniemy, M., Tewfik, A.H.: Audio-visual content-based violent scene characterization In: Proceedings 1998 International Conference on Image Processing ICIP98 (Cat No.98CB36269) vol 1, pp 353–357 vol.1 (Oct 1998) https://doi.org/10.1109/ICIP.1998.723496 [33] Schuster, M., Paliwal, K.K.: Bidirectional Recurrent Neural Networks IEEE Transactions on Signal Processing 45(11) (1997), https://pdfs.semanticscholar.org/4b80/89bc9b49f84de43acc2eb8900035f7d492b2 df [34] Simonyan, K., Zisserman, A.: Two-stream convolutional networks for action recognition in videos In: Ghahramani, Z., Welling, M., Cortes, C., Lawrence, N.D., Weinberger, K.Q (eds.) Advances in Neural Information Processing Systems 27, pp 568–576 Curran Associates, Inc (2014), http://papers.nips.cc/paper/5353-two-stream-convolutional-networks-for-action-recognit [35] Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition In International Conference on Learning Representations (2015), http://arxiv.org/abs/1409.1556 [36] Sudhakaran, S., Lanz, O.: Learning to detect violent videos using convolutional long short-term memory In: Advanced Video and Signal Based Surveillance (AVSS), 2017 14th IEEE International Conference on pp 1–6 IEEE (2017) [37] Xingjian, S., Chen, Z., Wang, H., Yeung, D.Y., Wong, W.K., Woo, W.c.: Convolutional lstm network: A machine learning approach for precipitation nowcasting In: Advances in neural information processing systems pp 802–810 (2015) 51 [38] Zhang, T., Jia, W., He, X., Yang, J.: Discriminative dictionary learning with motion weber local descriptor for violence detection IEEE Trans Cir and Sys for Video Technol 27(3), 696–709 (Mar 2017) https://doi.org/10.1109/TCSVT.2016.2589858, https://doi.org/10.1109/TCSVT.2016.2589858 52 ... NATIONAL DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL COULIBALY Adama Human action and detect abnormal behavor from camera Hành vi người phát hành vi khơng bình thường từ camera Spécialité... good rate of accuracy and to recognize violent behavior carried out by people in a video The actions constituting our video base are of two categories (Violence and No-violence), with which we... Deniz, G Bueno, and R Sukthankar Violence Detection in Video Using Computer Vision Techniques [10] C Ding, S Fan, M Zhu, W Feng, and B Jia Violence Detection in Video by Using 3D Convolutional

Định dạng
Số trang	54
Dung lượng	9,66 MB