EXTRACTION DE SQUELETTES 3d a PARTIR DIMAGES DE SILHOUETTES HUMAINES RECONNAISSANCE DE POSTURES ET MODELISATION DACTIONS

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL - ATREVI Dieudonné Fabrice EXTRACTION DE SQUELETTES 3D A PARTIR D'IMAGES DE SILHOUETTES HUMAINES : RECONNAISSANCE DE POSTURES ET MODELISATION D'ACTIONS CHIẾT XUẤT KHUNG XƯƠNG 3D TỪ ẢNH 2D CỦA CON NGƯỜI: NHẬN DẠNG TƯ THẾ VÀ MÔ HÌNH HOÁ HÀNH ĐỘNG MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2015 UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL - ATREVI Dieudonné Fabrice EXTRACTION DE SQUELETTES 3D A PARTIR D'IMAGES DE SILHOUETTES HUMAINES : RECONNAISSANCE DE POSTURES ET MODELISATION D'ACTIONS CHIẾT XUẤT KHUNG XƯƠNG 3D TỪ ẢNH 2D CỦA CON NGƯỜI: NHẬN DẠNG TƯ THẾ VÀ MÔ HÌNH HOÁ HÀNH ĐỘNG Spécialité : Systèmes Intelligents et Multimédia Code : Programme pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de: Dr Damien VIVET, Maître de conférence Dr Florent DUCULTY, Maître de conférence Lu et validé, bon pour soutenance HANOI – 2015 Table des matières Table des matières i Remerciements iii Résumé iv Abstract v Liste des figures vi Liste des tableaux viii Introduction Générale 1 État de l’art 1.1 Introduction 1.2 La capture de mouvement 1.3 L’estimation de pose et l’analyse de 1.4 Descripteurs de formes 1.5 Conclusion 3 11 Méthodes et solutions proposées 2.1 Introduction 2.2 Modélisation humaine 3D et extraction de données 2.3 Descripteurs de formes et extraction de caractéristiques 2.4 Conclusion 12 12 12 16 24 25 25 25 27 36 39 Implémentation et Résultats 3.1 Introduction 3.2 Outils utilisés 3.3 Résultats de la reconnaissance 3.4 Résultats de la reconnaissance 3.5 Conclusion mouvement de postures d’actions Conclusion Générale 40 Bibliographie 41 Annexes 44 i Je dédie ce document ma famille et mes camarades de l’IFI ii Remerciements La réalisation de ce document qui couronne la fin de notre formation de Master, n’aurait été possible sans l’appui direct ou indirect de personnes et d’institutions auxquelles nous tenons ici exprimer nos sincères remerciements Il s’agit de : — L’Agence Universitaire de la Francophonie (AUF), pour nous avoir donné l’opportunité de poursuivre nos études de Master l’IFI travers une bourse — L’Institut Francophone International (IFI) et de tous les professeurs, pour les nombreuses connaissances acquises durant notre formation — Nos encadrants pour nous avoir accueillis au sein de leur équipe et pour leur suivi et implication personnelle dans la réalisation de nos travaux — Tous ceux qui de près ou de loin nous ont apporté leur soutien durant notre formation iii Résumé L’informatique met la disposition de plusieurs domaines de la science des outils puissants d’analyse pour l’aide la décision Le secteur de la vision par ordinateur n’est pas resté en marge de ces révolutions Un des domaines en fort développement est la mise en place d’outils intelligents d’analyse du comportement humain Dans le cadre précis de nos travaux, nous nous sommes attachés la question de l’estimation de pose 3D partir d’images 2D obtenues partir de capteurs classiques ne fournissant pas d’information de profondeurs Ces informations de profondeurs sont actuellement indispensables pour des analyses plus précises du comportement humain dans le cadre de la vidéo surveillance de masse de personnes L’approche que nous avons proposée au cours de ce stage suit une démarche classique d’apprentissage automatique qui consiste apprendre un ensemble de poses obtenues partir de données simulées Les résultats obtenus sont prometteurs en ce sens que nous avons obtenu de bons taux de reconnaissance de pose partir d’images de personnes inconnues dans la base d’apprentissage Nos travaux nous ont permis de comparer les différents descripteurs de formes mis en jeux et de montrer ceux qui sont les plus robustes En nous appuyant sur les résultats de reconnaissance de postures, nous avons proposé une première approche de classification d’actions dans une vidéo Les résultats obtenus sont prometteurs et peuvent être améliorés pour une plus grande efficacité, notamment en prenant en compte l’information temporelle par la mise en place d’un pistage multi hypothèse des points d’articulation du squelette Mots-clés : Analyse comportementale, reconnaissance de postures, classification d’actions, descripteurs de formes iv Abstract In the recent history of the science, IT provides powerful analysis tools for support expert to make a decision In the same way, computer vision tries to implement automatic tools for image and video analysis For example, in the context of video analysis, we can talk about human motion analysis through a video In the specific context of our work, we addressed the issue of the 3D pose estimation from 2D monocular images obtained from conventional sensors not providing depth information The aim of our study is to estimate the 3D pose of a human from a monocular 2D image and then provides an action classification tool The proposed approach follows a classical machine learning approach that involves learning a set of 3D poses obtained from simulated data The proposed approach consists to extract silhouette of human from an image and compute, via the orthogonal geometric moment and the shape context, three feature vectors A human poses and action can be retrieved by calculating the Euclidian distance between the feature vector af the request image and all of the feature vector of the training data we are deduce the corresponding action by choising the most represent class of action 3D estimate poses is then computing by the mean 3D poses of all retrieved images of the most represented action class Keywords: Behavior analysis, 3D pose recognition, actions classification, shape descriptors v Liste des figures 1.1 1.2 1.3 Personne équipée d’un exosquelette Personne équipée lors d’une capture magnétique Capture avec kinect 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 Exemples de modèles humains 3D obtenus avec MakeHuman Modèle du squelette de type second life bones Modèle humain importé dans blender partir de MakeHuman Exemples de silhouettes extraites lors d’une marche À gauche, une matrice x 4, droite une image avec les points reprojetés De la gauche vers la droite : courbe du polynôme avec n = 0, 1, Détermination du bon ordre pour le moment de Krawtchouk À gauche, les moments pour le bas du corps et droite, les moments pour le haut du corps 2.9 Polynômes de Zernike tracés sur le disque unité [1] 2.10 Détermination du bon ordre pour le moment de Zernike 2.11 Contexte de forme (a,b) sont des exemples de forme (c) est le diagramme log-polaire (d-f) des histogrammes des points marqués Source Belongie et al [2] 2.12 Détermination du bon nombre de clusters 13 13 14 15 15 17 18 3.1 3.2 3.3 27 29 3.4 3.5 3.6 3.7 3.8 worklow de la démarche suivie Taux de reconnaissance pour des données apprises : Méthode de Krawtchouk Taux de reconnaissance pour des données non apprises : Méthode de Krawtchouk En abscisse, résultats pour respectivement 1, 3, et voisins considérés et en ordonnée, les taux de reconnaissance Taux de reconnaissance pour des données apprises : Méthode de Zernike En abscisse, résultats pour respectivement 1, 3, et voisins considérés et en ordonnée, les taux de reconnaissance Taux de reconnaissance pour des données non apprises : Méthode de Zernike En abscisse, résultats pour respectivement 1, 3, et voisins considérés et en ordonnée, les taux de reconnaissance Taux de reconnaissance pour des données apprises : Méthode du contexte de forme En abscisse, résultats pour respectivement 1, 3, et voisins considérés et en ordonnée, les taux de reconnaissance Taux de reconnaissance pour des données non apprises : Méthode du contexte de forme En abscisse, résultats pour respectivement 1, 3, et voisins considérés et en ordonnée, les taux de reconnaissance Résultat de recherche d’une image inconnue avec les trois descripteurs vi 19 20 21 22 23 30 31 31 32 33 34 3.9 3.10 3.11 3.12 3.13 3.14 A1 B1 B2 B3 C1 C2 D1 D2 D3 D4 Exemple : Résultat de représentation 3D de squelette Exemple : Résultat de représentation 3D de squelette Résultats de suivi pour le mouvement "grimper" Résultats de suivi pour le mouvement "saut" Matrice de confusion obtenue A gauche notre matrice de confusion exprimée en pourcentage et droite la matrice de confusion obtenue par Gorelick et al [3] Contour extrait sur une silhouette Images de silhouette bruitée avec std = Images de silhouette bruitée avec std = Images de silhouette bruitée avec std = Résultat de reconnaissance de posture avec une image réelle pour une posture en croix A gauche, l’image originale, au centre, les résultats obtenus et droite l’estimation du squelette 3D Résultat de reconnaissance de posture avec une image réelle pour une posture de marche A gauche, l’image originale, au centre, les résultats obtenus et droite l’estimation du squelette 3D Mouvement "Marche" Mouvement "Bend" Mouvement "Jump" Mouvement "Side" vii 34 35 35 36 37 38 44 45 45 45 46 46 47 47 47 47 Liste des tableaux 3.1 3.2 3.3 Caractéristiques de la machine Détails de composition des différentes bases Organisation de la base d’apprentissage viii 25 26 26 Figure 3.10 – Exemple : Résultat de représentation 3D de squelette ment dans le cadre de la reconnaissance de postures Ces résultats présentent deux intérêts pour la suite de nos travaux D’une part, ils permettent d’affirmer que la combinaison des trois descripteurs permet d’avoir des poses qui ne dévient pas trop des poses réelles et d’autres part, ils permettent d’affirmer que la trajectoire suivie par les différents points d’articulation pour les deux actions est assez distincte pour caractériser ces actions Figure 3.11 – Résultats de suivi pour le mouvement "grimper" 35 Figure 3.12 – Résultats de suivi pour le mouvement "saut" 3.4 Résultats de la reconnaissance d’actions 3.4.1 Démarche suivie Une action peut être vue comme une séquence d’images montrant au fil du temps les différentes postures adoptées par l’objet exécutant l’action L’approche que nous proposons pour la reconnaissance d’actions se trouve alors dans la suite logique de la partie sur la reconnaissance de postures En effet, du moment où une suite d’images de postures permettent de décrire une action, nous pouvons partir des résultats de notre programme de reconnaissance de postures, déduire l’action décrite par une séquence d’images de silhouette Le principe est le même que pour la reconnaissance de posture l’exception qu’ici, il ne s’agira pas de faire la moyenne des coordonnées des points d’articulation des différentes postures obtenues, mais de prendre la classe la mieux représentée au niveau des résultats obtenus pour un ensemble d’images issues de la séquence d’actions L’action exécutée sera alors celle dont la classe a le plus d’occurrences d’images de posture dans l’ensemble des résultats Notre démarche reprend alors une grande partie de la démarche de reconnaissance de postures (de l’apprentissage jusqu’à l’identification des images susceptible de contenir la pose recherchée) 36 3.4.2 Évaluation de la reconnaissance d’actions Nous avons mené une expérience de classification avec notre méthode et nous avons utilisé la base de vidéos de Weizmann Pour ce faire, nous avons utilisé 1/3 des vidéos (soit 30 vidéos) pour l’apprentissage et les 2/3 restantes (soit 60 vidéos) pour l’évaluation Chaque classe de test correspond une action et contient vidéos pour un total de 5432 images Nous avons adopté la méthode d’évaluation basée sur la matrice de confusion avec le calcul de la précision, du rappel et du score de classification F-score du système Figure 3.13 – Matrice de confusion obtenue La figure 3.13 (page 37) présente la matrice de confusion de notre système de classification Il en ressort que le système arrive bien distinguer plusieurs groupes d’actions comme "bend", "jack", "pjump", "side", "walk", "wave1" et "wave2" Néanmoins, une grande confusion est faite par le système entre les actions "jump" et "skip" Ce constat a été fait dans d’autres travaux, notamment par [3] (auteur de la base) qui justifie cette confusion par une partielle similarité dans la dynamique des deux actions En nous basant sur ce résultat, nous avons calculé les différents facteurs de performance du système Rappeli = le nombre de vidéos correctement attribuées la classe i le nombre de vidéos appartenant la classe i P recisioni = le nombre de vidéos correctement attribuées la classe i le nombre de vidéos attribuées la classe i n n Rappeli Rappel = i=1 n P recisioni , P recision = i=1 n et Fscore = 2∗(precision∗rappel) (precision+rappel) Nous obtenons une précision de "0,84", un rappel de "0,83", pour un score de classification de "83.98%" Cette relative faible performance est due en grande partie la mauvaise classification des actions de "jump" En comparant nos résultats avec ceux obtenus par [3], comme 37 le montre la figure 3.14 (page 38), nous pouvons constater que nos résultats ne sont pas les meilleurs obtenus sur cette base de vidéo, mais présentent quand même l’avantage d’améliorer la reconnaissance de certaines actions comme "wave2" et "bend" Même si le taux de reconnaissance est faible par rapport celui de l’article sus-cité, il n’est pas cependant négligeable Notre approche permet alors de faire une classification d’actions non similaires et peut être améliorée pour une plus grande efficacité Figure 3.14 – A gauche notre matrice de confusion exprimée en pourcentage et droite la matrice de confusion obtenue par Gorelick et al [3] 3.4.3 Perspective d’amélioration des résultats L’approche que nous avons proposée dans cette section pour la classification d’actions ne prend en compte que l’information spatiale de la silhouette En effet, le calcul des descripteurs étant fait pour chaque silhouette, l’information temporelle sur l’exécution de l’action est perdue Une intégration de cette information temporelle (pour respecter l’ordre d’apparition des poses) peut avoir un impact sur le résultat La prise en compte de cette information peut-être faite en calculant un vecteur unique de descripteur pour une fenêtre temporelle Ce vecteur peut être une concaténation des différents vecteurs de descripteurs des images appartenant cette fenêtre et dans l’ordre d’apparition En plus de cette possible amélioration, nous pensons l’intégration d’une solution basée sur le tracking multi hypothèses de certains points d’articulation pour éliminer au fil du temps les résultats aberrants que nous pouvons obtenir Ainsi, des silhouettes dont les articulations présenteraient des discontinuités temporelles seraient filtrées, ce qui limiterait la divergence de notre modèle Ce suivi temporel permettrait de sélectionner les images de silhouettes les plus probables et pour chaque séquence, lancer un pistage Ainsi, chaque piste permettrait de déterminer l’action menée jusqu’à ce que la piste soit erronée et donc supprimée 38 3.5 Conclusion Dans ce chapitre, nous avons présenté les détails de la constitution de nos différentes bases d’images et de vidéos, les expériences effectuées ainsi que les résultats obtenus Il ressort de nos expériences que les solutions que nous avons proposées pour la reconnaissance de postures ainsi que d’actions permettent d’avoir de bons résultats, mais qui peuvent être encore améliorés L’approche est basée sur les silhouettes, ce qui nécessite de disposer de bons algorithmes d’extraction de ces dernières Nous avons fait des comparaisons entre les résultats de notre approche avec ceux des travaux existants et des voies d’amélioration ont été présentées 39 Conclusion Générale et Perspectives En conclusion, travers ce document, nous avons présenté une méthode de reconnaissance de postures et de classification d’actions basée sur l’analyse de la forme de la silhouette contenue dans une image Nos travaux se sont appuyés sur les méthodes existantes dans le domaine de l’analyse et de la reconnaissance de formes et utilisant les moments géométriques orthogonaux ainsi que le descripteur de contexte de forme Nous avons expérimenté les moments orthogonaux 2D de Krawtchouk et de Zernike comme descripteurs pour nos silhouettes Ces moments robustes aux bruits, mais également invariants la rotation, la translation et aux changements d’échelles, nous ont permis de bien encoder les poses afin de nous faciliter leur indexation dans de grandes bases d’images À partir d’une méthode bien élaborée, nous avons trouvé les valeurs des paramètres de ces différents moments afin d’obtenir un bon taux de reconnaissance de la posture Pour le troisième descripteur, qui est un descripteur local, nous avons utilisé l’approche généralement utilisée en indexation de texte pour gérer la grande quantité de données et avoir des vecteurs de descripteurs simples comparer lors d’une requête L’évaluation de la reconnaissance de pose est basée sur le calcul des erreurs de reprojection des points d’articulation La comparaison des résultats de reconnaissance de postures montre que les trois descripteurs sont puissants dans la description des silhouettes et a fait ressortir que les moments de Krawtchouk étaient les plus robustes devant respectivement les moments de Zernike et le contexte de forme À la suite de la reconnaissance de postures, nous avons proposé une première approche de classification d’actions utilisant conjointement les trois descripteurs et ne faisant recours qu’à la description des silhouettes pour la déduction des actions Les résultats obtenus partir de la base publique de vidéos Weizmann, montrent que notre approche permet de bien distinguer les actions distinctes, mais peine dans la discrimination d’actions montrant de grandes similarités dans la dynamique de leur exécution En perspective pour la suite des travaux, nous avons proposé des améliorations qui pourront être intégrées pour améliorer le taux de reconnaissance L’une des voies d’amélioration serait l’intégration des résultats de pose 3D dans le processus d’élimination de poses aberrantes au fil du temps Ainsi, après la détermination de la pose 3D initialement, un tracking multi hypothèses de ces derniers au fil du temps pour permettre de mettre en place des modèles de mouvement améliorerait la détermination de l’action Il est noter que nous allons poursuivre en thèse sur cette thématique de reconnaissance d’évènements par caméra monoculaire 40 Bibliographie [1] Erika Pillu Analyse et régularisation spatio- temporelle : application l’écriture manuscrite Master’s thesis, Université Lille1, 2011 [2] Serge Belongie, Jitendra Malik, and Jan Puzicha Shape matching and object recognition using shape contexts Pattern Analysis and Machine Intelligence, IEEE Transactions on, 24(4) :509–522, 2002 [3] Lena Gorelick, Moshe Blank, Eli Shechtman, Michal Irani, and Ronen Basri Actions as space-time shapes In In ICCV, pages 1395–1402, 2005 [4] Graham Walters Performance animation at pdi SIGGRAPH Tutorial, 1, 1993 [5] A Mazzoldi, Danillo De Rossi, F Lorussi, EP Scilingo, and R Paradiso Smart textiles for wearable motion capture systems AUTEX Research Journal, 2(4) :199–203, 2002 [6] James F O’Brien, Robert E Bodenheimer Jr, Gabriel Julian Brostow, and Jessica K Hodgins Automatic joint parameter estimation from magnetic motion capture data 1999 [7] Romain Negrel, Virginia Fernandes Mota, Philippe-Henri Gosselin, Marcelo Bernardes Vieira, and Frederic Precioso Indexation des bases videos l’aide d’une modélisation du flot optique par bases de polynômes In RFIA 2012 (Reconnaissance des Formes et Intelligence Artificielle), pages ISBN–978, 2012 [8] Bruce D Lucas and Takeo Kanade An iterative image registration technique with an application to stereo vision (ijcai) In Proceedings of the 7th International Joint Conference on Artificial Intelligence (IJCAI ’81), pages 674–679, April 1981 [9] Alexei A Efros, Alexander C Berg, Er C Berg, Greg Mori, and Jitendra Malik Recognizing action at a distance In In ICCV, pages 726–733, 2003 [10] Nazli Ikizler, R Gokberk Cinbis, and Pinar Duygulu Human action recognition with line and flow histograms In In Proc ICPR, 2008 41 [11] Matthew Brand, Nuria Oliver, and Alex Pentland Coupled hidden markov models for complex action recognition, 1996 [12] Lihi Zelnik-manor and Michal Irani Event-based analysis of video In In Proc CVPR, pages 123–130, 2001 [13] Piotr Dollar, Vincent Rabaud, Garrison Cottrell, and Serge Belongie Behavior recognition via sparse spatio-temporal features In In VS-PETS, pages 65–72, 2005 [14] Cen Rao and Mubarak Shah View-invariance in action recognition, 2001 [15] A Ali and J.K Aggarwal Segmentation and recognition of continuous human activity In Detection and Recognition of Events in Video, 2001 Proceedings IEEE Workshop on, pages 28–35, 2001 [16] Yang Song, Xiaolin Feng, and Pietro Perona Towards detection of human motion In IN CVPR, pages 810–817, 2000 [17] Kai Guo, Prakash Ishwar, and Janusz Konrad Action recognition in video by covariance matching of silhouette tunnels In In : XXII Brazilian Symposium on Computer Graphics and Image Processing, pages 299–306, 2009 [18] Ming-Kuei Hu Visual pattern recognition by moment invariants Information Theory, IRE Transactions on, 8(2) :179–187, February 1962 [19] Michael Reed Teague Image analysis via the general theory of moments* JOSA, 70(8) :920–930, 1980 [20] Imen LASSOUED, Ezzeddine ZAGROUBA, and Youssef CHAHIR An effcient approach for video action classification based on 3d zernike moments In In : International Conference Future Information Technology, Greece, Springer, 185, pages 196–205, 2011 [21] Anh phuong Ta, Christian Wolf, Guillaume Lavoué, and Atilla Baskurt 3d object detection and viewpoint selection in sketch images using local patch-based zernike moments, 2009 [22] Pew-Thian Yap, R Paramesran, and Seng-Huat Ong Image analysis by krawtchouk moments Image Processing, IEEE Transactions on, 12(11) :1367–1377, Nov 2003 [23] M Krawtchouk On interpolation by means of orthogonal polynomials Memoirs Agricultural Inst Kyiv, :21–28, 1929 [24] JSHEEBA RANI and D DEVARAJ Face recognition using krawtchouk moment Sadhana, 37(4) :441–460, 2012 42 [25] Shuping Liu, Yu Liu, Jun Yu, and Zengfu Wang A static hand gesture recognition algorithm based on krawtchouk moments In Pattern Recognition, pages 321–330 Springer, 2014 [26] Bing Hu and Simon Liao Chinese character recognition by krawtchouk moment features In Image Analysis and Recognition, pages 711–716 Springer, 2013 [27] Dariusz Frejlichowski A three-dimensional shape description algorithm based on polarfourier transform for 3d model retrieval In Image Analysis, pages 457–466 Springer, 2011 [28] S Adam, JM Ogier, C Cariou, R Mullot, J Gardes, and Y Lecourtier Utilisation de la transformée de fourier-mellin pour la reconnaissance de formes multi-orientées et multiéchelles : application l’analyse automatique de documents techniques Traitement du signal, 18(1) :17, 2001 [29] SH Kim, JW Suh, and JH Kim Recognition of logic diagrams by identifying loops and rectilinear polylines In Document Analysis and Recognition, 1993., Proceedings of the Second International Conference on, pages 349–352 IEEE, 1993 [30] Dengsheng Zhang and Guojun Lu Review of shape representation and description techniques Pattern recognition, 37(1) :1–19, 2004 [31] Ankur Agarwal and Bill Triggs Recovering 3d human pose from monocular images Pattern Analysis and Machine Intelligence, IEEE Transactions on, 28(1) :44–58, 2006 [32] Thi Oanh Nguyen, Salvatore Tabbone, and Oriol Ramos Terrades Proposition d’un descripteur de formes et du modèle vectoriel pour la recherche de symboles In Colloque International Francophone sur l’Ecrit et le Document-CIFED 08, pages 79–84 Groupe de Recherche en Communication Ecrite, 2008 [33] David G Lowe Distinctive image features from scale-invariant keypoints International journal of computer vision, 60(2) :91–110, 2004 [34] Ivan Laptev On space-time interest points International Journal of Computer Vision, 64(2-3) :107–123, 2005 [35] Alireza Khotanzad and Yaw Hua Hong Invariant image recognition by zernike moments Pattern Analysis and Machine Intelligence, IEEE Transactions on, 12(5) :489–497, 1990 43 Annexes Annexe A : Exemple de détection de contour sur une silhouette Sur l’image de gauche, nous pouvons voir la silhouette d’une personne dans une position donnée Sur l’image de droite, on a représenté les points de contour de la silhouette de cette personne Figure A1 – Contour extrait sur une silhouette 44 Annexe B : Exemples d’images bruitées Les images présentées ici sont des images bruitées avec différentes valeurs d’écart-type La formule utilisée pour bruiter les images est la suivante : img(x,y) = ((random ∗ std) + moyenne) + img(x,y) Figure B1 – Images de silhouette bruitée avec std = Figure B2 – Images de silhouette bruitée avec std = Figure B3 – Images de silhouette bruitée avec std = 45 Annexe C : Résultats de reconnaissance de postures sur des données réelles Lors de nos tests, nous avons utilisé des images réelles dans lesquelles nous avons adopté des postures similaires celles dans des images simulées de la base d’apprentissage Nous présentons ici, quelques résultats Figure C1 – Résultat de reconnaissance de posture avec une image réelle pour une posture en croix A gauche, l’image originale, au centre, les résultats obtenus et droite l’estimation du squelette 3D Figure C2 – Résultat de reconnaissance de posture avec une image réelle pour une posture de marche A gauche, l’image originale, au centre, les résultats obtenus et droite l’estimation du squelette 3D La reconnaissance de posture dure environ secondes pour une image avec voisins considérés sur notre ordinateur de travail dont les caractéristiques ont été présentées dans les sections précédentes 46 Annexe D : Extraits d’images de la base de vidéo de Weizmann Nous présentons ici, quelques images extraites des vidéos de la base Weizmann Figure D1 – Mouvement "Marche" Figure D2 – Mouvement "Bend" Figure D3 – Mouvement "Jump" Figure D4 – Mouvement "Side" 47 Annexe E : Script en python pour l’extraction de silhouette et de pose 3D import bpy import os file = open("coordBones.txt", ’w’) #### En-tête #### bones = [’head’,’neck’,’chest’,’abdomen’,’hip’,’rThigh’,’rShin’,’rFoot’, ’lThigh’,’lShin’,’lFoot’,’lCollar’,’lShldr’,’lForeArm’,’lHand’,’rCollar’, ’rShldr’,’rForeArm’,’rHand’] file.write("%d" % (len(bones)+len(bpy.data.cameras))) scene_data = bpy.context.scene nb_frame = scene_data.frame_end - scene_data.frame_start + file.write(" %s\n" % (nb_frame)) #### Data ##### for frame in range(nb_frame): scene_data.frame_set(frame) armature = bpy.data.objects[’exports3’].pose #### Cameras ####### for c in bpy.data.cameras: file.write("%s " % c.name) for i in range(4): for j in range(4): file.write("%s " % (bpy.data.objects[c.name].matrix_world[i][j])) file.write("\n") #### Bones ######### for b in bones: file.write("%s " %b) for i in range(4): for j in range(4): file.write("%s " % (armature.bones[b].matrix[i][j])) file.write("\n") bpy.data.scenes["Scene"].render.filepath = "%d.jpg"%frame bpy.ops.render.render(write_still=True) file.close() 48 Annexe F : Script en python pour l’extraction de paramètres des cameras import bpy file = open("param_cam.txt", ’w’) x_reso = bpy.data.scenes["Scene"].render.resolution_x y_reso = bpy.data.scenes["Scene"].render.resolution_y file.write("Resolution X:%s\nResolution Y:%s\n" % (x_reso,y_reso)) for c in bpy.data.cameras: focal_mill = c.lens size_sensor = c.sensor_width focal_pixel = (focal_mill * x_reso)/size_sensor file.write("%s Focal:%s\n" % (c.name,focal_pixel)) file.close() 49 [...]... dộmarche mộthodique qui permettra de caractộriser lensemble des silhouettes via des descripteurs de formes Une bonne description des formes des silhouettes permettra partir de limage dune personne de remonter une estimation de sa pose 3D latteinte de cet objectif, nous aborderons la seconde partie qui consistera proposer une premiốre approche de reconnaissance dactions basộe sur la description des... des mouvements Nous avons donc prộsentộ les diffộrentes approches permettant destimer la pose humaine et de reconnaợtre des actions dans une vidộo Lune des approches est basộe sur lutilisation des descripteurs de formes et les silhouettes humaines Cette catộgorie prộsente des mộthodes tirant avantage de lextraction rapide de la silhouette Cest dans cette catộgorie dapproche que se situent nos travaux... traitant de lanalyse de mouvement La plupart des travaux ộlaborent des mộthodes permettant dextraire des informations assez robustes pour catộgoriser des mouvements donnộs La validation de ces approches est faite sur des donnộes rộelles stockộes dans des bases bien connues afin de faciliter la comparaison des approches On peut citer la base publique de Weizmann [3] ou encore celle de KHT 5 Des approches... basant sur les polynụmes discrets classiques de Krawtchouk [23] Sheeba Rani et D Devaraj [24] ont fait de la reconnaissance et de la classification de visages en utilisant les moments orthogonaux de Krawtchouk Shuping Liu et al [25] dans leur recherche sur la classification de gestes de la main, ont ộgalement basộ leur systốme sur les moments de Krawtchouk Il ressort de leur ộtude que les moments de. .. proposộ la reprộsentation des actions dans les vidộos avec la matrice de covariance empirique de vecteurs gộomộtriques normalisộs 13 dimensions qui caractộrisent la forme de la silhouette extraite La similaritộ entre actions est ộvaluộe avec la distance de Riemannian entre les matrices de covariance Dans la suite de nos travaux, nous allons utiliser cette derniốre approche puisque dans le contexte de la... des silhouettes et une mộthode dộvaluation de nos approches avec des donnộes rộelles Aprốs latteinte de ces deux grands objectifs, nous pourrons disposer dun outil destimation de postures 3D et de reconnaissance daction partir dune image de personne et dune vidộo de la personne exộcutant laction Organisation du mộmoire Le mộmoire est organisộ autour de trois chapitres de faỗon rendre compte du travail... travers cette section est de parcourir les diffộrents travaux dans la littộrature qui traitent la fois de lestimation de la pose humaine et de lanalyse de mouvement 1.3.1 Approches sur le flot optique, le gradient et le contour dans limage La classification de vidộo basộe sur lanalyse des mouvements humains qui y sont exộcutộs occupe la majeure partie des travaux rencontrộs dans la littộrature traitant... et lextraction des donnộes 3D et des silhouettes des personnages modộlisộs et animộs Lensemble des programmes de traitement des images et vidộos, ainsi que ceux de la chaine dapprentissage jusqu la classification ont ộtộ dộveloppộs avec le logiciel de calcul matriciel "Matlab R201 4a" Pour les expộriences, nous avons disposộ dun ordinateur pc de bureau ayant les caractộristiques suivantes : Table 3.1... annộes pour mettre la disposition des spộcialistes des outils prộcis et efficaces afin de les aider dans leur prise de dộcision en matiốre de vidộosurveillance et plus prộcisộment dans lanalyse de comportement Problộmatiques Dans le cadre de la vidộosurveillance, de lanalyse comportementale et de la reconnaissance de gestes, certaines informations gộomộtriques (comme les informations sur la pose 3D. .. diffộrents habillements) ; - N x 19 points de coordonnộes 3D (information du squelette) ; - N matrice de camộra (pose dobservation) 2.3 Descripteurs de formes et extraction de caractộristiques Aprốs la constitution de la base dapprentissage et de test, nous allons aborder dans cette section, la description dộtaillộe des descripteurs utilisộs pour caractộriser les formes de silhouette Nous aborderons trois descripteurs

Định dạng
Số trang	59
Dung lượng	2,31 MB