Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 47 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
47
Dung lượng
426,77 KB
Nội dung
Mémoire de fin d’études (DEPA - IFI) Nguyen Manh Hung Remerciements Les travaux de stage présentés dans ce mémoire ont été réalisés au sein du département Electronique et Physique (EPH) de l’Institut National des Télécommunications (INT) Je souhaiterais tout d’abord remercier Mme Bernadette DORIZZI, chef du département EPH, de m’avoir accueilli dans des laboratoires de son département Je tiens particulièrement exprimer mes remerciements M Patrick HORAIN, responsable de stage, qui m’a de tout cœur dirigé pendant six mois de travail Je remercie aussi M André BIDEAU, chargé d’enseignement-recherche du département EPH, M José Marques SOARES, thésard de l’EPH, qui m’ont encadré et beaucoup conseillé pour finir mon stage Je voudrais bien remercier Mme Marie-Thérèse COURCIER et Mme Yolande AUBINEAU pour tout leur aide des procédures administratives avant et pendant mon stage l’INT Merci aux stagiaires, aux thésards du département EPH pour la bonne ambiance dans les laboratoires et en dehors… ainsi qu’à l’ensemble du personnel du département EPH et de l’INT, pour la bonne humeur générale Je souhaiterais également remercier mes professeurs et des membres de l’Institut de la Francophonie pour l’Informatique (IFI) pour tous leurs enseignements et leurs aides pendant mes études J’exprime ma sincère reconnaissance ma famille et mes amis pour leur soutien et leur encouragement tout au long de mes études et ainsi que dans la vie NGUYEN Manh Hung Acquisition du geste humain par vision artificielle en temps réel Page LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyen Manh Hung Mémoire de fin d’études (DEPA - IFI) Résumé Ce rapport a pour sujet l’acquisition du geste humain par vision monoscopique et sa mise en œuvre en temps réel L’acquisition est réalisée au moyen d’une caméra unique, sans marqueur et sans connaissance priori sur les gestes observés du corps La technique consiste recaler la partie supérieure d’un modèle humanoïde 3D articulé du corps humain sur une séquence d’images segmentées par une classification sur la couleur, tout en respectant des contraintes biomécaniques Pour accélérer le temps de calcul, nous avons travaillé dans une approche informatique en profitant des bibliothèques spécialisées pour la vision artificielle dans le traitement d’images, et du pouvoir de rendu offert par des cartes graphiques modernes dans la modélisation et l’ajustement Mots clés : Acquisition du geste, modèle articulé, biomécanique, segmentation, recalage, optimisation, vision artificielle Acquisition du geste humain par vision artificielle en temps réel Page LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyen Manh Hung Mémoire de fin d’études (DEPA - IFI) Abstract This paper presents a method and its real-time implementation for human gesture acquisition by artificial vision with a single camera, without markers and without a priori knowledge on observed gestures The method consists in readjusting the upper part of 3D human articulated model on a segmented image sequence, using color classification and respecting biomechanical constraints In order to accelerate calculated time, we worked in an approach, which benefits by the specialized libraries for the artificial vision in the image processing, and of the capacity of rendering offered by modern graphics cards in modelling and readjustment Key words: gesture acquisition, articulated model, biomechanical, segmentation, readjustment, optimization, computer vision Acquisition du geste humain par vision artificielle en temps réel Page LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mémoire de fin d’études (DEPA - IFI) Nguyen Manh Hung Liste des figures Figure 1: Geste du mot « Bon » en langue des singes Figure 2: Contrôle distance d’un poste TV 17 Figure 3: Acquisition du geste par «Vision monoscopique et recalage du modèle 3D » 18 Figure 4: Modèle humain 3D et système de coordonnées utilisé 20 Figure 5: Description hiérarchique du modèle H-ANIM .22 Figure 6: Structure hiérarchique des articulations du modèle humain 3D .23 Figure 7: Extraction manuelle de données .25 Figure 8: Hiérarchie de dessin du modèle humain 26 Figure 9: Cube de l’espace de couleurs RVB (RGB) 267 Figure 10: Cône de l'espace de couleur HSV 27 Figure 11: Image originale et son image de probabilités de la teinte de peau 28 Figure 12: Image extraite (a), image classifiée de peau (b), image classifiée des habits (c) 29 Figure 13 : Opérations ensemblistes 29 Figure 14: Image segmentée résultat 30 Figure 15 : Ajustement du modèle 3D sur l’image segmentée 31 Figure 16 : Image recalée 32 Figure 17 : Couleurs considérables 33 Figure 18: Architecture générale et interaction entre les modules principaux 36 Figure 19 : Résultats d’acquisition du geste humain 37 Figure 20: Transformations géométriques du simplexe 41 Figure 21: Construction d’un simplexe initial dans l’espace R2 43 Figure 22: Transformation contrainte du simplexe 43 Figure 23: Descente du simplexe avec intégration des contraintes biomécaniques 44 Acquisition du geste humain par vision artificielle en temps réel Page LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mémoire de fin d’études (DEPA - IFI) Nguyen Manh Hung Liste des tableaux Tableau 1: Contraintes biomécaniques des articulations 24 Tableau 2: APIs de OpenGL utilisés pour la modélisation du corps humain 3D 25 Tableau 3: APIs de OpenCV utilisés pour le traitement des images 31 Tableau 4: Identification BAP des 23 degrés de liberté du modèle humain 3D 35 Tableau 5: Statistiques sur la performance d’acquisition du geste 37 Acquisition du geste humain par vision artificielle en temps réel Page LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mémoire de fin d’études (DEPA - IFI) Nguyen Manh Hung Liste des équations Equation 1: Transformation de l’espace de couleurs (RVB – HSV) 28 Equation : Opérations ensemblistes 29 Equation 3: Taux non-recouvrement 32 Equation : Valeurs de couleurs considérables 33 Equation 5: Calcul de cardinal des ensembles pour taux non-recouvrement 33 Equation 6: Initialisation du simplexe 41 Acquisition du geste humain par vision artificielle en temps réel Page LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mémoire de fin d’études (DEPA - IFI) Nguyen Manh Hung Table des matières Remerciements Résumé Abstract Liste des figures Liste des tableaux Liste des équations Chapitre1: Introduction 1.1 Problématique .9 1.2 Laboratoire d’accueil 10 1.2.1 Généralités 10 1.2.2 Départements, unités et laboratoires 10 1.2.3 Département EPH 11 1.2.4 Equipe Intermedia 12 1.3 Aperỗus du mộmoire 15 Chapitre 2: Approche pour l’acquisition du geste humain par vision artificielle 16 2.1 Etat de l’art 16 2.2 Vision monoscopique et recalage d’un modèle 3D articulé .17 2.3 Problèmes du système antérieur 19 Chapitre 3: Mise en œuvre temps réel 20 3.1 Modélisation du corps humain 3D 20 3.1.1 Présentation du modèle standard : H-ANIM 21 3.1.2 Conception du modèle humain 3D du système 22 3.1.3 Mise en œuvre 24 3.2 3.2.1 Traitement d’images 26 Etat de l’art 26 Acquisition du geste humain par vision artificielle en temps réel Page LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mémoire de fin d’études (DEPA - IFI) Nguyen Manh Hung 3.2.2 Identification des classes de couleur dans une image 27 3.2.3 Elimination du bruit 28 3.2.4 Combinaison des images classifiées 29 3.2.5 Mise en œuvre 30 3.3 Comparaison entre le modèle 3D et l’image segmentée 31 3.3.1 Ajustement du modèle 3D sur l’image segmentée 31 3.3.2 Evaluation du recalage 32 3.4 Conversion des paramètres au format MPEG-4/BAP 34 3.5 Architecture du système et transaction entre des modules .35 Chapitre 4: Résultats obtenus 37 Chapitre 5: Conclusion et perspectives 38 5.1 Conclusion 38 5.2 Perspectives 38 Annexe: Méthode d’optimisation des paramètres : Descente du simplexe 40 6.1 Construction d’un simplexe initial .42 6.2 Transformations contraintes du simplexe 43 Bibliographie et références 45 Acquisition du geste humain par vision artificielle en temps réel Page LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyen Manh Hung Mémoire de fin d’études (DEPA - IFI) Chapitre Introduction 1.1 Problématique Les gestes sont un moyen naturel et nécessaire de la communication humaine [1] Dans la vie quotidienne, ils viennent ponctuer ou renforcer l’expression orale entre personnes Un geste peut être décrit comme une séquence de postures, le mouvement effectué durant le geste ne porte pas généralement en lui-même une signification L’acquisition et la poursuite des gestes nous permettent donc d’animer des acteurs virtuels, de les utiliser dans une interface homme-machine ou, long terme de reconntre la langue des signes [3] Par exemple, le geste dans la figure montrent le mot « Bon » dans la langue des signes Figure 1: Geste du mot « Bon » en langue des singes Le but de mon stage est l’acquisition en temps réel des gestes réalisés devant une caméra ou bien dans une séquence d’images enregistrées Il s’agit d’un mouvement de la moitié supérieure du corps humain comprenant le buste, la tête, les bras, les avantbras et les mains Ce mouvement est représenté par des paramètres du modèle articulé correspondant aux degrés des articulations (rotation et translation) L’acquisition des gestes dans ce contexte signifie l’identification du positionnement spatial de chaque partie [4] Les paramètres acquis pour chaque mouvement sont actuellement convertis au format MPEG-4/BAP Ils sont soit enregistrés dans un fichier de type bap, soit diffusés en réseau pour être utilisés en entrée d’autres applications Acquisition du geste humain par vision artificielle en temps réel Page LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyen Manh Hung Mémoire de fin d’études (DEPA - IFI) 1.2 Laboratoire d’accueil Dans le cadre de mon stage de fin d’études, j’ai eu l’occasion de travailler dans les laboratoires de l’INT et plus précisément au sein de l’équipe Intermédia du département EPH Je voudrais aborder ci-dessous une présentation générale de l’INT, de ses départements, et aussi des centres de recherche de l’équipe 1.2.1 Généralités L’Institut National des Télécommunications associe étroitement des compétences scientifiques et managériales Cette double compétence fait de l’Institut un acteur majeur dans le domaine des sciences et technologies de l’information et de la communication (STIC) et, particulièrement, de l’Internet Crée en 1979, l’Institut fédère une école d’ingénieurs, TÉLÉCOM INT, une école de management, INT MANAGEMENT, un centre de formation continue, INT ENTREPRISES, une cellule accompagnateur (incubateur de nouvelles entreprises), INT ENTREPRENEURIAT, ainsi qu’un centre de recherche, INT RECHERCHE, composant du Groupe des Ecoles des Télécommunications (GET) RECHERCHE L’Institut, sous tutelle du ministère de l’industrie, fait parti du GET aux côtés de l’ENST de Paris, l’ENST Bretagne, Eurécom, l’ENIC, et l’IAAI Le GET est un interlocuteur privilégié de tous les secteurs économiques en matière de formation initiale et continue, de partenariat, de recherche, de recrutement et d’esprit d’entreprendre Grâce son réseau de partenaires, l’INT est présent sur les cinq continents par des conventions de partenariats et des coopérations scientifiques Le site web de l’INT est disponible sur : http://www.int-evry.fr 1.2.2 Départements, unités et laboratoires L'INT comprend les départements d'enseignement recherche suivants : − Electronique et Physique (EPH) − Communications, Images et Traitement de l'Information (CITI) − Informatique (INF) Acquisition du geste humain par vision artificielle en temps réel Page 10 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyen Manh Hung Mémoire de fin d’études (DEPA - IFI) Soient Cmp et Cmv deux couleurs correspondantes de la peau et des vêtements du modèle 3D Soient Cip et Civ deux couleurs correspondantes de la peau et des vêtements de l’image segmentée Les valeurs de couleurs considérables sur une image recalée sont : C mp C mp C mv C mv C mp C mv C ip C iv ∩ C ip = C mp ∩ C iv = C mp ∩ C ip = C mv ∩ C iv = C mv + C ip + C iv + C ip + C iv (h) Equation : Valeurs de couleurs considérables Alors, les Figure 17 : Couleurs considérables parties d’union de (g) sont données par : Cmp∪Cip = Cmp + Cip + Cmp∩Cip + Cmp∩Civ + Cip ∩Cmv Cmv∪Civ = Cmv + Civ + Cmv∩Civ + Cmv∩Cip + Civ ∩Cmp (i) Equation 5: Calcul de cardinal des ensembles pour taux non-recouvrement Les valeurs dans (h) et (i) sont extraites par l’histogramme de l’image recalé chaque itération de recalage Dans le but d’optimiser l’écart entre la silhouette du modèle projeté et celle extraite de l’image, nous avons minimisé une fonctionnelle de coût lié au taux de non recouvrement Il s’agit d’une minimisation en modifiant des valeurs de 23 degrés de liberté des articulations du modèle humain 3D Une étude sur la méthode choisie pour optimiser sera présentée l’annexe de ce mémoire Acquisition du geste humain par vision artificielle en temps réel Page 33 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mémoire de fin d’études (DEPA - IFI) Nguyen Manh Hung 3.4 Conversion des paramètres au format MPEG-4/BAP Après avoir optimisé un recalage, nous avons obtenu une silhouette du modèle humain 3D correspondant un geste humain L’extraction des paramètres du modèle « optimal » sert aux utilisations spécifiques antérieures, par exemple la reconnaissance de langue des signes Nous les utilisons actuellement en entrée d’une application pour animer des avatars Les paramètres sont convertis au format MPEG-4/BAP [19] sous forme soit un fichier enregistré, soit un paquet de données diffusé en réseau Le BAP (Body Animation Parameters) est un des deux ensembles de paramètres de l’objet de Body qui est supporté dans MPEG-4, l’autre est BDP (Body Definition Parameters) Les paramètres dans BAP sont interprétés et produirent raisonnablement des postures et animations humaines, sans nécessiter initialiser et calibrer le modèle 3D L’Objet Body contient un corps humain virtuel générique avec les postures par défaut Ce corps peut-être déjà rendu, il est aussi immédiatement capable de recevoir les BAPs partir des flux de bits (bitstream), qui produisent l’animation du corps Tous les composants du BAP peuvent être nuls, un composant nul est remplacé par le composant par défaut correspondant quand le corps est rendu Les postures par défaut sont définies comme suivantes : les pieds devraient se diriger la direction avant, les deux bras devraient être placés du côté du corps avec la paume des mains faisant face l'intérieur Un flux de bits se compose des deux parties, la première est un masque de 296 bits associés aux 296 degrés de liberté du corps humain, l’identification commence par Un bit prend soit 0, soit qui indique la disponibilité du degré de liberté correspondant dans la deuxième partie, c’est la partie de données générées par des valeurs de degrés de liberté L’identification de nos 23 paramètres dans le masque se trouve dans le tableau Les flux de bits sont enregistrés successivement au format du fichier bap ou transmis en réseau via le protocole UDP/IP pour faire animer des avatars dans une application s’appelant « Partage et immersion d’une application dans le monde 3D virtuel « développée par José Marques SOARES, Patrick HORAIN et André BIDEAU Acquisition du geste humain par vision artificielle en temps réel Page 34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyen Manh Hung Mémoire de fin d’études (DEPA - IFI) Indice Paramètre BAP Id Indice Paramètre BAP id 01 Translation X du buste 01 13 Rotation X du bras droit 33 02 Translation Y du buste 02 14 Rotation Y du bras droit 35 03 Translation Z du buste 03 15 Rotation Z du bras droit 37 04 Rotation X du buste 184 16 Rotation X de l’avant-bras gauche 40 05 Rotation Y du buste 185 17 Rotation X de l’avant-bras droit 41 06 Rotation Z du buste 186 18 Rotation X de la main gauche 42 07 Rotation X de la tête 48 19 Rotation Y de la main gauche 44 08 Rotation Y de la tête 49 20 Rotation Z de la main gauche 46 09 Rotation Z de la tête 50 21 Rotation X de la main droite 43 10 Rotation X du bras gauche 32 22 Rotation Y de la main droite 45 11 Rotation Y du bras gauche 34 23 Rotation Z de la main droite 47 12 Rotation Z du bras gauche 36 Tableau 4: Identification BAP des 23 degrés de liberté du modèle humain 3D 3.5 Architecture du système et transaction entre des modules Nous avons divisé le système en quatre modules principaux pour faciliter développer Chaque module possède des fonctionnements qui permettent de réaliser une tâche donnée Le module d’initialisation fait parsing le fichier de données qui est formé par une extraction des parties correspondantes dans un fichier VRML pour modéliser le corps humain Ce module contient aussi la fonction d’animation du modèle en effectuant des transformations 3D Le module de traitement d’images capture d’images et les segmente sur la couleur Le module d’optimisation des paramètres fait recalage et le dernier module fait diffusion des paramètres optimaux La définition des modules et la transaction entre eux sont représentées par le schéma en figure 18 Acquisition du geste humain par vision artificielle en temps réel Page 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyen Manh Hung Mémoire de fin d’études (DEPA - IFI) Initialisation Traitement d’images Définition du Modèle Entrée Vidéo Modélisation du corps Extraction d’une image humain 3D de la séquence Paramètres 3D Image Echantillon initiaux Identification des Ajustement du modèle classes de couleur Image Classes de Paramètres 3D Image couleur segmentée Segmentation d’image Recalage Fichier BAP Image Paramètres Flux de bits recalée 3D modifiés BAP Positionnement Evaluation de la Conversion au du modèle fonctionnelle MPEG-4/BAP UDP Paramètres Optimisation des paramètres Paquets 3D Transmission en réseau Diffusion des paramètres Figure 18: Architecture générale et interaction entre les modules principaux Acquisition du geste humain par vision artificielle en temps réel Page 36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyen Manh Hung Mémoire de fin d’études (DEPA - IFI) Chapitre Résultats obtenus Le système a été programmé sous Visual C++ 6.0, c’est un programme simple qui utilise des boutons du clavier pour contrôler des événements d’utilisateur Il est capable d’acquérir correctement des gestes humains en temps réel soit partir une caméra de web, soit une séquence d’images enregistrée La taille d’image dans tous cas est 160x120 De plus, les 23 paramètres transmis conduisent bien des mouvements des avatars dans l’application de José el al abordé ci-dessus La scène pour faire des expérimentations se compose d’un acteur qui se situe devant la caméra, il porte une chemise même couleur que l’échantillon et différente de la couleur du fond en arrière Nous allons trouver les résultats que nous avons testés sur de différentes machines configurées la fin du chapitre Les résultats statistiques dans le tableau sont obtenus par une séquence de vidéo de 128 images Configuration Images par seconde Unité Centrale Carte graphique Intel Pentium IV 1.6 GHz, ATI Radeon 7500 256 Mo RAM ATI Radeon 9800 NVIDIA GeForce 11 Intel Pentium IV 2.2 GHz, NVIDIA GeForce FX 5900 12 512 Mo RAM Tableau 5: Statistiques sur la performance d’acquisition du geste Figure 19 : Résultats d’acquisition du geste humain Acquisition du geste humain par vision artificielle en temps réel Page 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyen Manh Hung Mémoire de fin d’études (DEPA - IFI) Chapitre Conclusion et perspectives 5.1 Conclusion La vision monoscopique et le recalage d’un modèle 3D humanoïde sont une approche validée pour acquérir des gestes humains Dans le cadre de mon stage, nous avons contribué mettre en oeuvre en temps réel des algorithmes décrits dans cette approche en utilisant des bibliothèques infographiques modernes telles que OpenGL et OpenCV Suite une étude approfondie concernant le processus de la méthode de base et le système d’acquisition du geste existant, nous avons modifié et construit un nouveau programme qui atteint des résultats satisfaits Personnellement, ce stage m’a permis de m’habituer travailler dans un laboratoire de recherche, dans une équipe de recherche Vivre et travailler en France, c’est une bonne occasion pour apprendre non seulement des connaissances dans la vie professionnelle mais aussi dans la vie quotidienne 5.2 Perspectives Le programme actuel est comme une petite démo, il pourrait être ajouté des fonctions comme les suivantes: - Une interface d’utilisateur - Une régularisation des gestes puisqu’il peut arriver que la projection du modèle sur l’image soit la même pour plusieurs attitudes du modèle, ce qui constitue une ambiguïté, par exemple le modèle soit de face ou de dos, sa projection presque la même - Une détection du mouvement des parties du corps entre deux images successives pour limiter le processus d’optimisation leurs paramètres Acquisition du geste humain par vision artificielle en temps réel Page 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mémoire de fin d’études (DEPA - IFI) - Nguyen Manh Hung Une augmentation des articulations dans la modélisation du corps pour acquérir complètement des gestes De plus, notre résultat d’acquisition pourrait être développé pour réaliser des applications informatiques très utiles: - La reconnaissance de la langue des signes - L’animation des acteurs virtuels, des avatars dans des mondes virtuels habitués - L’interface homme-machine pour entrer automatiquement des données Acquisition du geste humain par vision artificielle en temps réel Page 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyen Manh Hung Mémoire de fin d’études (DEPA - IFI) Annexe Méthode d’optimisation des paramètres : Descente du simplexe Ouhaddi [3] a décrit son étude au sujet d’algorithmes d’optimisation Mochimaru et Yamazaki puis Kuch et Huang ont choisi une procédure de « perturbation locale de degrés de liberté » Celle-ci consiste changer de valeur de chaque degré de liberté d’une partie quantité Si la fonctionnelle diminue, le changement est répété dans la même direction, sinon la direction de perturbation est inversée Cette méthode est assez efficace en pratique Toutefois, les différents paramètres doivent être choisis de manière empirique Ohya et Kisino ont utilisé un algorithme générique pour recaler un modèle représentant la partie supérieure du corps humain sur des paires d’images de synthèse, par minimisation de l’écart entre les silhouettes projetées et extraites de l’image Les résultats présentés sont obtenus partir d’une population d’environ 1000 solutions initiales et nécessitent plusieurs centaines d’itérations, ce qui est très coûteux en temps de calcul Certaines d’autres méthodes d’optimisation nécessitent l’estimation des dérivées partielles de la fonctionnelle par rapport aux paramètres estimer (LevenbergMarquardt), ou se limitent au calcul de la fonctionnelle (descente du simplexe, Powell) [20] Bien que la pratique montre que la méthode de Levenberg-Marquardt est assez efficace et est une méthode d’optimisation non-linéaire très utilisée, elle ne garantit pas une vitesse de convergence, et elle peut bien sûr converger vers un optimum local au lieu d’un optimum global La méthode de Powell est utilisée pour améliorer une minimisation d’une fonction multidimensionnelle qui effectue une succession de minimisations mono-dimensionnelle pour chacun des paramètres jusqu’à convergence Cela nécessite une exploration pour toutes les dimensions et ne garantit pas toujours une bonne convergence Notre choix s’est porté sur l’utilisation de la méthode de descente de simplexe conformément aux résultats obtenus par Ouhaddi pour le recalage d’un modèle 3D de la main La descente du simplexe nécessite en effet moins d’opérations d’évaluation de Acquisition du geste humain par vision artificielle en temps réel Page 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyen Manh Hung Mémoire de fin d’études (DEPA - IFI) la fonctionnelle que la méthode de Powell et permet de prendre aisément en compte les contraintes biomécaniques, de manière réduire considérablement l’espace de recherche en éliminant immédiatement les configurations irréalistes [5] La descente du simplexe [20] est une méthode d’optimisation itérative avec une seule évaluation fonctionnelle, sans dérivée due Nelder et Mead Soit n le nombre de paramètres optimiser La première étape consiste générer n+1 points dans l’espace Rn partir d’une solution initiale Ces n+1 points forment un simplexe, par exemple un triangle dans R2 ou un tétraèdre dans R3 Les points du simplexe sont construits partir du point initial p0 en appliquant la règle suivante : pi = p0 + λi ei (k) Equation 6: Initialisation du simplexe Où pi est le ième sommet du simplexe, ei est le vecteur de la base canonique dont ième composante est non nulle est la longueur de l’arête p0pi Le simplexe initial subit une suite de transformations géométriques pour atteindre un minimum de la fonctionnelle, en adaptant sa forme la topographie de la fonctionnelle dans l’espace de recherche Ces différentes transformations sont (figure 20): Une symétrie, Une expansion, Une contraction mono-dimmensionnelle, Une contraction multi-dimensionnelle Symétrie Expansion Contraction 1D Contraction ND Figure 20: Transformations géométriques du simplexe Acquisition du geste humain par vision artificielle en temps réel Page 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mémoire de fin d’études (DEPA - IFI) Nguyen Manh Hung Ces opérations peuvent être mises en œuvre suivant diverses heuristiques Nous avons utilisé celle de William H.Press et al.[20] qui consiste trier les sommets du simplexe suivants la valeur de la fonctionnelle pour sélectionner les trois sommets ayant respectivement le meilleur score (ilo), le plus mauvais score (ihi) et l’avantdernier (inhi) Le sommet de plus mauvais score est remplacé par la symétrie du simplexe par rapport l’hyperplan défini par les autres sommets, ce qui revient faire une recherche dans la direction opposée celle qui a donné le mauvais score Si la fonctionnelle est améliorée alors une expansion est effectuée, sinon une contraction mono-dimensionnelle est réalisée Si malgré cela la fonctionnelle n’améliore pas, l’algorithme effectue une contraction multi-dimensionnelle dans plusieurs directions Ce processus est répété jusqu’à ce que la variation relative de la fonctionnelle sur les sommets du simplexe soit proche de la précision du calculateur Dans notre problème, la fonctionnelle de coût est paramétrée par les 23 degrés de liberté des articulations du modèle humain 3D L’originalité de notre approche réside dans la prise en compte des contraintes biomécaniques qui permet de réduire considérablement l’espace de recherche et évite l’obtention de configurations irréalistes du modèle Pour que l’algorithme de descente du simplexe respecte ces contraintes, nous avons imposé chaque transformation de simplexe de générer un simplexe contraint dans ce domaine, en ayant initialement un simplexe 6.1 Construction d’un simplexe initial Le problème de construction du simplexe initial est celui du choix des longueurs initiales du simplexe, donc des valeurs des λi dans la formule (k) La solution proposée consiste choisir pour chaque λi la plus grande valeur possible de telle faỗon que le sommet ajouté soit l’intérieur de la région des contraintes qui a été formée par des hyperplans dans l’espace Rn dont l’intersection est un domaine convexe Toutefois, il est possible de diminuer le volume du simplexe initial en utilisant deux fois des valeurs d’écarts types des degrés de liberté entre deux images successives de la séquence pour chaque λi Ces écarts types sont expérimentalement déterminés par une observation d’un corpus de langue des signes [1] Acquisition du geste humain par vision artificielle en temps réel Page 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyen Manh Hung Mémoire de fin d’études (DEPA - IFI) P2 P2 P2 p0 p0 p1 p0 p1 p2 0 P1 P1 Figure 21: Construction d’un simplexe initial dans l’espace R P1 6.2 Transformations contraintes du simplexe Comme le domaine des contraintes est convexe, chaque contraction du simplexe intérieur de cette région crée un simplexe qui respecte les contraintes Par conséquent, il suffit de tester les contraintes seulement après les symétries et les expansions Si un sommet du simplexe est déplacé l’extérieur de cette région, alors celui-ci est remplacé par un nouveau sommet situé l’intersection de l’hyperplan des contraintes et de la droite qui relie ce nouveau sommet l’ancien [3] P2 P2 P1 Symétrie sans contrainte P1 Symétrie avec contrainte Figure 22: Transformation contrainte du simplexe Alors, le schéma de l’algorithme d’optimisation est présenté dans la figure 23 suivante : Acquisition du geste humain par vision artificielle en temps réel Page 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyen Manh Hung Mémoire de fin d’études (DEPA - IFI) Début Construction du simplexe initial Etiquettage (ihi, inhi, ilo) Ramener le simplexe R=Réflexion(ihi) dans la région des contraintes Oui F(R) < F(ihi) ihi=R Non Non F(R) < F(ilo) Oui F(R) >= F(inhi) Ramener le simplexe E=Expansion(R) dans la région des C=Contraction1D contraintes F(E) < F(ihi) S=ihi Non Oui ihi=E Oui F(C) >= F(inhi) Non ihi=C Non F(C) >= F(S) Oui Nombre max d’itération Oui non-atteinte et variation de la fonctionnelle > seuil Contraction ND Non Fin Figure 23: Descente du simplexe avec intégration des contraintes biomécaniques Acquisition du geste humain par vision artificielle en temps réel Page 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyen Manh Hung Mémoire de fin d’études (DEPA - IFI) Bibliographie et références [1] Patrick HORAIN, Mayank BOMB, «Acquisition du geste humain 3D par vision monoscopique», Actes des 8èmes journées d'études et d'échanges « Compression et REprésentation des Signaux Audiovisuels » (CORESA'03), Lyon, 16-17 janvier 2003, pp 269-272, http://www-eph.int-evry.fr/~horain/Publications/CORESA03-Horain-Bomb.pdf [2] Patrick HORAIN, « ARC LSF : Vers l'acquisition du geste par vision artificielle pour l'interprétation de la langue des signes », octobre 2002, http://www-eph.int-evry.fr/~horain/ARC-LSF/ [3] Hocine OUHADDI, « Contribution l’analyse de gestes par vision monoscopique », Thèse de doctorat de l’Université Paris 6, octobre 1999, pp 15-32, 67-80, http://www-eph.int-evry.fr/~horain/Ouhaddi [4] Rami KANHOUCHE, «Humain par vision monoscopique sans marqueurs », Rapport de Stage DEA de l’Ecole Normale Supérieure Cachan effectué l‘INT, septembre 2001, p [5] Arnaud DESLANDES, « Reconnaissance du geste humain par vision artificielle : Application la langue de signe ”, Rapport de Stage DEA de l’Université Paris effectué l’INT, 2002, pp 1-2, 14-23 [6] William T FREEMAN and Craig D WEISSMAN, «Television control by Hand Gesture » , Proc Int’l Workshop on Automatic Face and Gesture-Recognition, Zurich, Switzerland, June 1995, pp 179-183, http://www.merl.com/papers/docs/TR94-24.pdf Acquisition du geste humain par vision artificielle en temps réel Page 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyen Manh Hung Mémoire de fin d’études (DEPA - IFI) [7] Peter RATNER, « 3D Human Modeling and Animation ”, John Wiley & Sons Publishers, 2nd Ed, Computer Animation program at James Madison University, 2003, ch 6, http://www.3dlinks.com/tutorials/GENERAL/Chapter6_1.cfm [8] Manuel JENNI, « Automated 3D Human Body Modeling for Real-Time Applications », Rapport de stage au 5th semestre effectué l’Ecole polytechnique fédérale de laussance, novembre 1999, [9] Ghinwa KRAYEM et Rola ZAITER, «Acquisition du geste humain par vision artificielle « , Rapport de Stage de fin d’études de l’Université Libanaise effectué l’INT, juillet 2001 [10] H-ANIM, « The Humanoid Animation Specification», Information technology - Computer graphics and image processing The Humanoid Animation Specification (HAnim), 2001, http://www.h-anim.org/Specifications/H-Anim2001/ [11] SIGGRAPH 96, «Introduction to VRML 0» , On-line course materials http://www.sdsc.edu/siggraph96vrml/ [12] Alain BOUCHER, « Synthèse d’image « , Support du cours l’IFI, Hanoï, Vietnam, octobre 2002, chp.7 [13] H.Ouhaddi, P Horain, K Mikolajczyk, "Modélisation et suivi de la main", Actes des 4èmes Journées d'études et d'échanges "Compression et REprésentation des Signaux Audiovisuels" (CORESA'98), Lannion, France, 9-10 June 1998, pp 109-114, http://www-eph.int-evry.fr/~horain/Publications/coresa98-ouhaddi.pdf [14] M.Woo, J.Neider, T.Davis, D.Shreinner, «OpenGL 1.2 «, 3e édition, Campus Press, France, 2000 [15] R Cutler, M Turk, “View-Based Interpretation of Real-Time Optical Flow for Gesture Recognition”, in Proc IEEE Conference on Automatic Face and Gesture Recognition, April 14–16, 1998, Nara Japan, Acquisition du geste humain par vision artificielle en temps réel Page 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mémoire de fin d’études (DEPA - IFI) Nguyen Manh Hung http://www.cs.ucsb.edu/~mturk/research.htm [16] Gary R.Bradki, «Computer vision face tracking for use in a perceptual user interface «, Microcomputer Reseach Lab, Santa Clara, CA, Intel Corporation, 1998 [17] Site du Centre de Calcul Rechercher et Réseau Jussieu, «Morphologie mathématique ensembliste « , France, octobre 2003, http://web.ccr.jussieu.fr/urfist/image_numerique/chapitre3_1.htm [18] Document du projet Open Computer Vision Library de Intelđ, ôIntelđ Open Source Computer Vision Library ô, mars 2003 http://sourceforge.net/projects/opencvlibrary [19] Rob Koenen, « Overview of the MPEG-4 standard », Veju version, March 2002, http://www.chiariglione.org/mpeg/standards/mpeg-4/mpeg-4.htm [20] William H.Press, Saul A.Teukolsky, William T Vetterling et Brian P Flannery, «Numerical Recipes en C – The Art of Scientific Computing «, Cambridge University Press, 1992, pp 408-420, http://www.library.cornell.edu/nr/bookcpdf.html Acquisition du geste humain par vision artificielle en temps réel Page 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... l’ajustement Mots clés : Acquisition du geste, modèle articulé, biomécanique, segmentation, recalage, optimisation, vision artificielle Acquisition du geste humain par vision artificielle en temps réel. .. recalage Position trouvée Figure 3: Acquisition du geste par ? ?Vision monoscopique et recalage du modèle 3D » Acquisition du geste humain par vision artificielle en temps réel Page 18 LUAN VAN CHAT LUONG... détection du mouvement des parties du corps entre deux images successives pour limiter le processus d’optimisation leurs paramètres Acquisition du geste humain par vision artificielle en temps réel