Acquisition du geste humain par vision artificielle en temps réel

Mộmoire de fin dộtudes (DEPA - IFI) Nguyen Manh Hung Remerciements Les travaux de stage prộsentộs dans ce mộmoire ont ộtộ rộalisộs au sein du dộpartement Electronique et Physique (EPH) de lInstitut National des Tộlộcommunications (INT) Je souhaiterais tout dabord remercier Mme Bernadette DORIZZI, chef du dộpartement EPH, de mavoir accueilli dans des laboratoires de son dộpartement Je tiens particuliốrement exprimer mes remerciements M Patrick HORAIN, responsable de stage, qui ma de tout cur dirigộ pendant six mois de travail Je remercie aussi M Andrộ BIDEAU, chargộ denseignement-recherche du dộpartement EPH, M Josộ Marques SOARES, thộsard de lEPH, qui mont encadrộ et beaucoup conseillộ pour finir mon stage Je voudrais bien remercier Mme Marie-Thộrốse COURCIER et Mme Yolande AUBINEAU pour tout leur aide des procộdures administratives avant et pendant mon stage lINT Merci aux stagiaires, aux thộsards du dộpartement EPH pour la bonne ambiance dans les laboratoires et en dehors ainsi qu lensemble du personnel du dộpartement EPH et de lINT, pour la bonne humeur gộnộrale Je souhaiterais ộgalement remercier mes professeurs et des membres de lInstitut de la Francophonie pour lInformatique (IFI) pour tous leurs enseignements et leurs aides pendant mes ộtudes Jexprime ma sincốre reconnaissance ma famille et mes amis pour leur soutien et leur encouragement tout au long de mes ộtudes et ainsi que dans la vie NGUYEN Manh Hung Acquisition du geste humain par vision artificielle en temps rộel Page Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) Rộsumộ Ce rapport a pour sujet lacquisition du geste humain par vision monoscopique et sa mise en uvre en temps rộel Lacquisition est rộalisộe au moyen dune camộra unique, sans marqueur et sans connaissance priori sur les gestes observộs du corps La technique consiste recaler la partie supộrieure dun modốle humanoùde 3D articulộ du corps humain sur une sộquence dimages segmentộes par une classification sur la couleur, tout en respectant des contraintes biomộcaniques Pour accộlộrer le temps de calcul, nous avons travaillộ dans une approche informatique en profitant des bibliothốques spộcialisộes pour la vision artificielle dans le traitement dimages, et du pouvoir de rendu offert par des cartes graphiques modernes dans la modộlisation et lajustement Mots clộs : Acquisition du geste, modốle articulộ, biomộcanique, segmentation, recalage, optimisation, vision artificielle Acquisition du geste humain par vision artificielle en temps rộel Page Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) Abstract This paper presents a method and its real-time implementation for human gesture acquisition by artificial vision with a single camera, without markers and without a priori knowledge on observed gestures The method consists in readjusting the upper part of 3D human articulated model on a segmented image sequence, using color classification and respecting biomechanical constraints In order to accelerate calculated time, we worked in an approach, which benefits by the specialized libraries for the artificial vision in the image processing, and of the capacity of rendering offered by modern graphics cards in modelling and readjustment Key words: gesture acquisition, articulated model, biomechanical, segmentation, readjustment, optimization, computer vision Acquisition du geste humain par vision artificielle en temps rộel Page Mộmoire de fin dộtudes (DEPA - IFI) Nguyen Manh Hung Liste des figures Figure 1: Geste du mot ô Bon ằ en langue des singes Figure 2: Contrụle distance dun poste TV 17 Figure 3: Acquisition du geste par ôVision monoscopique et recalage du modốle 3D ằ 18 Figure 4: Modốle humain 3D et systốme de coordonnộes utilisộ 20 Figure 5: Description hiộrarchique du modốle H-ANIM .22 Figure 6: Structure hiộrarchique des articulations du modốle humain 3D .23 Figure 7: Extraction manuelle de donnộes .25 Figure 8: Hiộrarchie de dessin du modốle humain 26 Figure 9: Cube de lespace de couleurs RVB (RGB) 267 Figure 10: Cụne de l'espace de couleur HSV 27 Figure 11: Image originale et son image de probabilitộs de la teinte de peau 28 Figure 12: Image extraite (a), image classifiộe de peau (b), image classifiộe des habits (c) 29 Figure 13 : Opộrations ensemblistes 29 Figure 14: Image segmentộe rộsultat 30 Figure 15 : Ajustement du modốle 3D sur limage segmentộe 31 Figure 16 : Image recalộe 32 Figure 17 : Couleurs considộrables 33 Figure 18: Architecture gộnộrale et interaction entre les modules principaux 36 Figure 19 : Rộsultats dacquisition du geste humain 37 Figure 20: Transformations gộomộtriques du simplexe 41 Figure 21: Construction dun simplexe initial dans lespace R2 43 Figure 22: Transformation contrainte du simplexe 43 Figure 23: Descente du simplexe avec intộgration des contraintes biomộcaniques 44 Acquisition du geste humain par vision artificielle en temps rộel Page Mộmoire de fin dộtudes (DEPA - IFI) Nguyen Manh Hung Liste des tableaux Tableau 1: Contraintes biomộcaniques des articulations 24 Tableau 2: APIs de OpenGL utilisộs pour la modộlisation du corps humain 3D 25 Tableau 3: APIs de OpenCV utilisộs pour le traitement des images 31 Tableau 4: Identification BAP des 23 degrộs de libertộ du modốle humain 3D 35 Tableau 5: Statistiques sur la performance dacquisition du geste 37 Acquisition du geste humain par vision artificielle en temps rộel Page Mộmoire de fin dộtudes (DEPA - IFI) Nguyen Manh Hung Liste des ộquations Equation 1: Transformation de lespace de couleurs (RVB HSV) 28 Equation : Opộrations ensemblistes 29 Equation 3: Taux non-recouvrement 32 Equation : Valeurs de couleurs considộrables 33 Equation 5: Calcul de cardinal des ensembles pour taux non-recouvrement 33 Equation 6: Initialisation du simplexe 41 Acquisition du geste humain par vision artificielle en temps rộel Page Mộmoire de fin dộtudes (DEPA - IFI) Nguyen Manh Hung Table des matiốres Remerciements Rộsumộ Abstract Liste des figures Liste des tableaux Liste des ộquations Chapitre1: Introduction 1.1 Problộmatique .9 1.2 Laboratoire daccueil 10 1.2.1 Gộnộralitộs 10 1.2.2 Dộpartements, unitộs et laboratoires 10 1.2.3 Dộpartement EPH 11 1.2.4 Equipe Intermedia 12 1.3 Aperỗus du mộmoire 15 Chapitre 2: Approche pour lacquisition du geste humain par vision artificielle 16 2.1 Etat de lart 16 2.2 Vision monoscopique et recalage dun modốle 3D articulộ .17 2.3 Problốmes du systốme antộrieur 19 Chapitre 3: Mise en uvre temps rộel 20 3.1 Modộlisation du corps humain 3D 20 3.1.1 Prộsentation du modốle standard : H-ANIM 21 3.1.2 Conception du modốle humain 3D du systốme 22 3.1.3 Mise en uvre 24 3.2 3.2.1 Traitement dimages 26 Etat de lart 26 Acquisition du geste humain par vision artificielle en temps rộel Page Mộmoire de fin dộtudes (DEPA - IFI) Nguyen Manh Hung 3.2.2 Identification des classes de couleur dans une image 27 3.2.3 Elimination du bruit 28 3.2.4 Combinaison des images classifiộes 29 3.2.5 Mise en uvre 30 3.3 Comparaison entre le modốle 3D et limage segmentộe 31 3.3.1 Ajustement du modốle 3D sur limage segmentộe 31 3.3.2 Evaluation du recalage 32 3.4 Conversion des paramốtres au format MPEG-4/BAP 34 3.5 Architecture du systốme et transaction entre des modules .35 Chapitre 4: Rộsultats obtenus 37 Chapitre 5: Conclusion et perspectives 38 5.1 Conclusion 38 5.2 Perspectives 38 Annexe: Mộthode doptimisation des paramốtres : Descente du simplexe 40 6.1 Construction dun simplexe initial .42 6.2 Transformations contraintes du simplexe 43 Bibliographie et rộfộrences 45 Acquisition du geste humain par vision artificielle en temps rộel Page Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) Chapitre Introduction 1.1 Problộmatique Les gestes sont un moyen naturel et nộcessaire de la communication humaine [1] Dans la vie quotidienne, ils viennent ponctuer ou renforcer lexpression orale entre personnes Un geste peut ờtre dộcrit comme une sộquence de postures, le mouvement effectuộ durant le geste ne porte pas gộnộralement en lui-mờme une signification Lacquisition et la poursuite des gestes nous permettent donc danimer des acteurs virtuels, de les utiliser dans une interface homme-machine ou, long terme de reconnaợtre la langue des signes [3] Par exemple, le geste dans la figure montrent le mot ô Bon ằ dans la langue des signes Figure 1: Geste du mot ô Bon ằ en langue des singes Le but de mon stage est lacquisition en temps rộel des gestes rộalisộs devant une camộra ou bien dans une sộquence dimages enregistrộes Il sagit dun mouvement de la moitiộ supộrieure du corps humain comprenant le buste, la tờte, les bras, les avantbras et les mains Ce mouvement est reprộsentộ par des paramốtres du modốle articulộ correspondant aux degrộs des articulations (rotation et translation) Lacquisition des gestes dans ce contexte signifie lidentification du positionnement spatial de chaque partie [4] Les paramốtres acquis pour chaque mouvement sont actuellement convertis au format MPEG-4/BAP Ils sont soit enregistrộs dans un fichier de type bap, soit diffusộs en rộseau pour ờtre utilisộs en entrộe dautres applications Acquisition du geste humain par vision artificielle en temps rộel Page Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) 1.2 Laboratoire daccueil Dans le cadre de mon stage de fin dộtudes, jai eu loccasion de travailler dans les laboratoires de lINT et plus prộcisộment au sein de lộquipe Intermộdia du dộpartement EPH Je voudrais aborder ci-dessous une prộsentation gộnộrale de lINT, de ses dộpartements, et aussi des centres de recherche de lộquipe 1.2.1 Gộnộralitộs LInstitut National des Tộlộcommunications associe ộtroitement des compộtences scientifiques et managộriales Cette double compộtence fait de lInstitut un acteur majeur dans le domaine des sciences et technologies de linformation et de la communication (STIC) et, particuliốrement, de lInternet Crộe en 1979, lInstitut fộdốre une ộcole dingộnieurs, TẫLẫCOM INT, une ộcole de management, INT MANAGEMENT, un centre de formation continue, INT ENTREPRISES, une cellule accompagnateur (incubateur de nouvelles entreprises), INT ENTREPRENEURIAT, ainsi quun centre de recherche, INT RECHERCHE, composant du Groupe des Ecoles des Tộlộcommunications (GET) RECHERCHE LInstitut, sous tutelle du ministốre de lindustrie, fait parti du GET aux cụtộs de lENST de Paris, lENST Bretagne, Eurộcom, lENIC, et lIAAI Le GET est un interlocuteur privilộgiộ de tous les secteurs ộconomiques en matiốre de formation initiale et continue, de partenariat, de recherche, de recrutement et desprit dentreprendre Grõce son rộseau de partenaires, lINT est prộsent sur les cinq continents par des conventions de partenariats et des coopộrations scientifiques Le site web de lINT est disponible sur : http://www.int-evry.fr 1.2.2 Dộpartements, unitộs et laboratoires L'INT comprend les dộpartements d'enseignement recherche suivants : Electronique et Physique (EPH) Communications, Images et Traitement de l'Information (CITI) Informatique (INF) Acquisition du geste humain par vision artificielle en temps rộel Page 10 Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) Soient Cmp et Cmv deux couleurs correspondantes de la peau et des vờtements du modốle 3D Soient Cip et Civ deux couleurs correspondantes de la peau et des vờtements de limage segmentộe Les valeurs de couleurs considộrables sur une image recalộe sont : C mp C mp C mv C mv C mp C mv C ip C iv C ip = C mp C iv = C mp C ip = C mv C iv = C mv + C ip + C iv + C ip + C iv (h) Equation : Valeurs de couleurs considộrables Alors, les Figure 17 : Couleurs considộrables parties dunion de (g) sont donnộes par : CmpCip = Cmp + Cip + CmpCip + CmpCiv + Cip Cmv CmvCiv = Cmv + Civ + CmvCiv + CmvCip + Civ Cmp (i) Equation 5: Calcul de cardinal des ensembles pour taux non-recouvrement Les valeurs dans (h) et (i) sont extraites par lhistogramme de limage recalộ chaque itộration de recalage Dans le but doptimiser lộcart entre la silhouette du modốle projetộ et celle extraite de limage, nous avons minimisộ une fonctionnelle de coỷt liộ au taux de non recouvrement Il sagit dune minimisation en modifiant des valeurs de 23 degrộs de libertộ des articulations du modốle humain 3D Une ộtude sur la mộthode choisie pour optimiser sera prộsentộe lannexe de ce mộmoire Acquisition du geste humain par vision artificielle en temps rộel Page 33 Mộmoire de fin dộtudes (DEPA - IFI) Nguyen Manh Hung 3.4 Conversion des paramốtres au format MPEG-4/BAP Aprốs avoir optimisộ un recalage, nous avons obtenu une silhouette du modốle humain 3D correspondant un geste humain Lextraction des paramốtres du modốle ô optimal ằ sert aux utilisations spộcifiques antộrieures, par exemple la reconnaissance de langue des signes Nous les utilisons actuellement en entrộe dune application pour animer des avatars Les paramốtres sont convertis au format MPEG-4/BAP [19] sous forme soit un fichier enregistrộ, soit un paquet de donnộes diffusộ en rộseau Le BAP (Body Animation Parameters) est un des deux ensembles de paramốtres de lobjet de Body qui est supportộ dans MPEG-4, lautre est BDP (Body Definition Parameters) Les paramốtres dans BAP sont interprộtộs et produirent raisonnablement des postures et animations humaines, sans nộcessiter initialiser et calibrer le modốle 3D LObjet Body contient un corps humain virtuel gộnộrique avec les postures par dộfaut Ce corps peut-ờtre dộj rendu, il est aussi immộdiatement capable de recevoir les BAPs partir des flux de bits (bitstream), qui produisent lanimation du corps Tous les composants du BAP peuvent ờtre nuls, un composant nul est remplacộ par le composant par dộfaut correspondant quand le corps est rendu Les postures par dộfaut sont dộfinies comme suivantes : les pieds devraient se diriger la direction avant, les deux bras devraient ờtre placộs du cụtộ du corps avec la paume des mains faisant face l'intộrieur Un flux de bits se compose des deux parties, la premiốre est un masque de 296 bits associộs aux 296 degrộs de libertộ du corps humain, lidentification commence par Un bit prend soit 0, soit qui indique la disponibilitộ du degrộ de libertộ correspondant dans la deuxiốme partie, cest la partie de donnộes gộnộrộes par des valeurs de degrộs de libertộ Lidentification de nos 23 paramốtres dans le masque se trouve dans le tableau Les flux de bits sont enregistrộs successivement au format du fichier bap ou transmis en rộseau via le protocole UDP/IP pour faire animer des avatars dans une application sappelant ô Partage et immersion dune application dans le monde 3D virtuel ô dộveloppộe par Josộ Marques SOARES, Patrick HORAIN et Andrộ BIDEAU Acquisition du geste humain par vision artificielle en temps rộel Page 34 Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) Indice Paramốtre BAP Id Indice Paramốtre BAP id 01 Translation X du buste 01 13 Rotation X du bras droit 33 02 Translation Y du buste 02 14 Rotation Y du bras droit 35 03 Translation Z du buste 03 15 Rotation Z du bras droit 37 04 Rotation X du buste 184 16 Rotation X de lavant-bras gauche 40 05 Rotation Y du buste 185 17 Rotation X de lavant-bras droit 41 06 Rotation Z du buste 186 18 Rotation X de la main gauche 42 07 Rotation X de la tờte 48 19 Rotation Y de la main gauche 44 08 Rotation Y de la tờte 49 20 Rotation Z de la main gauche 46 09 Rotation Z de la tờte 50 21 Rotation X de la main droite 43 10 Rotation X du bras gauche 32 22 Rotation Y de la main droite 45 11 Rotation Y du bras gauche 34 23 Rotation Z de la main droite 47 12 Rotation Z du bras gauche 36 Tableau 4: Identification BAP des 23 degrộs de libertộ du modốle humain 3D 3.5 Architecture du systốme et transaction entre des modules Nous avons divisộ le systốme en quatre modules principaux pour faciliter dộvelopper Chaque module possốde des fonctionnements qui permettent de rộaliser une tõche donnộe Le module dinitialisation fait parsing le fichier de donnộes qui est formộ par une extraction des parties correspondantes dans un fichier VRML pour modộliser le corps humain Ce module contient aussi la fonction danimation du modốle en effectuant des transformations 3D Le module de traitement dimages capture dimages et les segmente sur la couleur Le module doptimisation des paramốtres fait recalage et le dernier module fait diffusion des paramốtres optimaux La dộfinition des modules et la transaction entre eux sont reprộsentộes par le schộma en figure 18 Acquisition du geste humain par vision artificielle en temps rộel Page 35 Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) Initialisation Traitement dimages Dộfinition du Modốle Entrộe Vidộo Modộlisation du corps Extraction dune image humain 3D de la sộquence Paramốtres 3D Image Echantillon initiaux Identification des Ajustement du modốle classes de couleur Image Classes de Paramốtres 3D Image couleur segmentộe Segmentation dimage Recalage Fichier BAP Image Paramốtres Flux de bits recalộe 3D modifiộs BAP Positionnement Evaluation de la Conversion au du modốle fonctionnelle MPEG-4/BAP UDP Paramốtres Optimisation des paramốtres Paquets 3D Transmission en rộseau Diffusion des paramốtres Figure 18: Architecture gộnộrale et interaction entre les modules principaux Acquisition du geste humain par vision artificielle en temps rộel Page 36 Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) Chapitre Rộsultats obtenus Le systốme a ộtộ programmộ sous Visual C++ 6.0, cest un programme simple qui utilise des boutons du clavier pour contrụler des ộvộnements dutilisateur Il est capable dacquộrir correctement des gestes humains en temps rộel soit partir une camộra de web, soit une sộquence dimages enregistrộe La taille dimage dans tous cas est 160x120 De plus, les 23 paramốtres transmis conduisent bien des mouvements des avatars dans lapplication de Josộ el al abordộ ci-dessus La scốne pour faire des expộrimentations se compose dun acteur qui se situe devant la camộra, il porte une chemise mờme couleur que lộchantillon et diffộrente de la couleur du fond en arriốre Nous allons trouver les rộsultats que nous avons testộs sur de diffộrentes machines configurộes la fin du chapitre Les rộsultats statistiques dans le tableau sont obtenus par une sộquence de vidộo de 128 images Configuration Images par seconde Unitộ Centrale Carte graphique Intel Pentium IV 1.6 GHz, ATI Radeon 7500 256 Mo RAM ATI Radeon 9800 NVIDIA GeForce 11 Intel Pentium IV 2.2 GHz, NVIDIA GeForce FX 5900 12 512 Mo RAM Tableau 5: Statistiques sur la performance dacquisition du geste Figure 19 : Rộsultats dacquisition du geste humain Acquisition du geste humain par vision artificielle en temps rộel Page 37 Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) Chapitre Conclusion et perspectives 5.1 Conclusion La vision monoscopique et le recalage dun modốle 3D humanoùde sont une approche validộe pour acquộrir des gestes humains Dans le cadre de mon stage, nous avons contribuộ mettre en oeuvre en temps rộel des algorithmes dộcrits dans cette approche en utilisant des bibliothốques infographiques modernes telles que OpenGL et OpenCV Suite une ộtude approfondie concernant le processus de la mộthode de base et le systốme dacquisition du geste existant, nous avons modifiộ et construit un nouveau programme qui atteint des rộsultats satisfaits Personnellement, ce stage ma permis de mhabituer travailler dans un laboratoire de recherche, dans une ộquipe de recherche Vivre et travailler en France, cest une bonne occasion pour apprendre non seulement des connaissances dans la vie professionnelle mais aussi dans la vie quotidienne 5.2 Perspectives Le programme actuel est comme une petite dộmo, il pourrait ờtre ajoutộ des fonctions comme les suivantes: - Une interface dutilisateur - Une rộgularisation des gestes puisquil peut arriver que la projection du modốle sur limage soit la mờme pour plusieurs attitudes du modốle, ce qui constitue une ambiguùtộ, par exemple le modốle soit de face ou de dos, sa projection presque la mờme - Une dộtection du mouvement des parties du corps entre deux images successives pour limiter le processus doptimisation leurs paramốtres Acquisition du geste humain par vision artificielle en temps rộel Page 38 Mộmoire de fin dộtudes (DEPA - IFI) - Nguyen Manh Hung Une augmentation des articulations dans la modộlisation du corps pour acquộrir complốtement des gestes De plus, notre rộsultat dacquisition pourrait ờtre dộveloppộ pour rộaliser des applications informatiques trốs utiles: - La reconnaissance de la langue des signes - Lanimation des acteurs virtuels, des avatars dans des mondes virtuels habituộs - Linterface homme-machine pour entrer automatiquement des donnộes Acquisition du geste humain par vision artificielle en temps rộel Page 39 Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) Annexe Mộthode doptimisation des paramốtres : Descente du simplexe Ouhaddi [3] a dộcrit son ộtude au sujet dalgorithmes doptimisation Mochimaru et Yamazaki puis Kuch et Huang ont choisi une procộdure de ô perturbation locale de degrộs de libertộ ằ Celle-ci consiste changer de valeur de chaque degrộ de libertộ dune partie quantitộ Si la fonctionnelle diminue, le changement est rộpộtộ dans la mờme direction, sinon la direction de perturbation est inversộe Cette mộthode est assez efficace en pratique Toutefois, les diffộrents paramốtres doivent ờtre choisis de maniốre empirique Ohya et Kisino ont utilisộ un algorithme gộnộrique pour recaler un modốle reprộsentant la partie supộrieure du corps humain sur des paires dimages de synthốse, par minimisation de lộcart entre les silhouettes projetộes et extraites de limage Les rộsultats prộsentộs sont obtenus partir dune population denviron 1000 solutions initiales et nộcessitent plusieurs centaines ditộrations, ce qui est trốs coỷteux en temps de calcul Certaines dautres mộthodes doptimisation nộcessitent lestimation des dộrivộes partielles de la fonctionnelle par rapport aux paramốtres estimer (LevenbergMarquardt), ou se limitent au calcul de la fonctionnelle (descente du simplexe, Powell) [20] Bien que la pratique montre que la mộthode de Levenberg-Marquardt est assez efficace et est une mộthode doptimisation non-linộaire trốs utilisộe, elle ne garantit pas une vitesse de convergence, et elle peut bien sỷr converger vers un optimum local au lieu dun optimum global La mộthode de Powell est utilisộe pour amộliorer une minimisation dune fonction multidimensionnelle qui effectue une succession de minimisations mono-dimensionnelle pour chacun des paramốtres jusqu convergence Cela nộcessite une exploration pour toutes les dimensions et ne garantit pas toujours une bonne convergence Notre choix sest portộ sur lutilisation de la mộthode de descente de simplexe conformộment aux rộsultats obtenus par Ouhaddi pour le recalage dun modốle 3D de la main La descente du simplexe nộcessite en effet moins dopộrations dộvaluation de Acquisition du geste humain par vision artificielle en temps rộel Page 40 Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) la fonctionnelle que la mộthode de Powell et permet de prendre aisộment en compte les contraintes biomộcaniques, de maniốre rộduire considộrablement lespace de recherche en ộliminant immộdiatement les configurations irrộalistes [5] La descente du simplexe [20] est une mộthode doptimisation itộrative avec une seule ộvaluation fonctionnelle, sans dộrivộe due Nelder et Mead Soit n le nombre de paramốtres optimiser La premiốre ộtape consiste gộnộrer n+1 points dans lespace Rn partir dune solution initiale Ces n+1 points forment un simplexe, par exemple un triangle dans R2 ou un tộtraốdre dans R3 Les points du simplexe sont construits partir du point initial p0 en appliquant la rốgle suivante : pi = p0 + i ei (k) Equation 6: Initialisation du simplexe Oự pi est le iốme sommet du simplexe, ei est le vecteur de la base canonique dont iốme composante est non nulle est la longueur de larờte p0pi Le simplexe initial subit une suite de transformations gộomộtriques pour atteindre un minimum de la fonctionnelle, en adaptant sa forme la topographie de la fonctionnelle dans lespace de recherche Ces diffộrentes transformations sont (figure 20): Une symộtrie, Une expansion, Une contraction mono-dimmensionnelle, Une contraction multi-dimensionnelle Symộtrie Expansion Contraction 1D Contraction ND Figure 20: Transformations gộomộtriques du simplexe Acquisition du geste humain par vision artificielle en temps rộel Page 41 Mộmoire de fin dộtudes (DEPA - IFI) Nguyen Manh Hung Ces opộrations peuvent ờtre mises en uvre suivant diverses heuristiques Nous avons utilisộ celle de William H.Press et al.[20] qui consiste trier les sommets du simplexe suivants la valeur de la fonctionnelle pour sộlectionner les trois sommets ayant respectivement le meilleur score (ilo), le plus mauvais score (ihi) et lavantdernier (inhi) Le sommet de plus mauvais score est remplacộ par la symộtrie du simplexe par rapport lhyperplan dộfini par les autres sommets, ce qui revient faire une recherche dans la direction opposộe celle qui a donnộ le mauvais score Si la fonctionnelle est amộliorộe alors une expansion est effectuộe, sinon une contraction mono-dimensionnelle est rộalisộe Si malgrộ cela la fonctionnelle namộliore pas, lalgorithme effectue une contraction multi-dimensionnelle dans plusieurs directions Ce processus est rộpộtộ jusqu ce que la variation relative de la fonctionnelle sur les sommets du simplexe soit proche de la prộcision du calculateur Dans notre problốme, la fonctionnelle de coỷt est paramộtrộe par les 23 degrộs de libertộ des articulations du modốle humain 3D Loriginalitộ de notre approche rộside dans la prise en compte des contraintes biomộcaniques qui permet de rộduire considộrablement lespace de recherche et ộvite lobtention de configurations irrộalistes du modốle Pour que lalgorithme de descente du simplexe respecte ces contraintes, nous avons imposộ chaque transformation de simplexe de gộnộrer un simplexe contraint dans ce domaine, en ayant initialement un simplexe 6.1 Construction dun simplexe initial Le problốme de construction du simplexe initial est celui du choix des longueurs initiales du simplexe, donc des valeurs des i dans la formule (k) La solution proposộe consiste choisir pour chaque i la plus grande valeur possible de telle faỗon que le sommet ajoutộ soit lintộrieur de la rộgion des contraintes qui a ộtộ formộe par des hyperplans dans lespace Rn dont lintersection est un domaine convexe Toutefois, il est possible de diminuer le volume du simplexe initial en utilisant deux fois des valeurs dộcarts types des degrộs de libertộ entre deux images successives de la sộquence pour chaque i Ces ộcarts types sont expộrimentalement dộterminộs par une observation dun corpus de langue des signes [1] Acquisition du geste humain par vision artificielle en temps rộel Page 42 Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) P2 P2 P2 p0 p0 p1 p0 p1 p2 0 P1 P1 Figure 21: Construction dun simplexe initial dans lespace R P1 6.2 Transformations contraintes du simplexe Comme le domaine des contraintes est convexe, chaque contraction du simplexe intộrieur de cette rộgion crộe un simplexe qui respecte les contraintes Par consộquent, il suffit de tester les contraintes seulement aprốs les symộtries et les expansions Si un sommet du simplexe est dộplacộ lextộrieur de cette rộgion, alors celui-ci est remplacộ par un nouveau sommet situộ lintersection de lhyperplan des contraintes et de la droite qui relie ce nouveau sommet lancien [3] P2 P2 P1 Symộtrie sans contrainte P1 Symộtrie avec contrainte Figure 22: Transformation contrainte du simplexe Alors, le schộma de lalgorithme doptimisation est prộsentộ dans la figure 23 suivante : Acquisition du geste humain par vision artificielle en temps rộel Page 43 Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) Dộbut Construction du simplexe initial Etiquettage (ihi, inhi, ilo) Ramener le simplexe R=Rộflexion(ihi) dans la rộgion des contraintes Oui F(R) < F(ihi) ihi=R Non Non F(R) < F(ilo) Oui F(R) >= F(inhi) Ramener le simplexe E=Expansion(R) dans la rộgion des C=Contraction1D contraintes F(E) < F(ihi) S=ihi Non Oui ihi=E Oui F(C) >= F(inhi) Non ihi=C Non F(C) >= F(S) Oui Nombre max ditộration Oui non-atteinte et variation de la fonctionnelle > seuil Contraction ND Non Fin Figure 23: Descente du simplexe avec intộgration des contraintes biomộcaniques Acquisition du geste humain par vision artificielle en temps rộel Page 44 Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) Bibliographie et rộfộrences [1] Patrick HORAIN, Mayank BOMB, ôAcquisition du geste humain 3D par vision monoscopiqueằ, Actes des 8ốmes journộes d'ộtudes et d'ộchanges ô Compression et REprộsentation des Signaux Audiovisuels ằ (CORESA'03), Lyon, 16-17 janvier 2003, pp 269-272, http://www-eph.int-evry.fr/~horain/Publications/CORESA03-Horain-Bomb.pdf [2] Patrick HORAIN, ô ARC LSF : Vers l'acquisition du geste par vision artificielle pour l'interprộtation de la langue des signes ằ, octobre 2002, http://www-eph.int-evry.fr/~horain/ARC-LSF/ [3] Hocine OUHADDI, ô Contribution lanalyse de gestes par vision monoscopique ằ, Thốse de doctorat de lUniversitộ Paris 6, octobre 1999, pp 15-32, 67-80, http://www-eph.int-evry.fr/~horain/Ouhaddi [4] Rami KANHOUCHE, ôHumain par vision monoscopique sans marqueurs ằ, Rapport de Stage DEA de lEcole Normale Supộrieure Cachan effectuộ lINT, septembre 2001, p [5] Arnaud DESLANDES, ô Reconnaissance du geste humain par vision artificielle : Application la langue de signe , Rapport de Stage DEA de lUniversitộ Paris effectuộ lINT, 2002, pp 1-2, 14-23 [6] William T FREEMAN and Craig D WEISSMAN, ôTelevision control by Hand Gesture ằ , Proc Intl Workshop on Automatic Face and Gesture-Recognition, Zurich, Switzerland, June 1995, pp 179-183, http://www.merl.com/papers/docs/TR94-24.pdf Acquisition du geste humain par vision artificielle en temps rộel Page 45 Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) [7] Peter RATNER, ô 3D Human Modeling and Animation , John Wiley & Sons Publishers, 2nd Ed, Computer Animation program at James Madison University, 2003, ch 6, http://www.3dlinks.com/tutorials/GENERAL/Chapter6_1.cfm [8] Manuel JENNI, ô Automated 3D Human Body Modeling for Real-Time Applications ằ, Rapport de stage au 5th semestre effectuộ lEcole polytechnique fộdộrale de laussance, novembre 1999, [9] Ghinwa KRAYEM et Rola ZAITER, ôAcquisition du geste humain par vision artificielle ô , Rapport de Stage de fin dộtudes de lUniversitộ Libanaise effectuộ lINT, juillet 2001 [10] H-ANIM, ô The Humanoid Animation Specificationằ, Information technology - Computer graphics and image processing The Humanoid Animation Specification (HAnim), 2001, http://www.h-anim.org/Specifications/H-Anim2001/ [11] SIGGRAPH 96, ôIntroduction to VRML 0ằ , On-line course materials http://www.sdsc.edu/siggraph96vrml/ [12] Alain BOUCHER, ô Synthốse dimage ô , Support du cours lIFI, Hanoù, Vietnam, octobre 2002, chp.7 [13] H.Ouhaddi, P Horain, K Mikolajczyk, "Modộlisation et suivi de la main", Actes des 4ốmes Journộes d'ộtudes et d'ộchanges "Compression et REprộsentation des Signaux Audiovisuels" (CORESA'98), Lannion, France, 9-10 June 1998, pp 109-114, http://www-eph.int-evry.fr/~horain/Publications/coresa98-ouhaddi.pdf [14] M.Woo, J.Neider, T.Davis, D.Shreinner, ôOpenGL 1.2 ô, 3e ộdition, Campus Press, France, 2000 [15] R Cutler, M Turk, View-Based Interpretation of Real-Time Optical Flow for Gesture Recognition, in Proc IEEE Conference on Automatic Face and Gesture Recognition, April 1416, 1998, Nara Japan, Acquisition du geste humain par vision artificielle en temps rộel Page 46 Mộmoire de fin dộtudes (DEPA - IFI) Nguyen Manh Hung http://www.cs.ucsb.edu/~mturk/research.htm [16] Gary R.Bradki, ôComputer vision face tracking for use in a perceptual user interface ô, Microcomputer Reseach Lab, Santa Clara, CA, Intel Corporation, 1998 [17] Site du Centre de Calcul Rechercher et Rộseau Jussieu, ôMorphologie mathộmatique ensembliste ô , France, octobre 2003, http://web.ccr.jussieu.fr/urfist/image_numerique/chapitre3_1.htm [18] Document du projet Open Computer Vision Library de Intelđ, ôIntelđ Open Source Computer Vision Library ô, mars 2003 http://sourceforge.net/projects/opencvlibrary [19] Rob Koenen, ô Overview of the MPEG-4 standard ằ, Veju version, March 2002, http://www.chiariglione.org/mpeg/standards/mpeg-4/mpeg-4.htm [20] William H.Press, Saul A.Teukolsky, William T Vetterling et Brian P Flannery, ôNumerical Recipes en C The Art of Scientific Computing ô, Cambridge University Press, 1992, pp 408-420, http://www.library.cornell.edu/nr/bookcpdf.html Acquisition du geste humain par vision artificielle en temps rộel Page 47 [...]... sur les gestes du corps observộs La procộdure dacquisition consiste la recherche de la bonne correspondance entre limage dune sộquence vidộo (capturộe par camộra ou enregistrộe) dun mouvement, segmentộe suivant des paramốtres de couleur, et la projection dun Acquisition du geste humain par vision artificielle en temps rộel Page 17 Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) modốle 3D du corps... transaction entre eux sont reprộsentộes par le schộma en figure 18 Acquisition du geste humain par vision artificielle en temps rộel Page 35 Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) Initialisation Traitement dimages Dộfinition du Modốle Entrộe Vidộo Modộlisation du corps Extraction dune image humain 3D de la sộquence Paramốtres 3D Image Echantillon initiaux Identification des Ajustement du modốle... Opộrations ensemblistes Figure 13 : Opộrations ensemblistes Acquisition du geste humain par vision artificielle en temps rộel Page 29 Nguyen Manh Hung Mộmoire de fin dộtudes (DEPA - IFI) Finalement, limage segmentộe qui est obtenue par une addition entre Img1 et Img2 pixel par pixel se reprộsente en figure 14 : Figure 14: Image segmentộe rộsultat 3.2.5 Mise en uvre Les images que nous avons segmentộes... pour lacquisition du geste humain par vision artificielle 2.1 Etat de lart Les mộthodes dacquisition du geste par vision artificielle peuvent ờtre divisộes selon deux approches : dune part lanalyse des aspects 2D dune image et dautre part la modộlisation 3D [5] Les mộthodes basộes sur lapproche 2D ne peuvent gộnộralement reconnaợtre quun nombre limitộ de gestes et ce souvent aprốs un procộdộ dapprentissage... Gộnộralement, cette approche peut ờtre dộcrite dans la figure suivante: Image extraite Segmentation dimage Mouvement du modốle Projection du modốle sur limage segmentộe Extraction des paramốtres Evaluation du recalage Non Oui Supprimộ : ả Meilleur recalage Position trouvộe Figure 3: Acquisition du geste par Vision monoscopique et recalage du modốle 3D ằ Acquisition du geste humain par vision artificielle en. .. de base du problốme (cf 2.1.2), la projection du modốle sur une image segmentộe risque de perdre de linformation pour caractộriser le geste en 3 dimensions, du fait de la prộsence dune seule camộra OUHADDI [3] a proposộ dutiliser un modốle volumique, ce modốle ainsi que le systốme de coordonnộes utilisộ sont prộsentộs en figure 4 ci-dessus Acquisition du geste humain par vision artificielle en temps. .. modifications sur le programme ancien pour atteindre une acquisition du geste en temps rộel Chapitre 4 : Les rộsultats obtenus Chapitre 5 : La conclusion et les perspectives Annexe : La description de la mộthode utilisộe pour optimiser les paramốtres dans le processus de recalage : Descente du simplexe Acquisition du geste humain par vision artificielle en temps rộel Page 15 Nguyen Manh Hung Mộmoire de fin... ộtude est prộcisộment dộcrite en [10] Les reprộsentations actuelles en VRML [11] sadaptent parfaitement aux spộcifications un contenu dans H-Anim Cela nous permet facilement de trouver les donnộes disponibles pour modộliser le corps humain et les calculs pour effectuer une transformation sont trốs rapides Acquisition du geste humain par vision artificielle en temps rộel Page 21 Nguyen Manh Hung Mộmoire... glCallList() ; Exộcution dune liste daffichage 03 glBegin() ; glEnd() ; Dộfinition dune gộomộtrie dessiner 04 glTranslatef() ; Rộalisation des transformations gộomộtriques glRotatef() ; glScalef() ; 05 glColor3ubv() ; Mise en couleur du segment Tableau 2: APIs de OpenGL utilisộs pour la modộlisation du corps humain 3D Acquisition du geste humain par vision artificielle en temps rộel Page 25 Nguyen Manh Hung... modifiộe par rapport celle de H-Anim en respectant la structure hiộrarchique des articulations Acquisition du geste humain par vision artificielle en temps rộel Page 22 Mộmoire de fin dộtudes (DEPA - IFI) Nguyen Manh Hung Figure 6: Structure hiộrarchique des articulations du modốle humain 3D La transformation [12] dune articulation et du segment associộ du modốle est rộalisộe de faỗon ce quun mouvement

Định dạng
Số trang	47
Dung lượng	398,87 KB