Localisation du locuteur dans une séquence audiovisuelle

MÉMOIRE DE FIN D'ÉTUDES Localisation du locuteur dans une sÈquence audiovisuelle VU Ngoc Son Master d'informatique Institut de la Francophonie pour l'Informatique Tuteurs : GÈrard CHOLLET - ENST Paris Antoine MANZANERA - ENSTA Paris avril - 30 septembre 2007 11 octobre 2007 Remerciements Je tiens ‡ remercier tout particuliËrement M GÈrard Chollet, professeur de l'ENST-Paris et M Antoine Manzanera, enseignant-chercheur de l'ENSTA-Paris pour leur direction sur un sujet de recherche trËs intÈressant Je tiens ‡ exprimer ma reconnaissance pour leurs conseils et encouragements qui ont facilitÈ mon travail Mes plus sincËres remerciements vont Ègalement ‡ tous les professeurs et les personnels de l'Institut de la Francophonie pour l'Informatique (IFI) pour m'avoir donnÈ des cours de trËs bonne qualitÈ et pour leur soutien au long de mes Ètudes ‡ l'IFI Un grande merci ‡ mes collËgues ‡ l'ENST et ‡ l'ENSTA pour une am-biance de travail particuliËrement favorable Je remercie chaleureusement mes camarades de la promotion XI pour leur amitiÈ sans faille et je leur souhaite bonne chance pour la soutenance Enn, je voudrais remercier ma famille et mes amis qui m'ont supportÈ et encouragÈ ÈnormÈment pendant mes sÈjours en France RÈsumÈ Le mouvement de la bouche d'un locuteur est fortement corrÈlÈ avec les donnÈes audio que celle-ci produit L'objectif est ici de dÈtecter le locuteur dans une vidÈo en utilisant ces deux signaux : le signal de parole acoustique et le signal de parole visuel La localisation du locuteur est la clÈ dans certaines applications : les vidÈoconfÈrences, les systËmes de sÈcuritÈ, la reconnaissance des personnes, l'indexation de vidÈos, l'amÈlioration des interfaces homme machine, l'analyse d'expressions humaines, la lecture sur les lËvres, etc L'objectif de ce stage est d'Ètudier la localisation du locuteur en utilisant les donnÈes audio et les donnÈs visuelles Dans ce rapport, je prÈsente d'abord les principes de l'extraction des Ènergies visuelles et de l'Ènergie sonore En suite j'Ètudie diÈrents mÈthodes pour mesurer leurs correspondances L'ex-traction des caractÈristiques peut Ítre aidÈe par la dÈtection et le suivi des visages, je prÈsenterai aussi les rÈsultats de localisation obtenus en utilisant ou non ces outils Mots clÈs : localisation du locuteur, multi modalitÈ, dÈtection de visage Abstract The visual motion of a speaker's mouth is highly correlated with the audio data generated from the mouth We use this correlation to detect speakers using video and audio data Applications of speaker detection include video conferencing, people recognizing, video indexing, lip/speech reading, impro-ving the human computer interface, etc The subject of this training course is to study the speaker detection using both audio and visual In this report, I present rstly the principles of ex-traction of the speech features, and then I study the method to measure their correspondence The extraction of features can be helped by face detection and face tracking ; I will present also the results of localisation obtained by using or not these techniques Keywords : speaker detection, multimodality, face detection Table des matiËres Introduction 1.1 1.2 1.3 ProblÈmatique Motivation Objectifs de stage Etat de l'art 2.1 2.2 Etat de l'art de la localisation du Etat de l'art de la dÈtection et d 2.2.1 2.2.2 Conclusion 2.3 Extraction des Ènergies et mesure de leur correspondance 3.1 3.2 3.3 Localisation du locuteur au niveau global 4.1 4.2 Les Ènergies 3.1.1 3.1.2 3.1.3 Mesures de correspondance 3.2.1 3.2.2 3.2.3 Protocole d'Èvaluation 3.3.1 3.3.2 Extraction de l'Ènergie visuelle 4.1.1 4.1.2 4.1.3 ExpÈrimentations 4.2.1 4.2.2 4.2.3 ModËle proposÈ : la localisation du locuteur avec l'aide de la dÈtection et du suivi de visage 5.1 5.2 5.3 5.4 5.5 Conclusion et perspectives 6.1 6.2 Image de corrÈlation CritËres de choix de la rÈgion l audio 5.2.1 5.2.2 5.2.3 5.2.4 Localisation du locuteur en utilis 5.3.1 5.3.2 Localisation du locuteur en utilis 5.4.1 5.4.2 ExpÈrimentations sur les param Conclusion Perspectives Table des gures IC 3.1 Les images : It−1, It, EV 3.2 Les images : It, Ft, t, α = 0.1 3.3 Synchronisation l'Ènergie sonore et l'Ènergie visuelle sur derniËres trames 3.4 Base "BANCA" 3.5 Base "JT" 4.1 Une image dans l'espace RGB, YCrCb ; avec les composa Y, Cr, Cb ; les composantes Cr, Cb aprËs avoir mis ‡ noir pixels x ∈ RdV 4.2 Calcul de la somme de pixels dans un rectangle par l'ima intÈgrale 4.3 RÈsultat obtenus ‡ deux instants diÈrents, mÍme type de l'Ènergie visuelle basÈe sur l'estimation du fond, dÈcoupag rÈgions 8x8 ; plus la rÈgion est claire, plus elle est corrÈlÈe le son 4.4 Eliminer le bruit : au niveau de pixel et au niveau de rÈgi sur une vidÈo de personnes parlant 5.1 Image de corrÈlation d'un visage : les pixels les plus clai correspondent aux pixels les plus corrÈlÈes avec la bande a 5.2 Images de corrÈlation de trois visages diÈrents : le locut courant correspondant ‡ la femme la plus ‡ gauche 5.3 Localisation du locuteur avec la dÈtection de visage ; le teur ne bouge pas beaucoup 5.4 Erreurs obtenus en appliquant le critËre maximun : les pi les plus corrÈlÈes peuvent appartenir ‡ n'importe quelle z du visage 5.5 Utilisation du critËre M oyenne pour choisir la rÈgion la p corrÈlÈe avec la parole 5.6 Une dicultÈ : le changement du nombre de visages d'une trame ‡ l'autre 5.7 Localisation du locuteur avec suivi de visage - les avantag 5.8 Un exemple de changement de la taille des zones d du suivi au cours du temps La taille de la fenÍtre temporelle utilisÈe pour estime lation dÈpend de celle de la sÈquence de suivi de visage Images de corrÈlation en foncition des diÈrentes Èn suelles - IntensitÈ, Changement d'intensitÈ, Energie l'estimation du fond 5.9 5.10 6.1 Traitement de bruit en Èliminant des pixels bien corr non-groupÈs Traitement de bruit en focalisant plus prÈcisÈment gions de la bouche 6.2 Liste des tableaux 4.1 Les rÈsultats obtenus avec des corrÈlations diÈrentes 4.2 Les rÈsultats obtenus en fonction des vidÈos d'une pers active avec un seuil d'Ènergie visuelle 4.3 Les rÈsultats obtenus en fonction des vidÈos de quatre p sonnes actives avec un seuil d'Ènergie visuelle 5.1 RÈsultats obtenus en fonction de l'approche "RÈgion" vs "P 5.2 RÈsultats obtenus en fonction du critËre de sÈlection 5.3 Localisation du locuteur avec suivi de visage - rÈsultats o nus en fonction de la mÈthode choisie pour xer la taille d visage 5.4 Localisation du locuteur avec la dÈtection vs le suivi de vis 5.5 Localisation du locuteur avec la dÈtection de visage en f tion de la taille de la fenÍtre temporelle 5.6 Performances du systËme en fonction de l'Ènergie visuell sÈe sur l'estimation du fond - variation du paramËtre α 5.7 Performances du systËme en fonction de l'Ènergie visuell sÈe sur le changement d'intensitÈ 5.8 Performances du systËme en fonction des Ènergies visuell Chapitre Introduction 1.1 ProblÈmatique La localisation du locuteur est un sujet actif de recherche Actuellement, la localisation du locuteur est faite en utilisant un ensemble de microphones, qui peuvent positionner une camÈra pour zoomer sur la personne parlant Cependant, il n'est pas un systËme ecace quand le nombre de locuteur s'ÈlËve Une nouvelle approche - la localisation du locuteur dans une sÈquence audiovisuelle - est d'analyser les donnÈes visuelles et les donnÈes audio On dÈtecte le locuteur dans une vidÈo en utilisant conjointement les deux signaux : le signal de parole acoustique et le signal de parole visuel (le mouve-ment de lËvres plus prÈcisÈment) Cette approche est inspirÈe par le fait que le son semble provenir d'un stimulus visuel synchrone avec le signal audio Le mouvement visuel de la bouche d'un locuteur est ainsi fortement corrÈlÈ avec les donnÈes audio produites de sa bouche 1.2 Motivation La localisation du locuteur la clÈ dans certaines applications : les vidÈoconfÈrences, les systËmes de sÈcuritÈ, la reconnaissance des personnes, l'indexation de vidÈo, amÈlioration l'interface humaine machine, l'analyse d'expressions humaines, la lecture sur les lËvres, etc La localisation du locuteur courant lors d'une vidÈoconfÈrence permet de zoomer sur celui-ci ou encore de ne transmettre que sa vidÈo limitant ainsi la bande passante nÈcessaire Dans les systËmes de sÈcuritÈ, l'analyse de la synchronie audiovisuelle peut Ítre utilisÈe pour dÈtecter des impostures La localisation du locuteur peut aussi Ítre utilisÈe ‡ des ns d'indexation, permettant ainsi de rechercher des sÈquences de dialogue particulier lorsque la reconnaissance de visage permet de mettre un nom sur chaque sÈquence Fig 5.2 Images de corrÈlation de trois visages diÈrents : le locuteur cou-rant correspondant ‡ la femme la plus ‡ gauche 5.2.4 La moyenne des valeurs les plus grandes Pour la rÈgion ROIi, les n pixels dont les corrÈlations sont les plus grandes sont retenus et on calcule la moyenne de ces n corrÈlations n est dÈpendant de la taille de la zone de visage Remarque concernant la mesure de prÈcision Certaines trames contiennent un seul visage et le rÈsultat de la localisation correspond alors bien entendu ‡ ce visage Pour ne pas biaiser la mesure de PrÈcision, celle-ci est donc ÈvaluÈe uniquement sur les trames dans lesquelles plusieurs visages ont dÈtectÈes 5.3 5.3.1 Localisation du locuteur en utilisant la dÈtec-tion de visage Principe A l'instant t, la trame It contient m visages dÈtectÈs On calcule alors les diÈrentes Ènergies ES et EV (pour chaque rÈgion) de la faÁon suivante : 33 ES = {ES(t − k + 1), ES(t − k + 2), , ES(t)} Pour i = ‡ m pour tous les pixels x de ROIi i i i i - EV (x, t) = EV (x, t − k + 1), EV (x, t − k + 2), , EV (x, t) i On calcule ensuite l'ensemble des mesure de corrÈlation ρ(EV (x, t), ES) puis on applique l'un des quatre critËres prÈsentÈs pour choisir le visage le plus corrÈlÈ HypothËse que les locuteurs ne bougent pas beaucoup En utilisant ces deux vecteurs d'Ènergie EV et ES, on a dÈj‡ considÈrÈ que le locuteur ne bouge pas beaucoup pendant une durÈe assez grande 5.3 Localisation du locuteur avec la dÈtection de visage ; le locuteur ne bouge pas beaucoup Fig La gure 5.3 montre qu'‡ l'instant t, pour calculer la corrÈlation de pixel a3 avec la bande audio, nous utilisons les Ènergies visuelles des pixels { , b1, b2, a3} au lieu d'utiliser celles des pixels { , a1, a2, a3} 5.3.2 ExpÈrimentations ExpÈrimentation - RÈgion vs Pixel Dans cette expÈrimentation, nous comparons les performances du sys-tËme ‡ deux niveaux : le niveau global avec l'Ènergie visuelle d'une rÈgion et le niveau local avec celle du pixel Dans le tableau 5.1, k est la taille de la fenÍtre temporelle Nous remarquons que les rÈsultats du systËme au niveau de rÈgion sont toujours beaucoup plus mauvais que ceux au niveau de pixel 34 Tab 5.1 RÈsultats obtenus en fonction de l'approche "RÈgion" vs "Pixel" ParamËtres k=15, intensitÈ k=20, changement d'intensitÈ k=25, basÈe sur l'estimation du fond ExpÈrimentation - CritËres de choix de la rÈgion la plus corrÈlÈe avec la bande audio L'objectif est ici d'Èvaluer l'inuence du choix du critËre de sÈlection sur les performances du systËme (cf tableau 5.2) 5.2 RÈsultats obtenus en fonction du critËr CritËre Maximun Moyenne Nombre de valeurs supÈrieurs ‡ un seuil Moyenne de n valeurs les plus grandes Tab L'analyse du tableau 5.2 nous montre alors que c'est le derniËre critËre qui permet d'obtenir les rÈsultats meilleurs Pour le critËre M aximun, l'utilisation d'un seul pixel n'est pas susante Toutes les personnes bougent et tous les pixels ont une corrÈlation propre Le pixel dont l'Ènergie visuelle est la plus corrÈlÈe avec le son peut Ítre ainsi ‡ n'importe o˘, aussi bien dans la bouche que sur dans les yeux Fig 5.4 Erreurs obtenus en appliquant le critËre maximun : les pixels les plus corrÈlÈes peuvent appartenir ‡ n'importe quelle zone du visage 35 La gure 5.4 montre un exemple d'erreur obtenue en utilisant le critËre maximun : le pixel de la corrÈlation maximale de la dame est ‡ ses lËvres, du monsieur au milieu est ‡ son front, du monsieur ‡ droite est ‡ ses yeux Les mauvais rÈsultats obtenus avec le critËre M oyenne s'explique par le fait que les valeurs de corrÈlation des pixels sont trËs diÈrentes dans une mÍme rÈgion : la moyenne de toutes ces valeurs n'est donc pas un indice exploitable 5.5 Utilisation du critËre M oyenne pour choisir la rÈgion la plus corrÈlÈe avec la parole Fig Dans la gure 5.5, la bouche de la dame ‡ gauche est trËs bien corrÈlÈe avec le signal audio et elle parle Mais d'autres pixels de son visage sont moins corrÈlÈs que les pixels dans le visage de la personne au milieu Par consÈquent, la moyenne du rectangle ‡ gauche est plus petite que celle au milieu et l'application du critËre M oyenne aboutit ‡ une erreur Remarque : Concernant l'extraction de l'Ènergie visuelle, le mode de fonctionnement adoptÈ (construite le vecteur d'Ènergie d'un pixel en considÈrant sa valeur ‡ la mÍme position dans le passÈ) provoque des erreurs lorsque : - les locuteurs bougent beaucoup ([5.3.1]) - le nombre des locuteurs change d'une trame ‡ l'autre comme illustrÈ la gure 5.6 L'utilisation du suivi de visage pourrait permettre de rÈsoudre ces pro-blËmes 36 Fig 5.6 Une dicultÈ : le changement du nombre de visages d'une trame ‡ l'autre 5.4 Localisation du locuteur en utilisant le suivi de visage 5.4.1 Principe L'idÈe est d'utiliser le suivi tel qu'illustrÈ dans la gure 5.7 pour mettre un calcul de l'Ènergie visuelle plus robuste Fig 5.7 Localisation du locuteur avec suivi de visage - les avantages Dans la gure 5.7, nous espÈrons que nous connaissons exactement la trace de la position d'une personne pendant une durÈe lorsqu'il y a le chan-gement de nombre des locuteurs et le locuteur bouge 5.4.2 ExpÈrimentations ExpÈrimentation - La taille des zones de visage du suivi au cours du temps A l'instant t, nous devons traiter les pixels dans la sÈquence de rectangles ROI , ROI , ROI t−2 t−1 t qui sont les visages d'une mÍme personne dans les trames successives La dicultÈ est alors que les tailles de ces rectangles sont diÈrentes 37 La gure 5.8 montre un exemple de changement de la taille des zones de visage du suivi au cours du temps Fig 5.8 Un exemple de changement de la taille des zones de visages du suivi au cours du temps Pour rÈsoudre ce problËme, il est envisageable de : - Mettre ‡ la mÍme taille tous les rectangles, - Traiter seulement le mÍme nombre de pixels d'intÈrÍts dans chaque rectangle Dans le cadre de ce stage, nous avons choisi la premiËre mÈthode DiÈ-rentes tailles peuvent Ítre choisis : - la taille maximale de tous les rectangles, - la taille du rectangle courant, - une taille xe, 5.3 Localisation du locuteur avec suivi de visage - rÈsultats obtenus en fonction de la mÈthode choisie pour xer la taille du visage MÈthode Suivi (intensitÈ, taille maximale) Suivi (intensitÈ, taille 5) Suivi (intensitÈ, taille de visage courant) Suivi(changement d'intensitÈ, taille maximale) Suivi (changement d'intensitÈ, taille 10) Suivi (changement d'intensitÈ, taille de visage courant) Tab Les expÈrimentations ont montrÈ que la meilleure solution consistait ‡ utiliser la taille maximale de l'ensemble des rectangles de la sÈquence de visages 38 ExpÈrimentation - DÈtection vs Suivi Par la suite, nous faisons la comparaison des performances du systËme en utilisant la dÈtection de visage uniquement ou le suivi de visage Tab 5.4 Localisation du locuteur avec la dÈtection vs le suivi de visages MÈthodes Suivi (intensitÈ) DÈtection (intensitÈ) Suivi (changement d'intensitÈ) DÈtection (changement d'intensitÈ) Nous espÈrions que le suivi donnerait les meilleurs rÈsultats Mais les expÈrimentations montrent le contraire (cf les tableaux 4.3 et 4.4) Pour ex-pliquer ce problËme, on peut invoquer les raisons suivantes : - La taille des sÈquences du suivi impose la taille de fenÍtre temporelle On observe dans la gure 5.9 diÈrentes sÈquences de donnÈes diÈrentes (on observe aussi une erreur de segmentation du suivi : visages bleus et jaunes) 5.9 La taille de la fenÍtre temporelle utilisÈe pour estimer la corrÈlation dÈpend de celle de la sÈquence de suivi de visage considÈrÈ Fig - L'autre raison est que les visages d'une personne dans les trames suc-cessive sont de tailles diÈrentes Par consÈquent, il n'y a pas de la corres-pondance exacte entre des pixels associÈs 5.5 ExpÈrimentations sur les paramËtres utilisÈs La taille de la fenÍtre temporelle La taille de la fenÍtre temporelle k est un paramËtre trËs important Si cette taille est trop petite, la correspondance entre le signal audio et le signal vidÈo est estimÈe sur une durÈe trop courte et les diÈrentes corrÈlations mesurÈes sont trËs proches Si cette taille est trop grande, il est possible de faire des erreurs dans l'extraction de l'Ènergie visuelle en associant par exemple des pixels de vi- 39 sages diÈrents apparaissant ‡ la mÍme position dans deux trames successives Par ailleurs, plus cette taille est grande, moins le systËme est prÈcis temporelle Et pour l'instant o˘ le locuteur change, on utilise l'Ènergie sonore du dernier locuteur pour mesurer la corrÈlation du locuteur courant Tab 5.5 Localisation du locuteur avec la dÈtection de visage en fonction de la taille de la fenÍtre temporelle La taille k=10 k=12 k=15 k=18 k=20 k=25 La taille de la fenÍtre temporelle la meilleure dans ce cas est 15 trames On estime ainsi la correspondance entre le signal audio et signal vidÈo pendant 600ms L'Ènergie visuelle Nous avons rÈalisÈ le systËme avec trois types d'Ènergie visuelle (intensitÈ, changement d'intensitÈ et l'Ènergie visuelle basÈe sur l'estimation du fond) Nous Èvaluons ici l'inuence des paramËtres de ces diÈrentes Ènergies a ExpÈrimentation Avec l'Ènergie visuelle basÈe sur l'estimation du fond, nous avons testÈ diÈrentes valeurs du paramËtre α 5.6 Performances du systËme en fonction de l'Ènergie visuelle basÈe sur l'estimation du fond - variation du paramËtre α α 0.075 0.1 0.125 0.15 0.2 0.3 0.5 0.8 Tab Le tableau 5.6 montre les rÈsultats du systËme en fonction du paramËtre α (en utilisant la dÈtection de visage et la fenÍtre temporelle optimisÈe (15)) 40 Le meilleur rÈsultat est donc de 61.69% b ExpÈrimentation Nous avons prÈsentÈ deux faÁons de calculer l'Ènergie visuelle en utilisant le changement d'intensitÈ E IC1 V rÈsultats de ces deux mÈthodes (n ici est le nombre de valeurs les plus grandes que l'on utilise) 5.7 Performances du systËme en fonction de l'Ènergie visuelle basÈe sur le changement d'intensitÈ ParamËtres Tab n=15, k=20 n=15, k=25 n=20, k=15 n=20, k=20 Ces deux types Ènergie visuelle donnent des rÈsultats Èquivalents La raison est qu'il n'y pas beaucoup de changement d'intensitÈ entre des pixels voisins dans trames successives (surtout dans la vidÈo utilisÈe) c ExpÈrimentation Dans cette expÈrimentation, nous comparons les performances du sys-tËme selon les trois Ènergies visuelles testÈes Fig 5.10 Images de corrÈlation en foncition des diÈrentes Ènergies vi-suelles - IntensitÈ, Changement d'intensitÈ, Energie basÈe sur l'estimation du fond 41 La gure 5.10 prÈsente les images de corrÈlation obtenues selon les dif-fÈrentes Ènergies Ces images montrent que l'intensitÈ (a) peut amener ‡ confondre la rÈgion qui produit le son (la bouche + le menton) avec d'autres rÈgions alors que le changement d'intensitÈ distingue bien la rÈgion de la bouche et du menton avec les autres rÈgions Tab 5.8 Performances du systËme en fonction des Ènergies visuelles Energie visuelle IntensitÈ BasÈe sur l'estimation du fond Changement d'intensitÈ L'Ènergie visuelle qui donne le meilleur rÈsultat pour la base "JT" est obtenu avec le changement d'intensitÈ des pixels La prÈcision obtenue est de 67.20% 42 Chapitre Conclusion et perspectives 6.1 Conclusion Nous avons dÈveloppÈ un systËme de localisation du locuteur dans une sÈquence audiovisuelle ‡ deux niveaux : au niveau global et au niveau local L'approche a ÈtÈ motivÈe par l'Èvidence que la localisation du son est fortement inuencÈe par sa synchronisation avec le signal visuel Au niveau global, en ayant divisÈ l'image en petites rÈgions, nous avons cherchÈ la rÈgion dont l'Ènergie visuelle est la plus corrÈlÈe avec l'Ènergie sonore et nous avons espÈrÈ que la rÈgion obtenue contienne le visage de locuteur ou ses lËvres plus prÈcisÈment Les diÈrentes Ènergies visuelles (l'intensitÈ, changement d'intensitÈ, l'estimation du fond) ont ÈtÈ testÈes Malheureusement, les rÈsultats ne sont pas bons au niveau global Une des raisons peut Ítre le bruit dans la base de donnÈes (le signal visuel et le signal audio) Au niveau local, nous avons rÈduit les rÈgions de recherche en utilisant les rÈsultats de la dÈtection et du suivi de visages AprËs le calcul la corrÈlation de l'Ènergie sonore avec l'Ènergie visuelle de tous les pixels dans une rÈgion, on applique des critËres pour choisir la mesure de la corrÈlation de cette rÈgion : le maximum, la moyenne, le nombre de valeurs supÈrieures ‡ un seuil et la moyenne des n valeurs les plus grandes Les performances du systËme sont dÈpendantes du type de l'Ènergie visuelle, du critËre de choix la corrÈlation de rÈgion, de la taille de fenÍtre temporelle A ce niveau, les rÈsultats sont nettement meilleurs que ceux obtenus au niveau global 6.2 Perspectives Concernant les travaux dans le futur, plus de travail doit Ítre eectuÈ pour amÈliorer les performances du systËme Il faut amÈliorer la qualitÈ de signal audio et signal vidÈo Pour le bruit de signal vidÈo : 43 - On trouve qu'il y a des pixels dont la corrÈlation est plus grande que celle des pixels dans la bouche, mais ils ne sont pas groupÈs On peut utiliser cette caractÈristique pour choisir la rÈgion contenant la bouche Fig 6.1 Traitement de bruit en Èliminant des pixels bien corrÈlÈs mais nongroupÈs Fig 6.2 Traitement de bruit en focalisant plus prÈcisÈment sur les rÈgions de la bouche - Nous pouvons aussi focaliser plus prÈcisÈment sur les rÈgions de la bouche Dans la gure 6.2, au lieu d'utiliser le rÈsultat de dÈtection de visage dans le rectangle rouge, on peut s'intÈresser seulement au rectangle bleu (sur tout quand le locuteur bouge beaucoup, les pixels ‡ l'extÈrieur du rectangle bleu peuvent avoir la corrÈlation trËs grande) Pour prÈciser la rÈgion de la bouche, il y a des dicultÈs dans le cas o˘ les locuteurs sont de prol Cependant, il existe des algorithmes pour extraite des caractÈristiques des lËvres de prol [11] 44 Il faut s'intÈresser plus ‡ la taille de la fenÍtre temporelle Quand il y a un silence dans la parole, on peut considËre qu'il y a un changement de locuteur Nous devons donc reporter la fenÍtre temporelle, sa taille sera changÈe Au lieu de calculer la corrÈlation pour tous les pixels dans une rÈgion, on peut appliquer des techniques pour trouver les pixels d'intÈrÍts et puis calcule seulement la corrÈlation de ces pixels Pour l'instant, dans une image, nous considÈrons que la rÈgion la plus corrÈlÈ avec la son est celui-ci produit le son Pour les travaux dans le futur, il faut trouver un seuil de corrÈlation pour vÈrier les personnes parlant 45 RÈfÈrences [1] H Bredin, A Miguel, I H Witten, and G Chollet Detecting replay attacks in audiovisual identity verication Accepted for ICASSP 2006, May 2006 [2] HervÈ Bredin, Guido Aversano, Chac Mokbel, and GÈrard Chollet The biosecure talking-face reference system In Second Workshop on Multi-modal User Authentication - MMUA2006 Toulouse, France, 2006 [3] John Hershey and Javier Movellan Audio-vision : Using audiovisual synchrony to locate sounds Proc of NIPS, 12, 1999 [4] R Culter and L Davis Look Who's Talking : Speaker Detection using Video ans Audio Correlation In Proc ICME, NY, USA, 2000 [5] P Viola and M Jones Robust Real-Time Object Detection Int Jour-nal of Computer Vision, 2002 [6] H.J Nock, G Iyengar, and C Neti Spaeker localisation Using Audio-Visual Synchorony : An Empirical Study [7] Kazumasa Murai and Satoshi Nakamura A Robust Bimodal Speech Section Detection Journal of VLSI Signal Processing 36, 81-90,2004 [8] Cheng-Chin Chiang, Wen-Kai Tai, Mau-Tsuen Yang, Yi-Ting Huang, and Chi-Jaung Huang A novel method for detecting lips, eyes and faces in real time Pattern Recognition, 277-287(9), 2003 [9] M Slaney and M Covell FaceSync : a linear operator for measuring synchoronization of video facial images and audio tracks In P roc NIPS, 2001 [10] Antoine Manzanera and Julien Richefeu A new motion detection algorithm based on Sigma-Delta background estimation Pattern Recognition Letters vol 28(3) 2007 pp 320328 [11] Koji Iwano, Tomoaki Yoshinaga, Satoshi Tamura, and Sadaoki Furui Audio-Visual Speech Recognition Using Lip Information Extracted from Side-Face Images EURASIP Journal on Audio, Speech, and Music Processing, vol.2007, Article ID 64506, pages, doi :10.1155/2007/64506 (2007-3) [12] Hongxun Yao and Wen Gao Face detection and location based on skin chrominance and lip chrominance transformation from color images Pat-tern Recognition, 1555-1564(34), May 2000 [13] G Yang and T.S Huang, "Human face detection in complex back-ground", Pattern Recognition, 27(1) :53-63, 1994 [14] Rein-Lien Hsu, Mohamed Abdel-Mottaleb et Anil K Jain, "Face detection in color images", IEEE Trans PAMI, 24(5) :696-706, 2002 [15] Karin Sobottka et Ioannis Pitas, "Extraction of facial regions and features using color and shape information", ICIP, August 1996 [16] A Rajagopalan, K Kumar, J Karlekar, R Manivasakan, M Patila, U Desai, P Poonacha, and S Chaudhuri, "Finding faces in photographs", In 6th International Conference on Computer Vision, pages 640-645, 1998 46 [17] H Rowley, S Baluja, and T Kanade, "Neural network-based face detection", IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(1) : 23-38, 1998 [18] E Osuna, R Freund, and F Girosi, "Training support vector machines : an application to face detection", In IEEE Conference on Computer Vision and Pattern Recognition, pages 130-136, 1997 [19] Matthew Turk and Alex Pentland, "Eigenfaces for Recognition", Journal of Cognitive Neuroscience, 3(1) : 71 - 86, 1991 [20] G.R Bradski, "Real time face and object tracking as a component of a perceptual user interface", In 4th IEEE Workshop on Applications of Computer Vision (WACV), 1998 [21] http ://www.secure-phone.info/ 47 ... Performances du systËme en fonction des Ènergies visuell Chapitre Introduction 1.1 ProblÈmatique La localisation du locuteur est un sujet actif de recherche Actuellement, la localisation du locuteur. .. positionner une camÈra pour zoomer sur la personne parlant Cependant, il n'est pas un systËme ecace quand le nombre de locuteur s'ÈlËve Une nouvelle approche - la localisation du locuteur dans une sÈquence... systËme de localisation du locuteur dans une sÈquence audiovisuelle ‡ deux niveaux : au niveau global et au niveau local L'approche a ÈtÈ motivÈe par l'Èvidence que la localisation du son est

Định dạng
Số trang	55
Dung lượng	2,41 MB