Luận văn thạc sĩ VNU LES RESEAUX DE NEURONE AVEC L’ENTREE DISCRETE POUR LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

Problématique

Considérons d'énormes eorts dans l'étude de la RAP dans le dernier demi-siècle, on peut toujours demander pourquoi ce domaine est encore un thème de recherche 2 Le problème c'est que: les techniques existantes sont insusantes à résoudre le problème général de la RAP Les dicultés de ce problème peuvent être décrites dans les caractéristiques de la tâche, comme suit:

1 Est-ce que le système est Dépendant du Locuteur (optimisé pour un locuteur) ou Indépendant du Locuteur (qui peut reconnaợtre la voix de n'importe qui)? Pour les systốmes massivement utilisés (e.g.: les réseaux de téléphone public), seul le deuxième système est utile Dans ce cas, l'indộpendance du locuteur est obtenue par l'utilisation d'un modốle entraợnộ sur des bases de données contenants une large population des locuteurs représentatives.

2 Est-il capable de reconnaợtre la Parole Isolộe (prononcộe avec des pauses courtes) ou Parole Con- tinue (pas de pause)? Le deuxième cas est plus dicile, car les mots prononcé sont coarticulés.

La coarticulation nous demande d'avoir une base de données assez large an de couvrir toutes les variabilités des mots à leur frontières.

Une extension provocante du deuxiốme systốme peut reconnaợtre la Parole Naturelle ou Conver- sationnelle, qui n'est plus la parole dictée, mais contient les déformation de la parole (e.g.: Je ne suis pas franỗais est prononcộ comme Chuis pas franỗais), ou bien les hộsitations (e.g.: le Euh prolongộ), les phrases non-grammaticales (e.g: Je suis pas franỗais) Dans ce cas, une base de données assez large pour bien décrire la coarticulation est indispensable.

3 Est-t-il capable de fonctionner sur un grand vocabulaire? Plus le vocabulaire est grand, plus la coarticulation rend le système facile à se trompe.

1 Bien que quelques systèmes courants fonctionnent sur les très grands vocabulaires, il reste encore quelques contraintes, comme la limitation à une tâche très spécique, sur des systèmes qui fonctionnent assez bien an d'être utile

2 La RAP, comme dit les Industries de technologie de la parole à leurs clients, est un Problème déjà résolu maintenant En fait elle ne l'est pas

4 Y-a-t-il des contraintes de la langue ou de la tâche.? Une telle contrainte aide le système de découvrir si une phrase est légale ou non Souvent un système de la RAP a plus de contrainte d'un être humain, car plus la contrainte du système est simple, plus la reconnaissance est dicile. Étant donnée ces dicultés du problème général de la RAP, on peut voir que, d'une part on doit enrichir les modèles mathématiques dans le progrès de trouver la solution, et d'autre part, un élar- gissement de la base de données des prononciations est indispensable.

La limite des systèmes de RAP courants

Le taux d'erreur

C'est la base de données, ou la tâche qui décide le Taux d'Erreur d'un système de RAP Avant de voir les meilleurs taux d'erreur des système, il vaut comprendre des propriétés d'une base de donnée Une base de donnée est:

Caractérisée par Prononciation Isolée; Continue; Connectée Intonation Dictée; Naturelle; Conversation Environnement Chambre; Voiture; Usine; Téléphone Tache Nouvelles; Agent de tourist; N'importe quell dans laquelle:

• Isolée: il y a des pauses entre les mots

• Connecté: par exemple un numéro de téléphone: 84 4 624 00 75 est prononcé comme 8-4 4 6-2-4 0-0 7-5 ó −dénote la connexion Le type connecté est utilisé seulement avec des chires

• Dictée: l'intonation est comme dans une dictée, c.à.d: non naturelle

• Chambre/Voiture/Usine: La parole est enregistrée dans l'environnement correspondant C'est le bruit qui dégrade la qualité de la parole

• Téléphone: La parole est enregistré d'autre part au téléphone C'est la qualité du canal, et aussi le codage de compression qui inuencent la qualité de la parole

• Nouvelles: La sessionN ouvelles à la Radio ou Télévision

• Agent de tourist: les mots utilisés dans la conversation sont limités dans un contexte E.g: Je veux réserver un avion de Paris à Londre, au 28 Avril 2005

Notons que la Tâche inuence la complexité du problème de la RAP comme il décide la taille de vocabulaire, la perplexité, et aussi le niveau de confusabilité entre les mots prononcés (e.g.: entre Il est et Il ait).

Si l'on prend conscience de toutes les complexités d'une tâche, on peut comprendre pourquoi la RAP est encore une vrai recherche, quand on a déjà achevé des résultats impressionnants il y a des décennies, avec la tâche des chires Dans la table suivant, le taux d'erreur du mot (TEM) de 0.2% est obtenue dans une tâche des 11 chires, mais on doit accepter des erreurs de plus de 30% avec

Corpus T ype T ailledeV oc TEM (%)

Call Home Conversation; Téléphone 28,000 40 Switchboard Conversation; Téléphone 45,000 25-29

Alors, la limite de performance de reconnaissance nous donne une grande diérence entre la capac- ité d'un système de RAP et l'être humain Nos eorts, et aussi les eorts des autres chercheurs, sont de construire de nouveau modèle d'apprentissage avec l'espoir que l'on peut dépasser cette limite.

La vitesse

Un systốme de RAP nous demande d'une ộnorme ressource de calcul, premiốrement pour l'entraợnement des modèles statistiques (Réseau de Neurone Articielou les Mélanges Gaussiennes ) pourapprendre une base de donnée qui est de plus en plus large et, deuxièmement pour le décodage (i.e.: une recherche de Viterbi pour trouver la plus probable séquence des mots correspondante à une phrase prononcée donnée au système) Pour avoir une performance de reconnaissance acceptable, la vitesse d'un système de RAP nous donne un problème.

Il est cru [20] que si l'on garde la structure du rộseau de neurone, an de dộcroợtre le Taux d'Erreur de reconnaissance, un systốme hybride (PMC/MMC) doit accroợtre simultanộment:

• La taille de l'ensemble d'apprentissage (le nombre d'échantillons d'apprentissage d'une base de données)

• La taille du réseau PMC (Qui est le nombre de connexions faisant partie dans l'apprentissage du réseau)

Ces deux augmentation implique que le temps de calcul d'un tel systốme accroợt beaucoup plus rapide que la taille de données (dont la relation est approchée rapprochée comme Θ(N) ó N est le nombre d'échantillons d'apprentissage).

Récemment, en 1999 l'ICSI-Berkeley, Cambridge University et École Polytechnique de Mons com- mencent à travailler sur une base de données de 74 heures de parole enregistrées qui correspond à 16.7×10 6 échantillons d'apprentissage Leur réseau de neurone a 700,000 connexions a été intégré dans une machine multi-CPU assez rapide de leur temps, et l'apprentissage sur cette base de données a été ni après 1.5 mois.

En 2004 l'ICSI-Berkeley et l'IDIAP planient de travailler sur une base de données de 2,000 heures, qui correspond à45×10 7 échantillons L'apprentissage sur une partie de 44 heures (10 7 échantillons)

3 Les données ici sont collectées d'une lecture de Lawrence R Rabiner et de mes collègues à l'IDIAP - Suisse

CHAPITRE 1 INTRODUCTION 4 a été ni après 3 jours, sur une machine Pentium 4, 3.0 Ghz et 1GBytes de RAM Il est estimé que la base de données de45×10 7 échantillons est appris dans au moins UNE ANNÉE.

Cette impossibilité de travailler sur de grandes bases de données nous a forcé de penser à modier le structure du Réseau de Neurone, qui a pour but de réduire le nombre de calculs.

Objectifs

Le mémoire de n d'études suivant décrit un projet construire les systèmes hybrides (c.-à-d des systèmes utilisant le Modèle Connexionniste) Les premiers objectifs de cette recherche, visant une diérence exible de vitesse et de performance de reconnaissance, incluent :

1 Aller de nouveau au Perceptron Multi Couches à l'Entrée Discrète (PMCD) avec l'espoir que leurs pertes dans la performance peuvent être équilibrées par les capacités de manipuler de plus grandes quantités de données d'apprentissage

2 Obtenir plus grande Exactitude du Mot en combinant les sorties du PMCD et d'un PMC continu standard (PMCC) et

3 Combiner plusieurs PMCCs avec diérentes propriétés

Ce mémoire de n d'études rapporte comment nous atteignons ces objectifs par

1 ẫtablissant un rộseau qui accộlốre le temps d'entraợnement sur de grandes ou trốs grandes bases de données par un ordre de grandeur, en même temps, minimiser la perte de performance,

2 Observer si le type d'erreurs faites par notre nouveau PMCD est diérent de celui du PMCC.

Cette diérence est venues de diérentes tailles du contexte temporel et de diérente résolutions des caractéristique entrées aux système,

3 Observer les propriétés de la résolution des caractéristiques et du contexte temporel données à diérents PMCCs

Remarque

Dans le cadre d'un Mémoire Master, bien que ce mémoire est sur un PMC discret, on ne fournit pas une théorie du PMC et son application à la RAP, mais on invite le lecteur curieux à lire [3] et

[2] Notons que, comme la RAP utilise les connaissances de plusieurs domaines, il est donc presque impossible de présenter en détail toutes les techniques utilisées dans un projet.

Bien que le projet est pour travailler sur de très grande bases de données, ce mémoire rapporte seulement des résultats d'expériences sur Numbers'95 , une base de données assez petite La raison est que cette base de données est considéré classique, dont plusieurs résultats de recherches pour toutes les approches sont disponibles Une fois que le sanity check sur Number'95 est fait, les résultats sont généralisés à d'autres base de données, e.g Switchboard.

Organisation du mémoire

Ce mémoire de n d'études décrit les détails du projet Le reste de ce chapitre nous une vue d'ensemble des systèmes hybrides pour la RAP Le détail du problème donné par ces système est formulé, et une bref introduction à la Quantication Vectorielle utilisé par les systèmes du projet est fournie à la n

Le chapitre 3 est la partie principale du mémoire La conception d'un PMCD est dénie, puis un estimation théorique du Facteur d'Accélération d'un PMCD à un PMCC est construite La discussion des techniques avancées utilisées dans la littérature du PMCC est fournit, et elles sont appliquées pour le nouveau PMCD Les résultats d'expériences sur Numbers'95 sont données, avec une explications des diérence théorie-réalité.

Le chapitre 4 décrit un nouveau type de réseau d'entrée discrète: un Perceptron de Deux Couches Discrète D'ailleur un PMCC de diérentes caractéristiques d'entrée est construit Une bref introduction de la combination des classicateurs est donné, qui aide d'améliorer la performance du système hybride de la RAP, utilisant les réseaux neuronaux de diérentes propriétés proposés par ce projet.

En conclusion, il y a une brève discussion de futures tâches pour obtenir des conclusions plus solide.

Vue d'ensemble d'un système de RAP d'IDIAP

Dans la plupart des systốmes contemporains d'ASR, le processus de reconnaợtre la parole peut ờtre décomposé en trois étapes suivantes [Figure 2.1]:

2 estimation des vraisemblances/probabilités postérieures du phonème

L'Ent ré e Audit if Traitement du signal

Est im a t e ur de la vra ise m bla nc e du phone Réseau de Neuron Artificiel comme Classificateur

Mots reconnus ô le ằ ô chat ằ ô estằ

Le x ique (Modèle de Markov Caché) c h a t c h i e n e

Gra m m a ire ( n-gram ) chat chien le 0.1 0.1 un 0.3 0.1

Sémantique D is p o si ti fs sp ec tr a u x

Figure 2.1: Schéma fonctionnel d'un système connexionniste-HMM typique

Extraction de caractéristiques

Quelles caractéristiques acoustiques sont là dans l'entrée ?.

Le but de la première étape est d'établir les représentations (un ensemble de caractéristiques) du signal de parole qui fournissent la plupart d'informations sur le contenu phonétique du signal,

CHAPITRE 2 VUE D'ENSEMBLE D'UN SYSTÈME DE RAP D'IDIAP 7 c'est-à-dire, ces représentations seront robustes aux variations acoustiques mais sensibles au contenu linguistique Dans le cas idéal, ces caractéristiques acoustiques ne changent pas beaucoup quand les mêmes mots sont parlés beaucoup de fois (ou par diérents locuteurs, dans le cas de l'indépendance du locuteur), mais changent de manière signicative quand les diérentes choses sont dites An d'atteindre ainsi, les vecteurs de caractéristiques de la parole doivent fournir une représentation com- pacte et cohérente de toutes les informations appropriées de la parole gurée au le signal, tout en ltrant dehors l'information de non-discours Typiquement, ces caractéristiques sont calculées sous forme des vecteurs de dimension de n, ó chaque vecteur correspond à une trame donnée (c.-à-d à court terme, de longueur constante du signal de la parole).

Ces vecteurs de caractéristique peuvent être sous forme de discret ou densité-continue Dans cette recherche nous emploierons tous ces deux genres de caractéristiques pour comparer leurs eets.

L'entrée continue dans cette recherche est obtenue au moyen d'une technique d'analyse appelée la prédiction linéaire perceptuelle (c.-à-d PLP) Comme la plupart des paradigmes d'extraction de caractéristique dans la reconnaissance de la parole, PLP implique une application de l'analyse cepstrale à court terme au signal parole entrant Cette technique emploie trois concepts de la psy- chophysique de l'audition (psychophysics of hearing) pour dériver une évaluation de spectre auditif :

(1) la résolution spectrale de bande-critique, (2) la courbe de volume-égal, et (3) la loi de puissance du volume d'intensité Le spectre auditif est alors rapproché par un modèle auto-régressif de tout-poteau (autoregressive all-pole model) Un modèle du tout-poteau de 5eme-ordre est ecace en supprimant les détails dépendant du locuteur du spectre auditif En comparaison de l'analyse prédictive linéaire (LP) conventionnelle, l'analyse de PLP est plus conformée à l'audition humaine, en outre, PLP est exécutablement ecace et rapporte une représentation bas-dimensionnelle de la parole D'autres dé- tails sur PLP peuvent être trouvés dans [15].

L'entrée discrète est obtenue par une quantication vectorielle , une méthode qui divise au- tomatiquement un espace de caractéristique (PLP) dans diérents clusters basés sur des données d'entraợnement Ceci peut ờtre employộ pour la rộduction de dimension de donnộes, qui applique un grand nombre de points de caractéristique à un nombre mineur de faisceaux Étant donné un point de test de l'espace de caractéristique, nous pouvons déterminer le faisceau auquel ce point devrait être associé [Figure 2.2]. d( , )

L’algorithme de groupement (Maximisation d’Espoir) d( , )

Vecteurs de la parole entrée Quantificateur

Figure 2.2: Schéma fonctionnel de l'apprentissage et la structure du groupement de QV de base [courtoisie de L.Rabiner et al.].

Notons qu'en réalité, le vecteur des caractéristiques entrées est plus compliqué et qui a pour but de mieux représenter la dynamique et les aspects contextuels de la parole La dynamique est capturée par l'utilisation des dérivatifs primaires (appelédelta) et secondaires (appelédelta−delta) des coecients.

CHAPITRE 2 VUE D'ENSEMBLE D'UN SYSTÈME DE RAP D'IDIAP 8

En même but, l'information contextuelle de la parole est capturé par l'utilisation d'une combination de 9 trames consécutives.

Évaluation de vraisemblance/postérieurs de phonème

Quels sont les sons phonétiques dans ces caractéristiques ?.

Après avoir extrait un ensemble de caractéristiques de taille n de chaque trame des données de la parole, le processus de reconnaissance passe à l'étape d'évaluation de probabilité postérieure (aussi nommée probabilité a-postériori) de phonème , ó les caractéristiques acoustiques d'entrée sont appliquées à la vraisemblance acoustique de l'état (c.-à-d évaluations de p(x | q i ) ou probabil- ités postérieurs de l'état de la forme, p(q i | x) Dans le premier cas, un système Modèle Mélangé Gaussien (MMG) est typiquement employé pour produire des évaluations des vraisemblances d'état.

Ces vraisemblances sont alors appliqués à un système de décodage basé sur le Modèle de Markov Caché qui détermine les hypothèses de mot les plus probables pour une énoncée donnée Alterna- tivement, certains système de RAP utilisent les modèles distinctifs tels que les réseaux de neuron articiels (RNAs) pour calculer des évaluations de p(q i |x) Ces évaluations sont ensuite converties en vraisemblance échellée (scaledlikelihoods en Anglais) de forme p(q i | x)/p(q) 1 avant d'être traitộ d'une faỗon semblable par un dộcodeur basộ sur MMC.

Comme indiqué plus tôt, le système d'IDIAP emploie un RNA pour établir une application entre les vecteurs de caractéristique d'entrée et les évaluations des probabilités postérieures pour chaque état Puisque ces évaluations de probabilité sont conditionnées sur les caractéristiques d'entrée, nous référons typiquement aux sorties du RNA comme les probabilités postérieures d'état ou simplement les postérieurs Pour ce mémoire, nous emploierons la notation,p(q k n |x n ), pour représenter la probabilité postérieure de l'étatq k se produisant au tempsn, conditionné sur les acoustiques d'entrée (c.-à-d le vecteurx des caractéristiques d'entrée à tramen).

Notez que les divers états,q 1 , q 2 , , q M , dénis par le modèle acoustique de l'IDIAP, représentent les unités linguistiques appelées phonème 2 Ces phonèmes correspondent aux sons particuliers au niveau de sous-mot de la parole (par exemple/k/,/ae/, et/t/comme dans le mot, le cat) Un total de 56 classes de phonème sont dénis par le système d'IDIAP, mais il faut noter que certains phonèmes ne sont pas utilisés dans une certaine tâche vocale La plupart des tâches concernant la reconnaissance des chaợnes-de-chires, par exemple, exigent seulement 26 phonốmes, et quelques tõches de la parole de conversation exigent seulement 47 phonèmes.

L'architecture utilisée pour tous les RNAs comme estimateurs décrits dans ce mémoire se com- pose de trois couches de noeuds: une couche d'entrée , une couche cachée , et une couche de sortie La couche d'entrée accepte un total de CW ∗M de valeurs entrée , ó M est la longueur de chaque vecteur de caractéristique, etCW est la fenêtre de contexte donnée (c.-à-d le nombre de vecteurs consécutifs de caractéristique appliqués au RNA) Ces valeurs d'entrée sont appliquées par un système entièrement relié (f ullyconnected) avec des fonctions non-linéaires à la couche cachée, qui sont pareillement appliquées à 56 noeuds de sortie représentant les postérieurs de sortie pour chaque état Dans les couches caché et de sortie, la valeur d'un noeud indiqué,j, est calculée comme f(w 0j +P i w ij x ij ), ó x 1j , x 2j , , x N j représente l'ensemble de tous les noeuds qui sont reliés à l'entrée dej et lew 0j , w 1j , w 2j , , w N j représente un ensemble correspondant despoidsdeconnexion. Une non-linộaritộ douce telle que le sigmọde est typiquement choisie pour la fonction de f(ã) à la

1 ce vraisemblance échellée est égal à p(q i | x) en utilisant la règle de Bayes

2 beaucoup de systèmes de reconnaissance de la parole dénissent les états multiples pour chaque phonème.

CHAPITRE 2 VUE D'ENSEMBLE D'UN SYSTÈME DE RAP D'IDIAP 9 couche cachộe, et du type de softmax est typiquement choisie pour f(ã) à la couche de sortie Pour entraợner le rộseau, une critốre d'erreur (par exemple entropie-croisộe des postộrieurs de sortie en ce qui concerne les ộtiquettes (objectif) de l'entraợnement) est diộrenciộ en ce qui concerne les poids internes, et les poids sont mis à jour en conséquence par un taux d'apprentissage 3 prédénis Après chaque mise à jour, l'exactitude de la trame du RNA est examinée sur un corpus tenu-dehors des don- nées de validation-croisée pour empêcher trôp de l'apprentissage (overtraining en Anglais) Cette exactitude de la trame implique simplement le pourcentage des trames dont l'étiquette du phonème (phonemelabel en Anglais) est aussi le phonème la plus probable (i.e.: la probabilité postérieure la plus haute des sorties de l'ANN) Une fois l'exactitude de la trame sur la validation-croisée commen- cent à diminuer, le montant de chaque mise à jour des poids est réduit jusqu'à ce que le processus de l'apprentissage soit nalement arrêté Dans nos expériences, cette stratégie d'apprentissage s'appelle l'apprentissage de new-bob (qui est semblable d'une technique nommée simulatedannealing).

D'autres détails sur l'apprentissage et la conception du RNAs peuvent être trouvés dans [2].

Décodage

Quelle est la chaợne des mots que le locuteur a l'intention de "prononcer/ộnoncer" via ces sons.

Une fois que les caractéristiques d'entrée ont été appliquées dans des probabilités postérieures par le RNA, le processus de reconnaissance passe à l'étape de décodage, ó la parole entrée est assorti avec de diverses hypothèses possibles de mot Dans la plupart des systèmes de RAP, le processus de décodage est eectué en employant un ensemble des Modèles de Markov Cachés (MMCs) pour déter- miner les vraisemblances de diverses hypothèses au niveau de mot et de phrase étant données les sorties du modèle acoustique Le but des ces MMCs est de modéliser les probabilités a priori des transitions d'état dans une phrase (anutterance) basée sur des observations faites à partir de la parole réelle Par exemple, un MMC pourrait être fait apprendre pour coder la probabilité que l'état de phonème /ae/ passe /t/, conditionnée sur la durée de /ae/ et sur le fait que l'état de phonème précédent était /k/. Étant donné un ensemble susamment riche de probabilités de transition, un MMC peut être em- ployé pour estimer des probabilités a priori de la formep(Q|M h ), óQ=q j n , q k n+1 , , q l N représente une séquence entière d'état ou un chemin dans une énoncé 4 , et M h représente le MMC donné.

Ces vraisemblances a priori de chemin sont alors employées en même temps que d'autres statistiques, y compris des modèles de langue et les sorties du modèle acoustique pour arriver à la probabilité p(W |X, M) d'une séquence de motW étant donné l'acoustique d'entrée,X, et le système global de RAP, M.

Pour d'autres détails sur le décodeur, le lecteur est invité à lire [14] et [2].

Le problème avec l'apprentissage d'un PMC

Bien que le modèle hybride PMC/MMC soit employé couramment dans des tâches de RAP, il implique l'utilisation d'une énorme nombre de calculs à l'Unité Centrale de Traitement pour fair apprentissage le PMC sur une base de données assez large On va formuler le problème par les paragraphes ci-dessous. Étant donnée une base de données à apprendre et un modèle d'apprentissage, on veut construire une machine utilisant ce modèle pour apprendre cette base de donnée, de manière que la machine, après avoir appris cette base de données, a une capacité de bien fonctionner sur d'autres base de

3 ce qui contrôle la vitesse de mis à jour des poids.

4 le mot énoncé et notre traduction du mot utterance en Anglais, trouvez-le dans ListedesN otations

CHAPITRE 2 VUE D'ENSEMBLE D'UN SYSTÈME DE RAP D'IDIAP 10 données de même type Cette capacité est nommé généralisation Normalement, la condition néces- saire d'une bonne généralisation est Ω min < Ω θ < Ω max , ó Ω θ est le nombre de paramètres de cette machine, etΩ min etΩ max dépend de la base de données et du modèle d'apprentissage utilisé par la machine Les cas óΩ min >Ω θ ouΩ θ >Ω max sont ditunderf ittingetoverf ittingrespectivement.

Pour notre PMC, souvent il est entièrement relié [1-2], c.-à-d : chaque neurone dans une couche est relié à tous les neurones de la couche qui suit Prenons I, H, K le nombre de noeuds dans la couche de l'entrée, caché et de sortie d'un PMC (à 3 couches) typique, son nombre de paramètres (nombre de poids de raccordement) est

En 1998, Yann LeCun [7] a prouvé qu'un PMC entièrement relié peut être ecacement formée en utilisant un algorithme de rétro-propagation (back-propagation) avec une stratégie d'apprentissage stochastique (ó des poids sont mis à jour avec chaque échantillon d'apprentissage) Cette méthode d'apprentissage, employée couramment dans le système de l'état-de-l'art, a un inconvénient: le temps de l'apprentissage accroợt au moins linộairement avec (a) le nombre de paramốtres et (b) le nombre de l'échantillons d'apprentissage, si l'on xe chacun des deux nombres et change l'autre Il est clair qu'an d'ộviter le problốme de undertting et overtting en entraợnant un PMC sur une base de don- nées, le nombre de paramètres du PMC devrait être assez grand comparé au nombre de l'échantillons d'apprentissage [8] Ceci, accompagné de (a) et de (b), montre que le procédure d'apprentissage du PMC standard a une complexité deO(N 2 ), óN est le nombre d'échantillons.

Dans les systèmes de RAP auparavant, comme ceux de [14] et [2], les dictionnaires de Quan- tication Vectorielle (QV) ont été employés comme entrée discrète an de diminuer les nombre d'échantillons d'apprentissage, de sorte que la plupart de matériel à ce moment-là puisse supporter la quantité de calcul requise dans la reconnaissance Ensuite, des vecteurs de caractéristique de densité continue ont été employés avec l'augmentation de la puissance informatique du PC moderne (voyez [3] pour un vue d'ensemble de ces systèmes) Ce changement en entrée continue a amélioré l'exactitude de la reconnaissance, mais a impliqué une diculté quand les tâches de la parole sont devenues de plus en plus compliquées Pour un système de RAP avec grand vocabulaire et parole continue, nous avons vu une demande d'avoir une base de données de 2000 heures de discours enregistré, qui peuvent mener à un nombre d'échantillons d'apprentissage de7.10 8 si le discours est traité toute les 10 milliseconds.

Le fait que les ordinateurs courants et futurs pourrait pas supporter ce genre de base de données nous a menés à aller de nouveau à l'entrée discrète Nous numérisons l'entrée continue en employant des dictionnairesde QV, mais à la diérence du système d'entrée discrète précédent, nous représentons l'espace d'entrée par des vecteurs creux ou vecteurs 1-de-k.

Background: La Quantication Vectorielle par la Maximisation d'Estimation

La quantication est le processus de rapprocher les signaux continus en amplitude par des symboles discrets La quantication vectorielle est une quantication jointe des valeurs ou des paramètres de signal Un quanticateur vectoriel est décrit par un dictionnaire, qui est un ensemble de vecteur xe de prototype (également visé comme mot du dictionnaire) Pour eectuer le processus de quantication, le vecteur d'entrée est comparé avec chaque mot du dictionnaire dans ledictionnaireen utilisant un mesure d'appartenance Le vecteur d'entrée est alors remplacé par l'index du mot du dictionnaire avec la plus petite déformation.

Nous employons l'algorithme ME (Maximisation d'Évaluation) pour le Groupement Gaussien, la version prolongée et plus douce de l'algorithme de groupement K-Means pour former le

CHAPITRE 2 VUE D'ENSEMBLE D'UN SYSTÈME DE RAP D'IDIAP 11 dictionnaire et pour établir des indices de mot du dictionnaire En cet algorithme, la mesure d'adhésion de vecteur d'entrée x n à mot du dictionnaire q k est déni en tant que d k (x n ) qui est une probabilité postérieure P(q k |x n , θ), ó θ signie le paramètre de notre quanticateur Si nous assumons une distribution gaussienne de densité de vecteur, alors cette mesure est estimée près d k (x n ) ∝ √ 1

2π d √ det(Σ k ) e − 1 2 (x n −à k ) T Σ −1 k (x n −à k ) ãP(q k |Θ) ú à k etΣ k sont le moyen et ộcart-type de la distribution duk-ốme mot du dictionnaire.

C'est la synopsis de l'algorithme de ME pour la quantication

• Commence de K modốles Gaussiens initiauxN(à k ,Σ k ), k= 1ã ã ãK, avec les probabilitộ prieures égales à P(q k ) = 1/K.

1 Étape d'Estimation(Évaluation) : évaluer (estimer) les probabilitésP(q (old) k |x n ,Θ (old) ) que chaque point de données (data point)x n appartient à la classeq k (old) :

P(q k (old) |x n ,Θ (old) ) = P(q (old) k |Θ (old) )ãp(x n |q (old) k ,Θ (old) ) p(x n |Θ (old) )

= P(q k (old) |Θ (old) )ãp(x n |à (old) k ,Σ (old) k )

P j P(q j (old) |Θ (old) )ãp(x n |à (old) j ,Σ (old) j )

Cette étape est équivalente à avoir un ensembleQde variables cachées continues, prenant les valeurs dans l'intervalle [0.1], qui donnent l'étiquetage des données en disant dans quelle mesure un point x n appartient à la classe q k Ceci représente une classication douce, puisqu'un point peut appartenir, par exemple, 60% à la classe 1 et 40% à la classe 2.

2 Étape de maximisation : mettre à jour les moyens : à (new) k P N n=1 x n P(q (old) k |x n ,Θ (old) )

P N n=1 P(q (old) k |x n ,Θ (old) ) mettre à jour les écart-types : Σ (new) k P N n=1 P(q (old) k |x n ,Θ (old) )(x n −à (new) k )(x n −à (new) k ) T

P N n=1 P(q (old) k |x n ,Θ (old) ) mettre à jour les prieures :

Dans le cas présent, toutes les données participent à la mise à jour de tous les modèles, mais leur participation est pesée par la valeur deP(q k (old) |x n ,Θ (old) ).

• Jusqu'à : la croissance totale de vraisemblance des donnộes d'entraợnement tombe dans quelque seuil désiré.

CHAPITRE 2 VUE D'ENSEMBLE D'UN SYSTÈME DE RAP D'IDIAP 12

La critère globale dénie par le cas présent est :

Appliquant l'inégalité de Jensen³ logP j λ j y j ≥P j λ j logy j if P j λ j = 1 ´ , on obtient :

Alors, le J nal représente la frontière inférieure pour la vraisemblance jointe de toutes les données correspondantes à tous les modèles Cette critère est localement maximisée par cet algorithme.

Le lecteur intéressé peut trouver de plus grands détails au sujet des applications de l'algorithme de ME à l'évaluation de paramètre pour le modèles de Mélange Gaussienne et de Markov Cachés dans

[5] Les propriétés de convergence de l'algorithme sur les Mélanges Gaussiens sont étudiées dans [6].

Le ME a un certain nombre de propriétés qui lui font un algorithme particulièrement attrayant pour des modèles de Mélange Elle apprécie la satisfaction automatique des contraintes probabilistes, la convergence monotone sans avoir besoin de mettre un taux d'apprentissage, et une basse cỏt de calcul.

Pour le problème de groupement, un algorithme ME peut avoir une réputation d'être lent, au- dessus d'un certain algorithme de groupement classique, par exemple K-Means, mais pour ce projet de recherche cet inconvénient de calcul n'est pas un grand problème En eet, la quantication vectorielle est faite seulement une fois, en comparant aux plusieurs passages de l'entraợnement d'un RNA aussi bien que dautre traitement exigé pour la reconnaissance de la parole.

Une question peut être soulevée pendant cette quantication, celle est la qualité de groupement dépend beaucoup de la bonne initialisation des centres de surface gaussiens de mélange.

Le PMC discret pour RAP

On commence par une description d'un PMC à l'entrée continue standard pour RAP qui est carac- térisée par trois parties suivantes:

(b) Technique d'analyse de PLP qui s'est avérée ecace en préservant l'information linguistique tout en supprimant des variations dépendantes du locuteur [Hermansky, 1990a].

Cette technique aide aussi de décorréler les variables d'entrée, qui est indispensable pour l'apprentissage discriminative comme celui du Gradient Stochastique Souvent, on utilise les 12 coecients du PLP et un coecient d'énergie pour former un vecteur des caractéris- tiquesdirecte de 13 éléments (noté x directe ).

(c) l'Utilisation des caractéristiques dynamiques de la parole [Furui, 1986] comme les en- trées additionnelles pour établir un vecteur augmenté de caractéristique Souvent, on utilise le dynamique de première ordre, ditdeltas ou x ∆ et de seconde ordre, dit delta− delta ou x ∆−∆ des 13 éléments ci-dessus pour former un vecteur de 39 éléments: x [x directe , x ∆ , x ∆−∆ ].

(d) l'Utilisation du contexte temporel de 9 trames consécutives [Hervé, 1994] Ces 9 trames consécutives forment un vecteur d'entrée du PMC de 39×9 = 351éléments.

(e) Brouiller les échantillons de sorte que deux échantillons contigus appartiennent rarement à une même classe

(f) Régulariser les variables d'entrée par: (1) centrer les variables d'entrée en soustrayant le moyen (pour que le nouveau moyen soit zéro), et (2) normaliser les variables d'entrée à un écart type de 1.

(a) Les poids entrée-à-cachée et de cachée-à-sortie à chaque noeud (caché et sortie également) sont tous initialisés avec les moyens égaux à zéros et les écart-types unitaires (égaux à un): w ij =N(à j ,1), j = 1ã ã ã |H| etw jk =N(à k ,1),k = 1ã ã ã |O| ú iest index pour la couche d'entrée,j est index pour la couche cachée,kest index pour la couche de sortie, et à j =à k = 0. (b) Remplacer la fonction de non-linéarité à la couche cachée, d'une fonction logistique standard f(x) = 1+e 1 −x par un sigmọde symétrique tel que la tangente hyperboliquef(x) = 1−e 1+e −x −x

(c) Placer les valeurs à atteindre dans la marge du sigmọde, typiquement de +1 et -1.

CHAPITRE 3 LE PMC DISCRET POUR RAP 14

(d) Employer la stratégie stochastique d'apprentissage: mettre à jour le poids après que chaque échantillon de l'apprentissage soit introduit dans le réseau Cette stratégie ac- célère l'apprentissage plus que la stratégie de l'apprentissage par lot, puisque le nombre de l'échantillon d'apprentissage est beaucoup plus grand de le nombre de classe à apprendre (sur Numbers'95, il est 450.000 échantillons comparés avec 27 classe)

(e) Employer l'apprentissage de new-bob , qui est: gardez le taux d'apprentissage initial (qui est 0.08 sur les bases de données comme Numbers'95 et CTS 1 ) jusqu'à ce qu'une augmentation d'erreur de validation-croisée soit vue, on diminue alors graduellement ce taux d'apprentissage par un facteur de 2 L'apprentissage se termine quand le taux d'apprentissage égal à un seuil

(a) Une fonction d'activation desof tmax à la couche de sortie: y k = P K exp(net k ) l=1 exp(net k ) ó y k est la valeur de sortie du noeud de sortie k, net k est l'entrée à ce noeud de sortie k, K est le nombre total de noeuds de sortie, c.-à-d nombre des phonốmes à reconnaợtre.

(b) La fonction de cỏt d'erreur est une entropie-croisée

E(y, t) =−Σ K k=1 t k ãlog(y k ) + Σ K k=1 t k ãlog(t k ) là ú kest l'indice du noeud de sortie, test la sortie désirée,y est la sortie observée.

En général c'est la description des techniques les plus récents pour un modèle connexionniste pourRAP 2 Notre PMC discret utilise la plupart de ces techniques, et ne change qu'un peu dans Les caractéristiques entrées-(f) et dans La machine d'apprentissage-(a)

La conception théorique

La quantication vectorielle des caractéristiques

La quantication est faite par un processus de groupement, dans laquelle un espace original de vecteur de caractéristique est réduit à un ensemble limité des centrọdes Plus nous réduisons la dimension, plus nous perdons l'information de données mais nous traitons plus facilement les données postérieure- ment La facilité de traitement des données se transformera en facteur d'accélération dans notre PMC discret, et l'information perdue des données se transformera en dégradation dans l'exactitude de classication du réseau Notre travail est alors d'équilibrer entre le facteur d'accélération et l'exactitude. À partir d'une espace de caractéristique de 39 dimensions (12 coecients de PLP plus l'énergie et leur delta et delta-delta), nous voulons le diviser dans B sous-espaces, chacun a w b mot du dictionnaires Le problème est alors l'option du nombre de dictionnaires (B), du nombre de mot du dictionnaires pour chaque dictionnaire (w b )(ó chaque dictionnaire correspond à une partition de ces 39 éléments).

Nous commenỗons par B = 1 et voyons quelques rộsultats d'exactitude de la trame de moins de 65% Cette grande perte de l'exactitude est peut-être à cause de la perte de l'information, quand on comprimons les 39 valeurs du vecteur des caractéristiques en une seule indice de mot du dictionnaire.

Donc, quelle est la valeur optimale de B ?

Notons que ce vecteur x= [x directe , x ∆ , x ∆−∆ ]dont les éléments de x sont décorélés mais les élé- ments dex ∆ etx ∆−∆ sont dépendants de ceux dex Cette information nous encourage de quantier ces trois partition de x indépendamment Il nous reste à choisir les w b Pour la simplicité, nous choisissonsw b =W ∀b, et commence à trouverW Il sera prouvé que ce W inuence la performance de reconnaissance de notre système et aussi le facteur d'accélération [voir la section 3.1.3]. Étant diérent des approches précédentes qui remplacent la valeur de caractéristique de densité continue par une valeur (discrète) quantiée, notre approche applique ces valeurs dans les vecteurs creux Chaque partition des 39 caractéristiques correspondant à un dictionnaire est appliqué à un vecteur creux (vecteur d'unité) deW éléments: 0 0 1 0 0 óW est la taille de dictionnaire(nombre de mot du dictionnaires) pour chacun de ces trios, et la position du nombre1est l'indice du mot du dictionnaire correspondant à cette centrọde De plus, en codant chaque vecteur creux comme

CHAPITRE 3 LE PMC DISCRET POUR RAP 16 l'index w i du chire 1, nous avons appliqué un vecteur de 39 éléments à un vecteur w 1 w 2 w B de B éléments, et nous réduisons ainsi la taille de base de données avec un facteur de39/B.

L'entraợnement du PMC discret

Notre nouveau PMC discret dière de l'un standard uniquement par les entrées discrètes Il aW×B×9 des entrées dont seulement B x9 sont diérents de zéro Dans l'apprentissage et la reconnaissance, seulement ces entrées non-zéro sont prises en considération pendant l'étape de l'addition (f eed− f orward en Anglais) et la prise des dérivés (la rétro-propagation ou backpropagation en Anglais).

Pour prendre l'avantage de PMCs standard utilisé dans les tâches de RAP [1, 2], notre PMC discret a l'architecture suivante :

(b) Vecteur des caractéristiques x de 13 éléments: 12 coecients de PLP et 1 coecient d'énergie.

(c) Vecteur augmenté de caractéristiquesx= [x directe , x ∆ , x ∆−∆ ]de 39 éléments (d) Partager le vecteur de 39 éléments en 3 partitions Construire à partir de chaque partition un vecteur creux Représente chaque vecteur par l'indice de chire 1 Finalement, on a un vecteur de 3 élément.

(e) l'Utilisation du contexte temporel de 9 trames consécutives [Hervé, 1994] Ces 9 trames consécutives forment un vecteur d'entrée du PMC de 27 éléments.

(f) Brouiller les échantillons de sorte que deux échantillons contigus appartiennent rarement à une même classe

(a) La fonction de non-linéarité à la couche cachée: un sigmọde symétrique (tangente hyper- bolique)f(x) = 1−e 1+e −x −x

(b) Placer les valeurs à atteindre dans la marge du sigmọde, typiquement de +1 et -1.

(c) Employer la stratégiestochastiqued'apprentissage: mettre à jour le poids après que chaque échantillon de l'apprentissage soit introduit dans le réseau.

(d) Employer l'apprentissage de new-bob , qui est: (1) garder le taux d'apprentissage initial (qui est 0.08 sur les bases de données comme Numbers'95 et CTS 3 ) jusqu'à ce qu'une augmentation d'erreur de validation-croisée soit vue, (2) diminuer graduellement ce taux d'apprentissage par un facteur de 2 (ce facteur de 2 est utiliser dans presque toutes les bases de données) L'apprentissage se termine quand le taux d'apprentissage égal à un seuil.

(a) Une fonction d'activation desof tmax à la couche de sortie: y k = P K exp(net k ) l=1 exp(net k ) ó y k est la valeur de sortie du noeud de sortie k, net k est l'entrée à ce noeud de sortie k, K est le nombre total de noeuds de sortie, c.-à-d nombre de phonốmes à reconnaợtre.

(b) La fonction de cỏt d'erreur est une entropie-croisée

E(y, t) =−Σ K k=1 t k ãlog(y k ) + Σ K k=1 t k ãlog(t k ) là ú kest l'indice du noeud de sortie, test la sortie désiré,y est la sortie observée.

Dans l'entraợnement, le comportement de notre PMC discret est presque le mờme d'un PMC standard Avec cette spộcication, l'entraợnement s'arrờte aprốs 5-8 itộration (sur Numbers'95).

3 voir [9] pour une guide comment choisir ce taux d'apprentissage

CHAPITRE 3 LE PMC DISCRET POUR RAP 17 Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ 131313Ɣ Ɣ Ɣ Ɣ ƔƔ 131313ƔƔ ƔƔ 9 segments consécutifs

I c haque segment = 13 + 13 + 13 dispositifs = (12 PLP dispositifs + 1 coefficient d’énergie) + 13 Deltas + 13 Delta-Deltas Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ Ɣ I d00 1 001 00 0110…0 0 1 0 0…01 Vecteurde 1 – de – k A besoin de351 additions/mises à jour pour chaqueapprentissage d’un nœud caché

Id = 27 * W, qui est souvent plus grand que Ic, mais seulement une partie de Id participe dans l’apprentissage à la fois

PMC à l’entrée continuePMC à l’entrée discrète U n s eg m en t U n s egm ent U n s egm ent U n s eg m en t 9 segments consécutifs A besoin de2 7 additions/mises à jour pour chaqueapprentissage d’un nœud caché Figure3.2:Comparaisond'unPMCcontinuetunPMCdiscret,óB=3.

Le facteur d'accélération en théorie

L'idée fondamentale de notre PMC de l'entrée discrète est de réduire le nombre de connexions entre les noeuds pour chaque calcul vers-l'avant et vers-l'arrière (f orwardandbackward), ce qui réduit ainsi le nombre de multiplications cumulées en apprentissage La diérence des multiplications cumulées entre ces deux PMCs est:

1 Dans le première composant du réseau: entre la couche entrée et la couche cachée Plus précisé:

• PMC continue utilise une multiplication matrice(H c , I c )×vecteur(I c ), dont la matrice représente des valeurs des poids de connexions entrée-cachée, et le vecteur représente les valeurs d'entrée.

• PMC discret utilise une sélection dans la matrice des poids par l'indices C'est une implé- mentation intelligente de la multiplication matrice(H d , I d )×vecteur creux(I d )

2 Dans le deuxième composant du réseau: entre la couche cachée et la couche sortie

• PMC continue utilise une multiplication matrice(K, H c )×vecteur(H c ), dont la matrice représente des valeurs des poids de connexions entrée-cachée, et le vecteur représente les valeurs sorties de la couche cachées.

• PMC discret utilise une multiplication matrice(K, H d )×vecteur(H d ), dont la matrice représente des valeurs des poids de connexions cachée-sortie, et le vecteur représente les valeurs sorties de la couche cachées.

Nous appelons le facteur d'accélération le gain de la vitesse de notre PMC comparé avec du PMC (continu) standard Pour la simplicité d'analyse théorique, nous proposons une hypothèse ci dessous:

Hypothèse-1: Les multiplications cumulées des valeurs des poids prennent l'essentiel du temps d'apprentissage d'un PMC

Cette hypothèse est la base de l'analyse théorique dans cette section, et c'est la section 3.2.2 qui décide le degré de précision de cette hypothèse dans une base de donnée réel (Numbers'95).

Il est cru que le nombre de paramètre d'une machine d'apprentissage automatique prend un rôle décisif en décidant sa performance En cette section, nous comparerons deux PMC: un avec l'entrée continue et autre avec l'entrée discrète, tous les deux ayant le même nombre de paramètres Le Facteur d'Accélération (FA) est estimé tout en comparant le nombre de multiplications cumulées des deux réseaux, et nous montrons que ce facteur estimé dépend principalement de la taille du dictionnaire

Prenons I, H, K le nombre de noeuds pour les couches entrée, cachée et sortie, et d/cles indices pour les réseaux discret/continu Puisque les deux réseaux ont le même nombre de sorties, nous assignons ce numéro comme K.

1 Nombre des paramètres (NP) pour chaque réseau:

L'égalisation de ces deux nombres nous donne:

2 Nombre des multiplications cumulées (NAM):

= (9B+K+ 1)H d +K (3.6) alors le facteur d'accélération est:

Puisque K est souvent petit dans le numérateur et le dénominateur, nous pouvons approximativement avoir :

= βãW (3.8) ó β = 9B+ 9B+K+1 K+1 W β est un coecient spécique pour chaque base de données, qui dépend approximativement deK etW seulement Sur la base de données Numbers'95, nous employons souvent 27 phonèmes: K= 27, ainsi si nous limitons W dans l'intervalle de [50-120] (l'intervalle de bonne quantication), nous avons β = 0.5 D'autres expériences sur CTS (une base de données des parole conversationnelle sur télé- phone) prouvent que c bd = 0.36

Il est clair que l'Hypothèse-1 (3.1.3) nous donne une dépendance linéaire duF A àW, qui est indépendant deB C'est la section 3.2.2 qui vérie cette hypothèse dans deux aspects: (1) la linéarité et (2) la valeur duβ.

Expérience sur Numbers'95

La préparation de l'expérience

Dans cette base de données, il y a 30 mots représentés par 27 phonèmes L'apprentissage est exécuté sur les énoncés (utteranceen Anglais) de la parole sans bruit Dans cette base de données, il y a 2997 énoncés pour l'apprentissage, 303 pour la validation-croisée et de 1143 pour le test, qui sont 450005 points de données pour l'apprentissage, 48592 pour la validation et 171310 pour le test respectivement.

Notre PMC standard fonctionne sur des données continues (caractéristiques de PLP), a 351 (13*3*9) des entrées, 500 unités cachées et 27 sorties Pour l'apprentissage du réseau, chacun des coecients cepstraux de PLP a été normalisé pour moyens égaux à zéro et écart-types unitaires à travers toutes les classes Les constantes de normalisation sont sauvegardées pour l'usage dans la reconnaissance., et nous avons obtenu une exactitude de la trame de 78% sur un réseau de 190.000 paramètres.

Plusieurs expériences ont été réalisées sur notre PMC discret de 300.000 paramètres pour le choix du W (la taille du dictionnaire) Nous commenỗons à choisir W dans la liste des puissances de 2 :

16, 32, 64, 128, 256 et trouvons que la meilleure exactitude de la trame est quelque part entre 64 et

128 Pour avoir les résultats plus précisés, nous choisissons W dans une série additive dont le facteur d'addition est 6: 10, 16, 22, 28, 34, 40, 46, 52, 58, 64, 70, 76, 82, 88, 94, 100, 106, 112, 118, 124,

130, 136, 142, 148, 154, 160 Les sections suivante est pour les résultats.

Résultats de l'exactitude de la trame

• une diérence de l'Exactitude de la Trame (ET) entre le PMC continu standard et les PMCs discrets Le meilleur ET du PMC discret est 74.7% (dontW = 106), qui est 3.3% absolument et 4.2% relativement moins que celui d'un PMC continu.

• les meilleurs ETs sont obtenus avec60< W

Tiêu đề	Les Réseaux De Neurone Avec L’Entrée Discrète Pour La Reconnaissance Automatique De La Parole
Tác giả	To Huy Cuong
Người hướng dẫn	Hervé Bourlard
Trường học	Institut de la Francophonie pour l’Informatique
Chuyên ngành	Intelligence Artificielle
Thể loại	thesis
Năm xuất bản	2005
Thành phố	Martigny

Định dạng
Số trang	72
Dung lượng	9,29 MB