Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 72 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
72
Dung lượng
9,26 MB
Nội dung
Institut de la Francophonie pour l’Informatique VIETNAM Institut Dalle Molle d’Intelligence Artificielle Perceptive SUISSE Rapport du stage de fin d’études Promotion Sujet Les RESEAUX DE NEURONE avec L’ENTREE DISCRETE pour la RECONNAISSANCE AUTOMATIQUE DE LA PAROLE Stagiaire Responsable To Huy Cuong Hervé Bourlard (IFI, IDIAP) (IDIAP, EPFL) Martigny, Suisse : Mars 2004 – Janvier 2005 In memory of my father, M San TO Table des matières Table des Matières iv Liste des Figures iv Qu'est-ce que c'est ce mémoire v Résumé vi Abstract vii Remerciements viii Reconnaissance de la parole ix Lieu de travail x Liste des Notations xi Liste des Jargons Introduction 1.1 1.2 1.3 1.4 1.5 Problématique La limite des systèmes de RAP courants 1.2.1 Le taux d'erreur 1.2.2 La vitesse Objectifs Remarque Organisation du mémoire xiii Extraction de caractéristiques Évaluation de vraisemblance/postérieurs de phonème Décodage Le problème avec l'apprentissage d'un PMC Background: La Quantication Vectorielle par la Maximisation d'Estimation Vue d'ensemble d'un système de RAP d'IDIAP 2.1 2.2 2.3 2.4 2.5 Le PMC discret pour RAP 3.1 La conception théorique 3.1.1 La quantication vectorielle des caractéristiques 3.1.2 L'entrnement du PMC discret 3.1.3 Le facteur d'accélération en théorie ii 1 2 4 6 9 10 13 14 15 16 18 TABLE DES MATIÈRES 3.2 3.3 Expérience sur Numbers'95 3.2.1 La préparation de l'expérience 3.2.2 Résultats de l'exactitude de la trame 3.2.3 L'analyse du comportement de l'ET 3.2.4 Résultats du Facteur d'Accélération (FA) 3.2.5 L'analyse du comportement du FA Conclusion iii Le Perceptron Deux Couches Discret (PDCD) pour RAP 4.1 4.2 4.3 4.4 4.5 Introduction 4.1.1 La conception du PDCD 4.1.2 La conception du PMCC-2 La fusion des experts 4.2.1 La combination des classicateurs 4.2.2 La RAP multi-canaux La combination des réseaux utilisant l'entropie inverse 4.3.1 Le multi-canaux de full-combination 4.3.2 Combination basé sur l'entropie inverse La comparaison et combination des PDCD, PMCC-2 et PMCC 4.4.1 Entropie Moyenne et Erreur Moyenne selon les Moindres 4.4.2 Analyse de la combination Conclusion Carrés Conclusion et Tâches futures 5.1 5.2 Conclusion Tâches futures ANNEXE 6.1 6.2 6.3 6.4 Le temps utilisé des fonctions de l'implémentation des PMCs Les matrices de confusion la sortie des réseaux L'article comme résultat du projet Pour mieux comprendre ce mémoire de n d'études 20 20 20 20 23 26 29 30 30 31 31 32 32 33 33 34 34 35 37 37 42 43 43 44 45 45 48 52 52 Liste des Figures 2.1 2.2 Schéma fonctionnel d'un système connexionniste-HMM typique Schéma fonctionnel de l'apprentissage et la structure du groupement de QV de base [courtoisie de L.Rabiner et al.] 3.1 3.2 3.3 Le diagramme d'un système Connexionniste-HMM avec l'entrée discrète Comparaison d'un PMC continu et un PMC discret, où B = Comparaison de l'exactitude de la trame (ET) des deux PMCs (a), elle est zoomée (b) pour visualiser la diérence Les trois caractéristiques de QV qui inuencent l'erreur de classication du PMC discret Les tailles de couche cachée des deux PMCs La diérence entre le FA théorique et expérimental, sur la totalité de 450,005 échantillons FA expérimental avec diérents nombres d'échantillons Le temps utilisé (en seconde) par chaque connexion Cachée-Sortie (a) et le temps pour chaque 10,000 échantillons Le temps utilisé (en seconde) par chaque connexion creuse d'Entrée-Cachée (a) et le temps pour chaque 10,000 échantillons 3.4 3.5 3.6 3.7 3.8 3.9 4.1 4.2 4.3 4.4 4.5 4.6 6.1 6.2 6.3 6.4 6.5 Un système multi-canaux de deux canaux, soit (PMCC + PMCC-2), soit (PMCC + PDCD) Les mesures au niveau du mot et de la trame "Pourcentage" de Correction de tous les phonèmes PDCD: Mesures de l'exactitudes de la trame et du mot pour tous les tailles du dictionnaire Les PDCDs de diérent W: ET, EM avant et après la combination avec PMCC "Pourcentage" de Correction de tous les phonèmes, quand la taille du dictionnaire est 100 Le temps utilisé par les fonctions principales du program, avec T anh comme la fonction d'activation la couche cachée Gprof Hard-Tanh PDCD: matrice de confusion la sortie PMCC-2: matrice de confusion la sortie PMCC: matrice de confusion la sortie iv 15 17 21 22 23 24 25 27 28 36 38 39 40 41 42 46 47 49 50 51 Qu'est-ce que c'est ce mémoire ? C'est le mémoire de n de mes études l'IFI, un Institut Francophone de la formation en Informatique du ème cycle Ce mémoire Décrit mon travail du stage l'Insititut de Recherche IDIAP en Suisse, un stage de recherche sur la Reconnaissance Automatique de la Parole (RAP) Utilise les connaissances acquises pendant les semestres d'études l'IFI Les cours suivants ont de grandes importances mon travail du stage • Programmation sur UNIX (N.H.Quang): comment lancer de gros programmes et manipuler • • • • • du grand nombre de scripts de recherche en Shell/Perl sur l'UNIX A l'IDIAP on a 70 chercheurs, chacun exécute quotidiennement ses programmes La question est comment exécuter toutes ces tâches judicieusement Génie Logiciel (H.T.Vinh): comment collaborer avec d'autres informaticiens dans l'équipe Méthodologie de Recherche (D.N.Vu): la recherche est de découvrir de nouveaux menus notre Restaurant dont les clients sont DARPA, NSF, et les Industries Travaux d'intérêt personnel encadré (TIPE) (P.Bellot): c.-à-d une recherche individuelle qui demande une direction minimale du Responsable Méthodologie de Programmation (A Boucher): la programmation en C++, utilisant la bibliothèque de Torch Gestion du Projet (H.T.Vinh): comment gérer les époques du projet C'est un projet de recherche sponsorisé par DARPA dont la gestion du temps et de la qualité est indispensable Ma recherche en RAP l'IDIAP est de diminuer le taux d'erreur de la reconnaissance, et d'élargir la base de donnée d'apprentissage de la parole Je l'ai faite en utilisant un des Réseaux de Neurone Articiel de l'Entrée Discrète Pendant mon stage l'IDIAP, on m'a appelait homme du Réseau Discret " v Résumé Des systèmes contemporains de la Reconnaissance Automatique de la Parole (RAP) utilisant le système hybride (composé par un Perceptron Multi Couches l'entrée continue(PMCC) et un Modèle de Markov Caché (MMC)) sont limités par (i) sa performance en termes de taux d'erreur de la reconnaissance au niveau du mot, et (ii) son impossibilité d'entrner sur les bases de données rộelles trốs grandes On prộsente iỗi comment on attaque ces limites par l'utilisation dans le système hybride les réseaux l'entrée Discrète, avec ou sans la couche cachée Nos première expériences, et notre première implémentation révèlent que ces réseaux discrets peut avoir les propriétés suivantes: (1) Ils accélèrent l'apprentissage utilisant la Rétro-Propagation, (2) Ils ont l'Exactitude du Mot et quelques fois l'Exactitude de la Trame plus basse q'un réseau standard (3) Ils produisent diérents types d'erreur au niveau de trame que le PMCC Ce mémoire de n d'études décrit nos eorts de balancer ces trois caractéristiques dans la construction de diérents sytèmes, dans les quels nous compense la perte de performance avec la capacité d'entrner sue de très grandes bases de données, ou nous essayons combiner plusieurs réseaux dans un système hybride, an d'augmenter la performance Bien que les expériences et l'implémentation initiales de notre nouveaux systèmes discrets sont loin d'être réellement conclusive, le potentiel théorique du projet est prouvé Nous arrivons une estimation impressive de borne inférieure du CPU Nous arrivons aussi construire deux réseaux de diérent propriétés mais ayant l'exactitude comparable d'un PMCC standard Nous avons achevé augmenté l'Exactitude du Mot de 0.25% relative, sur Numbers'95 , avec une combination de deux réseaux dans un système utilisant le MMC Nous avons aussi déni les directions de futur très proche du projet, en vue d'achever les résultats conclusives Dans ce mémoire de n d'études de 3-ème cycle, nous fournissons un détail riche des résultats acquises, avec l'espoir que les suggestions et contributions des lecteurs vont nous aider de réduire le temps arriver un système vraiment complet Mots clés: Reconnaissance Automatique de la Parole (RAP), système hybride, Perceptron Multi Couches (PMC), Modèle de Markov Caché (MMC), entrée discrète, vecteur creux, Quantication Vectorielle (QV), Facteur d'Accélération (FA), Exactitude du Mot (EM), Exactitude de la Trame (ET), combination des classicateurs, multi-canaux une base de données de parole, pour la reconnaissance des chires: 0, 1, 2, , vi Abstract Contemporary automatic speech recognition (ASR) systems using hybride system (composed of a continuous input Multi Layer Perceptron (MLP) and a Hidden Markov Model (HMM)) are limited by (i) its performance in terms of Word-Error-Rate, and (ii) its unlikeliness to train on very large real-world databases We present here how we attack these limits by using a Discrete input Neural Network, with or without the hidden layer Our rst experiments revealed that these Discrete Networks may have three properties (1) Speed up the training using Back Propagation, (2) Have lower Word Accuracy and sometimes Frame Accuracy (3) Produce dierent types of Errors at the frame level from the normal continuous input MLP This thesis describes our eorts to balance these properties in dierent systems, in which we try to compensate the performance lost by the ability to train on very large database, or we try to combine multiple neural network in a hybrid framework, in order to increase the performance Although initial implementation and experiments of our discrete system, mainly due to time limitation, are far to be really conclusive , the theoretical potential of the project is proven We have come up with a quite impressive estimation of the CPU lower bound, have some discrete network's frame accuracy comparable to a continuous standard one, and even got 0.25% of Word Accuracy relative increase on Numbers'952 with a combination of multiple networks in a HMM frame work We have also dene the very near future direction of the project, in order to have really conclusive results In this Master Thesis, we will provide you with rich details of the results we have got, with a hope that your suggestions and contribution may help us reduce the time of reaching a real complete system Key words: Automatic Speech Recognition (ASR), hybrid system, Multi Layer Perceptron (MLP), Hidden Markov Model (HMM), Discrete Input, sparse vector, Vector Quantization (VQ), speed-up, Word Accuracy (WA), Frame Accuracy (FA), classier combination, multi-stream a speech database, for the recognition of digits like: 0, 1, 2, , vii Remerciements Je remercie M Hervé Bourlard, directeur de l'IDIAP pour sa direction sur un sujet de vraie recherche pendant mon stage J'ai appris beaucoup sur lui, et sur d'autres chercher de l'Institut Je remercie M Hynek Hermansky l'IDIAP pour ses lectures et conseils C'était grâce lui que j'ai pu sentir la philosophie" de recherche Je remercie les personnels de l'IFI pour les trois semestres du Diplơme d'Etudes Professionnelles Approfondies ó je pourrais découvrir le monde Je témoigne de ma reconnaissance toutes les personnes qui ont aidé fournir de divers composants pour notre système: John Dines pour des parties de son code source et pour ses grandes discussions Samy Bengio pour son aide comment utiliser la bibliothèque de Torche Hemant Misra pour ses suggestions de comment faire une recherche en RAP Tous les autres membres de notre groupe de la parole IDIAP ont également contribué intellectuellement ce travail La vie dans une petite ville étrangère comme Martigny n'est pas toujours très agréable, mais mon ami, Quan Le m'aidait lui s'adapter Quan était plus que mon ami, mon frère et mon tuteur Un grand merci Dr Ho Tuong Vinh de l'IFI pour son aide dans la rédaction de la version Francaise du mémoire Un grand merci Dr Vu Duong de l'Eurocontrol pour son aide dans la rédaction de la version Anglaise du mémoire Il est toujours, avec Prof Patrick Bellot l'ENST, une grande source d'aspiration et motivation pour ma recherche Et je veux remercier la Suisse avec le Chocolat, la Neige et l'Esprit de travail auprès des Suisses J'aurai eu visité toute la Suisse si mon travail n'aurai pas été si dûr Finalement, si vous trouvez le franỗais de ce mộmoire susamment facile lire, alors vous voulez peut-être remercier M Nguyen Khac Hieu de ses corrections orthographiques et grammaticales viii Reconnaissance de la parole Getting to work well may sometime seem more of an art than a science - Yann-LeCun, 1998 La Reconnaissance Automatique de la Parole (RAP) est le processus de trouver le texte d'un contenu que le locuteur veut exprimer via sa parole La RAP demande l'expertise des Linguistes, Informaticiens, Ingénieurs Eléctroniques, Psychologistes et Mathématiciens Même dans les aspects techniques de ce domaine, il y a une mélange diverse de Traitement des Signaux, Reconnaissance des Formes, Théorie de Probabilité, Science de la Parole, et la Conception du Système Les systèmes d'État-de-l'Art de la RAP sont soit le modèle Perceptron Multi Couches/Modèle de Markov Caché (MLP/HMM en Anglais) (abrévié comme le modèle connexioniste, ou système hybride), soit le Modèle des Gaussiens Mélangés/Modèle de Markov Caché (GMM/HMM en Anglais) De grands instituts dans le monde de la RAP sont: CMU, MIT, AT&T, IBM, SRI, Cambridge University, ICSI-Berkeley, IDIAP, Parmi eux, IDIAP et ICSI contribuent le plus dans le développement du modèle MLP/HMM ix CHAPITRE CONCLUSION ET TÂCHES FUTURES 44 Les expériences sur PDCD et PMCC-2 nous suggère que l'Exactitude de la Trame n'est pas une mesure honnête de l'Exactitude du Mot, et il y a une diversité d'erreurs des trois systèmes: PDCD, PMCC, PMCC-2 Cette diversité d'erreur nous suggère une combination des classicateurs pour avoir une reconnaissance plus ne Une combination multi-canaux la sortie de ces réseaux est testée Il est vue que même avec deux canaux, et un méthode de combination simple, le taux d'erreur de mot d'un système Modèle de Markov Caché/Perceptron Multi Couche est amélioré de 3% relativement Dans notre projet, nous avons essayé attaquer le problème fondamental de RAP de plusieurs aspects: diminuer le temps d'apprentissage par la discrétisation, et augmenter la performance par la combination des classicateurs Ces attaques nous demande d'un énorme montant de résultats expérimentaux, mais cause de la limite du temps, seulement une petite portion est déjà obtenue Il y a aussi quelques résultats que nous n'arrivons pas expliquer Quand le perspective de notre recherche est susamment clair, ce qui important est d'obtenir les résultats solides et conclusifs La section suivant se sert dénir les tâches réaliser dans le futur très proche 5.2 Tâches futures Ces tâches sont d'abord des expériences sur Numbers'95, ensuite, lorsque une notre connaissance sur l'application de nos approches sur cette base de donnée est susamment vériée, nous allons la généraliser la base de donnée plus large: le SwitchBoard • La balance de Performance au niveau de Trame et de Mot avec le Facteur d'Accélération du PMCD de 1, ou plus de dictionnaires • L'implémentation améliorée de la première partie d'un réseau discret, c.-à-d la multiplication d'une matrice avec un vecteur très creux • Le test des diérents context: 5, 9, 15, 25, 31, trames consécutifs, pour les entrées continues et discrètes • L'utilisation de technique T andem pour améliorer l'exactitude du mot, quand les postérieurs des réseaux élémentaire sont combinées • Remplacement des indices des centroïdes par les distances ces centroïdes Le but est de diminuer la perte d'information faite par la Quantication Vectorielle, donc améliorer la performance du système, mais garder le Facteur d'Accélération (FA) assez grande • Trouver les types d'erreurs d'un PMCD ou PDCD, an de prévoir une combination multi-canaux améliorée • Généraliser les expériences ci-dessus sur Switchboard Chapitre ANNEXE 6.1 Le temps utilisé des fonctions de l'implémentation des PMCs Nous utilisons un outil nommé gprof pour étudier le temps utilisé pour chaque fonction du program, utilisant les deux versions du fonction d'activation la couche cachée: et hard − Voici les gures illustrant le temps utilisé pour chaque fonction, notons que • Tanh (PMC discret): la tangente hyperbolique • Train (PMC discret): les fonctions auxiliaires pour entraợner le rộseau ã Discrete (PMC discret): la partie entre les couches de l'entrée et cachée du réseau, qui est "discrète", c.-à-d les connexions sont rares, pas besoin de la multiplication linéaire des valeurs de l'entrée et celles des poids • Linear (PMC discret): la partie du réseau entre les couches de cachée et sortie, dont multiplications des valeurs de l'entrée et ceux des poids est "linéaire" • Matrix (PMC discret): le temps total dépensé pour la "calcul matriciel", c.-à-d les additions et dérivatifs de la matrice des poids (toutes les parties discrète et celles "linộaire") ã TOTAL (PMC discret): le temps total pour entraợner le réseau • Continuous Tanh (PMC continu): la fonction tangente hyperbolique pour le PMC continu • Continuous Train (PMC continu): les fonctions auxiliaires pour entraợner le rộseau ã Continuous Matrix (PMC continu): le temps total pour la "calcul matriciel", c.-à-d les additions et dérivatives de la matrice des poids (tous les "linộaire") ã Continuous TOTAL: le temps total pour entraợner le réseau Dans ces gures, nous voyons: Une uctuation du comportement du réseau lorsque le nombre d'échantillons d'apprentissage est assez grand Si le nombre d'échantillons d'apprentissage est assez grand, la portion des calculs creux (la partie discrete ) est perturbée: plus grand le W n'assure pas moins le temp de calcul Ce bizarre comportement est avec tous les deux fonction d'activation et hardtanh Mais dans cet ordre, ce comportement est de plus en plus moins bizarre Les calculs matriciels ne sont pas la partie principale de temps d'exécution du program 45 CHAPITRE ANNEXE 46 Figure 6.1: Le temps utilisé par les fonctions principales du program, avec T anh comme la fonction d'activation la couche cachée CHAPITRE ANNEXE 47 Figure 6.2: Gprof Hard-Tanh CHAPITRE ANNEXE 6.2 48 Les matrices de confusion la sortie des réseaux Une matrice de confusion d'un classicateur est pour faciliter la compréhension de la classication Dans cette matrice, chaque vecteur d'entrée xn est dit reconnu comme phonème qk si P (qk |xn , θ) > Pj=k (qj |xn , θ) Pour nos expériences, une matrice de confusion est construite comme suit: l'élément m(i, j) où i = 1, 2, , 27 et j = 1, 2, , 27 représente combien de fois un vecteur x (dont l'étiquette est phonème i) est reconnu comme phonème j Le case idéal, ou un réseau idéal, doit avoir la matrice de confusion que m(i, j) = ni :i=j :i=j (6.1) où ni est le nombre d'échantillons de la base de données ayant l'étiquette i (i = 1, 2, , 27) Dans les matrices de confusion suivante, on voit que le PDCD est le pire, tandis que le PMCC et PMCC-2 sont presque le même d t k dcl tcl kcl s z f th v n l r w hh ih ih eh ey ah ao ay ow uw er h# 98 46 11 115 393 19 15 131 14 0 45 58 0 54 11 44 34 0 0 0 0 0 19 72 205 357 14 k 207 0 182 0 0 3872 t 13 d 26 0 0 3 0 23 0 10 0 dcl 1135 26 39 0 47 69 11 33 135 31 56 25 71 3261 0 169 tcl 97 0 0 100 0 19 1446 31 56 kcl 1236 29 54 12 58 104 39 10 24 73 27 30 239 8080 11 55 143 85 s 123 17 27 5 68 14 0 10 60 35 1065 62 44 0 44 z 510 2 2 22 14 132 22 1984 38 17 158 58 0 117 th 92 39 36 77 65 0 15 n 569 70 166 85 17 108 13 16 12 583 127 168 314 326 46 16 26 275 98 51 250 10420 2391 10 84 100 30 v 0 17 121 8 4 0 11 15 20 0 12 0 0 l 125 27 63 598 73 40 102 17 12 149 316 19 5339 71 129 10 16 0 28 r 165 56 232 52 596 10 35 3886 42 149 11 0 23 w 24 0 25 16 0 hh 195 200 24 55 16 286 11 89 6679 36 262 229 41 11 40 35 0 59 ih 41 11 70 32 118 104 53 2973 141 220 67 19 26 73 118 76 0 13 ih 20 31 83 65 347 52 2341 102 33 12 59 127 102 0 eh Figure 6.3: PDCD: matrice de confusion la sortie 997 14 104 91 15 51 23 19 43 88 16 5278 294 10 52 30 f 103 83 49 65 28 3567 41 75 567 10 54 84 1 11 72 0 33 ey 269 13 246 275 4905 16 242 50 25 660 137 528 95 26 24 0 18 ah 192 42 68 20 71 39 46 393 186 77 17 0 ay 13 0 458 176 184 162 54 64 11 49 161 491 179 32 120 12 53 19 0 22 ow 78 22 259 180 140 10131 13074 90 26 0 13 174 0 14 0 0 ao 138 5475 137 0 12 78 74 59 40 146 6 18 19 0 101 uw 138 216 37 106 91 20 182 156 104 507 220 274 650 30 771 18 563 0 161 h# 39201 341 12 0 13 21 94 20 0 219 12 22 0 er CHAPITRE ANNEXE 49 d t k dcl tcl kcl s z f th v n l r w hh ih ih eh ey ah ao ay ow uw er h# 14 23 73 241 0 18 53 19 14 20 0 51 12 99 68 84 14 30 71 15 0 0 14 179 183 11 420 10 k 186 19 4061 16 t 10 d 20 1 0 0 0 12 2 0 16 22 10 dcl 974 20 26 0 36 35 110 39 61 35 15 55 54 3487 144 tcl 50 57 0 0 9 1517 67 40 kcl 996 21 75 53 33 12 58 70 40 19 63 52 150 308 102 7912 46 153 148 s 760 22 86 88 3 14 35 44 15 65 70 57 5381 371 23 39 53 f 333 12 20 12 1 130 18 29 2034 28 38 239 62 117 th 131 36 39 61 79 15 n 510 19 51 150 77 69 15 16 11 475 146 141 216 254 32 22 29 237 135 35 216 10679 2533 12 89 80 40 5 21 v 99 4 23 33 12 1 0 0 l 89 21 91 598 92 88 97 41 153 289 31 5301 10 57 14 107 11 25 10 0 18 r 107 53 158 46 596 23 26 3976 27 153 20 23 15 0 37 w 3 27 15 23 0 hh 160 242 33 61 22 340 14 146 6632 32 225 164 19 18 57 43 0 55 ih 20 23 118 41 18 129 103 52 2986 137 240 53 13 18 15 69 56 63 11 ih 18 24 44 84 84 313 56 2390 65 39 10 25 43 116 11 59 1 13 eh Figure 6.4: PMCC-2: matrice de confusion la sortie 73 6 57 26 0 52 10 24 1157 69 32 1 47 z 69 20 50 63 83 19 3723 22 89 473 31 55 2 4 89 0 43 ey 211 10 35 230 320 21 5082 21 240 83 26 576 134 358 92 33 33 0 26 ah 189 93 71 35 81 40 88 292 133 69 51 0 20 ay 11 470 281 210 126 100 78 26 90 169 478 30 94 36 107 59 25 0 22 ow 20 12 186 15 216 259 10013 13005 60 16 4 19 189 1 0 1 ao 117 5292 182 24 37 30 84 149 57 61 133 13 14 27 75 uw 134 227 25 142 78 14 30 168 131 96 546 286 256 583 71 710 25 721 132 h# 39050 489 10 30 11 15 52 10 0 111 12 0 0 er CHAPITRE ANNEXE 50 d t k dcl tcl kcl s z f th v n l r w hh ih ih eh ey ah ao ay ow uw er h# 26 21 82 19 10 47 11 21 76 262 11 0 4 1 13 20 54 55 59 15 26 66 22 0 1 1 0 185 197 11 418 k 187 4073 t 19 d 21 0 1 1 0 12 4 17 11 14 dcl 1057 14 21 3 45 32 12 14 115 25 59 29 10 49 56 3407 11 147 tcl 45 1 59 0 11 1544 45 40 kcl 1206 25 65 30 19 13 43 76 37 13 20 89 96 118 341 113 7670 10 26 147 167 s 103 14 12 2 62 16 10 55 19 32 1036 141 27 0 42 z 320 12 10 18 16 121 16 11 1871 64 35 313 82 0 184 th 138 28 46 63 71 27 n 502 53 159 61 18 67 12 19 15 514 229 150 245 242 53 31 23 257 164 50 180 10425 2503 117 143 14 29 24 v 0 19 95 1 15 20 38 11 0 2 0 l 107 45 68 690 68 46 92 35 19 121 283 18 5342 60 112 15 0 15 r 143 49 207 22 13 526 12 31 4018 33 121 13 19 10 0 36 w 10 0 14 0 34 2 13 10 13 0 hh 176 154 33 66 11 370 21 141 6607 24 294 218 16 10 34 34 0 57 ih 32 19 110 69 16 108 101 78 2900 160 251 51 23 14 10 76 65 70 ih 18 31 101 83 273 39 2449 101 18 11 18 35 117 75 0 0 16 eh Figure 6.5: PMCC: matrice de confusion la sortie 962 19 59 82 9 49 44 20 48 125 46 5056 20 454 14 48 68 f 67 15 71 50 91 16 3707 18 102 497 50 54 2 12 47 0 31 ey 201 15 32 239 315 11 4932 31 320 78 28 648 142 347 110 13 24 41 2 ah 230 97 98 43 78 47 44 249 135 57 37 1 ay 12 3 495 209 207 138 81 128 19 55 170 434 31 126 37 91 42 18 0 21 ow 35 10 30 220 217 208 10116 13063 72 14 1 14 154 0 0 ao 108 5382 179 12 24 73 107 54 38 204 10 21 22 10 0 62 uw 110 253 18 10 122 86 13 38 156 138 119 414 261 210 596 45 915 48 764 17 185 h# 38919 456 12 15 19 5 19 73 135 10 2 0 er CHAPITRE ANNEXE 51 CHAPITRE ANNEXE 6.3 52 L'article comme résultat du projet Cuong.H.To, Herve Bourlard, Towards fast Multi Layer Perceptron training by using Discrete Input In 6.4 Pour mieux comprendre ce mémoire de n d'études Comme la Reconnaissance Automatique de la Parole utilise les connaissances de base de plusieurs domaines de Mathématique et Informatique: • Statistiques (Statistics ) • Structure de la language parlé (Spoken Language Structure ) • Structure du système auditoire humaine (Psychophysics of hearing ) • Traitement des signaux numériques (Digital Signal Processing ) • Reconnaissance statistique des formes (Statistical Pattern Recognition ) • Apprentissage automatique (Machine Learning ) l'auteur de ce mémoire invite les lecteurs curieux lire les papiers/livers suivants: Vue d'ensemble de la RAP • L.Rabiner and B.H.Juang Fundamentals of Speech Recognition Prentice-Hall, Englewood Clis, New Jersey, 1993 • Ben Gold and Nelson Morgan, with Hervé Bourlard, Speech and Audio Signal Processing • Xuedong Huang, Alex Acero and Hsiao-Hwen Hon Spoken Language Processing, A guide to Theory, Algorithm and System Development • Steve Young, Large Vocabulary Continuous Speech Recognition, 1996 • Cole et al Survey of the State of the Art in Human Language Technology, 1996 Vue d'ensemble de l'approche connexionniste de la RAP • H Bourlard and N Morgan, Connectionist Speech Recognition - A Hybrid Approach Amsterdam: Kluwer, 1994 J Tebelskis, • Nelson Morgan and Hervé Bourlard, An Introduction to Hybrid HMM Connectionist Continuous Speech Recognition, IEEE Signal Processing Magazine, pp 25-42, 1995 • Joe Tebelskis, Speech Recognition using Neural Network CMU's PhD Thesis, Pittsburgh, Pennsylvania., May 1995 Statistiques • E.T.Jaynes, Probability: The logic of Science, Unpublished but most cited on the Web • Andrew V Metcalfe, Statistics in Engineering, A practical approach, Chapman & Hall, 1996 • Jay L Devore, Probability & Statistics for Engineering and the Sciences, 1982 Structure de la language parlé CHAPITRE ANNEXE 53 • Xuedong Huang, Alex Acero and Hsiao-Hwen Hon Spoken Language Processing, A guide to Theory, Algorithm and System Development • Vous ajouter ici Structure du système auditoire humaine • Vous ajouter ici Traitement des signaux numériques • L.R.Rabiner and R.W.Shafer, Digital Processing of Speech Signal • Vous ajoutez ici Reconnaissance statistique des formes • R.O.Duda, P.E.Hart, D.G.Stork, Pattern Classication, First and/or Second Edition, PrenticeHall, 7x and 2001 • Andrew R Webb, Statistical Pattern Recognition, Second Edition, John Wiley & sons, 2002 Apprentissage automatique • Vladimir N Vapnik, The nature of Statistical Learning Theory, Springer-Verlag, 2000, Second Edition • Nils Nilson, Introduction to Machine Learning, ???, ??? • Nello Cristianini and John Shawe Taylor, An Introduction to Support Vector Machines and Other Kernel-based Learning Methods, Cambridge University Press, 2000 Réseau de Neurone Articiel • Bishop C.M., Neural Networks for Pattern Recognition, Oxford University Press, 1995 • Vous ajouter ici Ce n'est pas une liste exhautive, alors je crois vous avez quelque chose ajouter Dans tel cas, votre nom est marqué dans la recommendation HANOI, 16 May 2005 Bibliographie [1] N Morgan, H Bourlard, Neural Networks for Statistical Recognition of Continuous Speech in IEEE Proc Int Conf on Acoust., Speech, and Signal Process., vol 83, NO 5, MAY 1995 [2] H Bourlard and N Morgan, Connectionist Speech Recognition - A Hybrid Approach Amsterdam: Kluwer, 1994 [3] Joe Tebelskis, Speech Recognition using Neural Network CMU's PhD Thesis, Pittsburgh, Pennsylvania., May 1995 [4] Steve Young, A review of large-vocabulary continuous-speech recognition IEEE signal processing magazine, pages 45-57, 1996 [5] ICSI Speech FAQ, What are the dierent speech corpora http://www.icsi.berkeley.edu/speech/faq/corpora.html [Online] at ICSI or elsewhere, [6] Je.A.Bilmes, 1998., A Gentle Tutorial of the EM Algorithm and its application to Parameter Estimation of Gaussian Mixture and Hidden Markov Models U.C.Berkeley TR-97-201 [7] L.Xu and M I Jordan, 1996., On Convergence Properties of EM Algorithm for Gaussian Mixtures Neural Computation, 8:219-151 [8] H Hermansky, D Ellis and S Sharma, Tandem connectionist feature extraction for conventional HMM systems, in Proc ICASSP'00, Istanbul, Turkey, June 2001 [9] Y LeCun, L Bottou, G.B Orr and K.-R Muller, Ecient BackProp, Neural Networks: Tricks of the Trade, number 1524 in LNCS, chapter Springer-Verlag, 1998 [10] Geman, S., Bienenstock, E and Doursat, R (1992), Neural Networks and the Bias/Variance Dilemma, Neural Computation, 4, 1-58 [11] A.P.Dempster, N.M.Laird and D.B.Rubin, Maximum likelihoods from incomplete data via the EM algorithm, Journal of Royal Statistical Society B, vol 39, no1, pp 38, 1977 [12] R Collobert, S Bengio, and J Mariéthoz, Torch: a modular machine learning software library Technical Report IDIAP-RR 02-46, IDIAP, 2002 [13] M.Maila and D.Heckerman, An experimental comparison of Model-Based Clustering Methods, Machine Learning, 42, 9-29, 2001 [14] L.Rabiner, A tutorial on Hidden Markov Models and selected applications in Speech Recognition, Proceedings of the IEEE, Vol 77, pp 257-286, 1989 [15] H Hermansky, Perceptual Linear Predictive (PLP) analysis of speech, Journal of Acoust Soc Amer., vol 87, no.4, pp.1738-1752, 1990 54 BIBLIOGRAPHIE 55 [16] R Cole, M Noel, T Lander, and T Durham, New telephone speech corpora at CSLU, in Proceedings of European Conference on Speech Communication and Technology, vol.1, pp.821-824, 1995 [17] A.Varga, H Steeneken, M Tomlinson and D.Jones, The NOISEX-92 study on the aect of additive noise on automatic speech recognition, technical report, DRA Speech Research Unit, Malvern, England, 1992 [18] Cuong.H.To, Herve Bourlard, Towards fast Multi Layer Perceptron training by using Discrete Input In proceedings of RIVF-05, 181-185 2005 [19] NCR, High Performance C/C++ Optimization Guide [20] Dan Ellis and Nelson Morgan, Size matters: An empirical study of neural network training for Large Vocabulary Continuous Speech Recognition In proceedings of ICASSP-99, 1999 [21] Andrew Web, Statistical Pattern Recognition John Wiley & sons, LTD, 2002 [22] Allen, J B How humans process and recognise speech?, IEEE Trans on Speech and Signal Processing, Vol.2, No.4, pp.567-576, 1994 [23] A.Hagen, A.C.Morris, and H.Bourlard, Sub-band based speech recognition in noisy conditions: the full-combination approach IDIAP-Research Report 15, IDIAP, 1998 [24] A.C.Morris, A.Hagen, H.Glottin and H.Bourlard, Multi-stream adaptive evidence combination for noise robust ASR, Speech Communications, 34:25-40, 2001 [25] S.Dupont and H.Bourlard, Using multiple time scales in a multi-stream speech recognition system, Proceedings of the European Conference on Speech Communication and Technology, Rhodes, Greece, Sept 1997 [26] A.Hagen and H.Bourlard, Using multiple time scales in the framework of multi-stream speech recognition Proceedings of the International Conference on Spoken Language Processing, volume 1, pages 349-352, Beijing, China, 2001 [27] A.Hagen, A.C.Morris and H.Bourlard, From multi-band full-combination approach to multi-stream full combination processing in robust ASR ICSA Tutorial and Research Workshop ASR 2000, pages 175-180, Paris, France, 2000 [28] K.KIrchho and J.A.Bilmes Combination and joint distribution of acoustic classiers for speech recognition Proceedings of ASR, Paris, France, 2000 [29] A.Hagen, Robust Speech Recogniton based on Multi-Stream Processing PhD Dissertation, Ecole Polytechnique Fédérale de Lausanne Département d'Informatique, EPFL, Lausanne, Switzerland, Dec 2001 [30] L.Rabiner and B.H.Juang Fundamentals of Speech Recognition Prentice-Hall, Englewood Clis, New Jersey, 1993 [31] H.Misra, H.Bourlard and V.Tyagi New entropy-based combination rules in HMM/ANN multistream ASR International Conference on Audio and Speech Signal Processing, Hongkong, 2003 Index écart-type, 13 écart-type unitaire, 13 énoncé, 9, 20 distribution probabiliste, 29 EM , see exactitude du mot EMMC , see Erreur Moyenne selon les Moindres Carrés entrée discrète, 4, accélération, calcul matriciel, 26 facteur d'accélération, FA, 18 implémentation, 23 hard-tanh, 45 tanh, 45 lissage, 22 multiplication matricielle, 18, 26 NAM, 19 PDCD, see Perceptron de Deux Couches Discret Perceptron de Deux Couches Discret, 30 Perceptron Multi Couches Discret, 13 perturbation du FA, 29 PMCD, see Perceptron Multi Couches Discret sélection matricielle, 18, 26 vecteur 1-de-k, 10 vecteur creux, 10 Erreur Moyenne selon les Moindes Carrés, 37 auto-régressif, base de données, caractéristiques, caractéristique continue, 13 caractéristique directe, 13 caractéristique dynamique, 13 cepstral, 7, 20, 33 coecient d'énergie, 13 coecients, 13 delta, 7, 13 delta-delta, 7, 13 dynamique, prédiction linéaire perceptuelle, résolution de caractéristiques, spectrale, vecteur augmenté, 13 coarticulation, combaination des classicateurs inverse pure, 35 combination des classicateurs, 32 AdaBoost, 32 Boosting, 32 Boostrap, 32 classicateur, 31 entropie, 33 entropie inverse, 33 entropie moyenne, 34 estimateur, 8, 32 full-combination, 33 fusion des experts, 32 constant de normalisation, 20 CPU, Unité Centrale de Traitement, CTS, 19 FA, see facteur d'accélération gprof, 26, 45 information complémentaire, 32 l'étiquette, 34 La RAP multi-canaux, 33 Mélange Gaussiene, 3, 12 matrice de confusion, confusion matrix, 48 mesure d'appartenance, mesure de déformation, 10 mesure de la condence du classicateur, 34 Mixture of Experts, 32 modèle acoustique, modèle connexioniste, ix décodage, décodeur, 8, décorréler, 13 56 INDEX modèle de langue, Modèle Mélangé Gaussien, moyen, 13 moyen égal zéro, 13 multi-bande, 33 nombre d'échantillons, 10 Numbers'95, 4, 20 parole sans bruit, clean speech, 20 performance, ET , see exactitude de la trame exactitude de la trame, 9, 20 exactitude du mot, taux d'erreur, taux d'erreur du mot, type d'erreur, Deletion, 32 Insertion, 32 Substitution, 32 phonétique, phonème, PLP, see prédiction linéaire perceptuelle, 13 Quantication Vectorielle, 7, 10 centroïde, 15 cluster, dictionnaire, 10 K-Means, 10 Maximisation d'Évaluation, 10 mot du dictionnaire, 10, 15 perte d'information, 15, 22 réduction de dimension, 7, 14 smoothing, 22 taille de dictionnaire, 15 QV , see Quantication Vectorielle Réseau de Neurone Articiel, 3, apprentissage discriminative, 13 apprentissage par lot, 14 apprentissage stochastique, 10 back-propagation, 16 brouiller les échantillons, 16 cachée-à-sortie, 13 contexte temporel, 13, 35 couche cachée, couche d'entrée, couche sortie, entrée-à-cachée, 13 entrné, entropie-croisée, 9, 14 57 extrapolation, 22 feed-forward, 16 fonction d'activation, 14 fonction de coût d'erreur, 14 fonction logistique, 13 forward and backward, 18 généralisation, 10 Gradient Stochastique, 13 interpolation, 22 modèle hybride, 33 new-bob, simulated annealing, 14 noeuds, nombre de paramètres, 10 non-linéarité, 13 overtting, 10 PMCC, poids de connexion, probabilité a priori, probabilité a-postériori, probabilité postérieur, régularisation, 13 rétro-propagation, 10 rétro-propagation, backward, 14 sigmoïde, simulated annealing, 31 soft-max, 9, 14 stratégie stochastique d'apprentissage, 14 tangente hyperbolique, tanh, 13 taux d'apprentissage, training case shuing, 16 Transfert, Feed-Forward, 14 undertting, 10 validation-croisée, 14 RNA , see Réseau de Neurone Articiel système hybride, ix contexte temporel, fenêtre de contexte, Modèle de Markov Caché, pénalité de suppression, 35 phone deletion penalty, 35 probabilité de transition, postérieur, scaled likelihoods, 35 vraisemblance échellée, 8, 35 vraisemblance acoustique, 8, 43 TODE, 35 trame, utterance, see énoncé INDEX variabilité, variabilité acoustique, 29 variations dépendantes du locuteur, 13 58