Modélisation des incertitudes d’un corpus d’apprentissage et prise en compte dans le calcul du modèle, application à l’analyse en dépendance syntaxique par réseau de neurone

UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL KOUAMEN DJAMFA Mickael Lewis Modélisation des incertitudes d’un corpus d’apprentissage et prise en compte dans le calcul du modèle, application l’analyse en dépendance syntaxique par réseau de neurone Mơ hình hóa không chắn kho liệu cho học máy tính đến việc tính tốn mơ hình, ứng dụng vào phân tích phụ thuộc cú pháp mạng nơ ron MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE HANOÏ - 2020 UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL KOUAMEN DJAMFA Mickael Lewis Modélisation des incertitudes d’un corpus d’apprentissage et prise en compte dans le calcul du modèle, application l’analyse en dépendance syntaxique par réseau de neurone Mơ hình hóa khơng chắn kho liệu cho học máy tính đến việc tính tốn mơ hình, ứng dụng vào phân tích phụ thuộc cú pháp mạng nơ ron Spécialité : Systèmes Intelligents et Multimédia Code : Programme pilote MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Sous la direction de : M MESNARD Olivier HANOÏ - 2020 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Các thơng tin trích dẫn Luận văn rõ nguồn gốc Signature de l’étudiant KOUAMEN DJAMFA Mickael Lewis Table des matières Présentation de l’entreprise, du laboratoire d’accueil 1.1 Présentation de l’entreprise, du laboratoire d’accueil 1.1.1 Présentation de l’entreprise 1.1.2 Présentation du laboratoire d’accueil 4 Analyse du contexte du sujet, objectifs et problématique 2.1 L’IA, le NLP et l’analyse en dépendance syntaxique 2.1.1 L’intelligence artificielle - IA 2.1.2 Le traitement automatique du langage naturel (NLP) : Quoi et pourquoi ? 2.1.3 L’analyse en dépendance syntaxique 2.1.3.1 L’analyse (morpho)syntaxique 2.1.3.2 L’analyse en dépendance syntaxique 2.1.3.3 Alignement et projection 2.2 Objectifs 2.3 Problématiques 7 8 9 13 15 17 17 Etat de l’art 3.1 Incertitude, connaissance et apprentissage 3.1.1 Incertitude 3.1.2 Connaissance 3.1.3 Concept d’apprentissage 3.2 Apprentissage sur des corpus certains 3.3 Apprentissage sur des corpus dotés d’incertitudes 3.4 Quelques méthodes et algorithmes utilisés 3.4.1 Support Vector Machine (SVM) 3.4.2 Conditional Random Fields (CRFs) 3.4.3 Long Short Term Memory (LSTM) 19 19 20 20 20 22 24 25 26 26 26 i TABLE DES MATIÈRES Solutions proposées et contributions 28 4.1 Approche proposée pour répondre la problématique du sujet 28 4.2 Contribution 29 Expérimentations et résultats 5.1 Expérimentations 5.1.1 Outils matériels et logiciels 5.1.2 Préparation du dataset et aperỗu 5.1.3 Architecture dimplộmentation 5.1.4 Mộthode dộvaluation 5.2 Résultats 30 30 30 31 32 33 34 Conclusion et Perspectives 36 6.1 Conclusion 36 6.2 Perspectives 36 ii Table des figures 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 Illustration étiquetage morphosyntaxique Reconnaissance d’entités nommées Structure des dépendances Illustration plus complète de dépendance Alignement de phrases d’un corpus Illustration d’alignement des mots Illustration de la projection Projection 10 11 13 13 15 16 16 17 3.1 3.2 3.3 3.4 Apprentissage par transfert / Transfer learning Illustration d’un dataset "certain" Illustration de la procédure d’obtention de corpus incertain Unité LSTM 23 24 25 27 4.1 Schema de communication 29 5.1 5.2 5.3 5.4 5.5 5.6 5.7 Dataset breton bruité Jeu de données utilisé Illustration implémentation corpus certain Illustration implémentation corpus incertain Résultats training Résultats test Aperỗu de la prédiction 31 32 32 33 34 35 35 6.1 Corpus bitext Franỗais - Breton (raw data) 37 6.2 Corpus franỗais ộtiquetộ 38 iii Résumé Face la difficulté observée au niveau de certaines langues pour disposer de corpus annotés (manuellement), des méthodes centrées sur l’alignement et la projection cross-lingue ont permis d’apporter une piste permettant de disposer désormais de corpus obtenus automatiquement Cependant, le processus d’obtention de ces corpus aura entrainé dans ces corpus la présence d’incertitudes Les modéliser (les incertitudes) et les prendre en compte dans notre modèle justifie le but du présent travail Pour y parvenir, nous nous sommes armé de méthodes neuronales récurentes (BiLSTM) et d’approches probabilistes Les résultats que nous avons obtenus sur un jeu de données de l’ordre 770 000 entrées reparti 70% en données d’entrainement et 30% en données test tournent autour d’un taux de précision de 80% Intuitivement, ce score pourrait s’améliorer si le temps d’entrainement est rallonger Mots-clés : Apprentissage profond, réseaux de neurones réscurrents, analyse syntaxique, incertitudes, BiLSTM Abstract Faced with the difficulty observed at the level of certain languages to have annotated corpora (manually), methods centered on alignment and cross-lingual projection have made it possible to provide a track making it possible from now on to have corpus obtained automatically However, the process of obtaining these corpora will have led to the presence of uncertainties in these corpora Modeling them (uncertainties) and taking them into account in our model justifies the aim of this work To achieve this, we have armed ourselves with recurrent neural methods (BiLSTM) and probabilistic approaches The results that we obtained on a dataset of the order of 770,000 entries distributed 70% in training data and 30% in test data revolve around an accuracy rate of 80% Intuitively, this score could improve if the training epochs are extended Keywords : Deep learning, recurrent neural networks, syntaxtic parsing, uncertainties, BiLSTM Introduction générale Depuis le temps de la première grande guerre et des mouvements coloniaux (dans les années 1900) si l’on ne remonte que jusque là, les hommes dans leurs processus de conquête de nouvelles terres étaient confrontés aux difficultés liées l’expression, la capacité se faire comprendre et donc au problème relatif au langage Les travaux menés dans le but de palier ce problème de communication entre les personnes d’horizons diverses ont cependant permis nos jours de disposer d’outils assez fascinant telles les traducteurs automatiques qui nous permettent des moments de nous faire passer pour des génies des langues « une fois assis derrière nos petits écrans » Cependant ce pouvoir que nous confèrent ces outils de traduction n’est pas sans limite puisque limité un certains nombres de langues ; une grande majorité (de langue) nous laissant encore impuissant lorsque vient le moment de nous adresser un autochtone (autochtone est pris ici au sens où cette personne n’a que sa langue comme instrument de communication) Une des causes de la difficulté conceptuelle des traducteurs (ou des moteurs de recherche pourquoi pas, ) pour ces langues réside dans la non disponibilité de corpus suffisamment annotés dans ces langues (que nous considérons du point de vue du traitement automatique des langues comme des langues peu dotées) Les progrès réalisés dans le domaine du traitement automatique des langues (NLP) permettent d’espérer dans un futur pas très lointain l’accomplissement de cet exploit (celui de pouvoir communiquer dans toutes les langues) Une solution face au problème de disponibilité de corpus est leur génération par un procédé automatique centré sur l’exploitation de bitext ou encore corpus parallèle (disponible dans la plupart des langues illustrables par des manuels tel que la bible) Seulement, cette faỗon de procéder, que nous expliquerons dans ce travail, est source de bruit C’est donc ce bruit, que nous voulons considérer dans le processus d’apprentissage, qui nous a conduit la thématique d’ « apprentissage partir de connaissances incertaines » Avant de nous plonger vivement sur la question d’intérêt, nous allons tout d’abord faire une présentation de quelques concepts que nous avons jugés utiles pour nous orienter vers la réalisation de ce projet Nous commencerons donc par faire une présentation du contexte du sujet (section 2.1), suivie de l’état de l’art (section 3), de la TABLE DES FIGURES solution suggérée (section 4.1), de l’implémentation (section 5), des resultats (section 5.2) et de la conclusion (section 6.1) Les références ayant servies la réalisation de ce travail seront disponible dans la partie bibliographie prévue cet effet L’annexe viendra apporter quelques éclaircit sur des notions ou éléments que nous aurons présenté succinctement dans le présent travail Chapitre Présentation de l’entreprise, du laboratoire d’accueil Sommaire 1.1 Présentation de l’entreprise, du laboratoire d’accueil 1.1.1 Présentation de l’entreprise 1.1.2 Présentation du laboratoire d’accueil 1.1 Présentation de l’entreprise, du laboratoire d’accueil 1.1.1 Présentation de l’entreprise Le CEA est un établissement public caractère industriel et commercial (EPIC) dépendant de quatre ministères : le ministère de l’Écologie, de l’Energie, du Développement durable et de l’Aménagement du territoire, le ministère de l’Économie, de l’industrie et de l’emploi, le ministère de l’Enseignement supérieur et de la recherche, et le ministère de la Défense C’est un acteur majeur en matière de recherche, de développement et d’innovation Il intervient dans trois grands domaines : • La Défense et la sécurité globales • Les énergies décarbonées • Les technologies pour l’information et la santé Les compétences scientifiques du CEA vont de la recherche fondamentale la recherche technologique, ces dernières reposant sur l’exploitation d’équipements exceptionnels tels que des supercalculateurs, des réacteurs de recherches, des lasers de puissance Tous ces éléments favorisent une réelle implication du CEA dans le tissu industriel et économique national et international CHAPITRE ETAT DE L’ART 3.4.1 Support Vector Machine (SVM) Les machines vecteurs de support ou séparateurs vaste marge (en anglais support vector machine, SVM) sont un ensemble de techniques d’apprentissage supervisé destinées résoudre des problèmes de discrimination (c’est-à-dire décider quelle classe appartient un échantillon) et de régression ( c’est-à-dire prédire la valeur numérique d’une variable) Les SVM sont une généralisation des classifieurs linéaires Leur capacité travailler avec des données de grandes dimensions leur a value une rapide adoption pour les tâches de classification linéaire On distingue deux type de SVM dont : — Les SVM linéaire dans lequel les différentes classes sont séparées par des hyperplans — Les SVM non-linéaire qui s’applique principalement pour des tâches complexes pour lesquelles la séparation au moyen d’un hyperplan n’est pas suffisante Le choix de l’hyperplan optimal dans le cadre d’une tâche de classification sera celui qui offre la plus grande marge entre l’hyperplan et les deux éléments les plus proches de cet hyperplan 3.4.2 Conditional Random Fields (CRFs) Les champs aléatoires conditionnels (CRFs) sont une classe de modèles statistiques utilisés en reconnaissance des formes et plus généralement en apprentissage statistique Les CRFs permettent de prendre en compte l’interaction de variables « voisines », ils sont souvent utilisés pour des données séquentielles et permet alors de les étiqueter ou de les segmenter Les CRFs sont un exemple de réseau probabiliste non orienté et sont généralement présentés comme des modèles discriminants Ils se basent sur la probabilité conditionnelle (et non la probibilité jointe) On donne donc les probabilités des séquences d’étiquettes possibles pour une séquence d’observation donnée, et non les probabilités des séquences d’étiquettes et des séquences d’observation Les probabilités de transitions entre étiquettes peuvent dépendre des observations passées et futures, et non seulement de l’observation courante, ce qui correspond davantage la réalité des séquences réelles De part leur nature, les CRFs permettent de prendre un décision globale qui tient compte du "contexte" 3.4.3 Long Short Term Memory (LSTM) La mémoire court terme est une architecture de réseau neuronal récurrent artificiel utilisée dans le domaine de l’apprentissage en profondeur Contrairement aux réseaux neuronaux action directe standard, le LSTM a des connexions de rétroaction Une unité LSTM telle que représenté la (figure 3.4) est principalement composée de : 26 CHAPITRE ETAT DE L’ART F IGURE 3.4 – Unité LSTM — une cellule — une porte d’entrée (input gate) — une porte de sortie (output gate) — une porte d’oubli (ou forget gate en anglais) La cellule stocke les valeurs sur des intervalles de temps arbitraire tandis que les trois portes permettent de gérer le flux d’information entrant et sortant au niveau de la cellule de l’unité LSTM Intuitivement, la cellule est chargée de garder une trace des dépendances entre les éléments dans la séquence d’entrée La porte d’entrée contrôle la mesure dans laquelle une nouvelle valeur circule dans la cellule, la porte d’oubli définie la mesure dans laquelle une valeur est conservée ou effacée de la cellule et la porte de sortie contrôle la mesure dans laquelle la valeur dans la cellule est utilisée pour calculer la sortie activation de l’unité LSTM 27 Chapitre Solutions proposées et contributions Sommaire 4.1 Approche proposée pour répondre la problématique du sujet 28 4.2 Contribution 29 4.1 Approche proposée pour répondre la problématique du sujet Au regard de l’analyse de l’existant faite dans la section précédente où nous partions de laperỗu de lapprentissage en situation de corpus certains pour converger vers l’apprentissage en situation de corpus incertains tel que décrit, les approches proposées par Mengqiu Wang et al (2014)[16] et celles développées par Guillaume Wisniewski et al (2014)[15] ont largement inspiré notre proposition En nous basant sur cette représentation (figure 5.4), nous émettons l’hypothèse selon laquelle en projectant directement les labels prédit la sortie, on perd une part significative de l’information et de plus en se basant essentiellement sur la plus grande probabilité pour une étiquette d’être assigné un mot on perd également de l’information sur la possibilité que ce mot corresponde une ou plusieurs autre(s) étiquette(s) Afin de prendre en considération cette information supplémentaire potentielle, nous supposons que notre dataset soit représenté par une variable X, que l’ensemble des étiquettes possible soit associé une variable Y, et que les probabilités associées chaque étiquette de Y soit contenues dans une variable P Ainsi, on note x i ∈ X, y i ∈ Y, p i ∈ P respectivement les différentes entrées possibles, étiquettes possibles, et probabilités associées Nous considérons n comme représentant la taille des entrées, et m celle des étiquettes possibles On défini donc X = { x , x n } ; Y = { y , , y m } ; P = { p , p m } telle que pour chaque x i −→ { (y , p ), , (y m , p m )} Pour chaque entrée ainsi représentée on entraine un réseau de neurone prédire une probabilité p i (et ceci pour chacun des tags du jeu d’étiquettes) qui soit le plus 28 CHAPITRE SOLUTIONS PROPOSÉES ET CONTRIBUTIONS proche possible de la probabilité p i initialement fournie avec le dataset telle que présentée la figure 5.2 Une fois que le réseau est suffisament entrainé (p i p i ) on effectue un ar g max sur S avec S = { p , , p m } telle que y∗ = ar g max(S) où y∗ est la prédiction faite Cette étiquette prédite saura donc tenir compte de l’information incertaine présente dans notre corpus d’apprentissage La précision pourra être évaluée par la différence entre les probabilités ontenues par calcul par le réseau et celles attendues La figure ci-dessus apporte plus de visibilite sur la situation de communication F IGURE 4.1 – Schema de communication 4.2 Contribution Notre contribution a porté sur grands points : La conception du jeu de données par les procédés de projection et alignement La modélisation des incertitudes sur les connaissances pour leur prise en compte dans le modèle d’apprentissage La réalisation d’un analyseur morpho-syntaxique prenant en compte l’incertitudes sur les connaissances du dataset 29 Chapitre Expérimentations et résultats Dans cette partie nous présentons les différents éléments auxquels nous avons eu recours pour effectuer nos implémentations Ceci passera par la présentation des outils matériels et logiciels, le rappel du processus d’obtention du jeu de données et la présentation du jeu, la description de l’architecture d’implémentation, les critères d’évaluation et quelques paramétrages 5.1 Expérimentations 5.1.1 Outils matériels et logiciels Sur le plan matériel, nous disposons d’un ordinateur de bureau de type DELL core i5 équipé d’un processeur quad-core de 3.10 GHz sur lequel tourne un système d’exploitation 64bits Du point de vue logiciel, nous avons privilégé sublime text comme environnement de développement pour sa simplicité mais tout aussi pour sa puissance pouvant nous aider au travers de composantes supplémentaires telle PEP8, SendCode, Terminal View d’améliorer notre rigueur en matière de développement Le langage utilisé est le langage de programmation python Pour ce qui est des librairies utilisées dans ce projet, nous avons principalement utilisé Numpy et Tensorflow — Numpy : bibliothèque logicielle libre et open source fournit de multiples fonctions permettant notamment de créer directement un tableau depuis un fichier ou au contraire de sauvegarder un tableau dans un fichier, et manipuler des vecteurs, matrices et polynômes Pour la présenter en plus court, c’est une extension du langage de programmation python qui aide dans la réalisation de calculs scientifiques — Tensorflow : développé par Google et rendu public en 2015, tensorflow est un outil pour l’apprentissage automatique Il est disponible pour usage sur de nombreuses plateformes dont Linux, Windows, MacOS et également sur les plateformes mobiles Android Il est basé sur le principe de fonctionnement de graphe 30 CHAPITRE EXPÉRIMENTATIONS ET RÉSULTATS Principalement on a besoin de deux choses : les opérations exécuter et les tensors (qui ne sont rien d’autres que les variables) Ces variables peuvent prendrent des formes assez particulières allant des constantes aux variables de types placeholders Pour plus de détails sur la librairie il faudra se référer la documentation en ligne et accessible facilement (via google par exemple) 5.1.2 Préparation du dataset et aperỗu Comme ộnoncộ dộj dans diffộrentes sections du présent travail, notre corpus d’apprentissage est modélisé et obtenu sur la base d’alignement et de projection partir d’un corpus parallèle telle que présenté la figure 3.3 Une précision tout de même, dans le cadre de notre implémentation nous avons utilisộ des corpus parallốles des langues franỗais et breton en considộrant le franỗais comme notre "rich ressources language" et le breton comme langue cible pour laquelle on devait générer des annotations Le corpus bitext a été obtenus via OfisPublik La réalisation de l’alignement a été faite au travers de l’outil d’alignement EFMARAL[10] pour ensuite réaliser la projection Nous avons donc obtenus un corpus "bruité" qui se présente sous cette forme : F IGURE 5.1 – Dataset breton bruité NB : Les corpus parallốles franỗais et breton de dộpart ayant permis d’obtenir le résultat présenté la figure 5.1 peuvent être accessible en annexe ?? A partir de ce dataset nous avons modélisé les données en fonction de la sortie qui nous intéresse (notamment celle des étiquettes UPOS) Notre jeu de données compte au total 18 étiquettes possibles pour chaque mots dont ’_’, ’ADJ’, ’ADP’, ’ADV’, ’AUX’, ’CCONJ’, ’CONJ’, ’DET’, ’NOUN’, ’NUM’, ’PART’, ’PRON’, ’PROPN’, ’PUNCT’, ’SCONJ’, 31 CHAPITRE EXPÉRIMENTATIONS ET RÉSULTATS F IGURE 5.2 – Jeu de données utilisé ’SYM’, ’VERB’, ’X’ Après modélisation, notre jeu de donnée près être exploité est celui dont l’extrait est présenté la figure 5.2 ci-dessous : Nous avons affecté la probabilité "0.0" partout où la probabilité n’était pas définie 5.1.3 Architecture d’implémentation Dans cette partie tout comme dans l’étart de l’art, nous procéderons la présentation de l’architecture d’implémentation faite en considérant que l’on se trouve dans un contexte de corpus certains ensuite nous présentons l’architecture d’implémentation que nous avons utilisé pour aborder la question sur les corpus incertains Ainsi, la figure 5.3 illustre une des architectures possible d’implémentation en situation de corpus certains F IGURE 5.3 – Illustration implémentation corpus certain source : Ji, B., Liu, R., Li, S et al[17] Sur cette figure on se rend bien compte que le processus d’apprentissage part d’une 32 CHAPITRE EXPÉRIMENTATIONS ET RÉSULTATS phrase de laquelle on extrait les differents mots auxquels on associe une représentation vectorielle avant de les exploiter dans le réseau LSTM pour en sortir des probabilités travers un softmax La figure 5.4 illustre la démarche pour laquelle nous avons opté dans cette étude Quelques précisions sont toutefois apporter pour ce qui concerne notre implémentation F IGURE 5.4 – Illustration implémentation corpus incertain On peut voir la figure 5.4 que la représentation vectorielle des mots du batch fourni se fait par l’intermédiaire d’un réseau LSTM A noter également que la sortie n’est prédite qu’à la suite d’un argmax sur les différentes probabilités d’étiquettes fournies par le réseau LSTM 5.1.4 Méthode d’évaluation Afin d’évaluer les performances de notre modèles, nous nous sommes basés sur la métrique du calcul de la F1 score Le calcul de cette métrique fait appel deux autres mésures intermédiaires que nous présentons ici savoir la précision et le rappel — La précision : il s’agit du nombre d’éléments pertinents retrouvés rapporté au nombre d’éléments total proposé pour une requête donnée On a calculer la pré- 33 CHAPITRE EXPÉRIMENTATIONS ET RÉSULTATS cision de prédiction premièrement sur chaque batch pour ensuite trouver la précision moyenne de l’ensemble du dataset — Le rappel : représente le nombre d’éléments pertinents retrouvés au regard du nombre d’éléments pertinents que possède la base de données (dataset) — La F1 score est donc obtenue par combinaison de la précision et du rappel est leur moyenne harmonique pr éci si on∗r appel F − scor e = ∗ pr éci si on+r appel 5.2 Résultats Dans cette partie nous présentons les résultats obtenus issus de l’implémentation du processus décrit tout au long de la précédente section Comme peut le présenter les données que nous avons utilisé, la tâche traité est l’étiquetage morphosyntaxique qui joue un rôle capital dans l’analyse en dépendance syntaxique telle que présenté dans la partie 2.1.3.2 Le jeu de données que nous avons utilisé comptait 778744 entrées que nous avons répartis hauteur de 70% (soit 545120) pour les données d’entrainements (train set) et 30% pour les données de test (test set) Les résultats obtenus sur le train set avec un paramétrage de 20 epoch est présenté ci dessous : F IGURE 5.5 – Résultats training On constate un score de précisions de 75,54% au cours de la phase d’entrainement et les résultats obtenus après évaluations nous donne un score de précision de 75,14% telle que présenté ci-dessus : 34 CHAPITRE EXPÉRIMENTATIONS ET RÉSULTATS F IGURE 5.6 – Résultats test Ces scores obtenus sur les données train et test d’ordre proche bien que légèrement inférieurs sur les données de test (chose assez logique), montrent bien que notre modèle apprend convenablement et serait capable de généraliser Un test de prédiction d’une phrase du test set nous a donné ceci comme résultat : F IGURE 5.7 Aperỗu de la prộdiction La prộdiction attendue étant celle-ci : Priz meur broadel ar bleuñviñ NOUN ADJ ADJ DET NOUN "Priz meur broadel ar bleuñviñ" correspondrait en franỗais "Grand prix nationale du fleurissement" On voit bien que notre prédiction bien qu’issue d’une précision moyennement bonne, arrive se rapprocher de celle réellement attendue 35 Chapitre Conclusion et Perspectives 6.1 Conclusion Parvenu au terme de notre travail, nous avons pu expérimenter l’implémentation d’une architecture neuronale sur un corpus de texte "breton" obtenu par projection cross-lingue partir du franỗais comme langue source dộtiquettes projộter La modélisation faite, l’implémentaion réalisée et les résultats obtenus nous laisse voir en cette approche une source potentielle l’amélioration des étiqueteurs réalisés dans le contexte de corpus bruités (doté d’incertitudes) 6.2 Perspectives Au regard de la complexité du processus associés cette thématique autour de l’apprentissage partir de données incertaines, nous pensons que le sujet mérite bien d’avantages d’expérimentations étant donné que nous disposons présent des outils nécessaire que nous avons pu déployer pour l’obtention de ces corpus synthétiques Une combinaison de deux ou trois modèle pourrait être une piste explorer dans un prochain travail 36 Annexe F IGURE 6.1 Corpus bitext Franỗais - Breton (raw data) 37 CHAPITRE CONCLUSION ET PERSPECTIVES F IGURE 6.2 Corpus franỗais ộtiquetộ 38 Bibliographie [1] S Petrov, D Das, and R McDonald, “A universal part-of-speech tagset,” in Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC’12), 2011 [2] Z Huang, W Xu, and K Yu, “Bidirectional lstm-crf models for sequence tagging,” arXiv :1508.01991v1, 2015 [3] S Hochreiter and J Schmidhuber, “Long short term memory.” https://doi org/10.1162/neco.1997.9.8.1735, 1997 [4] G Lample, M Ballesteros, S Subramanian, K Kawakami, and C Dyer, “Neural architectures for named entity recognition,” in arXiv :1603.01360v3, 2016 [5] M.-C de Marneffe and C D Manning, “Stanford typed dependencies manual.” https://nlp.stanford.edu/software/dependencies_manual.pdf, 2016 [6] T Dozat, P Qi, and C D Manning, “Stanford’s graph-based neural dependency parser at the conll 2017 shared task,” in Proceedings of the CoNLL 2017 Shared Task, p 20–30, 2017 [7] P Qi, T Dozat, Y Zhang, and C D Manning, “Universal dependency parsing from scratch,” in Proceedings of the CoNLL 2018 Shared Task, 2018 [8] P Langlais, “Alignement de corpus bilingues : intérêts, algorithmes et évaluations,” 1997 [9] S Ozdowska and V Claveau, “Inférence de règles de propagation syntaxique pour l’alignement de mots,” in revue Traitement Automatique des Langues, ATALA, vol 47, pp 167–186, 2006 [10] R Östling and J Tiedemann, “Efficient word alignment with markov chain monte carlo,” in The Prague Bulletin of Mathematical Linguistics, p 125–146, 2016 [11] D Yarowsky and G Ngai, “Inducing multilingual pos taggers and np bracketers via robust projection across aligned corpora,” in Proceedings of NAACL, 2001 [12] A Bordes, N Usunier, and J Weston, “Label ranking under ambiguous supervision for learning semantic correspondences,” in ICML, p 103–110, 2010 39 BIBLIOGRAPHIE [13] P Wang, Y Qian, F K Soong, L He, and H Zhao, “Part-of-speech tagging with bidirectional long short-term memory recurrent neural network,” arXiv :1510.06168v1, 2015 [14] O Tackström, D Das, S Petrov, R McDonald, and J Nivre, “Token and type constraints for cross-lingual part-of-speech tagging,” in Transactions of the Association for Computational Linguistics, p 1–12, 2013 [15] G Wisniewski, N Pécheux, S Gahbiche-Braham, and F Yvon, “Cross-lingual partof-speech tagging through ambiguous learning,” in Conference on Empirical Methods in Natural Language Processing, no hal-01908356, pp 1779 – 1785, Oct 2014 [16] M Wang and C D Manning, “Cross-lingual projected expectation regularization for weakly supervised learning,” in Transactions of the Association for Computational Linguistics, p 55–66, 2014 [17] L R L S e a Ji, B., “Jiang guo and wanxiang che and david yarowsky and haifeng wang and ting liu,” in BMC Medical Informatics and Decision Making, 2019 [18] J Deng, W Dong, R Socher, L.-J Li, K Li, and L Fei-Fei, “ImageNet : A Large-Scale Hierarchical Image Database,” in CVPR, 2009 [19] C lingual Dependency Parsing Based on Distributed Representations, “A hybrid approach for named entity recognition in chinese electronic medical record,” in Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, p 1234–1244, 2015 [20] P D Vo, A Ginsca, H L Borgne, and A Popescu, “Harnessing noisy web images for deep representation,” in Computer Vision and Image Understanding 164, p 68–81, 2017 [21] O Russakovsky, J Deng, H Su, J Krause, S Satheesh, S Ma, Z Huang, A Karpathy, A Khosla, M Bernstein, A C Berg, and L Fei-Fei, “Imagenet large scale visual recognition challenge,” IJCV, vol 115, no 3, pp 211–252, 2015 [22] S Sukhbaatar, J Bruna, M Paluri, L Bourdev, and R Fergus, “Training convolutional networks with noisy labels,” in ICLR, 2015 [23] M Abadi, A Agarwal, P Barham, E Brevdo, Z Chen, C Citro, G S Corrado, A Davis, J Dean, M Devin, S Ghemawat, I Goodfellow, A Harp, G Irving, M Isard, Y Jia, R Jozefowicz, L Kaiser, M Kudlur, J Levenberg, D Mané, R Monga, S Moore, D Murray, C Olah, M Schuster, J Shlens, B Steiner, I Sutskever, K Talwar, P Tucker, V Vanhoucke, V Vasudevan, F Viégas, O Vinyals, P Warden, M Wattenberg, M Wicke, Y Yu, and X Zheng, “TensorFlow : Large-scale machine learning on heterogeneous systems,” 2015 Software available from tensorflow.org [24] T Cour, B Sapp, and B Taskar, “Learning from partial labels,” in Journal of Machine Learning Research 12, vol 47, pp 1501–1536, 2011 40 ... NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL KOUAMEN DJAMFA Mickael Lewis Modélisation des incertitudes d’un corpus d’apprentissage et prise en compte dans le calcul du mod? ?le, application. .. automatiquement Cependant, le processus d’obtention de ces corpus aura entrainé dans ces corpus la présence d? ?incertitudes Les modéliser (les incertitudes) et les prendre en compte dans notre mod? ?le justifie... constitué de deux sous-ensembles E et S représentant respectivement le sous-ensemble des entrées et le sous ensemble des sorties, on pourra considérer e de E et s de S comme les entrées et sorties

Định dạng
Số trang	46
Dung lượng	1,69 MB