1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Vers une grammaire électronique du vietnamien

75 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

INSTITUT DE LA FRANCOPHONIE POUR L’INFORMATIQUE Vers une grammaire ´electronique du vietnamien ´ MEMOIRE pr´esent´ee et soutenue publiquement le 22 d´ecembre 2005 pour l’obtention du DEPA de l’Institut de la Francophonie pour l’Informatique (Sp´ecialit´ Informatique) par LE Hong Phuong Encadrants : Laurent ROMARY Directeur de Recherche INRIA Equipe Langue et Dialogue, LORIA Thi Minh Huyen NGUYEN Equipe Langue et Dialogue, LORIA Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503 Mis en page avec la classe thloria i Remerciements Je tiens tout d’abord remercier Monsieur Laurent ROMARY, Directeur de Recherche INRIA de l’équipe Langue et Dialogue du LORIA, pour m’avoir accueilli au sein de l’équipe en me proposant ce stage Je suis reconnaissant Madame Thi Minh Huyen NGUYEN pour son encadrement, ses bons conseils, son soutien dévoué, sa patience ainsi que sa touche finale apportée ce mémoire Je tiens remercier Madame Isabelle BLANCHARD pour tout ce qu’elle a fait pour préparer mon arrivée et ma vie Nancy Je remercie également toute l’équipe de recherche Langue et Dialogue : chercheurs, enseignants, techniciens, doctorants, post-doctorants qui font du LORIA un environne-ment idéal de travail Je remercie particulièrement Monsieur Azim ROUSSANALY pour ses conseils et sa coopération tout au long du travail J’adresse un grand merci Monsieur Mathias ROSSIGNOL pour sa correction du fran¸cais de ce rapport Enfin, j’exprime mon entière reconnaissance ma famille et mes amis pour leur soutien et leurs encouragements ii Table des matières Table des figures Liste des tableaux Introduction 1.1 Problématique et objectif du stage 1.2 Environnement de travail 1.3 Travaux concernés 1.4 Aper¸cu du mémoire La grammaire d’arbres adjoints 2.1 Système formel 2.1.1 2.1.2 2.1.3 2.1.4 2.1.5 2.1.6 2.2 Usage et motivation 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.3 Aspects informatiques 2.3.1 2.3.2 iii Une grammaire électronique du vietnamien 3.1Principes linguistiques 3.1.1 3.1.2 3.2Catégories et traits utilisés 3.2.1 3.2.2 3.3Familles tête verbale 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 3.3.6 3.3.7 3.3.8 3.3.9 3.3.10 3.3.11 3.3.12 3.3.13 3.4Familles tête adverbiale 3.4.1 3.4.2 3.5Familles des compléments facultatifs du syntagme 3.5.1 3.5.2 3.5.3 3.5.4 3.5.5 3.5.6 Implémentation et traitement informatique 4.1Les choix d’implémentation 4.2Introduction au format TAGML2 iv 4.3Analyse du vietnamien Conclusion et perspectives 5.1 Conclusion 5.2Perspectives Bibliographie v Table des figures 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 Schéma général de l’adjonction Exemples d’arbres initiaux Exemples d’arbres auxiliaires Exemple de substitution Exemple d’adjonction Arbre initial ou arbre auxiliaire Arbre dérivé et dérivations pour verre vin / verre de vin Historique de la dérivation n n n n Grammaire TAG qui engendre a b c d Substitution avec structures de traits Adjonction avec structures de traits Unification des traits Expression des dépendances longue distance Factorisation morpho-syntaxique du système XTAG 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.20 Arbre déclaratif intransitif αnV Arbre déclaratif transitif αn0V n1 Arbre déclaratif avec complément phrastique αn 0V S Arbre ditransitif αn0V n1n2 Arbre ditransitif adposition relative au milieu αn 0V n1On2 Arbre ditransitif adposition relative avant αn 0V On1n2 Arbre impératif complément verbal αn0V n1v Arbre impératif complément adjectival αn0V n1a Arbre auxiliaire de complément de direction βvV Processus d’adjonction d’un complément de mouvement Verbe de déplacement après un syntagme verbal Verbes de déplacement avec complément nominal αn 0V0V1n1 Verbes de mouvement avec complément adjectif αn 0V0AV1 Arbre ditransitif avec un verbe de déplacement αn 0V0n1V1n2 Complément modal αnV v Complément adjectival αn0V a Adverbes gauche du syntagme verbal βRv Adverbes droite du syntagme verbal βvR Complément suffixal avec l’adposition βvOn Complément suffixal sans adposition βvn vi 3.21 3.22 3.23 3.24 3.25 3.26 3.27 3.28 3.29 3.30 3.31 Complément causal est un nom βvC n Complément causal est un syntagme verbal βv1C v2 Complément causal est un syntagme adjectival βvC a Complément causal est une phrase βvC S Complément objectif est un nom βvOn Complément objectif est un verbe avec adposition βv 1Ov2 Complément objectif est un verbe sans adposition βv 1v2 Complément de comparaison est un nom Complément de comparaison est un verbe Complément modal est un adjectif Complément modal est un verbe 4.1 4.2 4.3 4.4 4.5 Le schème d’analyse pour le vietnamien L’affichage d’arbres élémentaires Un résultat d’analyse d’une phrase vietnamienne L’affichage d’arbres de dérivation d’analyse La lexicalisation des arbres élémentaires Liste des tableaux 3.1 Catégories du vietnamien 3.2 Spécifications des catégories du vietnamien 3.3 Traits associés aux nœuds des arbres viii 4.2 Introduction au format TAGML2 51 Précisions sur les balises : peut éventuellement renfermer une liste de balises qui permettent de représenter les structures de traits, possède un attribut, type, qui appartient {top,bot}, l’attribut varname de permet de co-indexer une variable dans une structure de traits En TAGML2, la portée des variables s’étend l’ensemble des traits top et bottom d’un arbre 4.2.4 Les co-ancres Pour illustrer la représentation des co-ancres, nous allons prendre l’exemple des verbes « aller vers »et « aller chez »que nous allons décrire l’aide d’un seul schème S N↓ V ALLER O VERS On note que – le lemme ALLER s’ancre sur le nœud V du schème, – les lemmes VERS et CHEZ peuvent s’ancrer sur le nœud O En TAGML2, on obtient : Chapitre Implémentation et traitement informatique 52 Précisions sur les balises : il n’y as pas formellement de distinction entre ancre et co-ancre en TAGML2, les arbres élémentaires sont construits par combinaison des lemmes () apparaissant dans les balise , les co-ancres VERS et CHEZ ne sont pas forcément présents dans le lexique 4.2.5 Les équations de traits Nous allons montrer l’usage des équations de traits au travers de l’exemple du verbe AIMER Nous cherchons décrire le fait que dans une phrase de type « X aime Y », le sujet X doit posséder le trait [hum=+] S N↓ [HUM +] V N↓ AIMER – on utilise le même principe de référence des nœuds que pour l’ancrage, – on introduit une nouvelle balise qui contient l’association nœud/structure de traits En TAGML2, nous obtenons : 4.2 Introduction au format TAGML2 53 Précisions sur les balises : peut contenir une liste de balises , associe une structure de traits (décrite par la balise interne ) un nœud, ce nœud est référencé par l’attribut noderef, l’attribut type appartient {top, bot} et détermine le type de traits 4.2.6 Les libs Nous appelons lib, une collection d’« objets »TAGML2, comme par exemple des arbres, des structures de traits, des équations de traits Voici un exemple de collection d’arbres : Nous pouvons, de fa¸con équivalente, réécrire les lexicalisations de la manière suivante : Chapitre Implémentation et traitement informatique 54 Précisions sur les balises : peut contenir une liste de balises et est défini au niveau supérieur en TAGML2, chaque item de d’une lib, on affecte un identifiant unique (attribut id), la référence un item particulier s’effectue par l’intermédiaire de son identifiant l’aide de l’attribut copyof, on peut généraliser aux balises suivantes : , , , et 4.2.7 Les familles Formellement, une famille décrit un ensemble d’arbres inclus dans une balise Exemple : EST AIMER En TAGML2, arbres dans une même famille se notent : PAR 4.2 Introduction au format TAGML2 55 Précisions sur les balises : peut contenir une liste de balises , peut-être utilisé la place de pour décrire une lexicalisation mul-tiples d’un lemme l’intérieur d’une balise , peut aussi apparaˆıtre dans une 4.2.8 Les traits d’arbres L’introduction des traits d’arbres constitue un des points importants de TAGML2 L’objectif est de ne pas se limiter une définition en extension d’un ensemble d’arbres élémentaires La solution retenue consiste décrire un ensemble d’arbres élémentaires l’aide d’une structure de traits afin de construire dynamiquement cet ensemble par une opération de filtrage Nous allons traiter les phrases suivantes : – Marie pleure – La machine fonctionne Dans les cas, nous utilisons un verbe avec un argument sujet (n0-V), mais nous exprimons une contrainte supplémentaire sur le sujet ; dans le premier cas, il doit être avoir la propriété humain tandis que dans le second cas, il doit avoir la propriété non humain S S N↓t : [human=+] V PLEURER N↓t : [human=-] V FONCTIONNER Nous associons, globalement et indépendamment de la lexicalisation, une structure de traits chaque schème En TAGML2, cela se traduit comme suit : 56 Chapitre Implémentation et traitement informatique Reste exprimer dans la partie destinée la lexicalisation, le fait que – PLEURER ancre tous les schèmes dont la tête est un verbe qui admet un argument n0 qui possède le trait humain, – FONCTIONNER ancre tous les schèmes dont la tête est un verbe qui admet un argument n0 qui possède le trait non humain En TAGML2, on obtient : 4.3 Analyse du vietnamien 4.3 4.3.1 Analyse du vietnamien Le logiciel LLP2 18 Le logiciel LLP2 est un analyseur LTAG développé au sein de l’équipe Langue et Dialogue depuis 1999 La version actuelle de ce logiciel est 2.0 Cette version de LLP2 contient les éléments suivants : – le parseur LTAG : le logiciel fournit des commandes qui permettent d’utiliser le parseur de manière interactive ou en batch, de manière graphique ou classique Cependant, il est également possible de l’utiliser en tant qu’API Java pour des besoins plus spécifiques – le visualisateur d’arbre (tagviewer) LTAG, qui est une application qui permet d’explorer les arbres élémentaires stockés dans les ressources – l’API graphtag, sur laquelle s’appuie l’application précédente, qui gère l’affichage d’arbres TAG, – l’API tagml2, qui gère les E/S au format TAGML2 pour les ressources lexicales et syntaxiques, – l’API segment, qui gère les E/S au format XML pour le prétraitement des corpus, – l’API Featurestructure, qui gère les structures de traits, – et diverses autres API : gestion des arbres (élémentaires, dérivés, dérivation, .) 4.3.2 Un analyseur LTAG pour le vietnamien Nous avons développé et adapté le logiciel LLP2 pour l’analyse du vietnamien Le survol des développements de LLP2 que nous avons effectués est – Perfectionnement de sur modules principaux du logiciel 19 – Passage de la version 1.0 la version 2.0 de l’API JAXB Ce perfectionnement amène un gain d’efficacité et de rapidité pour le système entier D’autre part, il simplifie la gestion des classes engendrées partir des schémas XSD – Utilisation de l’API FS-ISO pour le traitement des structures des traits Ce développement contient le traitement des plusieurs types des traits : string, number, boolean, date (conformément au standard ISO/DIS 24610-1) La version ancienne de LLP2 a utilisé un seul type sym pour tout les types des traits – Utilisation du codage Unicode UTF-8 Ce perfectionnement permet le logiciel LLP2 d’être utilisé par les autres langues que l’anglais ou le fran¸cais En effet, la version 18 LORIA LTAG Parser – http ://www.loria.fr/ azim/LLP2/help/fr/ 19 Java Architecture for XML Binding – http ://java.sun.com/webservices/jaxb/ 58 Chapitre Implémentation et traitement informatique actuelle de LLP2 que nous avons perfectionné est en cours d’utilisation au LORIA pour le traitement de l’arabe et du coréen En ce qui concerne le traitement du vietnamien, nous avons développé – un segmenteur du texte vietnamien appelé vnTokenizer Ce segmenteur fournit des sorties aux formats diverses pour les exigences spécifiques Le logiciel LLP2 a besoin d’un format XML ; – un module spécifique pour l’intégration de vnTokenizer LLP2 ; – un jeu de phrases de test pour la grammaire Ce jeu contient la fois des phrases grammaticales et des phrases agrammaticales La figure 4.1 présente le schème d’analyse d’une phrase entrée Fig 4.1 – Le schème d’analyse pour le vietnamien Etant donnée une phrase d’entrée : Tout d’abord, un tagger (ou bien un étiqueteur) est utilisé pour segmenter la phrase en unités lexicales et leur associer des catégories morphologiques possibles L’éti-queteur consulte un dictionnaire morphologique La sortie de l’étiqueteur utilise un dictionnaire syntaxique qui contient des arbres élémentaires pour fournir comme l’entrée de l’analyseur L’analyseur analyse les données et donne les résultats d’analyse sous forme d’arbres de dérivation et des arbres dérivés correspondants 4.3 Analyse du vietnamien Un visualisateur d’arbres est utilisé pour afficher des arbres d’analyse Un exemple est présenté sur la figure 4.2 Fig 4.2 – L’affichage d’arbres élémentaires La figure 4.3 présente une capture d’écran d’analyse d’une phrase du jeu des phrases de test : Tôi tặng hoa cho người yêu = J’offre des fleurs mon aimée De plus, les lexicalisations des schèmes peuvent être affichées visuellement pour montrer des traces d’analyse, comme montrées dans la figure 4.5 Nous avons obtenu de bons résultats d’analyse pour la grammaire L’analyseur nous a fourni des analyses désirées : – bonnes analyses pour les phrases grammaticales, – pas d’analyse pour les phrases agrammaticales L’arbre de dérivation correspondant peut être affiché comme celui montré dans la figure 4.4 En conclusion, dans ce chapitre, nous avons précisé une implémentation informatique pour la grammaire vnLTAG en introduisant un analyseur syntaxique pour le vietnamien 60 Chapitre Implémentation et traitement informatique Fig 4.3 – Un résultat d’analyse d’une phrase vietnamienne qui implémente le standard TAGML pour la gestion des ressources linguistiques Le cha-pitre qui suit aborde la conclusion et les perspectives de ce travail 4.3 Analyse du vietnamien Fig 4.4 – L’affichage d’arbres de dérivation d’analyse Fig 4.5 – La lexicalisation des arbres élémentaires Chapitre Conclusion et perspectives 5.1 Conclusion Dans ce rapport, nous avons présenté la première grammaire LTAG pour le vietnamien, appelée vnLTAG, qui a été développée pendant notre stage de recherche au laboratoire LORIA C’est une grammaire électronique qui modélise la compétence écrite du vietna-mien et elle est indépendante du domaine et de l’application La grammaire que nous avons développé implémente, d’une part, le standard interna-tional ISO/DIS 24610-1 pour la représentation des structures de traits et, d’autre part, le standard TAGML Nous avons abordé un schème robuste pour l’analyse du vietnamien en utilisant vnL-TAG Nous avons également implémenté ce schème avec un analyseur pour la grammaire qui est basé sur LLP2, un analyseur syntaxique du LORIA L’implémentation de l’ana-lyseur contient la fois le perfectionnement du logiciel existant et le développement des nouveaux modules et l’intégration nécessaire Afin d’évaluer la grammaire et l’analyseur, nous avons construit un jeu de phrases de test avant d’effectuer des évaluations quantitatives et obtenu ainsi des premiers résultats encourageants 5.2 Perspectives Le traitement automatique en général et l’analyse syntaxique du vietnamien en particulier est toujours un vrai problème qui est très intéressant Il existe encore des problèmes étudier et des travaux faire pour le traitement du vietnamien, et préciser, pour la grammaire vnLTAG et son analyseur Parmi ces problèmes nous pouvons citer les deux axes de recherche les plus importants : Du côté de la grammaire, il reste accomplir : – des recherches approfondies sur les structures argumentales des verbes, des com-pléments circonstanciels et d’autres parties constituantes des phrases ; – la construction du lexique syntaxique pour la grammaire ; – la construction des jeux de phrases de test en parallèle avec celle de la grammaire Ce jeu contient la fois des phrases grammaticales et des phrases agrammaticales 62 5.2 Perspectives Les phrases agrammaticales sont créées partir des phrases grammaticales en effectuant une des quatres opérations de test linguistique : ajout, substitution, suppression et permutation Du côté de l’analyseur, ce sont : – le développement des outils qui ne sont pas actuellement disponibles dans le logi-ciel LLP2, par exemple un désambiguseur morphosyntaxique, un outil qui permet la gestion et l’édition des arbres élémentaires de la grammaire, un outil pour l’évaluation de grammaires ; – l’amélioration des outils qui aident la construction et la modification de la gram-maire TAG Nous souhaitons développer des interfaces en ligne qui permettent aux utilisateurs de contribuer la validation de la grammaire Les aspects exploitables dans ces axes de recherche donnent la motivation l’étudiant de continuer ces travaux par une thèse Bibliographie [1] Abeillé A Une grammaire lexicalisée d’arbres adjoints pour le fran¸cais PhD thesis, Université Paris 7, 1991 [2] Abeillé A Les nouvelles syntaxes Armand Colin, Paris, 1993 [3] Abeillé A Une grammaire électronique du fran¸cais CNRS, Paris, 2002 [4] Joshi A Tree adjoining grammars : How much context sensitivity is required to provide a reasonable structural description In Natural Language Parsing, pages 206–250 Cambridge University Press, 1985 [5] Joshi A and Schabes Y., editors Handbook of Formal Languages, chapter Tree Adjoining Grammar Springer Verlag, Berlin, 1997 [6] Kroch A and Joshi A The linguistic relevance of tree adjoining grammars Technical report, University of Pennsylvania, 1985 [7] Sarkar A Practical experiments in parsing using tree adjoining grammars In Proceedings of the Fifth Workshop on Tree Adjoining Grammars, TAG+5, Paris, 2000 [8] Kinyon A Abeillé A., Candito M Ftag : Current status and parsing scheme In VEXTAL’99, Venezia, San Servolo, V.I.U, 11 1999 [9] Uy ban Khoa hoc Xa hoi Viet Nam Vietnamese Grammar NXB Khoa hoc Xa hoi, Hanoi, Vietnam, 1983 [10] Boullier Supertagging : A non-statistical parsing-based approach In Proceedings IWPT 2003, Nancy, France, 2003 [11] Roussanaly A Crabbé B., Gaiffe B Représentation et gestion du lexique d’une grammaire d’arbres adjoints Traitement Automatique des Langues, 43, 2004 [12] Villemonte de la Clergerie Automates piles et Programmation dynamique DyALog : une application la programmation en logique PhD thesis, Université Paris 7, 1993 [13] Hoang V.T Diep Q.B Vietnamese Grammar, volume 1, NXB Giao duc, Hanoi, Vietnam, 1999 [14] Butt Miriam et al The parallel grammar project In Proceedings of COLING2002 Workshop on Grammar Engineering and Evaluation, 2002 [15] Christoper D Manning et al Lingo redwoods : A rich and dynamic treebank for hpsg In In Proceedings of The First Workshop on Treebanks and Linguistic Theories (TLT2002), Sozopol, Bulgaria, 2002 64 65 [16] XTAG Research Group A lexicalized tree adjoining grammars for english Tech- nical Report IRCS-01-03, IRCS, University of Pennsylvania, 2001 Availble at http ://www.cis.upenn.edu/ xtag/gramrelease.html [17] E Briscoe Grover C., J Carroll The alvey natural language tools grammar (4th release) Technical report, Computer Laboratory, Cambridge University, UK, 1993 [18] Ullman J D Hopcroft J E., Motwani R Introduction to Automata Theory, Lan- guages and Computation Addison-Wesley, Stanford CA, 2001 [19] Takahashi M Joshi A., Levy L Tree adjunct grammars Journal of the Computer and System Sciences, 10 :136–163, 1975 [20] Vijay-Shanker K and Joshi A Feature-structure based tree adjoining grammar In Proceedings of COLLING 12, volume 2, pages 714–719, Budapest, 1988 [21] Nguyen T.B Nguyen T.M.H., Romary L and Vu X.L Lexical descriptions for viet- namese language processing In ALR–04, Workshop on Asian Language Resources, Hainan, China, 2004 [22] Vu X.L Nguyen T.M.H., Romary L Une étude de cas pour l’étiquettage morpho- syntaxique de textes vietnamiens In TALN 2003, Batz-sur-Mer, France, 2003 [23] Shieber S and Schabes Y Synchronous tree adjoining grammars In Proceedings of COLLING 13, volume 3, pages 253–260, Helsinki, 1988 [24] Joshi A Schabes Y., Abeillé A Parsing strategies with lexicalized grammars : Tree adjoining grammars In Proceedings of COLLING 12, volume 2, pages 578–583, Budapest, 1988 [25] Pereira Fernando C N Shieber Stuart M., Schabes Yves Principles and implementa-tion of deductive parsing Journal of Logic Programming, 24(1–2) : 3–36, July-August 1995 [26] Schabes Y and Water R C Tree insertion grammar : A cubic-time, parsable for- malism that lexicalizes context-free grammar without changing the trees produced Computational Linguistics, 21, 1995 [27] Schabes Y and Shieber S An alternative conception of tree-adjoining derivation Computational Linguistics, 20 :91–124, 1994 ... mémoire Ce mémoire est divisé en quatre chapitres : une introduction générale, une introduc-tion la grammaire d’arbres adjoints, une proposition et une implémentation de cette proposition Le premier... caractéris-tique des grammaires hors contexte De plus, comme on l’a vu en section précédente, une grammaire TAG permet d’exprimer une grammaire fortement lexicalisée équivalente une grammaire hors... 2.2.2 Domaine de localité étendu Dans une grammaire hors contexte, le domaine de localité est un arbre de profondeur correspondant une règle de la grammaire On dit d? ?une grammaire d’arbres adjoints

Ngày đăng: 30/10/2020, 21:17

Xem thêm:

TỪ KHÓA LIÊN QUAN

w