Vers une plate forme dannotations sémantiques automatiques à partir de documents multimédias

Vers une plate-forme d'annotations sémantiques automatiques partir de documents multimédias Mémoire de fin d'études Master d'Informatique Etudiant : Minh-Tuan NGUYEN Superviseurs : Hacène Cherfi Khaled Khelif Rose-Dieng Kuntz Sophia Antipolis, Septembre 2007 TABLES DES MATIÈRES I Introduction II Intégration des outils linguistiques 1.Plate-forme de Gate 2.Acabit 3.Fastr 4.implantation 11 III Annotation sémantique automatique des textes 15 1.Introduction .15 2.Travaux similaires .17 a)Détection des concepts et reconnaissance des instances 17 b)Détection des relations 18 3.Détection des concepts 19 a)Objectif 19 b)Difficultés 19 c)Description de l'algorithme général 21 4.Reconnaissance des instances 21 a)Objectif 21 b)Difficultés 22 5.Détection des relations 22 a)Objectif 22 b)Difficultés 22 c)Description de l'algorithme général 23 6.Reconnaissance des triplets 23 a)Objectif 23 b)Algorithme général 24 c)Difficultés 24 7.Implantation 25 a)Travaux faire 25 b)RASP Parseur 26 c)Algorithme 27 d)Conception 28 e)Résultat 30 IV Annotation sémantique automatique des textes associés une image .33 1.Introduction .33 2.Sémantique d'une image 34 3.Algorithme 37 a)Modèle général .37 b)Algorithme général 38 c)Le meilleur triplet 38 d)Condition d'arrêt 42 e)Exemple 43 V Conclusion et perspective 46 VI Référence 48 VII Annexe 50 REMERCIEMENTS C'est un grand plaisir pour moi de remercier tous les personnes qui ont permis ce travail d'être ce qu'il est Je remercie tout d'abord M Hacène CHERFI de m'avoir bien dirigé avec une grande chaleur de pas en pas toute la durée du stage, je ne peux rien accomplir sans vous Je remercie Mme Rose DIENG-KUNTZ, Directrice de recherches INRIA pour m'avoir choisir et surtout pour nos discussions enflammées qui me donne beaucoup de connaissances intéressantes Je n'oublie jamais votre sourire dans la première fois nous nous rencontrons Je remercie M Khaled KHELIF qui m'a aidé dans les premiers pas de mon stage ainsi que dans les moments où je dois faire face des problèmes difficiles Je remercie tous les membres du groupe EdelWeisse : Priscile, Virginie, Noureddine, Mohamed, Alain, Olivier de votre accueil ainsi que de m'avoir aidé lorsque j'ai besoin J'ai également apprécié la région Alpes Cơte d'Azur ó il y a beaucoup de paysages très très beau que je n'ai jamais vu dans ma vie Mémoire de fin d'études NGUYEN Minh-Tuan I Introduction Le Web actuel ne dispose pas d'outils pour décrire et structurer ses ressources de manière satisfaisante afin de permettre un accès pertinent l'information Tim Bernes-Lee a proposé d'étendre le web actuel vers un web où l'information possédera un sens bien défini permettent ainsi aux applications d'exploiter directement la sémantique des ressources et de coopérer avec l'utilisateur afin de lui faciliter ses tâches (recherche, commerce électronique ) Ce futur web baptisé web sémantique a été défini comme un « web intelligent » ó les informations stockées dans les machines seraient en plus comprises par ses dernières afin de répondre efficacement aux requêtes lancées par les utilisateurs Pour exploiter directement la sémantique des ressources du web, il faut une représentation de la sémantique La représentation par graphe est maintenant focalisé dans le domaine de Web Sémantique C'est-à-dire, chaque document est représenté par un graphe, en suite, les manipulations et exploitations sont fait sur ces graphes Maintenant, le problème d'annotations sémantiques automatiques (transformation de document au sa représentation sémantique) est toujours comlexe Et les travaux du stage font partie des efforts pour une plate-forme d'annotations sémantiques automatiques, la plate forme SemAnnot Pour l'instance, les graphes générés ont besoin d'être vérifiés par des experts Ce n'est pas vraiment automatique Dans le cadre du stage, les travaux se composent de trois parties principales :  Intégration des outils linguistiques : dans cette partie, nous allons créer deux Wrappers pour deux outils existants, Acabit [Acabit-URL] et Fastr [Fastr-URL], suivant l'approche de Gate Ces deux Wrappers doivent être intégrés dans la plate-forme de Gate  Annotations sémantiques automatiques des textes : dans la deuxième partie du stage, dans le projet SevenPro nous implémentons deux modules: reconnaissance des instances et reconnaissance des triplets suivant une approche syntaxique  Annotation sémantique automatique des textes associés une image : le travail de cette partie est de chercher une solution d'annotations sémantiques automatiques des textes associés une image -5- Mémoire de fin d'études NGUYEN Minh-Tuan II Intégration des outils linguistiques Pour une plate-forme comme « SemAnnot », la réutilisation des outils linguistiques est très importante Maintenant, il y a beaucoup d'outils linguistiques existants, et nous allons gagner beaucoup de temps si nous réutilisons ces outils Heureusement, Gate[Gate-URL] nous donne une approche qui nous permet d'intégrer des outils un système en Java Pour comprendre ces intégrations, nous avons besoin d'étudier ces outils ainsi que la plateforme de Gate Plate-forme de Gate Selon [Khaled-2006], Gate est une plate-forme d'ingénierie linguistique qui repose sur l'application successive de transducteurs aux textes Conformément aux termes employés par ses concepteurs, nous parlons ici des ressources de traitement (Processing Ressources : PR) Ces ressources de traitement utilisent le texte modifié par les ressources précédemment appliquées pour ajouter de la structure au texte Les ressources de traitement les plus courantes sont les segmenteurs (Tokenizers1), les analyseurs morpho-syntaxique (POS Tagger2), les transducteurs (JAPE transducers), et les patrons d'extractions (Templates) Ils sont appliqués au texte au sein d'une cascade (chaine de traitement ou pipeline) A côté de ces ressources de traitement qui sont déjà intégrées dans la plate-forme de Gate, il est possible d'intégrer d'autres outils existantes aux pipelines même si ces outils ne sont pas en Java qui est le langage de programmation pour Gate Cette intégration se fait par Wrappers Pour l'intégration des outils qui utilisent des formats de sorties et d'entrées différents, Gate propose un format commun basé sur XML pour tout pipeline, les entrées et sorties de tous les modules qui font partie un pipeline doivent être transformés au format XML C'est la structure pivot Nous présentons ci-après le schéma de la structure pivot utilisé par Gate, un exemple réel de la structure est présenté dans la partie Annexe du rapport A Tokenizer est un module de traitement de texte qui identifie chaque token d'un langage avec sa label correspondant [Magnini-2003] A POS-Tagger est un module de traitement de texte qui donne un POS (Part of Speech) chaque mots d'un langue dans une phrase concrète -6- Mémoire de fin d'études NGUYEN Minh-Tuan MimeType text/plain gate.SourceURL file:/G:/tmp/example.txt A TEENAGER yesterday accused his parents of cruelty by feeding him a daily diet of chips which sent his weight ballooning to 22st at the age of l2. rule2 DateOnlyFinal rule1 GazDateWords kind date kind internal majorType date_key Exemple Une exemple de structure pivot XML de Gate En utilisant la structure pivot, Gate peut coordonner de faỗon automatique plusieurs outils existants qui sont écrits par des langages différents Dans cette partie, nous créons deux Wrapper pour deux outils existants (Acabit et Fastr) La mission principale est de transformer leur sortie au structure pivot de Gate ci-dessus -7- Mémoire de fin d'études NGUYEN Minh-Tuan Acabit Acabit est un outil linguistique qui détecte des termes partir d'un texte Son approche de la détection des termes est basée sur la découverte, la structuration et l'inférence les relations conceptuelles entre les termes [Daille-2003] Pour une SemAnnot, Acabit aide proposer de nouveaux termes partir de corpus Pour fonctionner correctement, Acabit pour l'anglais a besoin du POS Tagger Brill et d'un Lemmatiseur3 De plus, ce lemmatiseur a besoin d'une base de données qui est générée depuis CELEX et la base de données de Brill Le figure suivante montre la chne de traitement de Acabit, de l'entrée la sortie Prétraitement POS Tagger Brill Acabit Lemmatiseur Sortie XML li r e Texte d'entrée li r e Base de données de POS Tagger Brill combiner Base de données du Lemmatiseur Base de données de CELEX Figure 1: Chne de traitement d'Acabit Pour la sortie, Acabit retourne une liste des candidat-termes sous forme XML local nature large amount Lemmatiseur est un module de traitement de texte qui détecte le lemma pour retrouver le mot original partir leurs variantes, ex : lemma de « suis » est « être » [Magnini-2002] -8- Mémoire de fin d'études NGUYEN Minh-Tuan specific domain Exemple Une sortie sous structure XML de Acabit Des termes proposés sont claire dans la liste ci-dessus, il y a trois termes proposés : local nature, large amount et specific domain Nous introduisons ensuite le Fastr, l'outil deuxième Fastr Fastr [Fastr-URL] est aussi un outils linguistiques qui détecte des termes et reconnt leurs variantes Pour fonctionner, Fastr utilise TreeTagger [Schmid-1994] comme un POS Tagger et un Lemmatiseur La détection des termes et reconnaissance des variantes de terme a besoin deux base de données : CELEX [CELEX-URL] et WordNet 1.6 [WordNet-URL] Fastr dispose de deux modes de travail :  controlled-indexing : l'entrée se compose d'un corpus et d'une liste des termes  free-indexing : l'entrée est seulement un corpus, les termes seront proposés partir de ce corpus C'est le mode que nous utilisons -9- Mémoire de fin d'études NGUYEN Minh-Tuan appel TreeTagger Fastr Texte d'entrée Sortie e li r e lir base de l iens sémantiques base de lie ns morphologiques générer générer Wordnet 1.6 CELEX Figure 2: Modèle de travail de Fastr Voici ci-dessous, une résultat réel en sortie de Fastr : Since large amounts of textual and terminological data must be , we a partial analysis of multi-domain documents to an in-depth understanding to a specific domain 000001 large amount 000001 terminological datum large amounts 000001 partial analysis 000001 multi-domain document multi-domain documents 000001 in-depth understanding in-depth understanding 000001 specific domain terminological data partial analysis 0 specific domain 0 Because of their local nature ( they not entire sentences ) and because of their high information content , terms are privileged keys for information description and , therefore , term extraction is an unavoidable preliminary phase to document indexing 000002 local nature local nature 000002 entire sentence 000002 information description 000002 information content 000002 high information 000002 term extraction 000002 privileged key 000002 preliminary phase 000002 document indexing entire sentences information description information content high information term extraction privileged keys 0 0 preliminary phase document indexing 0 Exemple : Une résultat réel en sortie de Fastr -10- Mémoire de fin d'études NGUYEN Minh-Tuan Input : − T cur : current set of triples in which we search the best triple − G : the current graph to which we will add more triple Output : − bestTriple : the best triple in T cur ALGORITHM bestTriple = null ; bestSim = ; for each t ∈T cur { Gtmp = G∪{t } ; sim = sim V Gtmp , V D  ; if  sim  bestSim { bestTriple = t ; bestSim = sim ; } } return bestTriple ; Algorithme 5: Algorithme du choix du meilleur triplet La création de deux vecteurs VGtmp et VD est déjà abordée dans les deux sections ci-dessus Pour calculer la similarité entre VGtmp et VD, il y a plusieurs choix : Cosin, distance d'Euclide, Khi2 Comme le nombre de dimensions de ces deux vecteurs est différent, donc il faut les faire correspondre avant d'appliquer ces formules A partir de la création de ces deux vecteurs, chaque dimension correspond un couple : AR ou RB Ces couples sont utilisés pour faire correspondre ces deux vecteurs, et ces deux ensembles T et G0 (8) sont aussi utilisés pour savoir le nombre de dimensions des vecteurs après la correspondance Par exemple : Deux ensembles T et G0 son définis dans la section Algorithme général -41- Mémoire de fin d'études NGUYEN Minh-Tuan Soit TUG0= {A1-R1-C1, B1-R1-C1} => il existe dimensions : A1-R1, B1-R1 et R1-C1 Vecteur VD Au début : Vecteur VGtmp A1-R1 B1-R1 B1-R2 R1-C1 R2-C1 1/6 1/6 1/6 1/3 B1-R1 R1-C1 1/4 1/6 Vecteur VD Après correspondance : Vecteur VGtmp A1-R1 B1-R1 R1-C1 1/6 1/6 1/2 A1-R1 B1-R1 R1-C1 1/3 1/4 1/2 Après avoir fait correspondance, nous pouvons appliquer les formules du calcul de la similarité pour ces deux vecteurs d) Condition d'arrêt Il y a aussi plusieurs manières de définir une condition d'arrêt pour cet algorithme Mais, il faut des tests pour savoir laquelle est bonne Dans cette partie nous proposons une condition : nous nous arrêtons lorsque tous les concepts et relations détectés sont utilisés par les triplets du graphe G(9) − C : set of found concepts which are returned by the step Detection of Concepts − R : set of found relations which are returned by the step Detection of Relations C U = { c | c ∈C ; ∃a ∈C , r ∈ R : a∈domain of r ∧ c∈range of r  ∨ ∃b ∈C , r ∈ R : c∈domain of r ∧ b∈range of r } ; RU = { r | r ∈R ; ∃a , b∈C : a∈domain of r ∧ b ∈range of r } ; − G : graph representing signification of the image C G = { a | ∃arx ∈G ∨∃ xra ∈G} ; RG = {r | ∃ xry ∈G }; STOP CONDITION : C G = C U  ∧  RG = RU  Le graphe G est défini dans la section Algorithme général -42- Mémoire de fin d'études NGUYEN Minh-Tuan e) Exemple Soit une Ontologie comme la suivante : Man, Car Man ain m m have n repair n ran ge Man, Car, Door, Baggage ge Car, Door, Baggage Man, Car ain m carry ng e Door, Baggage Dans le domaine correspondant, il y a déjà trois documents annotés comme les suivantes : Document Man repair Car Man have Car Car have Door Document Car carry Baggage Man repair Car Document Man carry Baggage Man repair Baggage Man have Baggage A partir de ces trois documents, nous pouvons calculer la fonction fo et aussi le vecteur du domaine -43- Mémoire de fin d'études NGUYEN Minh-Tuan fo(Man, repair) = fo(Man, have) = fo(Man, carry) = fo(Car, carry) = fo(Car, have) = Val(Man-repair) = 3/16 Val(Man-have) = 2/16 Val(Man-carry) = 1/16 Val(Car-carry) = 1/16 Val(Car-have) = 1/16 Val(have-Car) = 1/16 Val(have-Man) = fo(repair, Car) = fo(repair, Baggage) = fo(have, Car) = fo(have, Baggage) = fo(have, Door) = fo(carry, Baggage) = fo(other) = Abbrev : Mn = Man Ca = Car Dr = Door Bg = Baggage hv = have rp = repair crr = carry Vecteur du domaine VD Mn-hv Ca-hv 2/16 1/16 hv-Ca hv-Dr hv-Bg hv-Mn Mn-rp rp-Ca rp-Dr rp-Bg 1/16 1/16 1/16 3/16 2/16 1/16 Mn-crr Ca-crr 1/16 1/16 crr-Dr crr-Bg 2/16 C = {Man, Car, Baggage} R = {have, carry, repair} G0 = {Man-have-Car} A partir de R, C et G0 nous avons l'ensemble T comme le suivant : T = {Man-have-Man, Man-have-Baggage, Man-carry-Baggage, Car-carry-Baggage, Man-repair-car, Man-repair-Baggage} Nous présentons ci-dessous les calculs pour proposer des meilleurs triplets Pour calculer la similarité entre deux vecteurs, nous utilisons Cosin Itération : t = Man−have −Man => Gtmp = { Man−have−Car , Man−have−Man } Mn−hv hv−Mn hv−Ca => V Gtmp = , , => simV Gtmp ,V D =0.400 /4 1/4 1/ [ ] -44- Mémoire de fin d'études NGUYEN Minh-Tuan t = Man−have −Baggage => Gtmp = { Man−have−Car , Man−have−Baggage } Mn−hv hv−Bg hv−Ca => V Gtmp = , , => sim V Gtmp , V D =0.480 2/ 1/ 1/4 [ t = Man−carry−Baggage => Mn−hv => V Gtmp = 1/4 [ ] Gtmp = { Man−have−Car , Man−carry−Baggage } Mn−cr hv−Ca hv−Bg , , , => simV Gtmp ,V D =0.490 1/ 1/4 /4 ] t = Car −carry−Baggage => Gtmp = { Man−have−Car , Car−carry− Baggage } Mn−hv Ca−cr hv −Ca cr −Bg => V Gtmp = , , , => sim V Gtmp , V D =0.490 /4 1/4 1/4 1/4 [ ] t = Man−repair −Car => Gtmp = { Man−have−Car , Man−repair−Car } Mn−hv Mn−rp hv −Ca rp−Ca => V Gtmp = , , , => simV Gtmp ,V D =0.789 1/4 1/ 1/4 1/4 [ ] t = Man−repair −Baggage => Gtmp = { Man−have−Car , Man−repair −Baggage } Mn−hv Mn−rp hv −Ca rp−Bg => V Gtmp = , , , => sim V Gtmp , V D =0.703 1/4 1/ 1/4 1/4 [ ] Nous obtenons : bestTriple = Man-repair-Car stopCondition = false => nous continuons Le graphe après l'itération : G = {Man-have-Car, Man-repair-Car} Itération : t = Man−have −Man => Gtmp = { Man−have−Car , Man−repair −Car , Man−have−Man } Mn−hv Mn−rp hv −Ca rp−Ca hv −Mn => V Gtmp = , , , , => sim V Gtmp , V D =0.693 2/ 1/6 1/6 1/ 1/6 [ ] -45- Mémoire de fin d'études NGUYEN Minh-Tuan t = Man−have −Baggage => Gtmp = { Man−have−Car , Man−repair −Car , Man−have−Baggage } Mn−hv Mn−rp hv −Ca rp−Ca hv −Bg => V Gtmp = , , , , => sim V Gtmp , V D =0.763 2/6 1/6 1/6 1/6 1/6 [ ] t = Man−carry−Baggage => Gtmp = { Man−have−Car , Man−repair−Car , Man−carry− Baggage } Mn−hv Mn−rp Mn−cr hv−Ca rp−Ca cr −Bg => V Gtmp = , , , , , => simV Gtmp ,V D =0.880 1/6 /6 1/6 /6 1/6 1/6 [ ] t = Car −carry−Baggage => Gtmp = { Man−have−Car , Man−repair −Car , Car−carry−Baggage } Mn−hv Mn−rp Ca−cr hv−Ca rp−Ca cr −Bg => V Gtmp = , , , , , => simV Gtmp ,V D =0.880 1/6 /6 1/6 /6 1/6 1/6 [ ] t = Man−repair −Baggage => Gtmp = { Man−have−Car , Man−repair −Car , Man−repair− Baggage } Mn−hv Mn−rp hv −Ca rp−Ca rp− Bg => V Gtmp = , , , , => sim V Gtmp ,V D =0.850 1/6 /6 1/6 1/6 1/6 [ ] Nous obtenons : bestTriple = Man-carry-Baggage stopCondition = true => arrêt Le graphe en fin : G = {Man-have-Car, Man-repair-Car, Man-carry-Baggage} Le résultat montre que l'algorithme est logique, les triplets le plus pertinents par rapport aux documents existants du domaine sont rajoutés au graphe G Aussi dans cet exemple, le triplet Man-Carry_Baggage n'est pas choisi, il est bien possible que il corresponde ce que l'auteur veut exprimer C'est normal si le rappel est de l'inférieur 100% et il faut des tests sur données réelles pour modifier la condition d'arrêt, ainsi que la fonction getTheBestTriple V Conclusion et perspective Dans le cadre du stage, nous avons intégré avec succès deux Wrappers de deux outils linguistiques la plateforme de Gate sur laquelle notre plateforme base Ce sont deux outils complexes parce qu'ils appellent aussi d'autres outils existants (Brille, Lemmatiseur, TreeTagger) ainsi que d'autres bases de données différences (WordNet1.6, CELEX) -46- Mémoire de fin d'études NGUYEN Minh-Tuan Pour le problème d'annotation sémantique automatique, nous avons testé avec le succès une solution suivant l'approche syntaxique en utilisant RASP dans SevenPro, dans lequel le stagiaire fait partie deux modules : reconnaissance des instances et vérification des triplets Et nous avons aussi généralisé la solution pour faciliter la recherche d'une amélioration Et dans la dernière partie, nous avons proposé une solution basée sur des calculs statistiques pour le problème d'annotation sémantique automatique des textes associés une image Maintenant, il faut des tests pour affirmer cette solution, mais il semble qu'elle soit une nouvelle approche pour le problème d'annotation sémantique automatique, et elle soit applicable des phrases incomplètes À l'avenir, nous allons résoudre le problème d'annotation sémantique automatique dans le cas général, c'est-à-dire, les sous-problèmes difficiles montrés seront résolu : – Ambiguïté sémantique – Reprise anaphore – Concept caché – Phrase incomplète -47- Mémoire de fin d'études NGUYEN Minh-Tuan VI Référence [Briscoe-2006] Ted Briscoe, John Carrollz, Rebecca Watsonyr : The Second Release of the RASP System, Proceedings of the COLING/ACL 2006 Interactive Presentation Sessions, pages 77–80, Syned July 2006 [Briscoe et Carroll-2002] John Carroll, Ted Briscoe : High Precision Extraction of Grammatical Relations, In Proceedings of the 19th International Conference on Computational Linguistics, Taipei, Taiwan [Bechhofer-2001] S.Bechhoder, C.Goble, Towards annotation using DAML+OIL, in: Proceedings of the Workshop on Semantic Markup and Annotation at st International Conference on Knowledge Capture (K-CAP 2001), Victoria, B.C., Canada [Ciravegna-2002] F Ciravegna, A Dingli, D Petrelli, Y Wilks, User-system cooperation in document annotation based on information, in : Proceedings of the 13th International Conference on Knowledge Engineering and KM (EKAW02), 14 October 2002, Sigăuenza, Spain, 2002 [Ciravegna-2004] F Ciravegna, S Chapman, A Dingli, Y Wilks, Learning to harvest information for the Semantic Web, in: Proceedings of the 1st European Semantic Web Symposium, May 10–12, 2004, Heraklion, Greece, 2004 [Cimiano-2003] P.Cimiano, F.Ciravera, J.Dominigue, S.Handschuh, A.Lavelli, S.Staab, M.Stevension, Requirements for Information Extraction for Knowledge Management, in: Proceedings of the KM and Semantic Annotation Workshop at 2nd International Conference on Knowledge Capture (KCAP-2003), 2003 [Daille-2003] Beatrice Daille, Conceptual Structuring through Term Variations, 2003 [Khelif-2006] Mohamed Khaled Khelif, Web Sémantique et mémoire d'expériences pour l'analyse du transcriptome, thesis, 2006 [Magnini-2003] Bernardo Magnini, Luciano Serafini,Manuela Speranza : Using NLP Techniquesfor Meaning Negotiation, ICTirst 2002 [Schmid-1994] Helmut Schmid: Probabilistic Part-of-Speech Tagging Using Decision Trees, in Proceeding of the International Conference on New Methode in Language Processing, 1994 [Uren-2006] Victoria Uren, Philipp Cimiano, Jose Iria, Siegfried Handschuh, Maria VargasVera, Enrico Motta, Fabio Ciravegna, Semantic annotation for knowledge management: Requirements and a survey of the state of the art, in : Journal of Semantic Web 2006 [Acabit-URL] http://www.sciences.univ-nantes.fr/info/perso/permanents/daille/acabit.html -48- Mémoire de fin d'études NGUYEN Minh-Tuan [Fastr-URL] http://www.limsi.fr/Individu/jacquemi/FASTR/ [Gate-URL] http://gate.ac.uk/ [CELEX-URL] http://www.ru.nl/celex/ [RASP-URL] http://www.informatics.sussex.ac.uk/research/groups/nlp/rasp/ [WordNet-URL] http://wordnet.princeton.edu/ [SevenPro-Homepage] http://www.sevenpro.org/ -49- Mémoire de fin d'études NGUYEN Minh-Tuan VII Annexe Structure pivot de Gate kind space length 1 string kind space length 1 string string to kind word length 2 orth lowercase kind space length 1 string -51- Mémoire de fin d'études NGUYEN Minh-Tuan kind punctuation length 1 string . string statistical kind word length 11 orth lowercase string is kind word length 2 orth lowercase kind space length 1 string -52- Mémoire de fin d'études NGUYEN Minh-Tuan kind internal string categories kind word length 10 orth lowercase kind space length 1 string string assign kind word length 6 orth lowercase string used kind word length -53- Mémoire de fin d'études NGUYEN Minh-Tuan 4 orth lowercase kind control length 1 string kind space length 1 string string A kind word length 1 orth upperInitial kind space length 1 -54- Mémoire de fin d'études NGUYEN Minh-Tuan string Variant grammatical categories NoSentence 1 Origin grammar category Variation XX,43,NtoA kind space length 1 string string model kind word length 5 orth lowercase -55- ... serialized nodes > A statistical model is used... normalement une instance est une chne de caractères 2) À partir des concepts et des relations, nous cherchons les triplets qui correspondent au « sens » de la phrase 3) À partir des triplets trouvés,... to assign grammatical categories.