Vers une plate forme dannotations sémantiques automatiques à partir de documents multimédias

Vers une plate-forme d'annotations sộmantiques automatiques partir de documents multimộdias Mộmoire de fin d'ộtudes Master d'Informatique Etudiant : Minh-Tuan NGUYEN Superviseurs : Hacốne Cherfi Khaled Khelif Rose-Dieng Kuntz Sophia Antipolis, Septembre 2007 TABLES DES MATIẩRES I Introduction II Intộgration des outils linguistiques 1.Plate-forme de Gate 2.Acabit 3.Fastr 4.implantation 11 III Annotation sộmantique automatique des textes 15 1.Introduction .15 2.Travaux similaires .17 a)Dộtection des concepts et reconnaissance des instances 17 b)Dộtection des relations 18 3.Dộtection des concepts 19 a)Objectif 19 b)Difficultộs 19 c)Description de l'algorithme gộnộral 21 4.Reconnaissance des instances 21 a)Objectif 21 b)Difficultộs 22 5.Dộtection des relations 22 a)Objectif 22 b)Difficultộs 22 c)Description de l'algorithme gộnộral 23 6.Reconnaissance des triplets 23 a)Objectif 23 b)Algorithme gộnộral 24 c)Difficultộs 24 7.Implantation 25 a)Travaux faire 25 b)RASP Parseur 26 c)Algorithme 27 d)Conception 28 e)Rộsultat 30 IV Annotation sộmantique automatique des textes associộs une image .33 1.Introduction .33 2.Sộmantique d'une image 34 3.Algorithme 37 a)Modốle gộnộral .37 b)Algorithme gộnộral 38 c)Le meilleur triplet 38 d)Condition d'arrờt 42 e)Exemple 43 V Conclusion et perspective 46 VI Rộfộrence 48 VII Annexe 50 REMERCIEMENTS C'est un grand plaisir pour moi de remercier tous les personnes qui ont permis ce travail d'ờtre ce qu'il est Je remercie tout d'abord M Hacốne CHERFI de m'avoir bien dirigộ avec une grande chaleur de pas en pas toute la durộe du stage, je ne peux rien accomplir sans vous Je remercie Mme Rose DIENG-KUNTZ, Directrice de recherches INRIA pour m'avoir choisir et surtout pour nos discussions enflammộes qui me donne beaucoup de connaissances intộressantes Je n'oublie jamais votre sourire dans la premiốre fois nous nous rencontrons Je remercie M Khaled KHELIF qui m'a aidộ dans les premiers pas de mon stage ainsi que dans les moments oự je dois faire face des problốmes difficiles Je remercie tous les membres du groupe EdelWeisse : Priscile, Virginie, Noureddine, Mohamed, Alain, Olivier de votre accueil ainsi que de m'avoir aidộ lorsque j'ai besoin J'ai ộgalement apprộciộ la rộgion Alpes Cụte d'Azur oự il y a beaucoup de paysages trốs trốs beau que je n'ai jamais vu dans ma vie Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan I Introduction Le Web actuel ne dispose pas d'outils pour dộcrire et structurer ses ressources de maniốre satisfaisante afin de permettre un accốs pertinent l'information Tim Bernes-Lee a proposộ d'ộtendre le web actuel vers un web oự l'information possộdera un sens bien dộfini permettent ainsi aux applications d'exploiter directement la sộmantique des ressources et de coopộrer avec l'utilisateur afin de lui faciliter ses tõches (recherche, commerce ộlectronique ) Ce futur web baptisộ web sộmantique a ộtộ dộfini comme un ô web intelligent ằ oự les informations stockộes dans les machines seraient en plus comprises par ses derniốres afin de rộpondre efficacement aux requờtes lancộes par les utilisateurs Pour exploiter directement la sộmantique des ressources du web, il faut une reprộsentation de la sộmantique La reprộsentation par graphe est maintenant focalisộ dans le domaine de Web Sộmantique C'est--dire, chaque document est reprộsentộ par un graphe, en suite, les manipulations et exploitations sont fait sur ces graphes Maintenant, le problốme d'annotations sộmantiques automatiques (transformation de document au sa reprộsentation sộmantique) est toujours comlexe Et les travaux du stage font partie des efforts pour une plate-forme d'annotations sộmantiques automatiques, la plate forme SemAnnot Pour l'instance, les graphes gộnộrộs ont besoin d'ờtre vộrifiộs par des experts Ce n'est pas vraiment automatique Dans le cadre du stage, les travaux se composent de trois parties principales : Intộgration des outils linguistiques : dans cette partie, nous allons crộer deux Wrappers pour deux outils existants, Acabit [Acabit-URL] et Fastr [Fastr-URL], suivant l'approche de Gate Ces deux Wrappers doivent ờtre intộgrộs dans la plate-forme de Gate Annotations sộmantiques automatiques des textes : dans la deuxiốme partie du stage, dans le projet SevenPro nous implộmentons deux modules: reconnaissance des instances et reconnaissance des triplets suivant une approche syntaxique Annotation sộmantique automatique des textes associộs une image : le travail de cette partie est de chercher une solution d'annotations sộmantiques automatiques des textes associộs une image -5- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan II Intộgration des outils linguistiques Pour une plate-forme comme ô SemAnnot ằ, la rộutilisation des outils linguistiques est trốs importante Maintenant, il y a beaucoup d'outils linguistiques existants, et nous allons gagner beaucoup de temps si nous rộutilisons ces outils Heureusement, Gate[Gate-URL] nous donne une approche qui nous permet d'intộgrer des outils un systốme en Java Pour comprendre ces intộgrations, nous avons besoin d'ộtudier ces outils ainsi que la plateforme de Gate Plate-forme de Gate Selon [Khaled-2006], Gate est une plate-forme d'ingộnierie linguistique qui repose sur l'application successive de transducteurs aux textes Conformộment aux termes employộs par ses concepteurs, nous parlons ici des ressources de traitement (Processing Ressources : PR) Ces ressources de traitement utilisent le texte modifiộ par les ressources prộcộdemment appliquộes pour ajouter de la structure au texte Les ressources de traitement les plus courantes sont les segmenteurs (Tokenizers1), les analyseurs morpho-syntaxique (POS Tagger2), les transducteurs (JAPE transducers), et les patrons d'extractions (Templates) Ils sont appliquộs au texte au sein d'une cascade (chaine de traitement ou pipeline) A cụtộ de ces ressources de traitement qui sont dộj intộgrộes dans la plate-forme de Gate, il est possible d'intộgrer d'autres outils existantes aux pipelines mờme si ces outils ne sont pas en Java qui est le langage de programmation pour Gate Cette intộgration se fait par Wrappers Pour l'intộgration des outils qui utilisent des formats de sorties et d'entrộes diffộrents, Gate propose un format commun basộ sur XML pour tout pipeline, les entrộes et sorties de tous les modules qui font partie un pipeline doivent ờtre transformộs au format XML C'est la structure pivot Nous prộsentons ci-aprốs le schộma de la structure pivot utilisộ par Gate, un exemple rộel de la structure est prộsentộ dans la partie Annexe du rapport The =documents features > A Tokenizer est un module de traitement de texte qui identifie chaque token d'un langage avec sa label correspondant [Magnini-2003] A POS-Tagger est un module de traitement de texte qui donne un POS (Part of Speech) chaque mots d'un langue dans une phrase concrốte -6- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan MimeType text/plain gate.SourceURL file:/G:/tmp/example.txt The document content area with serialized nodes > A TEENAGER yesterday accused his parents of cruelty by feeding him a daily diet of chips which sent his weight ballooning to 22st at the age of l2. The default annotation set > rule2 DateOnlyFinal rule1 GazDateWords kind date kind internal majorType date_key Named annotation set > Exemple Une exemple de structure pivot XML de Gate En utilisant la structure pivot, Gate peut coordonner de faỗon automatique plusieurs outils existants qui sont ộcrits par des langages diffộrents Dans cette partie, nous crộons deux Wrapper pour deux outils existants (Acabit et Fastr) La mission principale est de transformer leur sortie au structure pivot de Gate ci-dessus -7- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan Acabit Acabit est un outil linguistique qui dộtecte des termes partir d'un texte Son approche de la dộtection des termes est basộe sur la dộcouverte, la structuration et l'infộrence les relations conceptuelles entre les termes [Daille-2003] Pour une SemAnnot, Acabit aide proposer de nouveaux termes partir de corpus Pour fonctionner correctement, Acabit pour l'anglais a besoin du POS Tagger Brill et d'un Lemmatiseur3 De plus, ce lemmatiseur a besoin d'une base de donnộes qui est gộnộrộe depuis CELEX et la base de donnộes de Brill Le figure suivante montre la chaợne de traitement de Acabit, de l'entrộe la sortie Prộtraitement POS Tagger Brill Acabit Lemmatiseur Sortie XML li r e Texte d'entrộe li r e Base de donnộes de POS Tagger Brill combiner Base de donnộes du Lemmatiseur Base de donnộes de CELEX Figure 1: Chaợne de traitement d'Acabit Pour la sortie, Acabit retourne une liste des candidat-termes sous forme XML local nature large amount Lemmatiseur est un module de traitement de texte qui dộtecte le lemma pour retrouver le mot original partir leurs variantes, ex : lemma de ô suis ằ est ô ờtre ằ [Magnini-2002] -8- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan specific domain Exemple Une sortie sous structure XML de Acabit Des termes proposộs sont claire dans la liste ci-dessus, il y a trois termes proposộs : local nature, large amount et specific domain Nous introduisons ensuite le Fastr, l'outil deuxiốme Fastr Fastr [Fastr-URL] est aussi un outils linguistiques qui dộtecte des termes et reconnaợt leurs variantes Pour fonctionner, Fastr utilise TreeTagger [Schmid-1994] comme un POS Tagger et un Lemmatiseur La dộtection des termes et reconnaissance des variantes de terme a besoin deux base de donnộes : CELEX [CELEX-URL] et WordNet 1.6 [WordNet-URL] Fastr dispose de deux modes de travail : controlled-indexing : l'entrộe se compose d'un corpus et d'une liste des termes free-indexing : l'entrộe est seulement un corpus, les termes seront proposộs partir de ce corpus C'est le mode que nous utilisons -9- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan appel TreeTagger Fastr Texte d'entrộe Sortie e li r e lir base de l iens sộmantiques base de lie ns morphologiques gộnộrer gộnộrer Wordnet 1.6 CELEX Figure 2: Modốle de travail de Fastr Voici ci-dessous, une rộsultat rộel en sortie de Fastr : Since large amounts of textual and terminological data must be , we a partial analysis of multi-domain documents to an in-depth understanding to a specific domain 000001 large amount 000001 terminological datum large amounts 000001 partial analysis 000001 multi-domain document multi-domain documents 000001 in-depth understanding in-depth understanding 000001 specific domain terminological data partial analysis 0 specific domain 0 Because of their local nature ( they not entire sentences ) and because of their high information content , terms are privileged keys for information description and , therefore , term extraction is an unavoidable preliminary phase to document indexing 000002 local nature local nature 000002 entire sentence 000002 information description 000002 information content 000002 high information 000002 term extraction 000002 privileged key 000002 preliminary phase 000002 document indexing entire sentences information description information content high information term extraction privileged keys 0 0 preliminary phase document indexing 0 Exemple : Une rộsultat rộel en sortie de Fastr -10- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan Input : T cur : current set of triples in which we search the best triple G : the current graph to which we will add more triple Output : bestTriple : the best triple in T cur ALGORITHM bestTriple = null ; bestSim = ; for each t T cur { Gtmp = G{t } ; sim = sim V Gtmp , V D ; if sim bestSim { bestTriple = t ; bestSim = sim ; } } return bestTriple ; Algorithme 5: Algorithme du choix du meilleur triplet La crộation de deux vecteurs VGtmp et VD est dộj abordộe dans les deux sections ci-dessus Pour calculer la similaritộ entre VGtmp et VD, il y a plusieurs choix : Cosin, distance d'Euclide, Khi2 Comme le nombre de dimensions de ces deux vecteurs est diffộrent, donc il faut les faire correspondre avant d'appliquer ces formules A partir de la crộation de ces deux vecteurs, chaque dimension correspond un couple : AR ou RB Ces couples sont utilisộs pour faire correspondre ces deux vecteurs, et ces deux ensembles T et G0 (8) sont aussi utilisộs pour savoir le nombre de dimensions des vecteurs aprốs la correspondance Par exemple : Deux ensembles T et G0 son dộfinis dans la section Algorithme gộnộral -41- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan Soit TUG0= {A1-R1-C1, B1-R1-C1} => il existe dimensions : A1-R1, B1-R1 et R1-C1 Vecteur VD Au dộbut : Vecteur VGtmp A1-R1 B1-R1 B1-R2 R1-C1 R2-C1 1/6 1/6 1/6 1/3 B1-R1 R1-C1 1/4 1/6 Vecteur VD Aprốs correspondance : Vecteur VGtmp A1-R1 B1-R1 R1-C1 1/6 1/6 1/2 A1-R1 B1-R1 R1-C1 1/3 1/4 1/2 Aprốs avoir fait correspondance, nous pouvons appliquer les formules du calcul de la similaritộ pour ces deux vecteurs d) Condition d'arrờt Il y a aussi plusieurs maniốres de dộfinir une condition d'arrờt pour cet algorithme Mais, il faut des tests pour savoir laquelle est bonne Dans cette partie nous proposons une condition : nous nous arrờtons lorsque tous les concepts et relations dộtectộs sont utilisộs par les triplets du graphe G(9) C : set of found concepts which are returned by the step Detection of Concepts R : set of found relations which are returned by the step Detection of Relations C U = { c | c C ; a C , r R : adomain of r crange of r b C , r R : cdomain of r brange of r } ; RU = { r | r R ; a , bC : adomain of r b range of r } ; G : graph representing signification of the image C G = { a | arx G xra G} ; RG = {r | xry G }; STOP CONDITION : C G = C U RG = RU Le graphe G est dộfini dans la section Algorithme gộnộral -42- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan e) Exemple Soit une Ontologie comme la suivante : Man, Car Man ain m m have n repair n ran ge Man, Car, Door, Baggage ge Car, Door, Baggage Man, Car ain m carry ng e Door, Baggage Dans le domaine correspondant, il y a dộj trois documents annotộs comme les suivantes : Document Man repair Car Man have Car Car have Door Document Car carry Baggage Man repair Car Document Man carry Baggage Man repair Baggage Man have Baggage A partir de ces trois documents, nous pouvons calculer la fonction fo et aussi le vecteur du domaine -43- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan fo(Man, repair) = fo(Man, have) = fo(Man, carry) = fo(Car, carry) = fo(Car, have) = Val(Man-repair) = 3/16 Val(Man-have) = 2/16 Val(Man-carry) = 1/16 Val(Car-carry) = 1/16 Val(Car-have) = 1/16 Val(have-Car) = 1/16 Val(have-Man) = fo(repair, Car) = fo(repair, Baggage) = fo(have, Car) = fo(have, Baggage) = fo(have, Door) = fo(carry, Baggage) = fo(other) = Abbrev : Mn = Man Ca = Car Dr = Door Bg = Baggage hv = have rp = repair crr = carry Vecteur du domaine VD Mn-hv Ca-hv 2/16 1/16 hv-Ca hv-Dr hv-Bg hv-Mn Mn-rp rp-Ca rp-Dr rp-Bg 1/16 1/16 1/16 3/16 2/16 1/16 Mn-crr Ca-crr 1/16 1/16 crr-Dr crr-Bg 2/16 C = {Man, Car, Baggage} R = {have, carry, repair} G0 = {Man-have-Car} A partir de R, C et G0 nous avons l'ensemble T comme le suivant : T = {Man-have-Man, Man-have-Baggage, Man-carry-Baggage, Car-carry-Baggage, Man-repair-car, Man-repair-Baggage} Nous prộsentons ci-dessous les calculs pour proposer des meilleurs triplets Pour calculer la similaritộ entre deux vecteurs, nous utilisons Cosin Itộration : t = Manhave Man => Gtmp = { ManhaveCar , ManhaveMan } Mnhv hvMn hvCa => V Gtmp = , , => simV Gtmp ,V D =0.400 /4 1/4 1/ [ ] -44- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan t = Manhave Baggage => Gtmp = { ManhaveCar , ManhaveBaggage } Mnhv hvBg hvCa => V Gtmp = , , => sim V Gtmp , V D =0.480 2/ 1/ 1/4 [ t = MancarryBaggage => Mnhv => V Gtmp = 1/4 [ ] Gtmp = { ManhaveCar , MancarryBaggage } Mncr hvCa hvBg , , , => simV Gtmp ,V D =0.490 1/ 1/4 /4 ] t = Car carryBaggage => Gtmp = { ManhaveCar , Carcarry Baggage } Mnhv Cacr hv Ca cr Bg => V Gtmp = , , , => sim V Gtmp , V D =0.490 /4 1/4 1/4 1/4 [ ] t = Manrepair Car => Gtmp = { ManhaveCar , ManrepairCar } Mnhv Mnrp hv Ca rpCa => V Gtmp = , , , => simV Gtmp ,V D =0.789 1/4 1/ 1/4 1/4 [ ] t = Manrepair Baggage => Gtmp = { ManhaveCar , Manrepair Baggage } Mnhv Mnrp hv Ca rpBg => V Gtmp = , , , => sim V Gtmp , V D =0.703 1/4 1/ 1/4 1/4 [ ] Nous obtenons : bestTriple = Man-repair-Car stopCondition = false => nous continuons Le graphe aprốs l'itộration : G = {Man-have-Car, Man-repair-Car} Itộration : t = Manhave Man => Gtmp = { ManhaveCar , Manrepair Car , ManhaveMan } Mnhv Mnrp hv Ca rpCa hv Mn => V Gtmp = , , , , => sim V Gtmp , V D =0.693 2/ 1/6 1/6 1/ 1/6 [ ] -45- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan t = Manhave Baggage => Gtmp = { ManhaveCar , Manrepair Car , ManhaveBaggage } Mnhv Mnrp hv Ca rpCa hv Bg => V Gtmp = , , , , => sim V Gtmp , V D =0.763 2/6 1/6 1/6 1/6 1/6 [ ] t = MancarryBaggage => Gtmp = { ManhaveCar , ManrepairCar , Mancarry Baggage } Mnhv Mnrp Mncr hvCa rpCa cr Bg => V Gtmp = , , , , , => simV Gtmp ,V D =0.880 1/6 /6 1/6 /6 1/6 1/6 [ ] t = Car carryBaggage => Gtmp = { ManhaveCar , Manrepair Car , CarcarryBaggage } Mnhv Mnrp Cacr hvCa rpCa cr Bg => V Gtmp = , , , , , => simV Gtmp ,V D =0.880 1/6 /6 1/6 /6 1/6 1/6 [ ] t = Manrepair Baggage => Gtmp = { ManhaveCar , Manrepair Car , Manrepair Baggage } Mnhv Mnrp hv Ca rpCa rp Bg => V Gtmp = , , , , => sim V Gtmp ,V D =0.850 1/6 /6 1/6 1/6 1/6 [ ] Nous obtenons : bestTriple = Man-carry-Baggage stopCondition = true => arrờt Le graphe en fin : G = {Man-have-Car, Man-repair-Car, Man-carry-Baggage} Le rộsultat montre que l'algorithme est logique, les triplets le plus pertinents par rapport aux documents existants du domaine sont rajoutộs au graphe G Aussi dans cet exemple, le triplet Man-Carry_Baggage n'est pas choisi, il est bien possible que il corresponde ce que l'auteur veut exprimer C'est normal si le rappel est de l'infộrieur 100% et il faut des tests sur donnộes rộelles pour modifier la condition d'arrờt, ainsi que la fonction getTheBestTriple V Conclusion et perspective Dans le cadre du stage, nous avons intộgrộ avec succốs deux Wrappers de deux outils linguistiques la plateforme de Gate sur laquelle notre plateforme base Ce sont deux outils complexes parce qu'ils appellent aussi d'autres outils existants (Brille, Lemmatiseur, TreeTagger) ainsi que d'autres bases de donnộes diffộrences (WordNet1.6, CELEX) -46- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan Pour le problốme d'annotation sộmantique automatique, nous avons testộ avec le succốs une solution suivant l'approche syntaxique en utilisant RASP dans SevenPro, dans lequel le stagiaire fait partie deux modules : reconnaissance des instances et vộrification des triplets Et nous avons aussi gộnộralisộ la solution pour faciliter la recherche d'une amộlioration Et dans la derniốre partie, nous avons proposộ une solution basộe sur des calculs statistiques pour le problốme d'annotation sộmantique automatique des textes associộs une image Maintenant, il faut des tests pour affirmer cette solution, mais il semble qu'elle soit une nouvelle approche pour le problốme d'annotation sộmantique automatique, et elle soit applicable des phrases incomplốtes l'avenir, nous allons rộsoudre le problốme d'annotation sộmantique automatique dans le cas gộnộral, c'est--dire, les sous-problốmes difficiles montrộs seront rộsolu : Ambiguùtộ sộmantique Reprise anaphore Concept cachộ Phrase incomplốte -47- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan VI Rộfộrence [Briscoe-2006] Ted Briscoe, John Carrollz, Rebecca Watsonyr : The Second Release of the RASP System, Proceedings of the COLING/ACL 2006 Interactive Presentation Sessions, pages 7780, Syned July 2006 [Briscoe et Carroll-2002] John Carroll, Ted Briscoe : High Precision Extraction of Grammatical Relations, In Proceedings of the 19th International Conference on Computational Linguistics, Taipei, Taiwan [Bechhofer-2001] S.Bechhoder, C.Goble, Towards annotation using DAML+OIL, in: Proceedings of the Workshop on Semantic Markup and Annotation at st International Conference on Knowledge Capture (K-CAP 2001), Victoria, B.C., Canada [Ciravegna-2002] F Ciravegna, A Dingli, D Petrelli, Y Wilks, User-system cooperation in document annotation based on information, in : Proceedings of the 13th International Conference on Knowledge Engineering and KM (EKAW02), 14 October 2002, Sigăuenza, Spain, 2002 [Ciravegna-2004] F Ciravegna, S Chapman, A Dingli, Y Wilks, Learning to harvest information for the Semantic Web, in: Proceedings of the 1st European Semantic Web Symposium, May 1012, 2004, Heraklion, Greece, 2004 [Cimiano-2003] P.Cimiano, F.Ciravera, J.Dominigue, S.Handschuh, A.Lavelli, S.Staab, M.Stevension, Requirements for Information Extraction for Knowledge Management, in: Proceedings of the KM and Semantic Annotation Workshop at 2nd International Conference on Knowledge Capture (KCAP-2003), 2003 [Daille-2003] Beatrice Daille, Conceptual Structuring through Term Variations, 2003 [Khelif-2006] Mohamed Khaled Khelif, Web Sộmantique et mộmoire d'expộriences pour l'analyse du transcriptome, thesis, 2006 [Magnini-2003] Bernardo Magnini, Luciano Serafini,Manuela Speranza : Using NLP Techniquesfor Meaning Negotiation, ICTirst 2002 [Schmid-1994] Helmut Schmid: Probabilistic Part-of-Speech Tagging Using Decision Trees, in Proceeding of the International Conference on New Methode in Language Processing, 1994 [Uren-2006] Victoria Uren, Philipp Cimiano, Jose Iria, Siegfried Handschuh, Maria VargasVera, Enrico Motta, Fabio Ciravegna, Semantic annotation for knowledge management: Requirements and a survey of the state of the art, in : Journal of Semantic Web 2006 [Acabit-URL] http://www.sciences.univ-nantes.fr/info/perso/permanents/daille/acabit.html -48- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan [Fastr-URL] http://www.limsi.fr/Individu/jacquemi/FASTR/ [Gate-URL] http://gate.ac.uk/ [CELEX-URL] http://www.ru.nl/celex/ [RASP-URL] http://www.informatics.sussex.ac.uk/research/groups/nlp/rasp/ [WordNet-URL] http://wordnet.princeton.edu/ [SevenPro-Homepage] http://www.sevenpro.org/ -49- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan VII Annexe Structure pivot de Gate The document's features > gate.SourceURL file:/home/minguyen/Projets/Java/AFWrapper/text-en.txt docNewLineType MimeType text/plain The document content area with serialized nodes > A statistical model is used to assign grammatical categories. The default annotation set > string grammatical kind word length 11 orth lowercase kind space length 1 string -50- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan kind space length 1 string kind space length 1 string string to kind word length 2 orth lowercase kind space length 1 string -51- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan kind punctuation length 1 string . string statistical kind word length 11 orth lowercase string is kind word length 2 orth lowercase kind space length 1 string -52- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan kind internal string categories kind word length 10 orth lowercase kind space length 1 string string assign kind word length 6 orth lowercase string used kind word length -53- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan 4 orth lowercase kind control length 1 string kind space length 1 string string A kind word length 1 orth upperInitial kind space length 1 -54- Mộmoire de fin d'ộtudes NGUYEN Minh-Tuan string Variant grammatical categories NoSentence 1 Origin grammar category Variation XX,43,NtoA kind space length 1 string string model kind word length 5 orth lowercase Named annotation set > -55- [...]... relation « Begin » c) Description de l'algorithme général D'un point de vue générale, il n'y a pas beaucoup de différences entre la détection des concepts et la détection des relations Parce que la détection d 'une relation est le processus de la recherche des signes de présence de la relation Clairement, des chaînes correspondantes à la relation sont considérées comme des signes de présence de la relation,... un même module : génération des triplets Les travaux à faire sont les suivants : 1) Pour chaque concept qui est détecté par le module de la détection des concepts, nous cherchons son instance, normalement une instance est une chaîne de caractères 2) À partir des concepts et des relations, nous cherchons les triplets qui correspondent au « sens » de la phrase 3) À partir des triplets trouvés, nous générons... Exemple 4 : Une annotation en détail de AcabitTerm -13- Mémoire de fin d'études NGUYEN Minh-Tuan Fastr Wrapper Figure 5: Les classes du Wrapper de Fastr -14- Mémoire de fin d'études NGUYEN Minh-Tuan Illustration 2: Résultat du Wrapper de Fastr sous la plate- forme de Gate L'exemple suivante montre une annotation de FastrTerm sous forme XML suivant la structure pivot de Gate

Định dạng
Số trang	55
Dung lượng	0,98 MB