1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Identification et extraction de relations n aires à partir des textes

85 18 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Mémoire de fin d’études Master en informatique Identification et extraction de relations n-aires partir des textes Réalisé par : NGUYEN Van Tien Etudiant de la promotion 12, IFI Sous la direction de : Khaled KHELIF Hacène CHERFI Réalisé au sein de l'équipe-projet EDELWEISS de l’INRIA Sophia Antipolis, France Sophia Antipolis, France, le 30 septembre 2008 Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Réalisé l’INRIA Sophia Antipolis, France Remerciements Résumé Abstract Liste des figures Liste des tableaux Introduction 1.1 Contexte 1.2 Problématique 1.3 Motivation 1.4 Objectifs 1.5 Contribution 1.6 Environnement du stage 1.7 Organisation du document Etat de l’art 2.1 Web sémantique 2.2 Ontologie 2.2.1 Introduction 2.2.2 Représentation 2.2.3 Ingénierie des 2.3 Annotation sémantique 2.3.1 Introduction 2.3.2 Outils d’annota 2.4 Relation sémantique 2.4.1 Extraction des 2.4.2 Positionnemen 2.5 Définition de la relation n-aire 2.5.1 Cas d'utilisatio 2.5.2 Cas d'utilisatio 2.5.3 Cas d'utilisatio 2.5.4 Cas d'utilisatio 2.6 Analyse syntaxique de la phrase 2.6.1 Introduction 2.6.2 Outil d'analyse 2.6.3 Description de 2.7 Conclusion Méthode proposée pour l'identification et l'extraction des relations n-aires partir de texte 26 3.1Introduction 3.2Prétraitement 3.2.1 Récupération 3.2.2 Triplet de tok 3.3Identification de la relation n-aire 3.3.1 Cas d’utilisat 3.3.1.1Division en so Page Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Réalisé l’INRIA Sophia Antipolis, France 3.3.1.2 Identification de sous-cas 3.3.1.3 Identification de sous-cas 3.3.2 3.3.2.1 3.3.2.2 Identification de sous-cas 3.3.2.3 Identification de sous-cas 3.3.3 3.3.4 3.4 3.4.1 Extraction des arguments d’une relation n-aire 3.4.1.1 3.4.1.2 Construction du graphe correspondant la phrase 3.4.1.3 Recherche dans le graphe 3.4.2 3.4.2.1 3.4.2.2 3.4.3 3.4.3.1 3.4.3.2 3.4.4 3.4.4.1 Description des arguments et formalisation de 3.4.4.2 3.4.5 3.4.5.1 3.4.5.2 3.5 Approche pour une phrase complexe comportant plusi 3.6 Conclusion Implémentation 4.1 Introduction 4.2 Diagramme des classes 4.3 Description des classes et des paquets 4.3.1 4.3.2 4.3.3 4.3.4 4.3.5 Evaluation de notre méthodologie 5.1 Critères d'évaluation 5.2 Résultats d'évaluation Conclusion et perspectives Références Annexes Annexe : La signification Annexe : La signification Annexe : Les phrases utilisées évaluer le programme Page Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Réalisé l’INRIA Sophia Antipolis, France Remerciements Je tiens remercier tout d’abord M Khaled KHELIF et M Hacène CHERFI pour avoir bien encadré mon stage, et pour leur aide précieuse Je remercie tout particulièrement Mme Rose, l’ancienne directrice de l’équipe Edelweiss d’avoir consacré du temps la discussion avec moi sur mon travail et sur la piste de recherche Un grand merci également aux collègues de l’équipe Edelweiss pour leur accueil dans l’équipe Je tiens remercier tout particulièrement les amis au CIV et Sophia Antipolis d’avoir partagé les difficultés de la vie au cours de mon stage : Hung, Phu, Lan, Hau, Tuan, etc Tous mes remerciements vont mes collègues, aux professeurs et aux personnels de l’IFI de m’avoir aidé au cours de mes études Je remercie également, ma famille, ma copine qui m’ont donné la motivation pour avancer dans mon travail Enfin, je remercie toutes les personnes qui m’ont aidé et que j’ai oublié de remercier cidessus Page Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Réalisé l’INRIA Sophia Antipolis, France Résumé Avec l’évolution du web actuel vers le web sémantique, l’annotation sémantique partir des textes joue un rôle de plus en plus important Dans le processus d’annotation sémantique, l’extraction des relations sémantiques dans un texte est indispensable car cela permet de détecter non seulement les concepts dans une ontologie mais encore la relation entre ces concepts Plusieurs travaux ont été réalisés pour résoudre ce problème en utilisant différentes approches Toutefois, ces travaux se sont concentrés sur la relation binaire, donc ont ignoré la relation n-aire qui lie plusieurs concepts L’objectif principal de ce stage est de proposer une méthode pour l’identification et l’extraction de relations n-aires dans un texte Le cas d’utilisation résoudre est celui du W3C qui décrit les bonnes pratiques pour la représentation en RDF des relations n-aires Au cours de ce stage, nous avons proposé une méthode qui se base sur une approche linguistique L'idée principale est que chaque type de relation n-aire est caractérisé par un ensemble des relations grammaticales qui sont issues d’un outil d'analyse syntaxique L'objectif de l'identification de relations n-aires est donc de trouver cet ensemble Dans le but de l'extraction d'une relation n-aire, il faut déterminer ses arguments En se basant sur le fait que chaque phrase est considérée comme un graphe orienté et étiqueté, des arguments d’une relation n-aire sont extraites en construisant un graphe correspondant la phrase et ensuite en appliquant un algorithme de parcours de graphe Notre méthode est réalisée par un programme qui prend en entrée un texte et donne en sortie un fichier représentant en XML les relations n-aires trouvés dans ce texte Notre système permet de détecter et d'extraire simultanément plusieurs relations n-aires présentes dans une phrase lorsque celle-ci comporte en plusieurs Ce stage a été réalisé au sein de l’équipe Edelweiss de l’INRIA Sophia Antipolis, France qui est un des huit centres principaux de recherche de l'institut national de recherche en informatique et en automatique Le cadre d’application de ce sujet de stage est la plateforme d’annotation SemAnnot de cette équipe Le résultat de ce stage est aussi utilisé dans deux européens projets SevenPro et Sealife afin de construire des annotations sémantiques partir de corpus de texte Mots-lés : identification de relation n-aire, extraction de relations n-aires, relation sémantique annotation sémantique, sémantique web Page Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Réalisé l’INRIA Sophia Antipolis, France Abstract The evolution of the current web towards to the semantic web shows that a semantic annotation from texts plays a growing role in importance In this process, extraction of semantic relations in a text is essential because it can detect not only the concepts in ontology but also the relationship between these concepts A lot of studies have been realized to solve this problem by using different approaches However, most studies have concentrated only on the binary relation, so ignoring the n-ary relations that relate many concepts The main objective of this internship is to propose a method for the identification and extraction of n-ary relations in a text The use case aimed at solving these two issues is the ones defined by the W3C that describes best practices for the RDF representation of n-ary relations During this internship, we proposed a method which is based on linguistic approaches The main idea is that each type of n-ary relations is characterized by a set of grammatical relations which are issued from a tool for the sentence syntax parsing The objective of the identification of the n-ary relations is to find this set In order to extract a n-ary relation, we should determine its arguments Basing on the fact that each sentence is considered as a directed labeled graph, the arguments of the n-ary relation are extracted by setting-up a graph corresponding to the sentence and followed by applying a traversal algorithm on this graph Our method is implemented by a program that has as input a text and the output is an XML file which describes n-ary relations found in this text Our system can detect and extract most of n-ary relations contained in the sentences complex This internship is realized within the Edelweiss team of the INRIA Sophia Antipolis, France, which is one of eight major research centers of the French National Institute for Research in Computer Science and Control The application scope of this internship is the annotation platform SemAnnot The results of this internship qre used in two European projects SevenPro and Sealife in order to build semantic annotations from texts Key words: n-ary relation identification, n-ary relation extraction, semantic relation, semantic annotation, semantic web Page Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Réalisé l’INRIA Sophia Antipolis, France NGUYEN Van Tien Promotion 12, IFI Liste des figures Figure : Le modèle en couches du W3C 12 Figure : Un exemple sur RDF 13 Figure : Un exemple sur l’annotation sémantique 14 Figure : Le rôle de l’annotation sémantique dans la recherche sémantique 15 Figure : Plateforme d’annotation sémantique SemAnnot de l’équipe Edelweiss 16 Figure : Processus général pour l’extraction de la relation sémantique 18 Figure : Un exemple du cas d'utilisation de la relation n-aire 19 Figure : Un exemple du cas d'utilisation de la relation n-aire 20 Figure : Un exemple du cas d'utilisation de la relation n-aire 21 Figure 10 : Un exemple du cas d'utilisation de la relation n-aire 22 Figure 11 : La sortie de RASP sous forme de liste 23 Figure 12 : La sortie de RASP sous forme d’arbre XML 24 Figure 13 : Hiérachie de 17 relations grammaticales de RASP 25 Figure 14 : Démarche générale pour l’identification et l’extraction des relations n-aires 26 Figure 15 : Construction du graphe correspondant une phrase 35 Figure 16 : Le graphe correspondant la phrase d'exemple 35 Figure 17 : Construction de sous-graphe 36 Figure 18 : Recherche des sommets connectés un sommet 36 Figure 19 : Algorithme d'extraction d'un argument de la relation n-aire 37 Figure 20 : Représentation en XML de la relation n-aire de UseCase1 38 Figure 21 : Représentation formelle d'une relation de UseCase1 38 Figure 22 : Représentation en XML d'un exemple de UseCase1.1 39 Figure 23 : Un exemple de UseCase1.1 39 Figure 24 : Représentation en XML d'un exemple de type UseCase1.2 40 Figure 25 : Un exemple de UseCase1.2 40 Figure 26 : Représentation en XML de la relation n-aire de type UseCase1 40 Figure 27 : Représentation formelle d'une relation de UseCase2 41 Figure 28 : Représentation en XML d'un exemple de type UseCase2.1 42 Figure 29 : Un exemple de UseCase2.1 42 Figure 30 : Représentation en XML d'un exemple de UseCase2.2 43 Figure 31 : Un exemple de UseCase2.2 43 Figure 32 : Représentation en XML de la relation n-aire de type UseCase3 43 Figure 33 : Représentation formelle d'une relation de UseCase3 44 Figure 34 : Représentation en XML d'un exemple de UseCase3 44 Figure 35 : Un exemple de UseCase3 45 Figure 36 : Représentation formelle d'une relation de UseCase4 45 Figure 37 : Représentation en XML de la relation n-aire de UseCase4 45 Figure 38 : Un exemple de UseCase4 47 Figure 39 : Représentation en XML d'un exemple de UseCase4 47 Figure 40 : Architecture du programme 50 Figure 41 : La classe NaryRelationProcessor 51 Figure 42 : La classe Sentence 51 Figure 43 : Le paquet rasp 54 Figure 44 : Le paquet identification 56 Figure 45 : Le paquet extraction 58 Figure 46 : Le paquet data 60 Figure 47 : Le paquet graph 62 Page Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Réalisé l’INRIA Sophia Antipolis, France NGUYEN Van Tien Promotion 12, IFI Liste des tableaux Tableau : Les tokens pivots et les arguments d'une relation n-aire d'un exemple de UseCase1.2 39 Tableau : Les tokens pivots et les arguments d'une relation n-aire d'un exemple de UseCase2.1 41 Tableau : Les tokens pivots et les arguments d'une relation n-aire d'un exemple de UseCase2.2 43 Tableau : Les tokens pivots et les arguments d'une relation n-aire d'un exemple de UseCase3 .44 Tableau : Les tokens pivots et les arguments d'une relation n-aire d'un exemple de UseCase4 .46 Tableau : Les tokens pivots et les arguments pour le triplet (company, make, family) 48 Tableau : Les tokens pivots et les arguments pour le triplet (company, sell, product) 48 Tableau : Les étapes et les paquets chargés 50 Tableau : Description de la classe Sentence 52 Tableau 10 : Description de la classe RaspProcessor 54 Tableau 11 : Description de la classe XmlParser 55 Tableau 12 : Les classes correspondantes aux conditions pour l'identification de relations n-aires 56 Tableau 13 : Description de la classe UseCaseIdentificator 57 Tableau 14 : Les classes et les relations n-aires correspondantes 59 Tableau 15 : Les classes et les sous cas d'utilisations correspondants 59 Tableau 16 : Quelques phrases testées dans le but d’évaluation de l’identification de relations n-aires 64 Tableau 17 : Quelques phrases testées dans le but d’évaluation de l’extraction de relations n-aires 65 Tableau 18 : Résultat de l’évaluation de l’identification de relations n-aires 66 Tableau 19 : Résultat d’évaluation de l’extraction de relations n-aires 67 Page Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Chapitre : Introduction Introduction 1.1 Contexte Le web sémantique est une évolution de World Wide Web qui associe un sens aux informations afin de faciliter la coopération homme-machine L’information sur la signification de données dans les documents (par exemple textes, images, vidéos, etc.) du web actuel est appelée annotation web sémantique En fait, il est impossible d’annoter manuellement les milliards de web ressources existantes Par conséquent, l’utilisation de traitement de langue naturelle (NLP en anglais) joue un rôle important dans le contexte d’annotation sémantique Ce stage est réalisé au sein de l’équipe Edelweiss de l’INRIA Sophia Antipolis qui travaille sur la génération automatique d’annotations sémantiques partir de documents multimédia et notamment partir de textes L’idée principale est de détecter les instances de concepts et les relations entre ces instances afin de générer l’annotation RDF qui décrit ces relations Ce stage fait partie d’une brique dans la réalisation de la plateforme d’annotations sémantiques SemAnnot qui est en cours de développement dans l’équipe Edelweiss 1.2 Problématique Dans le processus d’annotation sémantique d’une ressource web, il est indispensable de trouver les relations entre les concepts Le type de relation laquelle nous nous intộressons est celui de la relation n-aire De faỗon générale, il faut répondre aux questions suivantes : Comment identifier les relations ? Il s’agit de détecter les relations n-aires existantes dans un texte Les relations n-aires étudiées dans ce document sont celles définies par le W3C Nous nous focalisons sur la détection des relations n-aires au sein d’une même phrase Comment extraire les relations ? Il s’agit d’extraire tous les arguments qui forment une relation n-aire détectée Il faut que la solution donnée soit capable d’extraire toutes les relations n-aires possibles dans la même phrase 1.3 Motivation Avec le développement croisant du Web, la recherche d'information en fonction de la sémantique est une exigence naturelle et essentielle pour trouver des connaissances utiles dans la grande masse d'informations contenues dans le web Cette exigence n'est satisfaite que NLP : natural language processing RDF : Resource Description Framework, http://www.w3.org/RDF/ W3C : The World Wide Web Consortium, http://www.w3.org/ Page Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Chapitre : Introduction lorsque les informations possèdent un sens Cela se fait par les annotations sémantiques qui attachent une sémantique aux informations en utilisant une ontologie D'autre part, le problème d’identification et d’extraction de relations dont celles n-aires jouent un rôle important dans le processus de génération automatique des annotations sémantique partir de texte C'est la raison pour laquelle ce sujet est choisi pour mon stage de fin d'études De plus, en réalisant ce sujet de stage, j'ai occasion d'étudier le traitement du langage naturel et l'ingénierie des connaissances C'est important pour que je puisse continuer faire la recherche dans ce domaine C'est pourquoi j'ai réalisé ce sujet 1.4 Objectifs La tâche principale du travail de ce stage est de résoudre les problèmes concernant l’identification et l’extraction de relation n-aire partir de texte L’objectif est donc de proposer une méthode efficace pour détecter correctement toutes les relations n-aires dans un texte Par ailleurs, il faut proposer un algorithme qui permet d’extraire tous les arguments d’une relation et qui permet d’extraire toutes les relations existantes Pour cela, il faut construire un programme qui permet d’implémenter la solution proposée L’entrée de ce programme est un texte, et sa sortie doit être toutes les relations avec leurs arguments correspondants qui sont représentés formellement, par exemple, sous forme XML ou RDF Le résultat doit être évalué par des experts du domaine 1.5 Contribution Au cours de ce stage, nous avons proposé une solution qui permet d’identifier et d’extraire les relations n-aires dans un texte Notre approche se base sur l’usage des relations grammaticales issues d’une analyse syntaxique de la phrase et sur le fait que chaque phrase peut être considérée comme un graphe orienté L’idée principale est que chaque famille de la relation n-aire est caractérisée par un ensemble de relations grammaticales déterminé Par conséquent, l’identification de relations n-aires consiste chercher cet ensemble Pour l’extraction de relation n-aires, il faut extraire leurs arguments qui ont la forme de groupes de mots En analysant les relations grammaticales au sein de la phrase, nous avons remarqué qu’un groupe de mots sera trouvé si nous déterminons bien le mot le plus important dit token pivot du groupe Notre algorithme proposé pour l’extraction d’arguments de la relation n-aire est réalisé en trois étapes Le but de la première étape est de trouver tous les tokens pivots Dans la deuxième étape, un graphe orienté correspondant la phrase et son sous-graphe sont construits La tâche de la dernière étape est de trouver le groupe de mots formé par un token pivot en utilisant un algorithme de parcours du graphe sur le sous-graphe construit XML : Extensible Markup Language, http://www.w3.org/XML/ Page Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes syntaxique RASP UseCase1 UseCase2 UseCase3 UseCase4 Complexe Total Tableau 19 : Résultat d’évaluation de l’extraction de relations n-aires La mesure de précision indique l'exactitude des relations extraites 84% des relations extraites de type UseCase1 sont correctes Cette mesure pour le cas complexe est de 81% La mesure de rappel indique l'efficacité du programme 73% des relations n-aires de UseCase1 présentes dans les phrases sont extraites correctement De plus, pour les phrases complexes, nous pouvons extraire 68% des relations n-aires De plus, dans quelques cas, un l'argument extrait n'est pas identique celui déterminé manuellement par un expert : l'argument extrait par le programme est parfois soit plus court, soit plus long Cela s’explique par le choix des étiquettes prédéfinies d'arêtes du graphe correspondant la phrase pour la recherche des arguments Par exemple, la phrase "It is the best phone on the market " comporte une relation n-aire de type UseCase1.2 Avec l'ensemble des étiquettes prédéfinies L = {(“det”, “”), (“iobj”, “”),(“dobj”, “”), (“xmod”, “_”)}, l'argument O (objet) de cette relation qui est extrait est "the phone" Cependant, si nous ajoutons l'étiquette ("ncmod","_") cet ensemble, nouvel argument extrait est "the best phone" D'autre part, pour le cas UseCase4, le programme est capable d'extraire la liste des arguments, mais ne peut pas détecter si cette liste est ordonnée Cela dépend du contexte du texte ainsi que de la sémantique de la phrase Par exemple, la phrase "He has two children : Nam and Lan" comporte une relation n-aire de type UseCase4 Dans ce contexte, les arguments "Nam" et "Lan" peuvent être rangés en fonction de l'age de ces deux personnes Cependant, dans le contexte de la phrase "He has two friends : Nam and Lan", nous ne pouvons pas détecter l'odre de la liste qui peut etre rangé par les critères suivantes : l'age, niveau sympatique, niveau intelligent, etc Page 67 Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Conclusion et perspectives Conclusion et perspectives En conclusion, nous rappelons que l’objectif de ce stage est de proposer une solution qui permet de détecter et d’extraire les relations n-aires dans un texte Notre contribution dans ce stage est de proposer une méthode permettant d’identifier les relations n-aires en accord avec les recommandations du W3C en utilisant un outil d’analyse syntaxique Nous avons aussi proposé un algorithme qui permet d’extraire tous les arguments de la relation n-aire Le programme que nous avons construit pour la réalisation de la méthode proposée est utilisé comme un module dans la plateforme d’annotation SemAnnot de l’équipe Edelweiss et ainsi dans deux projets européens SevenPro et Sealife dans le but de générer des annotations sémantiques Notre méthode est une approche ayant pour caractéristiques : Générique : Il s’agit d’une méthode indépendante du domaine Le résultat de ce stage peut être utilisée pour l’extraction des relations n-aires dans un texte provenant de plusieurs domaines Evolutive : Il est facile d’ajouter un nouveau cas d’utilisation Robuste : Notre méthode fournit les résultats souhaités De plus, notre méthode est capable de détecter toutes les relations n-aires présentes dans une phrase complexe qui comporte des relations de type différent En outre, notre algorithme d’extraction de relations permet d’extraire exactement des arguments même si ces arguments sont des groupes de mots complexes Après l’évaluation de méthodologie, nous avons remarqué quelques limites : la vitesse du programme est assez lente (dû la lenteur du programme RASP et qui est un problème classique des analyseurs syntaxiques), les relations n-aires extraites ne sont pas correctes dans quelques cas où les phrases sont très complexes Concernant les perspectives, il y a quelques pistes de recherche explorer : La prise en compte de la forme passive des verbes dans une phrase L’exploitation des références croisées entre les phrases afin d’extraire des relations n-aires ayant des arguments distribués dans tout le texte Page 68 Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Références Références [Berners-Lee et al., 2001] Berners-Lee T., Hendler J et Lassila O (2001) : The semantic web Scientific American [Gandon, 2006] Fabien Gandon (2006) : Ontologies informatiques http://interstices.info/ontologie [Ta, 2007] Ta Tuan Anh (2006) : Ontologies et Web sémantique Cours en master l’IFI en année scolaire 2006-2007, www.ifi.auf.org [Khelif, 2006] Khaled Khelif : Web sémantique et mémoire d’expériences pour l’analyse du transcriptome Thèse de doctorat réalisée l'INRIA Sophia Antipolis [Gruber, 1993] Gruber T (1993) : A translation approach to portable ontology specifications Knowledge Acquisition 5(2):199–220, 1993 [Taniar et Rahaya, 2006] Taniar, Johanna Wenny Rahaya (2006) : Web Semantics and Ontology IGI Global, February 2006, ISBN-13: 9781591409069 [Uren et al, 2006] Victoria Uren, Philipp Cimiano, José Iria,Siegfried Handschuh, Maria Vargas-Vera, Enrico Motta, Fabio Ciravegna : Semantic annotation for knowledge management: Requirements and a survey of the state of the art Journal de “Web Semantic”, 2005 [Khelif, 2008] Khaled Khelif (2008) : Annotations sémantiques : de l’extraction l’utilisation Sémininaire de l’équipe Edelweiss de l’INRIA Sophia Antipolis [Corby et al, 2004] Olivier Corby, Rose Dieng-Kuntz, Catherine Faron-Zucker : Querying the Semantic Web with the CORESE search engine In R Lopez de Mantaras and L Saitta eds, Proc of the 16th European Conference on Artificial Intelligence (ECAI'2004), subconference PAIS'2004, Valencia, 22-27 August 2004, IOS Press, p 705-709 [Séguéla et Aussenac-Gilles, 2000] Nathalie Aussenac-Gilles & Patrick Séguéla (2000) : Les relations sémantiques : du linguistique au formel Cahiers de Grammaire 25 (2000), «Sémantique et Corpus» , pp 175-198 [Noy et Rector, 2006] Natasha Noy, Alan Rector (2006) : Defining N-ary Relations on the Semantic Web Recommandation du W3C, http://www.w3.org/TR/swbp-n-aryRelations/ [Briscoe, 2006] Ted Briscoe (2006) : An introduction to tag sequence grammars and the RASP system parser Technical reports published by the University of Cambridge Computer Laboratory are freely available via the Internet : http://www.cl.cam.ac.uk/TechReports/ ISSN 1476-2986 [LATTICE, 2007] Analyse Syntaxique, http://www.lattice.cnrs.fr/Analyse-Syntaxique [XML] W3C : Extensible Markup Language Recommandation du W3C, http://www.w3.org/XML/ Page 69 Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Références [Clark et DeRose, 1999] James Clark, Steve DeRose (1999) : XML Path Language Recommandation du W3C, http://www.w3.org/TR/xpath [Dom4j] : http://www.dom4j.org/ [Manola et Miller, 2004] Frank Manola, Eric Miller (2004) : RDF Primer Recommandation du W3C, http://www.w3.org/TR/rdf-primer [Brickkley et Guha, 2004] Dan Brickkley, R.V Guha (2004): RDF Vocabulary Description Language 1.0: RDF Schema Recommandation du W3C, http://www.w3.org/TR/rdfschema/ [McGuinness et Harmelen, 2004] Deborah L McGuinness, Frank van Harmelen (2004) : Web Ontology Language Recommandation du W3C, http://www.w3.org/TR/owl-features/ Page 70 Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Annexes Annexes Annexe : La signification des relations grammaticales de RASP Cette annexe a pour but d’exprimer la signification des relations grammaticales de RASP encodées par leurs types et sous types correspondante Cela est abordé en plus détail dans [Briscoe, 2006] Dans cette partie, on utilise les symboles communs suivants : PP : Prepositional Phrase NP : Noun Phrase VP : Verbal Phrase conj encode la relation entre une conjunction de coordination (par exemple and, or) et son dependent Par exemple : Kinh likes oranges and apples (|ncsubj| |like+s:2_VVZ| |Kinh:1_NP1| _) (|dobj| |like+s:2_VVZ| |and:4_CC|) (|conj| |and:4_CC| |orange+s:3_NN2|) (|conj| |and:4_CC| |apple+s:5_NN2|) aux encode la relation entre le principale verbe comme head et son dependent auxiliary Elle n'a pas de champs supplémentaires Par exemple : Tien has been playing tennis (|ncsubj| |play+ing:4_VVG| |Tien:1_NN1| _) (|aux| |play+ing:4_VVG| |have+s:2_VHZ|) (|aux| |play+ing:4_VVG| |be+en:3_VBN|) (|dobj| |play+ing:4_VVG| |tennis:5_NN1|) det encode la relation binaire entre les articles, quantificateurs, partitives et autre genre de mot qui peuvent commencer NP et l'entête de la NP Elle n'a pas de champs supplémentaires Par exemple : Some man came (|ncsubj| |come+ed:3_VVD| |man:2_NN1| _) (|det| |man:2_NN1| |Some:1_DD|) ncmod encode les relations binaire entre non-clausal modificateurs et de leurs heads Il y a sous type : default (_), part(itive), prt(particle), poss(essive), num(ber), ta(text adjunct), et ij(interjection) Par exemple : Default : A beautiful girl cries (|ncsubj| |cry+s:4_VVZ| |girl:3_NN1| _) (|det| |girl:3_NN1| |A:1_AT1|) (|ncmod| _ |girl:3_NN1| |beautiful:2_JJ|) Particle : I looked up the word (|ncsubj| |look+ed:2_VVD| |I:1_PPIS1| _) (|dobj| |look+ed:2_VVD| |word:5_NN1|) (|det| |word:5_NN1| |the:4_AT|) (|ncmod| |prt| |look+ed:2_VVD| |up:3_RP|) Possessive : Tien's wife cooks (|ncsubj| |cook+s:4_VVZ| |wife:3_NN1| _) Page 71 Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Annexes (|ncmod| |poss| |wife:3_NN1| |Tien:1_NP1|) xmod encode les relations binaires de prédicative insaturés entre un modificateur (VPS, AP) et son head Elle a deux sous type : default (_) et 'to' Par exemple : She did it in order to be happy (|ncsubj| |do+ed:2_VDD| |She:1_PPHS1| _) (|ncmod| _ |do+ed:2_VDD| |in:4_II|) (|dobj| |in:4_II| |order:5_NN1|) (|xmod| |to| |order:5_NN1| |be:7_VB0|) (|xcomp| _ |be:7_VB0| |happy:8_JJ|) (|dobj| |do+ed:2_VDD| |it:3_PPH1|) cmod encode la relation saturée entre un modificateur propositionel et son head Elle a deux sous type: default (_) et 'that' Par exemple : Although she came, Phu left (|cmod| _ |leave+ed:6_VVD| |Although:1_CS|) (|ncsubj| |leave+ed:6_VVD| |Phu:5_NP1| _) (|ccomp| _ |Although:1_CS| |come+ed:3_VVD|) (|ncsubj| |come+ed:3_VVD| |she:2_PPHS1| _) pmod encode la relation entre un modificateur PP avec complément PP et son head Par exemple : We gave him money as well as food (|ncsubj| |give+ed:2_VVD| |We:1_PPIS2| _) (|obj2| |give+ed:2_VVD| |money:4_NN|) (|dobj| |give+ed:2_VVD| |he+:3_PPHO1|) (|pmod| |money:4_NN| |as:5_CSA|) (|iobj| |as:5_CSA| |as:7_CSA|) (|ncmod| _ |as:7_CSA| |well:6_RP|) (|dobj| |as:7_CSA| |food:8_NN1|) ncsubj encode la relation binaire entre un sujet non-clausal (Nps, Pps) et son head de verbe Par exemple : My name is Tien (|ncsubj| |be+s:3_VBZ| |name:2_NN1| _) (|xcomp| _ |be+s:3_VBZ| |Tien:4_JJ|) (|det| |name:2_NN1| |My:1_APP$|) xsubj encode las relations binaires entre un sujet prédicatif insaturé (VP, AP) et le verbal head Par exemple : This is a car using high technology (|ncsubj| |be+s:2_VBZ| |This:1_DD1| _) (|xcomp| _ |be+s:2_VBZ| |car:4_NN1|) (|det| |car:4_NN1| |a:3_AT1|) (|xsubj| |use+ing:5_VVG| |car:4_NN1| _) (|xmod| _ |car:4_NN1| |use+ing:5_VVG|) (|dobj| |use+ing:5_VVG| |technology:7_NN1|) (|ncmod| _ |technology:7_NN1| |high:6_JJ|) dobj encode la relation binaire entre un head qui est le verbe ou preposition et un dependent Page 72 Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Annexes qui est l'entête de NP Par exemple : I read book (|ncsubj| |read:2_VV0| |I:1_PPIS1| _) (|dobj| |read:2_VV0| |book:3_NN1|) obj2 encode la relation binaire entre un head qui est le verbe et un dependent qui est l'entête de la deuxième NP dans la construction d'objet doublé Par exemple : I gave Nam toys (|ncsubj| |give+ed:2_VVD| |I:1_PPIS1| _) (|dobj| |give+ed:2_VVD| |toy+s:4_NN2|) (|obj2| |give+ed:2_VVD| |toy+s:4_NN2|) iobj encode la relation binaire entre un head et un dependent qui est la préposition d'un argument PP quand le complément PP est NP Par exemple : Tien flew to Hanoi from Nice (|ncsubj| |fly+ed:2_VVD| |Tien:1_NP1| _) (|iobj| |fly+ed:2_VVD| |to:3_II|) (|dobj| |to:3_II| |Hanoi:4_NP1|) (|ncmod| _ |Hanoi:4_NP1| |from:5_II|) (|dobj| |from:5_II| |Nice:6_NP1|) pcomp encode la relation binaire entre un head et un dependent qui est la préposition d'un argument PP quand le complément de PP est aussi une PP Par exemple : xcomp encode la relation binaire entre un head et un dependent qui est un complément insaturé de VP Elle a deux sous type : default (_) et “to” Par exemple : She thought of leaving (|ncsubj| |think+ed:2_VVD| |She:1_PPHS1| _) (|xcomp| _ |think+ed:2_VVD| |of:3_IO|) (|xcomp| _ |of:3_IO| |leave+ing:4_VVG|) Page 73 Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Annexe : La signification des tags de RASP Tag AT AT1 BCS BTO CC CCB CF CS CSA CSN CST CSW DA DA1 DA2 DA2R DAR DAT DB DD DD1 DD2 DDQ DDQ$ DDQV EX ICS IF II IO IW JA JB Page 74 Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes JBR JBT JJ JJR JJT JK LE MC MC$ MC MC1 MC2 MD MF NC2 ND1 NN NN1 NN1$ NN2 NNJ NNJ1 NNJ2 NNL NNL1 NNL2 NNO NNO1 NNO2 NNS NNS1 NNS2 NNSA1 NNSA2 NNSB NNSB1 NNSB2 Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes NNT NNT1 NNT2 NNU NNU1 NNU2 NP NP1 NP2 NPD1 NPD2 NPM1 NPM2 PN PN1 PNQO PNQS PNQV$ PNQVO PNQVS PNX1 PP$ PPH1 PPHO1 PPHO2 PPHS1 PPHS2 PPIO1 PPIO2 PPIS1 PPIS2 PPX1 PPX2 PPY RA REX Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes RG RGA RGQ RGQV RGR RGT RP RPK RR RRQ RRQV RRR RRT RT TO UH VB0 VBDR VBDZ VBG VBM VBN VBR VBZ VD0 VDD VDG VDN VDZ VH0 VHD VHG VHN VHZ VM VMK VV0 VVD VVG Page 77 Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes VVN VVZ VVGK VVNK XX ZZ1 ZZ2 ! " $ &FO &FW ( ) , : ; ? APP$ Page 78 Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Annexes Annexe : Les phrases utilisées évaluer le programme -Use Case 1.1 -Christine has breast tumor with high probability In one big company of this country, one young engineer exhibits the 02 car By practicing hardly, Maria can win any body in the world My friend becomes a doctor because of his mother She becomes a doctor because he wants to have the success He invented this product when he worked for an american company In the past year, as the US housing market slumped, the FBI began a broad inquiry across the financial sector Mr Zhai will conduct his extra-vehicular activity (EVA) on either Friday or Saturday I will complete each movement with total concentration Apple is doing it by cutting the retail price They organize this music program to help the poor people These engineers can write the softwares without mistakes The arbitration tribunal of the Polish National Olympic Committee suspended the FA (PZPN) last week after they allegedly failed to address corruption issues and named an administrator -Use Case 1.2 -They are creating that car by using one new technology My younger brother becomes a student before the next month Mr Bush made his comments in an evening address to the nation Japan blasted its own lunar orbiter into space The rocket will put the capsule in a near-circular orbit more than 300km above the Earth Mr McCain was taking the lead on an issue Chinese media reported that this latest mission was the "most critical step" in the country's "three-step" space programme Two years later, Fei Junlong and Nie Haisheng completed a five-day flight on Shenzhou VI It is the best phone on the market The UK is to increase its cap on the amount of savings it will protect from £35,000 to £50,000 Use Case 2.1 Mr Nam has a wife who is very beautiful, quite intelligent, and so active Steve has temperature which is high, but falling He has a son who is engineer and who has a lot of money I have a brother who is good student and a sister who is teacher in the Hanoi university He has a wife who is very beautiful and who will become the first woman president The teacher of my brother has a beautiful daughter who is English teacher and who loves me very much And the government recently announced a $700bn bail-out plan that would enable banks to offload their bad debt Now Apple releases a 3G version that is substantially cheaper Nokia has launched a service that gives people free access to a store that holds two million music tracks He has a son who is engineer and has a lot of money "We have received letters and documents that there has been an agreement between the FA and the Polish government," said Blatter Page 79 Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Annexes Use Case 2.2 I buy a laptop using IBM technology The John engineer becomes the first American creating this car and using his product I buy a computer made in USA I read an article written by my teacher I buy a computer designed by USA, but made in Vietnam These men would have serious problems becoming a father They issue a joint statement calling for a bipartisan resolution to the crisis I am reading an article represented by my teacher in a conference I buy a computer made in Vietnam, but using American technology -Use Case 3.1 John buys a french book from books.example.com for $15 as a birthday gift In one big company of this country, one young engineer exhibits the 02 car On Tuesday, Matti Juhani Saari, aged 22, shot 10 people in Kauhajoki, before turning his gun on himself Last year, Pekka-Eric Auvinen, 18, shot eight people and himself in Jokela The Shenzhou-VII capsule will go into orbit atop a Long-March II-F rocket from the Jiuquan spaceport in Gansu province in the northwest of China On Thursday, they will meet US President George W Bush to discuss the proposed $700bn (£378bn) bail-out of the financial markets, which is set to go before Congress From Nokia mobile, users can transfer downloaded music to their PCs Two week ago I pay $ 299 for an iPhone Vodafone's MusicStation give customer unlimited access to a catalogue of 1.2 million song Mr Jobs said the cost of the original iPhone was the "number one reason" that people had not bought one of the devices Missing that deadline would have risked suspension from all competitions and losing their status as Euro 2012 hosts For Haredis, "inappropriate" means any physical contact between a man and a woman who are not married The matter will be analysed and discussed at the next Fifa Executive Committee meeting on 23-24 October - Use Case 4.1 United Airlines flight 3177 visited the following airports: LAX, DFW, and JFK I have two supervisors: Khaled and Hacene In 2008, i visited the French cities: Biaritz, Toulouse, Paris, Toulons and Nice We are processing four n-ary relation's types: UseCase1, UseCase2, UseCase3, and UseCase4 They have two children: a beautiful girl and a naughty boy United Airlines flight 3177 visited the airports LAX, DFW, and JFK He has two friends: Nam and Lan Sentence complexe -By working seriously, the doctors of the X hospital saved one young girl having breast tumor She has breast tumor with high probability but her mother has it with low probability The IBM company made one new laptop family with high quality but sold this product with low price With a big ambition, the Tien engineer created the X car using one new technology of his Page 80 Mémoire de fin d’études Identification et extraction de relations n-aires partir des textes Annexes company In the past year, as the US housing market slumped, the FBI began a broad inquiry across the financial sector On Tuesday, Matti Juhani Saari, aged 22, shot 10 people in Kauhajoki, before turning his gun on himself Last year, Pekka-Eric Auvinen, 18, shot eight people and himself in Jokela The Shenzhou-VII capsule will go into orbit atop a Long-March II-F rocket from the Jiuquan spaceport in Gansu province in the northwest of China At the end of the mission, the Shenzhou re-entry capsule will target a landing in north China's Inner Mongolia Autonomous Region The English-language channel CCTV-9 echoed the words of American Neil Armstrong when he became the first man to walk on the Moon This week, HM Revenue and Customs (HMRC) reported that residential property sales in the UK stood at just 62,000 in August, down by 54% on a year earlier Three hundred of the staff being made redundant work at the bank's mortgage processing department at Borehamwood in Hertfordshire I got a sub-par phone which incidentally I had to replace two times because of quality control issues at Apple The key issue that distinguishes the B&B from other lenders is that some of its loans to home owners have been turning bad at an alarming rate In France, Orange has recently launched a service free of anti-piracy controls (aka DRM) which offers customers 500 tracks per month for 12 euros The cheapest 8GB iPhone 3G will sell for $199, while a second model with 16GB of storage will sell for $299 In the UK, mobile network O2 said the iPhone would be available for free on some contracts, starting at £45 a month "If Apple is doing it by cutting the retail price, it will drastically hit their margins if they sell volume The iPhone is an option for me until it is not available on pay as you go The roadmap was created following discussions between the Polish FA, the Polish government, Fifa and Uefa and laid out the steps that should be taken before elections take place at the Polish FA Page 81 ... recherche concernant l? ?identification et l? ?extraction des relations n- aires seront présentées dans cette partie Enfin, nous donnons en annexes quelques explications sur la signification des relations. .. relations n- aires sont identifiées et Dep : Dependent Page 28 Mémoire de fin d’études Identification et extraction de relations n- aires partir des textes Chapitre : Méthode proposée pour l 'identification. .. Mémoire de fin d’études Identification et extraction de relations n- aires partir des textes Chapitre : Méthode proposée pour l 'identification et l 'extraction des relations n- aires partir de texte

Ngày đăng: 30/10/2020, 21:21

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w