Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 44 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
44
Dung lượng
601,99 KB
Nội dung
Erreur ! Style non défini Table des matières TABLE DES MATIERES PLAN DU MEMOIRE RESUME ABSTRACT CHAPITRE INTROD 1.1 Introduction du sujet 1.2 Présentation du centre de la recherche en informatique CHAPITRE TRAVAU 2.1 Description du projet 2.2 Environnement de développement 2.3 2.4 2.3.1 2.3.2 2.3.3 2.3.4 2.3.5 2.3.6 Travaux antérieurs Téléchargement et décompression des données Construction du système de stockage des données Extraction des méta-données Construction du texte par type de document Correction des encodages Mise en application par la plate forme Zope Travaux en cadré du stage 2.4.1 XML et XML solution de stockage 2.4.1.1 XML 2.4.1.2XML solution de stockage 2.4.2 Descriptions des données traiter 2.4.2.1 Texte princ 2.4.2.2 Méta donné Partie indexation Partie des méta-données de description du document 2.4.2.3Version différente d’un document juridique 2.4.3 Xml linking language (Xlink) pour les référence entre documents XML 2.4.4 Partie théorique de traitement 2.4.4.1Abstraction de la grammaire pour des mots-clés du exte juridique 2.4.4.2 Hypothèse CHAPITRE METHODES ET SOLUTIONS 3.1 3.1.1 3.1.2 Mémoire de fin d’étude Fonctionnement de liens dans document juridique Description de la phase de référence Mots-clés du texte Page sur 38 Erreur ! Style non défini 3.1.3 Méthodologie pour l’analyse des mots-clés 22 3.2.1 3.2.2 3.2.3 Localisation de fichier cible de lien et les annotations ou commentaires 23 Reformuler la mot-clé cherché sous une forme simple 23 Reconnaissance et l’acquisition pour la localisation d’un fichier du mot-clé 23 Ajout des informations prédéfinies de l’URL , les nnotations et commentaires 23 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 Modules et les algorithmes pour les travaux 25 Construction les patterns par l’expression régulière 26 Algorithme pour extraction du mot-clé dans le texte 27 Algorithme pour la reforme des mots-clés 27 Préparation de la base de données des méta-donnéespour chaque fichier 28 Algorithme de la reconnaissance les mots-clés, ajout des nœuds 28 3.2 3.3 3.4 Ajout du langage de liens(Xlink) dans le contenu de fichier 28 EVALUATION 30 CONCLUSION 31 ANNEXES 32 REFERENCES 37 Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini Plan du mémoire Dans la suite de ce mémoire, nous commencerons parl’introduction du sujet de ce mémoire, l’objectif global du projet, nous verrons en particulier l’objectif des travaux concernant le mémoire Le nouveau travail doit prendre en compte tous les avantages de l’ancien développement et doit s’adapter au nouveau format de données et l’introduction sur Centre de la Recherche en Informatique où je réalise mes travaux de mon mémoire (cf chapitre I) Cette partie présente l’architecture globale du système, l’environnement de développement et certains travaux pour le traitement des données ont été mis en place De plus, la partie de la relation entre les travaux antérieurs et ceux du projet de mon travail sera exploitée dans la deuxième partie de ce mémoire (cf chapitre II) Ensuite, nous nous concentrerons sur les méthodes et les solutions appliquées sur mes travaux encadrés, les détails de la description desproblèmes et les modules qui permettent de représenter chaque étape de la solution et l’environnement du traitement (cf chapitre III) Après la présentation des méthodes et des solutions, nous interpréterons le résultat obtenu Nous évaluerons également l’efficacité du traitemen par rapport aux résultats attendus (cf évaluation) Nous discuterons en particulier sur certains travaux antérieurs qui ont besoin d’être réalisé afin de fournir pour certains traitements particuliers de nouveaux développements et certaines critiques particulières sur les données originales.(cf recommandation) A la fin du mémoire, nous conclurons par la synthèse de résultats importants par rapport l’implémentation de l’ancien site http://www.admi.net/jo et certaines recommandations personnelles sur ces travaux (cf conclusion) Une site est hébergé l’Ecole des mines de ParisUn très important travail documentaire est réalisérégulièrement sur les fonds du Journal officiel Ce site permet d’accès des textes de lois celles les nouvelles et celles qui sont très rares Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini Résumé La distribution de données des grandes bases de documents techniques par des réseaux est de plus en plus augmentée XML (eXtensible Markup Language) est l’un des formats le plus utilisé pour contenir les données et ses structures logiques L’application web utilise ces données pour créer automatiquement ensuite les pages web l’aide de la plate-forme dont permet gérer les contenus Aussi que le traitement sera systématiquement effectué aux données de la nouvellmise jours Certaines applications implémente pour la partie l’analyse du contenu de la page et de trouver des mot-clés afin d’établir sa page de référence Pourtant la différence entre eux est sur le domaine de spécialisé du document Et le format dufichier traiter Ce papier a pour but de détailler la mộthode denrichissement de contenu du texte juridique en franỗais et la représentation des liens d’un mot clé est en langage de liens Xlink Les résultats seront par la suite publiés dans les contenue des pages dans la nouvelle version du site www.admi.net/jo Abstract Data exchange is now growing and especially the extraction of the big documentation‘s database and sharing on the network, XML file format and structure is now one of the popular that use for this exchange Considering the use case of XML file, which is capable to generate various kinds of terminal format page On the distribution of the database, this is sharing by supplier or organisation to the destination of clients, the web pages can be automatically created by using the plat-form of content management, and who will then update then the contents of the news pages according to the new update data arrival On the other hand, many of the web pages have the access immediate to other pages by clicking on the linking word, and that call “reference linking” Some of software exist today, that provide to create automatically the reference linking beyond the extraction on the data from online documents, especially on the HTML format This technique will extract the key words and will then by using the metadata to reproduce the document with the liking on those key-words, however on the case of XML, some of the structures of the documents are different and that is the same case for the metadata of each document This paper explore this case in detail, the content enriching of legal document by automatic extraction of creation de reference linking in Xlink attributes, is the method that name of the work on what we will apply the automatic extraction and reference linking creation on the legal document the new version of the website www.admi.net/jo Syntaxe basée sur des attributs pour établir des yperliensh entre documents XML, et non XML Elle autorise les liens unidirectionnelles simple introduits par HTML, mais aussi les liens multidirectionnels entre plusieurs documents, ou encore les liens entre documents que l’on ne pas modifier soi-même[XMLMREF] Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini Chapitre Introduction 1.1 Introduction du sujet Le site http://www.admi.net/jo est le deuxième site juridique le plus consulté après le site après http://www.LégiFrance.gouv.fr Il offre en effet tout une série d’outils de recherche et propose également un fond documentaire de textes officiels En plus, il s’agit d’une sorte de grand répertoire qui contient les textes officiels et l’enchnement systématique de mise jours de ces textes documents [IDVJ] Ce site fait parti de l’ensemble des sites adminet et il est hébergé au Centre de recherche en informatique, Ecole Nationale Supérieure des Mines de Paris Avec la mise disposition par le site officiel L égiFrance de données au format XML fait, l’idée de construire une autre version du site est apparue Cette nouvelle version sera plus tard basée sur les données de la base documentaire XML et la mise en page sera réalisée sur une plate forme de développement libre Zope Ces documents reỗus ne sont pourtant que des fich ier XML qui contiennent des parties différentes du texte, alors la nécessité du contexte de stage est d’appliquer Xlink pour décrire le liens du mot clé dans le text et ces nouvelles description de liens seront insérer dans le document originale en forme les attributs de Xlink L’avantage de l’utilisation de Xlink est la capaci té de contenir les descriptions détaillées sur un lien d’un mot-clé, ses données sont aussi les données avec la sémantique que nous pouvons par la suite l’utiliser la sortie finale de la page H TML ou les autres fichier multimédia Voyons que le travail concerne la recherche des mot-clés alors que le domaine correspond fortement le méthode l’analyse lexico syntaxique spécialisé sur le domaines juridique que la grammaire pour la représentation doit être définie Pour s’assurer de l’efficacité du traitement, nous devons prendre en compte dans plusieurs problème : l’extraction du mot-clé, la caractéristique particulier de style d’écriture de l’auteur, définition du modèle des métas-donnés, la reconnaissance le mot-clé extraite que nous cherchons diminuer le temps de recherche et le problème de la grand taille de fichier de texte, le meilleur outil pour faire le parseur et pour manipuler le fichier XML 1.2 Présentation du centre de la recherche en informatique Le Centre de recherche en informatique, dirigé par M Robert MAHL, Directeur et M Franỗois IRIGOIN, Directeur Adjoint est composộ de 90 personnes, dont enseignants chercheurs, doctorants, autres personnels et 69 autres étudiants Les travaux de recherche du centre s’articulent autour de trois axes : · · · Les analyses statiques, instrumentations et transformations de programmes des fins de développement rapide d’optimisation, de validation, de maintenance et de ré-ingénierie de codes scientifiques, Les architectures documentaires permettant de faciliter l’accès aux informations disponibles sur Internet, Le e-learning avec, en particulier, le développement d’environnement d’aide l’enseignement en ligne Permet daccộder aux bases de donnộes juridiques officielles franỗaises, il propose également l’accès tous les autres sites officiels franỗais, rejoignant en cela lautr e site de ladministration franỗaise, Service publi c Zope, pour Z Object Publishing Environment, est un serveur d’applications Web open source, permettant de développer des portails, des systèmes de gestion decontenu, … Une étude plus approfondie de cette pla te-forme Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini Formation Aux niveaux des activités pédagogiques de l’Ecole, le C.R.I participe activement l’enseignement de tronc commun, aux MIG (Modules d’ Intégration Généralistes), l’Acte d’Entreprendre et aux cours de l’option informatiqu e dont il assure l’organisation et l’encadrement Deux nouveaux enseignements spécialisés en informatique ont été préparés en 2003 et sont proposés aux élèves ingénieurs en 2004 Le C.R.I organise deux mastères, pour lesquels il assure une part importante de l’enseignement Le premier, Management des Systèmes d’Information et des Technologies (M.S.I.T.), est co-encadré avec HEC et a lieu pour moitié l’Ecole des Mines (Paris) et pour moitié HEC (Jouy-en-Josas) Le second, Ingénierie des Applications Réseau MultiMédia (IAR2M), installé Fontainebleau, ambitionne de former des spécialistes du Web pour Internet et Intranets en s’appuyant sur les compétences en multimédia et applications Internetacquises au sein du C.R.I Recherche · Analyses statiques, instrumentations et transformations de programmes L’objectif général de ce premier axe de recherche ste de réduire les coûts d’utilisation des ordinateurs - qu’il s’agisse des coûts de développement ou d’exploitation – en développant des outils aussi automatiques que possible pour effectuer des analyses, instrumentations et transformations de programmes Ces outils sont utilisés en développement pour faciliter la réutilisation de code ou effectuer de la synthèse de logiciel ou de tests Ces outils et techniques sont aussi utilisés pour réduire le temps d’exécution delogiciels, sans augmenter sensiblement les coûts de développement, ni les coûts de maintenance Les techniques de réduction des coûts mentionnées nto fait l’objet d’efforts particuliers en 2003 : compilation de spécifications d’applications de traitement du signal, optimisation manuelle et automatique des codes critiques pour le temps d’exécution, analyses pour la réutilisation de logiciels, et dérivation automatique de versions spécialisées l’aide de l’analyseur automatique de programmes développé au C.R.I., PIPS Deux directions de recherche ont été poursuivies en2003 : le traitement des applications écrites en langage C et l’amélioration de la robustesse en magnitude, espace et temps des algorithmes d’algèbre linéaire utilisés La résolution des problèmes de robustesse permettra de traiter automatiquement des milliers de lignes de code et d’envisager une industrialisation de tels outils Enfin, le projet MétaCC étudie la dissémination deressources de stockage, d’optimisation / compilation et d’exécution de code distance sur une grille de calcul (réseau local, cluster, Internet) et l’interaction entre ces ressources Le but est d’exécuter du code distance sur la machine la plus appropriée, de manière transparente, depuis n’importe quel ordinateur connecté au réseau Deux thèses ont été lancées en 2003 La première se focalise sur l’analyse et l’optimisation de code au sein du compilateur libre « gcc » qui sera intégréà l’infrastructure MétaCC ainsi que les possibilité d’interactions distribuées entre « gcc » et les environnements PIPS et WrapIt (environnement développé par l’INRIA) L’autre thèse a pour but l’étude de nouvelles formes d’optimisations adaptées la grille en prenant comme application cible l’encodage de flux vidéo selon la norme MPEG4 AVC · Architectures documentaires et Internet Les travaux liés Internet portent essentiellement sur : Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini · · · Les mécanismes d’indexation et de recherche dans les grandes bases de données textuelles partiellement structurées, notamment composées deextes juridiques, L’extraction d’une ontologie juridique partir des textes, La présentation des interfaces de recherche multicritères L’objectif de ces recherches consiste notamment c oncevoir des méthodes générales de création d’hyperliens entre bases et de gestion de la qualité des documents Une thèse a été soutenue l’année dernière sur le premier de ces thèmes, une autre devant s’achever courant de cette année La première concerne l’étude des corrélations entre documents, l’objectif étant de faciliter la navigation des internautes sur des bases de donnéespluridisciplinaires de grande envergure La seconde étudie les méthodes de classification no supervisées et de labellisation de classes pour l’aide la navigation dans des documents juridique s · E-learning Un nouvel axe de recherche, l’enseignement distan ce, est en train de se former autour de deux projets, Arezzo et G.E.V Le projet Arezzo d’enseignement en ligne de bases théoriques de la musique se poursuit ; il consiste développer un environnement interactif permettant, entre autres, de partager des partitions et de vérifier automatiquement les règles d’harmonie et de contrepoint Un financement par le Réseau pour la recherche et ’innovationl en audiovisuel et multimédia (R.I.A.M.) permet de valider, en collaboration avec la société ClickNPlayMusic, la pertinence de l’approche proposée Une thèse consacrée l’enseignement interactif de la musique de jazz est en cours Le second projet, G.E.V., est financé dans le cadre de la Grande Ecole Virtuelle Il s’attache développer un environnement extensible et gratuit d’enseignement collaboratif distance, gérant la notion de cursus, au-dessus de la plate-forme open source Zope Cet environnement a pour vocation de regrouper l’ensemble des actifs pédagogiques en ligne de l’Ecole et, plus long terme, ceux d’autres écoles intéressées La première version tesen cours d’utilisation pour gérer les projets de l’Acte d’Entreprendre des élèves Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini Chapitre Travaux concernés 2.1 Description du projet Ce projet correspond au développement de la nouvelle version du site www.adminet.org/jo en utilisant la base LEGI (les documents sous forme consolidé) et la gestion de contenu et les comptes utilisateurs seront gérés par Zope Architecture montre la mise en place version du site Le serveur contient l’ensemble des traitements sur les fichiers compressés qui sont téléchargés du site LégiFrance Le serveur reỗoit ces donnộes comme lentrộe du traitement Le premier traitement consiste restructurer les données en les mettant dans plusieurs répertoires différents, que nous considèrerons comme une base documentaire au format XML Le deuxième traitement consiste, grâce au module d’ enrichissement de contenu, établir les parties de liens de navigation entre les contenus des pages La plate forme Zope s’occupe de la présentation des pages, et de la gestion des droits d’accès au document Certains services sont ensuite fournis par la plate forme Zope tel que le téléchargement de fichiers, … Ces différents traitements sont systématiquement apliqués pour chaque mise jour des pages et permettent d’envoyer automatiquement la syndication de contenu en fonction du temps Les pages seront publiées sur Internet via Zope Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini 2.2 Environnement de développement · Matériels Le centre dispose d’une salle dédiée aux cours dispensés aux élèves des Mastères et composée d’une dizaine de postes avec en dual-boot Microsoft Windows et FreeBSD De plus, il existe une salle de « libre accès », avec des machines installées sous Microsoft Windows et un scanner Enfin, une salle est équipée d’une imprimante Lexmarc C910 laser couleur ainsi que d’une photocopieuse Evidemment, tout ce matériel était ànotre entière disposition Pour le stage, nous avons disposé de la salle des mastériens, équipée de Pentium 2,4 GHz, avec 256 Mo de mémoire vive De plus, nous avons essentiellement travaillé sous FreeBSD en utilisant uniquement des logiciels libres tant pour le développement que pour la rédaction de rapports · Logiciels Pour le développement en Perl, script shell ainsi qu’en XML ou en XSLT, nous avons uniquement utilisé le logiciel GNU Emacs, avec les modules adéquats Pour l’édition du programme Pour afficher les résultats en page de HTML nous avons utilisé comme navigateur deux logiciels libres qui sont Mozilla et Mozilla Firefox Et l’utilisation de Zope pour gérer les codes sources et les documents accompagnés du projets SGBD Mysql pour la création de base de données 2.3 Travaux antérieurs Cette partie décrit la première partie du travail,qui correspond l’ensemble des codes (scripts en shell) utilisés Ils ont été réalisés par George-dréAn Silber (ingénieur chercheur au cri) 2.3.1 Téléchargement et décompression des données La base de données LEGI est décomposée en plusieursbases de production qui regroupent les textes juridiques par domaine Dans les documents ainsi fournis, l'unité documentaire est l'article Les données sont toutes téléchargées sous la formede fichiers compressés au format ZIP depuis le site FTP de LégiFrance La méthode de téléchargemenest faite par l’utilisation de la commande wget vers l’adresse de LégiFrance Enfin, la mise jour est faite tous les jours 2.3.2 Construction du système de stockage des données Ensuite, pour faciliter le stockage des données, une fois le téléchargement terminé, les fichiers sont alors décompressés dans le répertoire La taille defichier est varie de 86 – 234 Mo La découpe des GNU Emacs possédait déjà les modules permettant dedévelopper en Python ou en Perl Seul le module nxml 20031031 a dû être installé pour développer en XML/XSLT L’article est la partie unité du document juridique et le contenu se divise en plusieurs articles, et le numéro de l’article permet de savoir où se trouve l’article dans le doc ument 7Wget command permet de télécharger le fichier surInternet en utilisant le protocole http et ftp Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini données est stockée dans plusieurs répertoires, quisont nommés par le code de la mise jour et les sous répertoires correspondent aux codes Voyons unexemple dans la figure : Figure Le code de la mise jours dans la figure dont le nom de répertoire 200407020036 signifie le code de la mise jour, ACAXXXXXXXX = code civil , et ACAXXXXXX5X00541AAXXAA.legi.xml = fichier dans l’article 2.3.3 Extraction des méta-données Les méta-données sont certaines parties du contenudu texte Il sont en général les information sur le titre du document, le chemin d’accès au document, la description du document, le nom du fichier … Dans chaque mise jour, le traitement va générer un fichier qui contient certaines informations de méta donnée Par exemple : 200407020036.index correspond la mise jour de l’exemple de la figure 2.3.4 Construction du texte par type de document Le principe de l’étape suivante est de reconstruire le document partir de plusieurs fichiers des articles Il agit de composer plusieurs fichiers XML en articles qui ont le même type de document et le nom de fichier se construit de la manière suivante : type de document +code de la mise jours+code du document Alors, nous pouvons voir l’exemple de la figure : CODE_200407020036_ACAXXXXXXXX.xml 2.3.5 Correction des encodages Etant donné que les contenus de textes sont en franỗais, lencodage des accents et de certains caractốres spéciaux est réalisé en UTF-8 , provoquant un changement de l’encodage sur l’ensemble des documents Afin d’éviter tous les types d’erreurs d’encodage, nous avons encodé tous les documents en UTF-8 décimal afin d’obtenir des documents homogènes 10 8Code civil , l’ensemble des règles de droit 9Dans les document juridique, il y a par exemple : le code, le décret, le loi , l’ordonnance … 10 UTF-8 Unicode Transformation Format-8, c’est un standard de l’Unicode Mémoire de fin d’étude Page 10 sur 38 Erreur ! Style non défini Fluide de données et les traitements pour la partiel’enrichissement le contenu Le fluide de données commence par le traitement de contenu de fichier origine en xml, alors la module extraction des mots-clés établit les grammaire pour extraire et il traite sur chaque document Suite de la première traitement les résultat sont entré dans la partie la reforme du structure de mots-clés, l’aide de l’accès au données dans la base de donnés permet retrouver la localisation de chemin d’accès vers le fichier cible qui correspondent chaque mot-clé Et dans dernière phase la modification du contenu de fichier pour construire le lien, lors de la modification après la construction de liens il est nécessaire de changerle fichier DTD du texte 3.3.1 Construction les patterns par l’expression régulière La construction des patterns en expression régulière, la terminologie du patterns ici signifie les représentation de chaque item(composant) de mot-clés Alors que chaque patterns représente au moins une forme possible d’un composant d’un mots-c lés En effet un patterns en expression régulière joue le rôle comme une abstraction d’une forme des mots possibles Une partie théorique dans le chapitre précédent est bien présentation certains grammaire particulier pour définir la forme de mots-clé En appliquant la grammaire constitué arp la partie théorique j’ai implémenté certain forme de mot par les expression régulière : Arrêté du 17 septembre 2004 : ((Arr(&\#\d*;)t(\d*;))\s?(?:((\d*-\d*-\d*)\s)|(\sdu\s\d*\s(([a-z]*\d*;[a-z]*)? [a-z]*)\s[0-9]*)) Exemple montre un pattern qui représente un arrêté Dans le contenu du texte, un mot-clé est souvent la combinaison de plusieurs composants avec certaines grammaires particulières Mémoire de fin d’étude Page 26 sur 38 Erreur ! Style non défini 3.3.2 Algorithme pour extraction du mot-clé dans le texte Après définir les grammaires pour chaque cas de mot-clé Cette étape est de faire l’analyse de texte, afin de trouver la les mots-clés qui correspondentà la grammaire définie 26 Avec la puissance de méthode de « pattern matching » fournir par le script en langage Perl aide beaucoup pour cette tâche Voici l’algorithme pour cet traitement Lire les composant de en patterns de l’expression régulière de fichier stocker Former les grammaires différent par la compositionde des composant Construite une liste des grammaires tant qu’il y a les ligne lu du texte traité pour chaque élément de la liste de grammaire si quelle ligne correspond la grammaire alors récupère le résultat et ajouter dansa ltableau association fin si fin pour fin tant que Algorithme pour extraire le section de référence Le résultat est écrire sur la sortie standard, quiseront par la suite traités en méthode de la pipe ed 27 command shell pour trier et rentre la valeur unique et transfo rmer la structure de stockage du résultat en document XML 3.3.3 Algorithme pour la reforme des mots-clés La manipulation de la liste en perl permet de manipuler la structure des mots-clés et reconstruire une nouvelle forme Ouvre le fichier qui contient les phrase originale Lire tous les terme pour reformer et les mettre dans la table association pour chaque terme dans la liste lire les patterns en expression régulière dechaque composant de la phrase dans le fichier stockage filtrer la phrase avec chaque pattern afin de reconntre chaque partie de la phrase si la partie de la phrase correspond le type de doc ument alors _appel fonction de reforme le type de document fin si si non si la partie de la phrase correspond la partie de l’article alors _appel la fonction pour reformer les a rticle fin si récupère les résultats et reconstruire laou les nouvelle(s) phrase(s) fin pour Ajouter une autre balise possédé cette (ces) nouvelles phrase Algorithme pour reformer la phrase Remarque : La reforme de la phrase origine prendre en compte toujours la structure de la phrase représente par une partie du grammaire , il agit également une règle pour la relation de chaque composant 26 Méthode pour faire la comparaison entre les patterns aux expressions régulières avec les données ,ne suite extraire 27 le résultat sur le la chne de caractère ou les données qui correspondant Langage de script de plusieurs système d’origine Unix … Mémoire de fin d’étude Page 27 sur 38 Erreur ! Style non défini 3.3.4 Préparation de la base de données des méta-donnéespour chaque fichier L’utilisation de la base de données est prendre en charge contenir les méta-données, ces données vues (partie de méta données) , la préparation estla phase de la création la base de données et d’importation des données partir de fichier XML Le module doit capable de traiter automatiquement En effet le fichier de méta-données récupéré sera corrigé par la correction d’encodage, en suite il sera passé le parser de XML :twig qui extraire le contenu de chaque balise et qui crée un fichier texte adapté l’importation dans la base de données mysql Les table base de données est maintenant divisé dans deux tables séparées, l’état actuelle il agit de lire les données de deux structure donné XML et importer dans la base de données Pour la meilleure préparation de données il est nécessaire de centralisé le méta-données une modèle de base de données relationnelle, car ce la facilite le parcours de donnés 3.3.5 Algorithme de la reconnaissance les mots-clés, ajout des nœuds Par l’accès la base de données en utilisant le module d’accès de perl qui permet connecter, exécuter les requête SQL et récupérer le résultat: Extraction tous les termes réformé et mettre dansal table association pour chaque terme lire de la table associationiste faire recherche ce terme dans la base de méta-données de indexation pour chaque résultat obtenu faire cherche ses description dans le métaspour la partie description si il existe dans la base de donnéalors créer un nœud avec les informati on prédéfinie de liens avec tous les donnộes reỗues insộrer cette nud comme le fils de la balise contenant la terme réformé fin si fin pour fin pour Algorithme pour reconntre la section de référence 3.4 Ajout du langage de liens(Xlink) dans le contenu de fichier 28 29 XML :twig un passeur qui applique la conception mélangée entre SAX et DOM , ce module permet l’ajoute des balises et le parcourt Extraire la balise du texte dont nous volons ajouter la balise de liens Pour chaque section de référence reconnu Faire Lire le donner de l’article marquer Si un article possède version alors (le cas ou on ajoute le lien étendu ) Créer les balises contenants tous les information de cette référence liens article étendu Découper le contenu du texte en trois morceau : contenu avant, entre et après la section de référence Faire la substitution de la partie entre en appelant fonction qui écrire la balisesur l’endroit se trouve l’article Fin si 28 29 Méthode de parser en fonction d’événement de la ncontrer la balise Méthode de parser en sauvegard l’arbre du contenu du texte et permet le parcourt pour tous les élément Mémoire de fin d’étude Page 28 sur 38 Erreur ! Style non défini Si un article possède un seule version alors (le cas ou on ajoute le lien simple) Créer les balises contenants tousles information de cette référence liens article simple Fin si Fin pour Découper le contenu du texte en trois morceau : contenu avant, entre et après la section de référence Faire la substitution de la section en appelant fonction qui écrire la balise surl’endroit se trouve l’article Algorithme pour ajouter Xlink dans le contenu du texte origine Mémoire de fin d’étude Page 29 sur 38 Erreur ! Style non défini Evaluation Observation de résultat Voici certains résultat pour le contenu après le traitement article 17 du décret susvisé du août 1961 Exemple pour liens simple Décret 66-570 1966-07-30 art. 8 3 2 1 Exemple pour lien étendu Le résultat observé est fait par l’affichage de lapage HTML, le script de transformation en XSLT et la feuille de style (réalisée par Gilles Rosenbaum) Le méthode d’évaluation est faite par la statistique des sections de référence détectées dela balise dans le contenu, la comparaison faite avec les pages de la version actuelle du site et le graphe basé sur l’observation de certaines pages d’exemple Pour chaque analyse de la section de référence, l’efficacité dépend de deux facteurs principaux Tout d’abord sur la partie des grammaires appliquées pour l’extraction car il prend en compte la certitude de matching les expressions régulières avec le contenu du texte La justification des espaces et les caractères spéciaux sont les pointsde détail sur chaque expression Le deuxième facteur dépend de l’acquisition des méta-données, qui jouent un rôle très important pour la reconnaissance L’absence de ces informations empêche la création de liens Problème du système d’encodage L’encodage est considéré comme une précaution lorsqu’on utilise XML, car nous avons plusieurs séries de traitements par plusieurs parseurs et larépétition de lecture et d’écriture sur les fichiers Le changement de l’encodage peut entrner une faute d ans le contenu Le traitement des données avec les encodages par certaines instructions entrne souvent des erreurs d’exécution Problème de l’absence de document L’absence des documents provient du fournisseur des fichiers En effet, si avec certaines mots-clés lors de la phase d’acquisition on ne peut pas localiser ces ficher cible, alors on ne peut pas établir son URL Mémoire de fin d’étude Page 30 sur 38 Erreur ! Style non défini Recommandation Traitement pour récupérer des différentes versionsd’un document Avec les méta-données actuelles, le fichier meta.xml ne nous permet pas de trouver les différentes versions d’un article Certains travaux sont nécessaires pour créer ce fichier afin de indexer les méta-données qui seront maintenant capables de garder toutes les versions d’un document consolidé Ceci demande également le changement destockage pour chaque type de document En effet, pour les codes, le traitement est fait par articles alors que pour l’ensemble des autres types de textes juridiques, le traitement est fait par texte juridique Avec l’algorithme implémenté actuellement, on est capable d’écrire les données de plusieurs versions pour un lien Méthode de prétraitement pour les données de chaquemise jour L’ajout de la SGBD dans le système a pour but de sauvegarder les données qui sont nécessaires pour la reconnaissance de section de référence Alors, l’automatisation du système de stockage doit se faire lors de l’arrivée de nouvelles données etle regroupement des méta-données sera en base de données relationnelle d’où l’accès un mot-clé permettra par la suite de récupérer tous ses descriptions Conclusion L’enrichissement automatique du contenu du texte juridique par l'extraction et la création des liens est un travail considérablement compliqué, mais quipossède des solutions Ce travail comprend deux grands domaines, qui est d’une part le traitement du texte juridique, et d’autre part la manipulation des documents au format XML En cours de réalisation actuellement, certaines hypothèses sont posées pour comprendre la démarchepour certaines méthodes de localisation de document et de son contenu En plus, l’essai de plusieurs outils de traitements sur de grands volumes de fichiers au format XML a été réalisé afin de gagner en temps detraitement et afin d’évider les problèmes d’encodage Pour la version actuelle, la partie des travaux de ce mémoire est considérée comme une application qui est systématiquement exécutée lorsde la mise jour Cette méthode de traitement peut bien s’adapter d’autres domaines d’applicati on en prenant en compte toujours le même format de fichier et l’utilisation de cet l’outil p roposé Pourtant, le changement peut être fait au niveau des grammaires pour l’analyse du contenu et la méthode de la reformulation des phrases extraites Le résultat obtenu du premier produit reste encoreà améliorer au niveau de la certitude de l’extraction et de la construction de l’interface d e l’utilisateur Mais d’après mes hypothèses dont on dispose pour la réalisation, le produit propose laplupart des objectifs envisagés Mémoire de fin d’étude Page 31 sur 38 Erreur ! Style non défini Annexes Xlink : Xml linking Language, Syntaxe basée sur des attributs pour établir des hyperliens entre documents XML, et non XML Elle autorise les liens unidirectionnelles simple introduits par HTML, mais aussi les liens multidirectionnels entre plusieurs documents, ou encore les liens entre documents que l’on ne pas modifier soi-même[XMLMREF] Zope : pour Z Object Publishing Environment, est un serveur d’applications Web open source, permettant de développer des portails, des systèmesde gestion de contenu, … Une étude plus approfondie de cette plate-forme www.LegiFrance.gov.fr : Permet d’accéder aux bases de donnộes juridiquesofficielles franỗaises, il propose ộgalement laccốs tous les autres sites officiels franỗais, rejoignant en cela lautre si te de ladministration franỗaise, Service public www.adminet.org/jo, www.admi.net, www.droit.org : Une site est hébergé l’Ecole des mines de Paris Un très important travail documentaire est réalisé régulièrement sur les fonds du Journal officiel Ce site permet d’accès des textes de lo is celles les nouvelles et celles qui sont très rares Plone : est un système de gestion de contenu basé sur laplate-forme Zope UTF-8 : Unicode Transformation Format-8, c’est un standard de l’Unicode DTD : pour Document Type Définition Javascript : Le script intégré dans la page HTML qui est capable de traité par les navigateurs CSS : Cascading Style Sheet feuille de style URL : Uniforme Ressource Locator chemin d’accès au fichier de référence XSLT : pour eXtensible Stylesheet Language Cette application XML transforme des documents XML sous une forme visible dans un navigateur Web ANNEXE A Expression régulière Etiquette Expression régulière Label de l’article ((?:art(\d{0,3};)|article(s)?(?:_|\s)(A|D Numéro de l’article ((((_)?[0-9]{0,3}))((-|\s)([0-9]{1,2}| (bis|duodecies|decies|nonies|quater|quinq novodecies|octodecies|octies|quaterdecie |duovicies|novodecie|octovicies|quatervi {0,3})){0,3})(\d{0,3};)? Type de texte pour décret, loi, ordonnanc e ((?:d(\d{0,3};)cret|loi|ordonnance)\s? ((\d{0,2})-(\d{0,3}))?\s*(((\d{0,4})-(\d{ (\d{0,2}))|(\sdu\s\d{0,2}(?:\s|_)(?:janvie |septembre|octobre|novembre|d\d{0,3 Type de texte pour les codes (\scode\s(?:civil|des\scaisses\sd\'(\d{0 n(\d{0,3};)ral\sdes\simp(\d{0,3};) (\d{0,3};)t\sAnnex\s4,\sCGIAN4|g(& (\d{0,3};)\sterritoriales|d\'\sassurance (\d{0,3};)communication|de\sproc(& nale|de\sl\'organisation\sjuridique|des\sp ais\scommerce|de\sla\smutualiste|de\sla\ des\sports\smaritimes|de\sl\'aviation\sciv re)) Chne caractère (\s*[^>\. Mémoire de fin d’étude Page 33 sur 38 Erreur ! Style non défini Mémoire de fin d’étude Page 34 sur 38 Erreur ! Style non défini Mémoire de fin d’étude Page 35 sur 38 Erreur ! Style non défini ANNEXE C URI TITR Exemple montre arbre de description d’un section de référence AUTEU Mémoire de fin d’étude Page 36 sur 38 Erreur ! Style non défini Références [XLINK]Steve DeRose, Brown University Scholary Technology Group, Eve Maler, Sun Microsystems, David Orchard, Jamcracker XML Linking Language(Xlink) Version 1.0 http://www.w3.org/TR/xlink [BXMLP] DuCharme Bob, LexisNexis, Data Architecture, Editorial System Engeneering, Building Xlink Application with Xslt http://www.idealliance.org/papers/xml2001papers/tm/web/06-02-00 [AERLIOD] Donna Bergmark Cornell Digital Library Reseach Group , Automatic Extraction of Reference Linking Information from Online Documents [IXDUML] Carson,David,CTO, Ontogenics Corp, Integrating XML and non-XML Data Via UML [XMLMiniTu] Michael l Schwartzbach, University of Aarhus, XML Mini-Tutorial http://www.brics.dk/~mis/ITU/XML [XXPTR],Laurant Tranchant , Mtrise d’Informatique Année 1999-2000 Xlink et XPointer Les liens de XML http://www.u-picardie.fr/~ferment/etude/tranchant/XML_links [EXPERL] Jeffrey Friedl, Traduction initiale et mise jour , Paul Gaborit, les expressions rationnelles en Perl http://www.enstimac.fr/Perl/DocFr/perlre.html [TWIGTU] XML ::Twig Tutorial http://xml:twig.com/xmltwig/tutorial [TWIGQU] XML ::Twig Quick Reference http ://xmltwig.com/xmltwig/quick_ref.html [TWIGDE]XML ::Twig-Development version http://xmltwig.com/xmltwig/twig_dev.html [ELSCT] Emmanuel Morin, Thèse de Doctorat , Université de Nantes Falculté des Sciences et des Techniques, Extraction de liens sémantiques entre ermest partir de corpus de textes techniques [IDVJ] Didier FROCHOT, formateur et consultant , Information,documentation et veille juridique Décembre 2003 [PRPERL] Larry Wall, Tom Chistiansen & Randal L.Schwartz O’Reilly & Associates, nd Inc Programming Perl Edition Covers Perl5 September 1996 [ALGOT] Maxime Crochemore, Christophe Hancart, Thierry Lecroq, Algorithmique du Texte Vuibert, Paris, 2001 [LXML] Erik T.Ray Learning XML Second Edition 2003 [XMLS] Anelyse Boukhors, Alexandre Kaszyschi, Jérôme Laplace, Sandrine Munerot, Laurent Poublan, Dunod, XML la synthèse Intégrez XML dans vos architectures , Paris, 2002 [CXSLT] Bernd Amann et Philippe Rigaux, Comprendre XSLT, Edition Originale, Juin 2003 [XMLMREF] Elliotte Rusty Harold & W Scott Means Traduction de Thomas Broyer Philippe Mémoire de fin d’étude Page 37 sur 38 Erreur ! Style non défini Ensaguet, Alain Ketterline & Frédéric Laurent , XMLin a nutshell [CIRLO] Guiraude LAME, Centre de Recherche en Informatique Ecole Nationale Supérieure des Mines de Paris, Constructing an IR-oriented legal ontology [TAH] Jean-Pierre Balpe Alain Lelu Fabrice Papy Imad Saleh, Techniques avanncées pour l’hypertexte, HERMES Paris 1996 [DPCGC] Gilles Rosenbaum, rapport de stage de 3ème année, ESIGETEL, avril 2004 au 30 septembre 2004, Développement de portails collaboratifs de gestion de contenu sous Zope Mémoire de fin d’étude Page 38 sur 38 ... 35 sur 38 Erreur ! Style non défini ANNEXE C URI TITR Exemple montre arbre de description d’un section de référence AUTEU Mémoire de fin d’étude Page 36 sur 38 Erreur ! Style non défini Références... est capable de traité par les navigateurs Cascading Style Sheet feuille de style Mémoire de fin d’étude Page 25 sur 38 Erreur ! Style non défini Fluide de données et les traitements pour la... 38 Erreur ! Style non défini balise est considérée comme la racine de l’arbre joueur Date_nais Les données la forme d’un arbre L’ensemble des définitions des données: DTD pour Document Type Définition