Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 38 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
38
Dung lượng
649,62 KB
Nội dung
Erreur ! Style non défini Table des matières TABLE DES MATIERES .1 PLAN DU MEMOIRE RESUME .4 ABSTRACT CHAPITRE INTRODUCTION 1.1 Introduction du sujet 1.2 Présentation du centre de la recherche en informatique CHAPITRE TRAVAUX CONCERNES 2.1 Description du projet 2.2 Environnement de développement 2.3 Travaux antérieurs 2.3.1 Téléchargement et décompression des données 2.3.2 Construction du système de stockage des données 2.3.3 Extraction des méta-données 10 2.3.4 Construction du texte par type de document 10 2.3.5 Correction des encodages 10 2.3.6 Mise en application par la plate forme Zope 11 2.4 Travaux en cadré du stage 12 2.4.1 XML et XML solution de stockage 12 2.4.1.1 XML 12 2.4.1.2 XML solution de stockage 14 2.4.2 Descriptions des données traiter 15 2.4.2.1 Texte principal 15 2.4.2.2 Méta données 16 Partie indexation 16 Partie des méta-données de description du document 17 2.4.2.3 Version différente d’un document juridique 18 2.4.3 Xml linking language (Xlink) pour les référence entre documents XML 18 2.4.4 Partie théorique de traitement 20 2.4.4.1 Abstraction de la grammaire pour des mots-clés du texte juridique 20 2.4.4.2 Hypothèse 21 CHAPITRE METHODES ET SOLUTIONS 22 3.1 Fonctionnement de liens dans document juridique 22 3.1.1 Description de la phase de référence 22 3.1.2 Mots-clés du texte 22 Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini 3.1.3 Méthodologie pour l’analyse des mots-clés 22 3.2 Localisation de fichier cible de lien et les annotations ou commentaires 23 3.2.1 Reformuler la mot-clé cherché sous une forme simple 23 3.2.2 Reconnaissance et l’acquisition pour la localisation d’un fichier du mot-clé 23 3.2.3 Ajout des informations prédéfinies de l’URL , les annotations et commentaires 23 3.3 Modules et les algorithmes pour les travaux 25 3.3.1 Construction les patterns par l’expression régulière 26 3.3.2 Algorithme pour extraction du mot-clé dans le texte 27 3.3.3 Algorithme pour la reforme des mots-clés 27 3.3.4 Préparation de la base de données des méta-données pour chaque fichier 28 3.3.5 Algorithme de la reconnaissance les mots-clés, ajout des nœuds 28 3.4 Ajout du langage de liens(Xlink) dans le contenu de fichier 28 EVALUATION 30 CONCLUSION 31 ANNEXES 32 REFERENCES 37 Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini Plan du mémoire Dans la suite de ce mémoire, nous commencerons par l’introduction du sujet de ce mémoire, l’objectif global du projet, nous verrons en particulier l’objectif des travaux concernant le mémoire Le nouveau travail doit prendre en compte tous les avantages de l’ancien développement et doit s’adapter au nouveau format de données et l’introduction sur Centre de la Recherche en Informatique où je réalise mes travaux de mon mémoire (cf chapitre I) Cette partie présente l’architecture globale du système, l’environnement de développement et certains travaux pour le traitement des données ont été mis en place De plus, la partie de la relation entre les travaux antérieurs et ceux du projet de mon travail sera exploitée dans la deuxième partie de ce mémoire (cf chapitre II) Ensuite, nous nous concentrerons sur les méthodes et les solutions appliquées sur mes travaux encadrés, les détails de la description des problèmes et les modules qui permettent de représenter chaque étape de la solution et l’environnement du traitement (cf chapitre III) Après la présentation des méthodes et des solutions, nous interpréterons le résultat obtenu Nous évaluerons également l’efficacité du traitement par rapport aux résultats attendus (cf évaluation) Nous discuterons en particulier sur certains travaux antérieurs qui ont besoin d’être réalisé afin de fournir pour certains traitements particuliers de nouveaux développements et certaines critiques particulières sur les données originales (cf recommandation) A la fin du mémoire, nous conclurons par la synthèse de résultats importants par rapport l’implémentation de l’ancien site http://www.admi.net/jo1 et certaines recommandations personnelles sur ces travaux (cf conclusion) Une site est hébergé l’Ecole des mines de Paris Un très important travail documentaire est réalisé régulièrement sur les fonds du Journal officiel Ce site permet d’accès des textes de lois celles les nouvelles et celles qui sont très rares Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini Résumé La distribution de données des grandes bases de documents techniques par des réseaux est de plus en plus augmentée XML (eXtensible Markup Language) est l’un des formats le plus utilisé pour contenir les données et ses structures logiques L’application web utilise ces données pour créer automatiquement ensuite les pages web l’aide de la plate-forme dont permet gérer les contenus Aussi que le traitement sera systématiquement effectué aux données de la nouvelle mise jours Certaines applications implémente pour la partie l’analyse du contenu de la page et de trouver des mot-clés afin d’établir sa page de référence Pourtant la différence entre eux est sur le domaine de spécialisé du document Et le format du fichier traiter Ce papier a pour but de détailler la méthode denrichissement de contenu du texte juridique en franỗais et la représentation des liens d’un mot clé est en langage de liens Xlink2 Les résultats seront par la suite publiés dans les contenue des pages dans la nouvelle version du site www.admi.net/jo Abstract Data exchange is now growing and especially the extraction of the big documentation‘s database and sharing on the network, XML file format and structure is now one of the popular that use for this exchange Considering the use case of XML file, which is capable to generate various kinds of terminal format page On the distribution of the database, this is sharing by supplier or organisation to the destination of clients, the web pages can be automatically created by using the plat-form of content management, and who will then update then the contents of the news pages according to the new update data arrival On the other hand, many of the web pages have the access immediate to other pages by clicking on the linking word, and that call “reference linking” Some of software exist today, that provide to create automatically the reference linking beyond the extraction on the data from online documents, especially on the HTML format This technique will extract the key words and will then by using the metadata to reproduce the document with the liking on those key-words, however on the case of XML, some of the structures of the documents are different and that is the same case for the metadata of each document This paper explore this case in detail, the content enriching of legal document by automatic extraction of creation de reference linking in Xlink attributes, is the method that name of the work on what we will apply the automatic extraction and reference linking creation on the legal document the new version of the website www.admi.net/jo Syntaxe basée sur des attributs pour établir des hyperliens entre documents XML, et non XML Elle autorise les liens unidirectionnelles simple introduits par HTML, mais aussi les liens multidirectionnels entre plusieurs documents, ou encore les liens entre documents que l’on ne pas modifier soi-même[XMLMREF] Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini Chapitre Introduction 1.1 Introduction du sujet Le site http://www.admi.net/jo est le deuxième site juridique le plus consulté après le site après http://www.LégiFrance.gouv.fr3 Il offre en effet tout une série d’outils de recherche et propose également un fond documentaire de textes officiels En plus, il s’agit d’une sorte de grand répertoire qui contient les textes officiels et l’enchnement systématique de mise jours de ces textes documents [IDVJ] Ce site fait parti de l’ensemble des sites adminet et il est hébergé au Centre de recherche en informatique, Ecole Nationale Supérieure des Mines de Paris Avec la mise disposition par le site officiel LégiFrance de données au format XML fait, l’idée de construire une autre version du site est apparue Cette nouvelle version sera plus tard basée sur les données de la base documentaire XML et la mise en page sera réalisée sur une plate forme de dộveloppement libre Zope4 Ces documents reỗus ne sont pourtant que des fichier XML qui contiennent des parties différentes du texte, alors la nécessité du contexte de stage est d’appliquer Xlink pour décrire le liens du mot clé dans le texte et ces nouvelles description de liens seront insérer dans le document originale en forme les attributs de Xlink L’avantage de l’utilisation de Xlink est la capacité de contenir les descriptions détaillées sur un lien d’un mot-clé, ses données sont aussi les données avec la sémantique que nous pouvons par la suite l’utiliser la sortie finale de la page HTML ou les autres fichier multimédia Voyons que le travail concerne la recherche des mot-clés alors que le domaine correspond fortement le méthode l’analyse lexico syntaxique spécialisé sur le domaines juridique que la grammaire pour la représentation doit être définie Pour s’assurer de l’efficacité du traitement, nous devons prendre en compte dans plusieurs problème : l’extraction du mot-clé, la caractéristique particulier de style d’écriture de l’auteur, définition du modèle des métas-donnés, la reconnaissance le mot-clé extraite que nous cherchons diminuer le temps de recherche et le problème de la grand taille de fichier de texte, le meilleur outil pour faire le parseur et pour manipuler le fichier XML 1.2 Présentation du centre de la recherche en informatique Le Centre de recherche en informatique, dirigé par M Robert MAHL, Directeur et M Franỗois IRIGOIN, Directeur Adjoint est composộ de 90 personnes, dont enseignants chercheurs, doctorants, autres personnels et 69 autres étudiants Les travaux de recherche du centre s’articulent autour de trois axes : • • • Les analyses statiques, instrumentations et transformations de programmes des fins de développement rapide d’optimisation, de validation, de maintenance et de ré-ingénierie de codes scientifiques, Les architectures documentaires permettant de faciliter l’accès aux informations disponibles sur Internet, Le e-learning avec, en particulier, le développement d’environnement d’aide l’enseignement en ligne Permet daccộder aux bases de donnộes juridiques officielles franỗaises, il propose également l’accès tous les autres sites officiels franỗais, rejoignant en cela lautre site de ladministration franỗaise, Service public Zope, pour Z Object Publishing Environment, est un serveur d’applications Web open source, permettant de développer des portails, des systèmes de gestion de contenu, … Une étude plus approfondie de cette plate-forme Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini Formation Aux niveaux des activités pédagogiques de l’Ecole, le C.R.I participe activement l’enseignement de tronc commun, aux MIG (Modules d’Intégration Généralistes), l’Acte d’Entreprendre et aux cours de l’option informatique dont il assure l’organisation et l’encadrement Deux nouveaux enseignements spécialisés en informatique ont été préparés en 2003 et sont proposés aux élèves ingénieurs en 2004 Le C.R.I organise deux mastères, pour lesquels il assure une part importante de l’enseignement Le premier, Management des Systèmes d’Information et des Technologies (M.S.I.T.), est co-encadré avec HEC et a lieu pour moitié l’Ecole des Mines (Paris) et pour moitié HEC (Jouy-en-Josas) Le second, Ingénierie des Applications Réseau MultiMédia (IAR2M), installé Fontainebleau, ambitionne de former des spécialistes du Web pour Internet et Intranets en s’appuyant sur les compétences en multimédia et applications Internet acquises au sein du C.R.I Recherche • Analyses statiques, instrumentations et transformations de programmes L’objectif général de ce premier axe de recherche est de réduire les coûts d’utilisation des ordinateurs - qu’il s’agisse des coûts de développement ou d’exploitation – en développant des outils aussi automatiques que possible pour effectuer des analyses, instrumentations et transformations de programmes Ces outils sont utilisés en développement pour faciliter la réutilisation de code ou effectuer de la synthèse de logiciel ou de tests Ces outils et techniques sont aussi utilisés pour réduire le temps d’exécution de logiciels, sans augmenter sensiblement les coûts de développement, ni les coûts de maintenance Les techniques de réduction des coûts mentionnées ont fait l’objet d’efforts particuliers en 2003 : compilation de spécifications d’applications de traitement du signal, optimisation manuelle et automatique des codes critiques pour le temps d’exécution, analyses pour la réutilisation de logiciels, et dérivation automatique de versions spécialisées l’aide de l’analyseur automatique de programmes développé au C.R.I., PIPS Deux directions de recherche ont été poursuivies en 2003 : le traitement des applications écrites en langage C et l’amélioration de la robustesse en magnitude, espace et temps des algorithmes d’algèbre linéaire utilisés La résolution des problèmes de robustesse permettra de traiter automatiquement des milliers de lignes de code et d’envisager une industrialisation de tels outils Enfin, le projet MétaCC étudie la dissémination de ressources de stockage, d’optimisation / compilation et d’exécution de code distance sur une grille de calcul (réseau local, cluster, Internet) et l’interaction entre ces ressources Le but est d’exécuter du code distance sur la machine la plus appropriée, de manière transparente, depuis n’importe quel ordinateur connecté au réseau Deux thèses ont été lancées en 2003 La première se focalise sur l’analyse et l’optimisation de code au sein du compilateur libre « gcc » qui sera intégré l’infrastructure MétaCC ainsi que les possibilités d’interactions distribuées entre « gcc » et les environnements PIPS et WrapIt (environnement développé par l’INRIA) L’autre thèse a pour but l’étude de nouvelles formes d’optimisations adaptées la grille en prenant comme application cible l’encodage de flux vidéo selon la norme MPEG4 AVC • Architectures documentaires et Internet Les travaux liés Internet portent essentiellement sur : Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini • • • Les mécanismes d’indexation et de recherche dans les grandes bases de données textuelles partiellement structurées, notamment composées de textes juridiques, L’extraction d’une ontologie juridique partir des textes, La présentation des interfaces de recherche multicritères L’objectif de ces recherches consiste notamment concevoir des méthodes générales de création d’hyperliens entre bases et de gestion de la qualité des documents Une thèse a été soutenue l’année dernière sur le premier de ces thèmes, une autre devant s’achever courant de cette année La première concerne l’étude des corrélations entre documents, l’objectif étant de faciliter la navigation des internautes sur des bases de données pluridisciplinaires de grande envergure La seconde étudie les méthodes de classification non supervisées et de labellisation de classes pour l’aide la navigation dans des documents juridiques • E-learning Un nouvel axe de recherche, l’enseignement distance, est en train de se former autour de deux projets, Arezzo et G.E.V Le projet Arezzo d’enseignement en ligne de bases théoriques de la musique se poursuit ; il consiste développer un environnement interactif permettant, entre autres, de partager des partitions et de vérifier automatiquement les règles d’harmonie et de contrepoint Un financement par le Réseau pour la recherche et l’innovation en audiovisuel et multimédia (R.I.A.M.) permet de valider, en collaboration avec la société ClickNPlayMusic, la pertinence de l’approche proposée Une thèse consacrée l’enseignement interactif de la musique de jazz est en cours Le second projet, G.E.V., est financé dans le cadre de la Grande Ecole Virtuelle Il s’attache développer un environnement extensible et gratuit d’enseignement collaboratif distance, gérant la notion de cursus, au-dessus de la plate-forme open source Zope Cet environnement a pour vocation de regrouper l’ensemble des actifs pédagogiques en ligne de l’Ecole et, plus long terme, ceux d’autres écoles intéressées La première version est en cours d’utilisation pour gérer les projets de l’Acte d’Entreprendre des élèves Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini Chapitre Travaux concernés 2.1 Description du projet Ce projet correspond au développement de la nouvelle version du site www.adminet.org/jo en utilisant la base LEGI (les documents sous forme consolidé) et la gestion de contenu et les comptes utilisateurs seront gérés par Zope Architecture montre la mise en place version du site Le serveur contient l’ensemble des traitements sur les fichiers compressộs qui sont tộlộchargộs du site LộgiFrance Le serveur reỗoit ces données comme l’entrée du traitement Le premier traitement consiste restructurer les données en les mettant dans plusieurs répertoires différents, que nous considèrerons comme une base documentaire au format XML Le deuxième traitement consiste, grâce au module d’enrichissement de contenu, établir les parties de liens de navigation entre les contenus des pages La plate forme Zope s’occupe de la présentation des pages, et de la gestion des droits d’accès au document Certains services sont ensuite fournis par la plate forme Zope tel que le téléchargement de fichiers, … Ces différents traitements sont systématiquement appliqués pour chaque mise jour des pages et permettent d’envoyer automatiquement la syndication de contenu en fonction du temps Les pages seront publiées sur Internet via Zope Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini 2.2 Environnement de développement • Matériels Le centre dispose d’une salle dédiée aux cours dispensés aux élèves des Mastères et composée d’une dizaine de postes avec en dual-boot Microsoft Windows et FreeBSD De plus, il existe une salle de « libre accès », avec des machines installées sous Microsoft Windows et un scanner Enfin, une salle est équipée d’une imprimante Lexmarc C910 laser couleur ainsi que d’une photocopieuse Evidemment, tout ce matériel était notre entière disposition Pour le stage, nous avons disposé de la salle des mastériens, équipée de Pentium 2,4 GHz, avec 256 Mo de mémoire vive De plus, nous avons essentiellement travaillé sous FreeBSD en utilisant uniquement des logiciels libres tant pour le développement que pour la rédaction de rapports • Logiciels Pour le développement en Perl, script shell ainsi qu’en XML ou en XSLT, nous avons uniquement utilisé le logiciel GNU Emacs, avec les modules adéquats5 Pour l’édition du programme Pour afficher les résultats en page de HTML nous avons utilisé comme navigateur deux logiciels libres qui sont Mozilla et Mozilla Firefox Et l’utilisation de Zope pour gérer les codes sources et les documents accompagnés du projets SGBD Mysql pour la création de base de données 2.3 Travaux antérieurs Cette partie décrit la première partie du travail, qui correspond l’ensemble des codes (scripts en shell) utilisés Ils ont été réalisés par George-André Silber (ingénieur chercheur au cri) 2.3.1 Téléchargement et décompression des données La base de données LEGI est décomposée en plusieurs bases de production qui regroupent les textes juridiques par domaine Dans les documents ainsi fournis, l'unité documentaire est l'article6 Les données sont toutes téléchargées sous la forme de fichiers compressés au format ZIP depuis le site FTP de LégiFrance La méthode de téléchargement est faite par l’utilisation de la commande wget7 vers l’adresse de LégiFrance Enfin, la mise jour est faite tous les jours 2.3.2 Construction du système de stockage des données Ensuite, pour faciliter le stockage des données, une fois le téléchargement terminé, les fichiers sont alors décompressés dans le répertoire La taille de fichier est varie de 86 – 234 Mo La découpe des GNU Emacs possédait déjà les modules permettant de développer en Python ou en Perl Seul le module nxml 20031031 a dû être installé pour développer en XML/XSLT L’article est la partie unité du document juridique et le contenu se divise en plusieurs articles, et le numéro de l’article permet de savoir où se trouve l’article dans le document Wget command permet de télécharger le fichier sur Internet en utilisant le protocole http et ftp Mémoire de fin d’étude Page sur 38 Erreur ! Style non défini données est stockée dans plusieurs répertoires, qui sont nommés par le code de la mise jour et les sous répertoires correspondent aux codes Voyons un exemple dans la figure : Figure Le code de la mise jours dans la figure dont le nom de répertoire 200407020036 signifie le code de la mise jour, ACAXXXXXXXX = code civil8, et ACAXXXXXX5X00541AAXXAA.legi.xml = fichier dans l’article 2.3.3 Extraction des méta-données Les méta-données sont certaines parties du contenu du texte Il sont en général les information sur le titre du document, le chemin d’accès au document, la description du document, le nom du fichier … Dans chaque mise jour, le traitement va générer un fichier qui contient certaines informations de méta donnée Par exemple : 200407020036.index correspond la mise jour de l’exemple de la figure 2.3.4 Construction du texte par type de document Le principe de l’étape suivante est de reconstruire le document partir de plusieurs fichiers des articles Il agit de composer plusieurs fichiers XML en articles qui ont le même type de document9 et le nom de fichier se construit de la manière suivante : type de document +code de la mise jours+code du document Alors, nous pouvons voir l’exemple de la figure : CODE_200407020036_ACAXXXXXXXX.xml 2.3.5 Correction des encodages Etant donné que les contenus de textes sont en franỗais, lencodage des accents et de certains caractốres spéciaux est réalisé en UTF-810 , provoquant un changement de l’encodage sur l’ensemble des documents Afin d’éviter tous les types d’erreurs d’encodage, nous avons encodé tous les documents en UTF-8 décimal afin d’obtenir des documents homogènes Code civil , l’ensemble des règles de droit Dans les document juridique, il y a par exemple : le code, le décret, le loi , l’ordonnance … 10 UTF-8 Unicode Transformation Format-8, c’est un standard de l’Unicode Mémoire de fin d’étude Page 10 sur 38 Erreur ! Style non défini Grâce cette définition de nom, le fichier a bien contenir certains information sur le fichier, ACAXXXXXX5X00541AAXXAA : des champs dans le nom sont : radident + code de l’article Exemple une nouvelle données prédéfinie de URL De cette manière il donne une identification unique de chaque article Et ces fichier est stocker dans la répertoire nommé par le code chaque mise jour De telle points on peux envisage pour les données de prédéfinie de URL entre deux version de l’article si dessous ACAXXXXXX5X00541AAXXAA : l’article de version ACAXXXXXX5X00541AAXXAB : l’article de version ACAXXXXXX5X00541AAXXAC : l’article de version Exemple montre les données prédéfinie de URL pour les plusieurs version d’un article de code civil Les href : vers LégiFrance : Poursuivre la caractéristique de l’anciens version du site sur la référence de tous les contenu du site vers la page de LégiFrance Ce la était implémenté par l’anciens version de tell point que chaque liens possède qu’une seule destinataire, hors celle de la nouvelle site est obligé une terme extraire possède au moins un lien vers LégiFrance Cette événement fournisse l’avantage pour la référence du contenu avec la site de fournisseur Pourtant pour l’implémentation oblige partir un mot-clé on peut avoir au moins deux liens, l’implémentation pour répondre ce cas utilisation sera implémenter par Xlink L’exemple suivant montre URL de LéfiFrance http://www.LégiFrance.gouv.fr/WAspad/Unicode?code=CCIVIL.rcv : URLs de LégiFrance est en mode générique pourtant le méthode de création tiens en utilisant le code fixe, CCIVIL = code civil Example de URLs dans un page de LégiFrance Les annotations ou les commentaires : l’événement associé un lien visité qui permet avoir les informations pour faciliter la navigation Le traitement pour les données prédéfinies de liens fournit les descriptions pour chaque mot clé en lien référentiel, Alors l’action da visite de mots-clés du par le souris (événement passe d’une flèche) une annotation qui contiens: les description des données , le nom du fichier html pour ce document, le titre du document, type du document, numéro de document, date de publication, date de la dernière mise jour, auteur du document, responsable pour la consolidation, objectif du document(cf ANNEX C) Cette annotation peut donner les informations essentielles sur la section de référence aux utilisateurs avant la consultation sur le contenu entier Alors nous pouvons voir l’exemple si dessous : Mémoire de fin d’étude Page 24 sur 38 Erreur ! Style non défini loi n° 90-1247 du 29 décembre 1990 Titre: loi 90-1247 du 29 décembre 1990 Date: 03 janvier 1991 Date de mis jour : 19 Juin 2003 Auteur : LégiFrance Responsable : Direction des journaux official Objet : loi portant suppression de la tutelle administrative et financière sur les communes de Nouvelle-Calèdonie et dispositions diverses relatives ce territoire Exemple montre étiquette pour le liens simple La réalisation du fenêtre avec l’étiquette demande la partie implémentation de javascript24 et de CSS25 , c’est la partie de la présentation pour l’utilisateur, cela demande la méthodologie pour représenter la forme d’affichage de données avec l’action d’utilisateur pendant la consultation article Loi 78-9 1978-01-04 [1][2] Deux version existe pour ce lien, veillez Titre: loi 90-1247 du 29 décembre 1990 vous choisir le numéro de chaque Date: 03 janvier 1991 Date de mis jour : 19 Juin 2003 version pour accéder au références Auteur : LégiFrance Responsable : Direction des journaux official Objet : loi portant suppression de la tutelle administrative et financière sur les communes de Nouvelle-Calèdonie et dispositions diverses relatives ce territoire étiquette lors d'accès au lien étiquette lors d'accès chaque version Exemple montre étiquette de liens étendu 3.3 Modules et les algorithmes pour les travaux Après la description des données la méthode d’analyse, cette partie concentre sur les détails d’implémentation Nous détaillons ici d’abord la fluide de données et instruction de traitement système 24 25 Le script intégré dans la page HTML qui est capable de traité par les navigateurs Cascading Style Sheet feuille de style Mémoire de fin d’étude Page 25 sur 38 Erreur ! Style non défini Fluide de données et les traitements pour la partie l’enrichissement le contenu Le fluide de données commence par le traitement de contenu de fichier origine en xml, alors la module extraction des mots-clés établit les grammaire pour extraire et il traite sur chaque document Suite de la première traitement les résultat sont entré dans la partie la reforme du structure de motsclés, l’aide de l’accès au données dans la base de donnés permet retrouver la localisation de chemin d’accès vers le fichier cible qui correspondent chaque mot-clé Et dans dernière phase la modification du contenu de fichier pour construire le lien, lors de la modification après la construction de liens il est nécessaire de changer le fichier DTD du texte 3.3.1 Construction les patterns par l’expression régulière La construction des patterns en expression régulière, la terminologie du patterns ici signifie les représentation de chaque item(composant) de mot-clés Alors que chaque patterns représente au moins une forme possible d’un composant d’un mots-clés En effet un patterns en expression régulière joue le rôle comme une abstraction d’une forme des mots possibles Une partie théorique dans le chapitre précédent est bien présentation certains grammaire particulier pour définir la forme de mots-clé En appliquant la grammaire constitué par la partie théorique j’ai implémenté certain forme de mot par les expression régulière : Arrêté du 17 septembre 2004 : ((Arr(&\#\d*;)t(\d*;))\s?(?:((\d*-\d*-\d*)\s)|(\sdu\s\d*\s(([a-z]*\d*;[a-z]*)?[az]*)\s[0-9]*)) Exemple montre un pattern qui représente un arrêté Dans le contenu du texte, un mot-clé est souvent la combinaison de plusieurs composants avec certaines grammaires particulières Mémoire de fin d’étude Page 26 sur 38 Erreur ! Style non défini 3.3.2 Algorithme pour extraction du mot-clé dans le texte Après définir les grammaires pour chaque cas de mot-clé Cette étape est de faire l’analyse de texte, afin de trouver la les mots-clés qui correspondent la grammaire définie Avec la puissance de méthode de « pattern matching26 » fournir par le script en langage Perl aide beaucoup pour cette tâche Voici l’algorithme pour cet traitement Lire les composant de en patterns de l’expression régulière de fichier stocker Former les grammaires différent par la composition de des composant Construite une liste des grammaires tant qu’il y a les ligne lu du texte traité pour chaque élément de la liste de grammaire si quelle ligne correspond la grammaire alors récupère le résultat et ajouter dans la tableau association fin si fin pour fin tant que Algorithme pour extraire le section de référence Le résultat est écrire sur la sortie standard, qui seront par la suite traités en méthode de la pipe de command shell27 pour trier et rentre la valeur unique et transformer la structure de stockage du résultat en document XML 3.3.3 Algorithme pour la reforme des mots-clés La manipulation de la liste en perl permet de manipuler la structure des mots-clés et reconstruire une nouvelle forme Ouvre le fichier qui contient les phrase originale Lire tous les terme pour reformer et les mettre dans la table association pour chaque terme dans la liste lire les patterns en expression régulière de chaque composant de la phrase dans le fichier stockage filtrer la phrase avec chaque pattern afin de reconntre chaque partie de la phrase si la partie de la phrase correspond le type de document alors _appel fonction de reforme le type de document fin si si non si la partie de la phrase correspond la partie de l’article alors _appel la fonction pour reformer les article fin si récupère les résultats et reconstruire la ou les nouvelle(s) phrase(s) fin pour Ajouter une autre balise possédé cette (ces) nouvelles phrase Algorithme pour reformer la phrase Remarque : La reforme de la phrase origine prendre en compte toujours la structure de la phrase représente par une partie du grammaire , il agit également une règle pour la relation de chaque composant 26 Méthode pour faire la comparaison entre les patterns aux expressions régulières avec les données , en suite extraire le résultat sur le la chne de caractère ou les données qui correspondant 27 Langage de script de plusieurs système d’origine Unix … Mémoire de fin d’étude Page 27 sur 38 Erreur ! Style non défini 3.3.4 Préparation de la base de données des méta-données pour chaque fichier L’utilisation de la base de données est prendre en charge contenir les méta-données, ces données vues (partie de méta données) , la préparation est la phase de la création la base de données et d’importation des données partir de fichier XML Le module doit capable de traiter automatiquement En effet le fichier de méta-données récupéré sera corrigé par la correction d’encodage, en suite il sera passé le parser de XML :twig qui extraire le contenu de chaque balise et qui crée un fichier texte adapté l’importation dans la base de données mysql Les table base de données est maintenant divisé dans deux tables séparées, l’état actuelle il agit de lire les données de deux structure donné XML et importer dans la base de données Pour la meilleure préparation de données il est nécessaire de centralisé le méta-données une modèle de base de données relationnelle, car ce la facilite le parcours de donnés 3.3.5 Algorithme de la reconnaissance les mots-clés, ajout des nœuds Par l’accès la base de données en utilisant le module d’accès de perl qui permet connecter, exécuter les requête SQL et récupérer le résultat: Extraction tous les termes réformé et mettre dans la table association pour chaque terme lire de la table associationiste faire recherche ce terme dans la base de méta-données de indexation pour chaque résultat obtenu faire cherche ses description dans le métas pour la partie description si il existe dans la base de donné alors créer un nœud avec les information prédéfinie de liens avec tous les donnộes reỗues insộrer cette nud comme le fils de la balise contenant la terme réformé fin si fin pour fin pour Algorithme pour reconntre la section de référence 3.4 Ajout du langage de liens(Xlink) dans le contenu de fichier XML :twig un passeur qui applique la conception mélangée entre SAX28 et DOM29, ce module permet l’ajoute des balises et le parcourt Extraire la balise du texte dont nous volons ajouter la balise de liens Pour chaque section de référence reconnu Faire Lire le donner de l’article marquer Si un article possède version alors (le cas ou on ajoute le lien étendu ) Créer les balises contenants tous les information de cette référence liens article étendu Découper le contenu du texte en trois morceau : contenu avant, entre et après la section de référence Faire la substitution de la partie entre en appelant fonction qui écrire la balise sur l’endroit se trouve l’article Fin si 28 29 Méthode de parser en fonction d’événement de la rencontrer la balise Méthode de parser en sauvegard l’arbre du contenu du texte et permet le parcourt pour tous les élément Mémoire de fin d’étude Page 28 sur 38 Erreur ! Style non défini Si un article possède un seule version alors (le cas ou on ajoute le lien simple) Créer les balises contenants tous les information de cette référence liens article simple Découper le contenu du texte en trois morceau : contenu avant, entre et après la section de référence Faire la substitution de la section en appelant fonction qui écrire la balise sur l’endroit se trouve l’article Fin si Fin pour Algorithme pour ajouter Xlink dans le contenu du texte origine Mémoire de fin d’étude Page 29 sur 38 Erreur ! Style non défini Evaluation Observation de résultat Voici certains résultat pour le contenu après le traitement article 17 du décret susvisé du août 1961 Exemple pour liens simple Décret 66-570 1966-07-30 art. 8 3 2 1 Exemple pour lien étendu Le résultat observé est fait par l’affichage de la page HTML, le script de transformation en XSLT et la feuille de style (réalisée par Gilles Rosenbaum) Le méthode d’évaluation est faite par la statistique des sections de référence détectées de la balise dans le contenu, la comparaison faite avec les pages de la version actuelle du site et le graphe basé sur l’observation de certaines pages d’exemple Pour chaque analyse de la section de référence, l’efficacité dépend de deux facteurs principaux Tout d’abord sur la partie des grammaires appliquées pour l’extraction car il prend en compte la certitude de matching les expressions régulières avec le contenu du texte La justification des espaces et les caractères spéciaux sont les points de détail sur chaque expression Le deuxième facteur dépend de l’acquisition des méta-données, qui jouent un rôle très important pour la reconnaissance L’absence de ces informations empêche la création de liens Problème du système d’encodage L’encodage est considéré comme une précaution lorsqu’on utilise XML, car nous avons plusieurs séries de traitements par plusieurs parseurs et la répétition de lecture et d’écriture sur les fichiers Le changement de l’encodage peut entrner une faute dans le contenu Le traitement des données avec les encodages par certaines instructions entrne souvent des erreurs d’exécution Problème de l’absence de document L’absence des documents provient du fournisseur des fichiers En effet, si avec certaines mots-clés lors de la phase d’acquisition on ne peut pas localiser ces ficher cible, alors on ne peut pas établir son URL Mémoire de fin d’étude Page 30 sur 38 Erreur ! Style non défini Recommandation Traitement pour récupérer des différentes versions d’un document Avec les méta-données actuelles, le fichier meta.xml ne nous permet pas de trouver les différentes versions d’un article Certains travaux sont nécessaires pour créer ce fichier afin de indexer les méta-données qui seront maintenant capables de garder toutes les versions d’un document consolidé Ceci demande également le changement de stockage pour chaque type de document En effet, pour les codes, le traitement est fait par articles alors que pour l’ensemble des autres types de textes juridiques, le traitement est fait par texte juridique Avec l’algorithme implémenté actuellement, on est capable d’écrire les données de plusieurs versions pour un lien Méthode de prétraitement pour les données de chaque mise jour L’ajout de la SGBD dans le système a pour but de sauvegarder les données qui sont nécessaires pour la reconnaissance de section de référence Alors, l’automatisation du système de stockage doit se faire lors de l’arrivée de nouvelles données et le regroupement des méta-données sera en base de données relationnelle d’où l’accès un mot-clé permettra par la suite de récupérer tous ses descriptions Conclusion L’enrichissement automatique du contenu du texte juridique par l'extraction et la création des liens est un travail considérablement compliqué, mais qui possède des solutions Ce travail comprend deux grands domaines, qui est d’une part le traitement du texte juridique, et d’autre part la manipulation des documents au format XML En cours de réalisation actuellement, certaines hypothèses sont posées pour comprendre la démarche pour certaines méthodes de localisation de document et de son contenu En plus, l’essai de plusieurs outils de traitements sur de grands volumes de fichiers au format XML a été réalisé afin de gagner en temps de traitement et afin d’évider les problèmes d’encodage Pour la version actuelle, la partie des travaux de ce mémoire est considérée comme une application qui est systématiquement exécutée lors de la mise jour Cette méthode de traitement peut bien s’adapter d’autres domaines d’application en prenant en compte toujours le même format de fichier et l’utilisation de cet l’outil proposé Pourtant, le changement peut être fait au niveau des grammaires pour l’analyse du contenu et la méthode de la reformulation des phrases extraites Le résultat obtenu du premier produit reste encore améliorer au niveau de la certitude de l’extraction et de la construction de l’interface de l’utilisateur Mais d’après mes hypothèses dont on dispose pour la réalisation, le produit propose la plupart des objectifs envisagés Mémoire de fin d’étude Page 31 sur 38 Erreur ! Style non défini Annexes Xlink : Xml linking Language, Syntaxe basée sur des attributs pour établir des hyperliens entre documents XML, et non XML Elle autorise les liens unidirectionnelles simple introduits par HTML, mais aussi les liens multidirectionnels entre plusieurs documents, ou encore les liens entre documents que l’on ne pas modifier soi-même[XMLMREF] Zope : pour Z Object Publishing Environment, est un serveur d’applications Web open source, permettant de développer des portails, des systèmes de gestion de contenu, … Une étude plus approfondie de cette plate-forme www.LegiFrance.gov.fr : Permet d’accéder aux bases de donnộes juridiques officielles franỗaises, il propose ộgalement laccốs tous les autres sites officiels franỗais, rejoignant en cela lautre site de ladministration franỗaise, Service public www.adminet.org/jo, www.admi.net, www.droit.org : Une site est hébergé l’Ecole des mines de Paris Un très important travail documentaire est réalisé régulièrement sur les fonds du Journal officiel Ce site permet d’accès des textes de lois celles les nouvelles et celles qui sont très rares Plone : est un système de gestion de contenu basé sur la plate-forme Zope UTF-8 : Unicode Transformation Format-8, c’est un standard de l’Unicode DTD : pour Document Type Définition Javascript : Le script intégré dans la page HTML qui est capable de traité par les navigateurs CSS : Cascading Style Sheet feuille de style URL : Uniforme Ressource Locator chemin d’accès au fichier de référence XSLT : pour eXtensible Stylesheet Language Cette application XML transforme des documents XML sous une forme visible dans un navigateur Web ANNEXE A Expression régulière Etiquette Expression régulière Label de l’article ((?:art(\d{0,3};)|article(s)?(?:_|\s)(A|D|L|R)?(\d{0,3};)?)(_)?) Numéro de l’article ((((_)?[0-9]{0,3}))((-|\s)([0-9]{1,2}| (bis|duodecies|decies|nonies|quater|quinquies|septies|sexies|ter|terdecies|undecies| novodecies|octodecies|octies|quaterdecies|quindecies|septdecies|sexdecies|terdecies|undecies|vicies |duovicies|novodecie|octovicies|quatervicies|quinvicies|septvicies|sexvicies|tervicies|unvicies)|[AZ] {0,3})){0,3})(\d{0,3};)? Type de texte pour décret, loi, ordonnanc e ((?:d(\d{0,3};)cret|loi|ordonnance)\s?(?:(\s*[^>\.\. Mémoire de fin d’étude Page 33 sur 38 Erreur ! Style non défini Mémoire de fin d’étude Page 34 sur 38 Erreur ! Style non défini Mémoire de fin d’étude Page 35 sur 38 Erreur ! Style non défini ANNEXE C TERMES LONG DOC COURT LABEL VERSION URIS URI TITR AUTEU DATEM DAT … RESPONSA Exemple montre arbre de description d’un section de référence Mémoire de fin d’étude DTD pour montre la structure de données prédéfini pour les liens Page 36 sur 38 Erreur ! Style non défini Références [XLINK]Steve DeRose, Brown University Scholary Technology Group, Eve Maler, Sun Microsystems, David Orchard, Jamcracker XML Linking Language(Xlink) Version 1.0 http://www.w3.org/TR/xlink [BXMLP] DuCharme Bob, LexisNexis, Data Architecture, Editorial System Engeneering, Building Xlink Application with Xslt http://www.idealliance.org/papers/xml2001papers/tm/web/06-02-00 [AERLIOD] Donna Bergmark Cornell Digital Library Reseach Group , Automatic Extraction of Reference Linking Information from Online Documents [IXDUML] Carson,David,CTO, Ontogenics Corp, Integrating XML and non-XML Data Via UML [XMLMiniTu] Michael l Schwartzbach, University of Aarhus, XML Mini-Tutorial http://www.brics.dk/~mis/ITU/XML [XXPTR],Laurant Tranchant , Mtrise d’Informatique Année 1999-2000 Xlink et XPointer Les liens de XML http://www.u-picardie.fr/~ferment/etude/tranchant/XML_links [EXPERL] Jeffrey Friedl, Traduction initiale et mise jour , Paul Gaborit, les expressions rationnelles en Perl http://www.enstimac.fr/Perl/DocFr/perlre.html [TWIGTU] XML ::Twig Tutorial http://xml:twig.com/xmltwig/tutorial [TWIGQU] XML ::Twig Quick Reference http ://xmltwig.com/xmltwig/quick_ref.html [TWIGDE]XML ::Twig-Development version http://xmltwig.com/xmltwig/twig_dev.html [ELSCT] Emmanuel Morin, Thèse de Doctorat , Université de Nantes Falculté des Sciences et des Techniques, Extraction de liens sémantiques entre termes partir de corpus de textes techniques [IDVJ] Didier FROCHOT, formateur et consultant , Information,documentation et veille juridique Décembre 2003 [PRPERL] Larry Wall, Tom Chistiansen & Randal L.Schwartz O’Reilly & Associates, Inc Programming Perl 2nd Edition Covers Perl5 September 1996 [ALGOT] Maxime Crochemore, Christophe Hancart, Thierry Lecroq, Algorithmique du Texte Vuibert, Paris, 2001 [LXML] Erik T.Ray Learning XML Second Edition 2003 [XMLS] Anelyse Boukhors, Alexandre Kaszyschi, Jérôme Laplace, Sandrine Munerot, Laurent Poublan, Dunod, XML la synthèse Intégrez XML dans vos architectures , Paris, 2002 [CXSLT] Bernd Amann et Philippe Rigaux, Comprendre XSLT, Edition Originale, Juin 2003 [XMLMREF] Elliotte Rusty Harold & W Scott Means Traduction de Thomas Broyer Philippe Mémoire de fin d’étude Page 37 sur 38 Erreur ! Style non défini Ensaguet, Alain Ketterline & Frédéric Laurent , XML in a nutshell [CIRLO] Guiraude LAME, Centre de Recherche en Informatique Ecole Nationale Supérieure des Mines de Paris, Constructing an IR-oriented legal ontology [TAH] Jean-Pierre Balpe Alain Lelu Fabrice Papy Imad Saleh, Techniques avanncées pour l’hypertexte, HERMES Paris 1996 [DPCGC] Gilles Rosenbaum, rapport de stage de 3ème année, ESIGETEL, avril 2004 au 30 septembre 2004, Développement de portails collaboratifs de gestion de contenu sous Zope Mémoire de fin d’étude Page 38 sur 38 ... est capable de traité par les navigateurs Cascading Style Sheet feuille de style Mémoire de fin d’étude Page 25 sur 38 Erreur ! Style non défini Fluide de données et les traitements pour la partie... eXtensible Stylesheet Language Cette application XML transforme des documents XML sous une forme visible dans un navigateur Web 20 Mémoire de fin d’étude Page 22 sur 38 Erreur ! Style non défini. .. grand quantité 23 My sql : SGBD libre Mémoire de fin d’étude Page 23 sur 38 Erreur ! Style non défini Grâce cette définition de nom, le fichier a bien contenir certains information sur le fichier,