Système de déduplication utilisant les techniques d’apprentissage automatique

UNIVERSITÉ NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL ELIODOR EDNALSON GUY MIRLIN SYSTÈME DE DÉDUPLICATION UTILISANT LES TECHNIQUES D’APPRENTISSAGE AUTOMATIQUE HỆ THỐNG PHÂN TÍCH DỮ LIỆU TRÙNG LẶP SỬ DỤNG KĨ THUẬT MACHINE LEARNING MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE HANOI - 2018 UNIVERSITÉ NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL ELIODOR EDNALSON GUY MIRLIN SYSTÈME DE DÉDUPLICATION UTILISANT LES TECHNIQUES D’APPRENTISSAGE AUTOMATIQUE HỆ THỐNG PHÂN TÍCH DỮ LIỆU TRÙNG LẶP SỬ DỤNG KĨ THUẬT MACHINE LEARNING Spécialité : Systèmes Intelligents et Multimédia Code : Programme Pilote MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Sous la direction de : Pierre Bonnet, COO-Orchestra Networks, Expert en SI David Lapetina, Directeur des opérations Orchestra Networks Vietnam - Hanoi HANOI - 2018 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Các thơng tin trích dẫn Luận văn rõ nguồn gốc Signature de l’étudiant ELIODOR EDNALSON GUY MIRLIN Résumé La gestion des données de référence consiste trouver ou créer un enregistrement unique contenant tout ce qu’une entreprise ou une organisation doit savoir sur une personne, un emplacement, un produit, un fournisseur, une autre entreprise ou une autre entité en particulier Il peut également être appelé “master record” ou “golden record” En fait, la notion de qualité des données, en particulier le problème de duplication, représente un défi très important pour une bonne gouvernance des données La présence de doublons ou de données similaires soulève d’importantes préoccupations quant la qualité des données qu’il faut ainsi supprimer La déduplication des enregistrements est un processus important dans l’intégration et le nettoyage des données Elle permet d’identifier les enregistrements d’une base de données ou provenant de différentes sources qui représentent la même entité du monde réel Elle assure une meilleure qualité des données résultantes de ce processus Ce processus est utilisé pour créer un "golden record" Ainsi, l’extraction de connaissances partir de ces dernières sera plus précise Au cours des dernières années, diverses techniques d’apprentissage automatique ont été utilisées pour aborder ce problème Sachant que, le produit EBX d’Orchestra Networks utilise cette approche, notre travail consiste : — Comparez quelques techniques de détection d’enregistrements dupliqués en utilisant l’apprentissage automatique et évaluez leurs avantages et leurs inconvénients — Développer un prototype qui combine les meilleures caractéristiques et permet de produire une détection d’enregistrements dupliquées améliorées dans EBX L’approche que nous avons utilisée pour aborder le problème dans le cadre de notre stage est l’approche d’apprentissage actif Différentes expériences sont menées sur un ensemble de données pour vérifier l’efficacité de l’algorithme dans la détection des enregistrements dupliqués Mots clés : Prétraitement des données, détection de doublons, apprentissage automatique, apprentissage supervisé, apprentissage non-supervisée, mesure de similarité, NLP, classification de texte, traitement du langage naturel, Data quality Management, Déduplication, doublons, similaire, record matching, machine learning, clustering, duplicated records, etc Abstract Master data management is the process of finding or creating a single record that contains everything your organization needs to know about a particular person, location, product, supplier, business, or other entity It can also be referred to as the master record or golden record Indeed, the notion of data quality particularly the duplication problem presents a very important challenge for good data governance in order to improve interactions between the different employees of one or more organizations concerned The presence of duplicate or similar data raises significant concerns about the quality of the data Record matching is an important process in data integration and data cleaning to identify records from different sources representing the same real-world entity It ensures a better quality of data results Thus, the extraction of knowledge from these data is more accurate This process is used to create a "golden record" In recent years, a variety of machine learning techniques have been used in record linkage As EBX product of Orchestra Networks is using this approach, our work is to : — Compare a few record matching techniques using machine learning and evaluate their advantages and disadvantages — Develop a technique that combines the best features from these techniques to produce an improved record matching techniques in EBX Our approach is the use of “dedupe” python library with “active Learning” and clustering techniques to resolve record matching problem Various experiments are conducted on a dataset to verify the effectiveness of the algorithm in detecting the duplicate records Keywords : Unsupervised Learning, Similarity Learning, Language Processing, Data Quality Management, Deduplication, record matching, machine learning, clustering, duplicated records, etc Remerciements La réalisation de ce document qui couronne la fin de notre formation de Master, n’aurait été possible sans l’appui direct ou indirect des personnes et des institutions auxquelles nous tenons ici exprimer nos sincères remerciements Il s’agit de : — L’Agence Universitaire de la Francophonie (AUF), pour nous avoir donné l’opportunité de poursuivre nos études de Master l’IFI travers une bourse de mobilité ; — L’Institut Francophone International (IFI) et de tous les professeurs, pour la qualité de la formation dispensée ; — M David Lapetina et M Pierre Bonnet pour m’avoir accueilli au sein de leur équipe et pour leur suivi et implication personnelle dans la réalisation de mes travaux ; — L’ensemble du personnel d’Orchestra Networks Hanoi, pour son accueil très chaleureux et pour les conditions de travail optimales ; — J’adresse mes sincères remerciements aux membres de AI Academy Vietnam pour l’honneur qu’ils m’ont fait par leur acceptation de participer l’évaluation de mon travail ; — J’aimerais remercier toute ma famille pour leur soutien et leur amour tout au long de mes études ; — Enfin, tous ceux qui de près ou de loin m’ont apporté leur soutien durant ma formation Sommaire Introduction 1.1 Contribution 1.2 Organisation du rapport 1 Vue 2.1 2.2 2.3 2.4 2.5 3 4 5 9 10 12 13 14 14 15 15 16 16 16 17 17 18 20 21 2.6 d’ensemble Définition du problème Qualité des données Nettoyage des données Problèmes causés par les données dupliquées EBX.Platform 2.5.1 Pourquoi une solution MDM 2.5.2 Les fonctionnalités EBX.Platform Motivation Etat de l’Art 3.1 Mesures de similarité : revue de l’existant 3.1.1 Le problème de la comparaison des chaˆınes de caractères 3.1.1.1 Métriques basées sur des caractères 3.1.1.2 Métriques basées sur des Tokens(Lexèmes) 3.1.1.3 Métriques hybrides 3.1.2 Mesures de similarité numériques 3.2 Detection des enregistrements dupliqués 3.2.1 Techniques basées sur des règles 3.2.2 Techniques basées sur la distance 3.2.3 Approches probabilistes 3.2.4 Apprentissage automatique 3.2.4.1 Généralités 3.2.4.2 Utilisation d’algorithmes d’apprentissage pour combiner des fonctions de similarité 3.2.4.3 Apprentissage supervisé 3.2.4.4 Apprentissage non-supervisé 3.2.4.5 Apprentissage Actif 3.2.4.6 Synthèse Solution proposée 4.1 Dedupe 4.1.1 Blocage et calcul de distance 4.2 Architecture globale 4.2.1 Prétraitement des données 4.2.2 Phase d’apprentissage 4.2.3 Regroupement Expérimentations 5.1 Configuration de l’expérience 5.2 Interfaces Utilisateurs 5.3 Choix du bon seuil 5.4 Jeux de données 5.5 Analyse des expériences 5.5.1 Correspondance Exacte 5.5.2 Appariement flou ou Correspondance Approximative(Fuzzy ching ) 5.5.2.1 Correspondance Approximative sur un(1) champ 5.5.2.2 Correspondance Approximative sur un(3) champs mat 22 22 23 23 25 25 27 28 28 29 31 31 31 32 32 33 33 Conclusion et perspectives 37 Bibliographie 38 A Glossaire I Liste des tableaux 2.1 Exemple de données dupliquées 5.1 Experimentations : Configuration logicielle et matérielle 28 Table des figures Classification des métriques de chaˆınes 10 Choix des attributs les plus utiles pour une tâche de damment du jeu de données en entrée Architecture du système proposée Phase de labellisation “Contribution Humaine” 10 11 12 13 14 15 16 déduplication dépen 23 24 26 Page d’acceuil et de chargement des données-système implémenté Page de sélection des champs importants-système implémenté Phase de labellisation-système implémenté Métriques d’évaluation pour le matching exact- A gauche(sur champ)- A droite(sur champs) Performance des deux systèmes pour le cas de détection de duplication (matching Exact) Métriques d’évaluation du système proposé- Correspondance approximative(1 champ) Métriques d’évaluation du système proposé - Consumer.CSV(3 champs) Extrait du fichier CSV généré en sortie d’EBX (appariement flou - colonnes) Extrait du fichier CSV généré en sortie du système proposé(appariement flou - colonnes) Extrait du fichier CSV généré en sortie du système proposé(appariement flou - colonnes) Extrait du fichier CSV généré en sortie d’EBX(appariement flou - colonnes) Extrait du fichier CSV généré en sortie du système implémenté(appariement flou - colonnes) 29 29 30 32 32 33 34 34 34 35 35 35 Chapitre Expérimentations Le chapitre présente les résultats des expériences menées dans le cadre de cette étude Les expériences visaient évaluer les performances du modèle de couplage des enregistrements proposé développé dans le cadre de ce projet 5.1 Configuration de l’expérience Le prototype du modèle de déduplication est développé en Python base de Dedupe, une bibliothèque open-source développée par Forest Gregg et Derek Eder de Datamade La mise en œuvre du modèle de déduplication a utilisé certaines fonctions de Dedupe, telles que les fonctions de comparaison, les codages phonétiques, l’apprentissage actif et la mise en cluster La configuration de l’expérience est indiquée comme suit : Système d’Exploitation Langage de programmation Bibliothèque Framework Processeur Disque dur Ubuntu 16.04 LTS (64-bit) Python 3.6.4, Javascript Dedupe 1.9.2 Django 2.1.0 Intel Core 17-7700k CPU @4.20GHz x 967,6 GB Table 5.1 – Experimentations : Configuration logicielle et matérielle 28 Expérimentations 5.2 5.2 Interfaces Utilisateurs Interfaces Utilisateurs Dans cette partie, nous présentons les interfaces du système implémenté avec Python(Django + Dedupe) Figure – Page d’acceuil et de chargement des données-système implémenté Figure – Page de sélection des champs importants-système implémenté 29 Expérimentations 5.2 Interfaces Utilisateurs Figure – Phase de labellisation-système implémenté Pour évaluer la performance et l’efficacité du système mis en œuvre, nous avons utilisé des mesures telles que : le rappel, la précision et la F-mesure Ces mesures ont été recueillies partir des résultats de la classification des vecteurs de poids et des résultats de clustering — Rappel Le rappel mesure la capacité du système donner toutes les solutions pertinentes.Il s’agit du rapport entre le nombre d’enregistrements pertinents récupérés et le nombre total d’enregistrements pertinents dans la base de données Dans ce cas, le rappel est défini comme le rapport entre les doublons correctement identifiés et les véritables doublons dans l’ensemble de données Rappel D P airsd enregist rementsdupliquéscorrectementidentif iés/ V raispairsd enregist rementsdupliqués/ (5.1) — Précision La précision mesure la capacité du système refuser les solutions non-pertinentes C’est le rapport entre le nombre d’enregistrements pertinents récupérés et le nombre total d’enregistrements non pertinents et pertinents récupérés Dans cette thèse, la précision est le rapport des paires de doublons correctes identifiées aux doublons trouvés P récision D P airsd enregist rementscorrectementidentif iés/ (5.2) Nombredepairsd enregist rementsdupliquést rouvés/ — F-mesure/F-Score La F-mesure mesure la capacité du système donner toutes les solutions pertinentes et refuser les autres C’est donc la moyenne harmonique 30 Expérimentations 5.3 Choix du bon seuil de la précision et du rappel F 5.3 mesure=F Score D P récision Rappel/ P récision C Rappel/ (5.3) Choix du bon seuil Il y a toujours un compromis entre précision et rappel Et pour cela, nous utilisons la F-Mesure qui nous permettra de trouver un seuil qui puisse optimiser la précision et le rappel lors du processus de détections des doublons L’idée est de trouver le seuil qui maximise la F-Mesure qui est la moyenne pondérée de la précision et du rappel du système En règle générale, Le calcule de ce seuil dans Dedupe s’effectue en examinant la précision réelle et le rappel de certains enregistrements pour lesquelles nous connaissons leurs véritables labels - où les véritables doublons sont connus L’approche consiste prendre un échantillon aléatoire d’enregistrements, puis calculer la probabilité que les enregistrements (par pairs) soient dupliqués À partir de ces probabilités, le nombre attendu de doublons et de paires distinctes est calculé, ce qui permet de trouver le seuil et ensuite calculer facilement la précision et le rappel 5.4 Jeux de données Les expériences ont été réalisées en un premier temps en utilisant une portion des données d’un cas réel Le premier jeu de données utilisé (Consumer_Complaints.csv), contient 000 enregistrements présentant, d’une part, les différentes plaintes que portent des clients de certains magasins aux Etats-Unis et d’autre part, les informations sur les solutions apportées ces différentes plaintes.Le second jeu de données(INSEE.csv) utilisé est constitué de 5000 enregistrements Il faut souligner que nous avons apporté quelques modifications au premier jeu de données qui nous a aidé effectuer différents tests 5.5 Analyse des expériences L’idée est de comparer les résultats des jeux de données en sortie générés (après le processus de déduplication) par EBX et ceux du prototype implémenté La première expérience porte sur la correspondance exacte (Exact Matching) Dans ce cas, nous avons effectué les tests de détection de duplication en un premier temps sur champ (colonne) important et ensuite champs 31 Expérimentations 5.5.1 5.5 Analyse des expériences Correspondance Exacte L’appariement/Correspondance exact(e) ou matching exact représente le cas où les règles de calculs sont mises en place pour détecter les enregistrements dupliqués qui sont excatementles mêmes Nous avions dans ce cas utilisé le pemier jeur de données (Consusmer_complaints.CSV) Ainsi, les résultats générés par EBX et ceux du système proposé sont les mêmes Ceci dit, nous avons trouvé les mêmes nombre de clusters Ci-dessous, les résultats des mesures d’évaluation du système proposé sur le premier jeu de données pour les expériences de correspondance exacte sur et champs Figure – Métriques d’évaluation pour le matching exact- A gauche(sur champ)- A droite(sur champs) Ainsi, en terme de performance nous pouvons conclure que pour ce cas (matching exact), les deux systèmes arrivent trouver tous les enregistrements dupliqués Figure – Performance des deux systèmes pour le cas de détection de duplication (matching Exact) 5.5.2 Appariement flou ou Correspondance Approximative(Fuzzy matching ) La correspondance approximative consiste trouver les enregistrements qui représentent la meme entité en dépit de certaines erreurs La table 2.1 represente un exemple typique de ce cas Comme mentionné, nous avons modifié certains noms de sociétés dans le jeu de données d’origine(Consumer_Complaints.CSV) Le nouvel ensemble de données 32 Expérimentations 5.5 Analyse des expériences (Consumer.CSV) a donc la même configuration en terme de modèle que celui d’origine Nous avons aussi utilisé la base "INSEE.CSV" pour tester le présent cas Ci-dessous les résultats des mesures d’évaluation du système proposé pour les expériences d’appariement flou sur et champs 5.5.2.1 Correspondance Approximative sur un(1) champ Le jeu de données "Consumer.CSV" a été utilisé pour tester la correspondance approximative sur champ Nous avons constaté que les resultats en sortie sont les mêmes dans EBX ainsi que dans le système implémenté En terme de performance, les métriques générés par le systèmes proposé etaient maximales Figure 10 – Métriques d’évaluation du système proposé- Correspondance approximative(1 champ) 5.5.2.2 Correspondance Approximative sur un(3) champs Dans ce cas, nous avons utilisé les jeux de données "Consumer.CSV" ayant 1000 enregistrements et "INSEE.CSV" qui comprend 5000 enregistrements Nous avons appliqué la règle (algorithme) exacte sur le premier champ et la règle(algorithme) de correspondance approximative sur les deux (2) autres champs restants C’est-à-dire, nous voulons trouver tous les enregistrements dupliqués dans le cas où il peut y avoir des erreurs ou des modifications dans les informations sur le premier champ, Ex : (WELL FARGO BANK NATIONAL ASSOCIATION, WELLS FARGO BANK NTL ASSOCIATION, WELLS FARGO BNK NTL ASSOCIATION) mais doivent avoir les mêmes valeurs pour les deux(2) autres champs restants — Consumer.CSV Les résultats de sortie du système proposé mis en œuvre ont permis de trouver les regroupements des doublons avec une précision et un taux de rappel satisfaisants, pour le cas spécifique (Règle de calcul (Appariement flou) sur le premier champ plus correspondance/appariement exacte sur les deux autres colonnes) Cependant, les clusters formés dans EBX ne prennent pas en compte la règle de correspondance exacte qui doit être appliqué sur les deux autres champs Nous 33 Expérimentations 5.5 Analyse des expériences Figure 11 – Métriques d’évaluation du système proposé - Consumer.CSV(3 champs) constatons de préférence des regroupements d’enregistrements qui ne représente pas la même entité dans le monde réel Figure 12 – Extrait du fichier CSV généré en sortie d’EBX (appariement flou - colonnes) Nous pouvons voir dans l’exemple la Figue que le cluster contient des enregistrements qui ne sont pas dupliqués Tandis qu’en sortie du système proposé(Figure 9), les résultats qui ont été générés respectent la règle d’appariement/matching exact qui doit être appliqué sur les deux autres champs Figure 13 – Extrait du fichier CSV généré en sortie du système proposé(appariement flou - colonnes) — INSEE.CSV Nous avons aussi utilisé champs de l’ensemble de données INSEE, savoir : L1_NORMALISEE, L4_NORMALISEE, L6_NORMALISEE pour tester le processus de detection des doublons et comparer les résultats en sortie d’EBX avec ceux du système implémenté Comme nous avons 5000 enregistrements, nous avons pris le cas où L1_NORMALISEE = DORAS en sortie dans les deux jeux de données pour mieux comparer les résultats Nous avons trouvé 66 enregistrements pour lesquels le champ L1_NORMALISEE 34 Expérimentations 5.5 Analyse des expériences est égal "DORAS" Les métriques d’évaluation générées ont montré que le système implémenté est performant (Figure 10) Figure 14 – Extrait du fichier CSV généré en sortie du système proposé(appariement flou - colonnes) Pour aller plus loin, nous avons gardé le champ L1_NORMALISEE = DORAS et le cas où L6_NORMALISEE est égal "21300 CHENOVE" Ci-dessous les resultats en sortie d’EBX et du système implémenté Figure 15 – Extrait du fichier CSV généré en sortie d’EBX(appariement flou - colonnes) Figure 16 – Extrait du fichier CSV généré en sortie du système implémenté(appariement flou - colonnes) Nous avons constaté qu’en sortie d’EBX (Figure 11) le cluster 8876 regroupe le cas où L1_NORMALISEE=DORAS et L6_NORMALISEE=21300 CHENOVE mais ne prennent pas en compte la règle d’ exact matching qui doit être appliqué sur la colonne L4_NORMALISEE C’est-à-dire pour chaque valeurs différentes de L4_NORMALISEE, nous devons avoir un nouveau cluster Nous pouvons voir dans ce cas que le système implémenté renvoie des resultats (Figure 12) avec beaucoup plus de précision 35 Expérimentations 5.5 Analyse des expériences La différence est qu’avec le système implémenté le calcul du seuil se fait automatiquement dans l’objectif de maximiser la fonction F-Mesure, donc la performance du système Suivant la tâche de déduplication, ce seuil peut être calculer en fonction de la précision ou du rappel Et qu’une contribution humaine a permis aussi au système d’améliorer le processus de classification Tandis que dans EBX, il est fixé manuellement Ainsi, dupliqués où non, une fois que le seuil de duplication entre deux(2) ou plusieurs enregistrements est inférieur ou égal au seuil fixé, ils sont considérés comme des doublons 36 Chapitre Conclusion et perspectives Les techniques de détection des doublons faisant partie des solutions de DQM (Data Quality Management) permettent d’améliorer la qualité des données La gestion de la qualité des données permettent de garantir l’homogénéité de la base grâce des données qualifiées et normalisées et veille aussi la conformité du MDM Ainsi, une fois que les données soient de bonne qualité, elles peuvent être utilisées pour le développement de solutions robustes et évolutives Le plus grand défi de ce projet est la recherche visant améliorer le processus de détection des données dupliquées dans EBX À partir de nos recherches, nous avons décidé d’aborder l’approche d’apprentissage actif Elle repose également sur l’hypothèse que l’apprentissage est plus efficace lorsque l’on est curieux, en cherchant les données les plus intéressantes étiqueter en impliquant l’utilisateur au cours de ce processus L’approche d’apprentissage actif utilisée dans notre solition, est l’une des techniques populaires dans la plupart des logiciels/systèmes de déduplication intelligents Elle permet au classifieur de sélectionner un sous-ensemble dynamique d’enregistrements de données, qui reste petit mais suffisant pour générer un gain d’informations élevé pour le classifieur Ainsi, les expériences menées sur différents jeux de données ont validé le fait que le modèle peut détecter efficacement les doublons Nous avons présenté les algorithmes classiques et approches d’apprentissage automatique permettant de résoudre ce problème Bien qu’il ne soit pas possible de trouver une solution parfaite au problème de dédoublonnage ou la détection des doublons, il est possible de développer de nouveaux algorithmes génériques répondant diverses exigences Il est important de préciser aussi les limites de notre approche comme par exemple, le problème de gestion des synonymes que nous n’avons pas pris en compte ainsi que les règles de calculs dans la bibliothèque (Dedupe) utilisée qui ne sont pas modifiables.Il faut préciser que dans EBX, nous n’avons pas en sortie les métriques de performance (rappel et précision) Du coup, il est difficile de présenter une analyse comparatives statistiques des résultats L’une des évolutions et éventuelles perspectives consiste intégrer cette approche (Apprentissage Actif) dans EBX et ensuite analyser et comparer les nouvelles sorties avec les resultats du système existant 37 Bibliographie [1] Bansal (2004) Correlation clustering Machine Learning, 56 (1-3) :89–113 [2] Bhattacharya (2005) Latent dirichlet allocation model for entity resolution Computer Science Department, University of Maryland [3] Bilenko (2003) Adaptive name matching in information integration IEEE Intelligent Systems, 18 (5) :16–23 [4] Blum (1998) Combining labeled and unlabeled data with co-training COLT’ 98 : Proceedings of the eleventh annual conference on Computational learning theory, pages 92–100 [5] Bonnet (2009) Management des données de l’entreprise Master Data Management et modélisation sémantique [6] Bouguelia, M.-R (2016) Classification et apprentissage actif partir d’un flux de données évolutif en présence d’étiquetage incertain HAL- Archives Ouvertes, tel01262775 :20 [Christen] Christen Assessing deduplication and data linkagequality : What to measure ? Department of Computer Science, Australian National University, Canberra ACT 0200, Australia [8] Christen, P (2012) Data matching, Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate Detection [9] Cochinwala (2001) Efficient data reconciliation Information Sciences, 137 (1-4) :1– 15 [10] Cohen (2002) Learning to match and cluster large high-dimensional data sets for data integration Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2002) [11] Elfeky (2002) A record linkage tool box Proceedings of the 18th IEEE International Conference on Data Engineering (ICDE 2002), pages 17–28 [12] Erhard (2000) Data cleaning : Problems and current approaches IEEE Data Eng Bull., 23(4) :3–13 38 [13] Fellegi (1969) A theory for record linkage Journal of the American Statistical Association, 64 (328) :1183–1210 [14] jaro (1995) Probabilistic linkage of large public health data file », statistics in medicine Statistics in Medicine, vol 14 :491–498 [15] Joachims (1999) Making large-Scale SVM Learning Practical", Advances in Kernel Methods - Support Vector Learning (MIT-Press) [16] McCallum (2004) Conditional models of identity uncertainty with application to noun coreference Advances in Neural Information Processing Systems (NIPS 2004) [17] Menet, L (2006) Consolidation d’un modèle conceptuel de données de Master Data Management [18] Mikhail (2006) Learnable similarity functions and their application to record linkage and clustering [19] Negre, E (2013) Comparaison de textes : Quelques approches [20] Ravikumar (2004) A hierarchical graphical model for record linkage 20th Conference on Uncertainty in Artificial Intelligence (UAI 2004) [21] Sarawagi (2002) Interactive deduplication using active learning Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2002), pages 269–278 [22] Tejada (2001) Learning object identification rules for information integration Information Systems, 26 (8) :607–633 [23] Tejada (2002) Learning domain-independent string transformation weights for high accuracy object identification Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2002) [24] Toulemonde (2008) Le capital de votre organisation in un livre blanc de jemm research - des données de qualité JEMM researchInformatica 39 Annexe A Glossaire AI : Artificial intelligence, en fran¸cais intelligence artificielle (IA) est un domaine de l’informatique qui met l’accent sur la création de machines intelligentes qui fonctionnent et réagissent comme les humains Algorithmes : L’algorithme en apprentissage automatique est utilisé pour produire un modèle exécutable et qui peut être utilisé l’avenir pour faire soit la prédiction, la classification, la segmentation, API : (Application programming interface), en fran¸cais une interface de programmation applicative est un ensemble normalisé de classes, de méthodes ou de fonctions qui sert de fa¸cade par laquelle un logiciel offre des services d’autres logiciels Applications : Une application en apprentissage automatique peut être considérée comme étant un modèle dans le sens où elle fournit aux utilisateurs finaux les résultats obtenus par le modèle : prédiction, classification, traduction, avec une utilisation facile et une interaction homme machine comprehensive Apprentissage automatique : champ d’étude de l’intelligence artificielle, concerne la conception, l’analyse, le développement et l’implémentation de méthodes permettant une machine (au sens large) d’évoluer par un processus systématique, et ainsi de remplir des tâches difficiles ou problématiques par des moyens algorithmiques plus classiques Apprentissage supervisé : C’est un problème où toutes les données sont étiquetées et les algorithmes apprennent prédire la sortie des données d’entrée Apprentissage non supervisé : C’est un problème où toutes les données sont non étiquetées et les algorithmes apprennent la structure inhérente partir des données d’entrée AutoML : Machine Learning automatisé : Ensemble des modèles automatisés du machine learning destiné résoudre les problèmes de classification, de régression, de clustering, I Glossaire Classification : C’est un problème d’apprentissage supervisé où la variable de sortie est une catégorie, comme «rouge» ou «bleu» ou «maladie» et «pas de maladie» Cluster : En informatique, un cluster est une grappe de serveurs sur un réseau, appelé grille de calcul En apprentissage non supervisé un cluster représente un groupe dans lequel on trouve les entités similaires Clustering : désigne le partitionnement de données en des groupes distincts, chaque groupe contient des éléments similaires, c’est un problème d’apprentissage non supervisé Corpus, pluriel : corpora : c’est une collection de données linguistiques, parfois une compilation de textes écrits, ou de transcriptions d’enregistrement de discours Data Quality Management : Méthode de gestion des informations ayant pour objectif de gérer et de comparer des données entre différents systèmes d’information ou bases de données d’une entreprise Déduplication : Technique de stockage de données, consistant factoriser des séquences de données identiques afin d’économiser l’espace utilisé DNN (deep neural network) : Réseau de neurones profond est un ensemble d’algorithmes qui sont con¸cus pour reconnaˆıtre les modèles Donnée : description élémentaire d’une réalité, d’un objet, d’une personne ou d’un événement, voire d’un lieu Cette réalité est inscrite dans les systèmes d’information en tant qu’enregistrement ou record (sous forme de n-uplet constitué d’une liste d’attributs ou sous forme d’objets) ETL : extraction, transformation et chargement Ingestion de données : est le processus d’obtention et d’importation de données pour une utilisation ou un stockage immédiat dans une base de données Intégration de données : appelé ETL (Extraction Transfer Loading) regroupe les processus par lesquels les données provenant de différentes parties du système d’information sont déplacées, combinées et consolidées MDM : Master Data Management ou La gestion des données de référence ou gestion II Glossaire des données maˆıtres (GDR) est une branche des technologies de l’information qui définit un ensemble de concepts et de processus visant définir, stocker, maintenir, distribuer et imposer une vue complète, fiable et jour des données référentielles au sein d’un système d’information, indépendamment des canaux de communications, du secteur d’activité ou des subdivisions métiers ou géographiques Mesure de Similarité : En mathématiques et en informatique théorique, une mesure de similarité (aussi appelée une mesure de distance entre mots) est une métrique qui mesure la distance (l’inverse de la similarité) entre deux chaˆınes de caractères Elle intervient dans la recherche approximative ou la comparaison de chaˆınes, aussi appelée en anglais fuzzy string searching Modèle : En apprentissage automatique, un modèle est considéré comme une entité exécutable de déploiement qui prend n’importe quelle entrée dans le futur et produit en sortie une prédiction, une classification, traduction NLP : Natural Language Processing ou Traitement Automatique du Langage Naturel (TALN) en fran¸cais Elle étudie la compréhension, la manipulation et la génération du langage naturel par les machines Par langage naturel, on entend le langage utilisé par les humains dans leur communication de tous les jours par opposition aux langages artificiels comme les langages de programmation ou les notations mathématiques Régression : C’est un problème d’apprentissage supervisé où la variable de sortie est une valeur réelle Vecteur similarité : Un tableau de valeurs de similarité de deux enregistrements Word Embeddings : Un mot embedding est une approche pour fournir une représentation vectorielle dense des mots qui capturent quelque chose au sujet de leur signification Ceci facilite notamment l’analyse sémantique des mots III ... souvent des personnes, telles que des patients, des clients, des contribuables ou des voyageurs, mais elles peuvent également faire référence des publications ou des citations, des produits de consommation... comporte les méthodes basées sur des caractères, les méthodes basées sur des tokens et les méthodes hybrides et d’autre part, les mesures de similarités numériques 3.1.1 Le problème de la comparaison... de créer des mod les de données fournissant une description unifiée des données de base EBX.Platform est basé sur le standard XML Schema qui permet de créer des mod les structurés et riches Les

Định dạng
Số trang	52
Dung lượng	779,88 KB