Học tự động các đặc trưng cho các giá trị số trong biểu đồ tri thức

75 25 0
Học tự động các đặc trưng cho các giá trị số trong biểu đồ tri thức

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

La croissance continue de la quantité de données produites aujourd’hui dans le domaine du web sémantique propulsé par l’avancée technologique du domaine, nécessite des moyens qui permettent de mieux comprendre et interpréter ces données,leur volume, variété et hétérogénéité d’un côté rendent cette tâche d’analyse difficile d’où la nécessité de nouvelles méthodes, mieux adaptées à affronter les nouveaux défis. Ces données souvent sous forme de graphes contenant de valeurs numériques et symboliques nécessite une meilleur modélisation sémantique pour pouvoir extraire de connaissances. Notre travail de recherche adresse le problème de représentation de valeurs numé riques présentes dans des graphes de connaissances en se basant sur des méthodes d’apprentissage de représentation vectorielle (plongement de graphe), plusieurs mé thodes de plongement de graphes ont été proposées par la communauté scientifique mais aucune de ces méthodes ne traitent le cas de données numériques, ce qui est une de motivation majeur de notre recherche. l’hypothèse de notre recherche repose sur une étude, comment savoir ou trouver les entités et instances similaire avec de données numériques dans un graphe de connaissances. Par conséquent dans la première partie, nous introduisons le context et problé matique de notre travail ainsi que quelques concepts clés du web sémantique. Dans la deuxième partie nous faisons une étude bibliographique de méthodes de plongements de graphes existantes ensuite dans la Troisième partie nous proposons une solution sur l’enrichissement de valeurs numériques en utilisant les méthodes de clustering et appliquons cette méthode dans l’implémentation enfin dans la quatrième partie qui est notre conclusion, nous donnons nos perspectives et travaux futures sur la modélisation sémantiques de valeurs numériques

UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL KALOMBO KADIMA OLIVIER Apprentissage de représentation pour des valeurs numériques dans les graphes de connaissances Học tự động đặc trưng cho giá trị số biểu đồ tri thức MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE HANOÏ - 2020 UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL KALOMBO KADIMA OLIVIER Apprentissage de représentation pour des valeurs numériques dans les graphes de connaissances Học tự động đặc trưng cho giá trị số biểu đồ tri thức Spécialité : Systèmes Intelligents et Multimédia Code : Programme pilote MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Sous la direction de : Mme Danai SYMEONIDOU ( INRAE) HANOÏ - 2020 Attestation sur l’honneur J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a bien été précisée Signature de l’étudiant KALOMBO KADIMA Olivier Remerciements Ce travail de mémoire de Master recherche est le résultat de l’engagement de plusieurs personnes qui ont décidé de m’accompagner résolument dans cet exaltant parcours Je remercie Dieu le tout Puissant, très Miséricordieux, qui m’a donné la force, le courage et la persévérance durant ces deux années C’est avec une certaine émotion et une grande reconnaissance que je remercie l’Université Nationale du Vietnam travers l’Institut Francophone International et toute son équipe pédagogique Je remercie les professeurs pour les valeurs et méthodes inculquées durant le cursus : la curiosité, le goût du travail, de l’effort, le sens de la persévérance, etc Autant de trésors qui me seront, sans nul doute, utiles Je tiens adresser mes profonds remerciements aux encadrants, Mme Danai SYMEONIDOU et Mr.Konstantin TODOROV, pour l’opportunité que vous m’aviez accorder de faire mon stage de fin d’études au sein de votre équipe ainsi que les explications, la relecture de mon mémoire, les différentes pistes de réflexion et votre coaching qui m’ont permis de cibler et de m’orienter tout au long de ce stage A toute l’équipe MISTEA,INRAE Montpellier France, je vous remercie de m’avoir accepter au sein de votre équipe Je vous remercie aussi de m’avoir permis de participer aux différents séminaires Un grand merci mon père KADIMA MUSAKAÏ LÉONARD et ma mère KALONJI MBUYI MARIE-LOUISE pour leur soutien spirituel, financier et moral qu’il ne cessent pas d’apporter tout au long de ma vie et je remercie aussi mon frère Patrick KADIMA,pour son soutien spirituel et encouragements , mes soeurs,Carine KADIMA, Gisèle KADIMA et Christelle KADIMA pour leur amour, leurs conseils ainsi que pour leur soutien inconditionnel Je voudrais profiter de cet espace pour leur exprimer toute ma gratitude et ma reconnaissance Grâce vous, j’aborde une nouvelle étape de ma vie avec confiance et dynamisme KALOMBO KADIMA Olivier Résumé La croissance continue de la quantité de données produites aujourd’hui dans le domaine du web sémantique propulsé par l’avancée technologique du domaine, nécessite des moyens qui permettent de mieux comprendre et interpréter ces données,leur volume, variété et hétérogénéité d’un côté rendent cette tâche d’analyse difficile d’où la nécessité de nouvelles méthodes, mieux adaptées affronter les nouveaux défis Ces données souvent sous forme de graphes contenant de valeurs numériques et symboliques nécessite une meilleur modélisation sémantique pour pouvoir extraire de connaissances Notre travail de recherche adresse le problème de représentation de valeurs numériques présentes dans des graphes de connaissances en se basant sur des méthodes d’apprentissage de représentation vectorielle (plongement de graphe), plusieurs méthodes de plongement de graphes ont été proposées par la communauté scientifique mais aucune de ces méthodes ne traitent le cas de données numériques, ce qui est une de motivation majeur de notre recherche l’hypothèse de notre recherche repose sur une étude, comment savoir ou trouver les entités et instances similaire avec de données numériques dans un graphe de connaissances Par conséquent dans la première partie, nous introduisons le context et problématique de notre travail ainsi que quelques concepts clés du web sémantique Dans la deuxième partie nous faisons une étude bibliographique de méthodes de plongements de graphes existantes ensuite dans la Troisième partie nous proposons une solution sur l’enrichissement de valeurs numériques en utilisant les méthodes de clustering et appliquons cette méthode dans l’implémentation enfin dans la quatrième partie qui est notre conclusion, nous donnons nos perspectives et travaux futures sur la modélisation sémantiques de valeurs numériques Mots clés : Apprentissage automatique,intelligence artificielle, graphes de connaissances, données numériques, données symboliques, plongement de graphes,extraction de connaissances,modélisation sémantique Abstract The continuous growth of the amount of data produced today in the field of the semantic web, propelled by the technological advances in the field, requires means that allow for a better understanding and interpretation of this data,their volume, variety and heterogeneity on the one hand make this task of analysis difficult, hence the need for new methods, better adapted to face the new challenges These data,often in the form of graphs containing numerical and symbolic values,require better semantic modeling to be able to extract knowledge Our research work addresses the problem of representing numerical values present in knowledge graphs based on vector representation learning methods (graph embeddings), Several methods of graph embeddings have been proposed by the scientific community but none of these methods deal with numerical data, which is a major motivation for our research The hypothesis of our research is based on a study of how to know or find similar entities and instances with numerical data in a knowledge graph Therefore in the first part, we introduce the context and problematic of our work as well as some key concepts of the semantic web In the second part we make a bibliographic study of existing graph embeddings methods, then in the third part we propose a solution on numerical value enrichment using clustering methods and apply this method in the implementation Finally in the fourth part which is our conclusion, we give our perspectives and future work on semantic numerical value modeling Keywords :Machine learning, artificial intelligence, knowledge graphs, numerical data, symbolic data, graph embeddings,knowledge extraction, semantic modeling Table des matières Table des figures i Introduction, contexte et problématique 1.1 Introduction générale 1.2 Contexte 1.2.1 Définition de concepts 1.2.1.1 Le web sémantique 1.2.1.2 Graphe de connaissances ou Knowledge Graph 1.2.1.3 Type de littéraux dans le graphe de connaissances 1.3 Problématique 1.3.1 Défis dans les graphes de connaissance 1.3.2 Objectifs visés 1 2 État de l’art 2.1 Méthodes de Plongement 2.1.1 Plongement de mots 2.1.2 Plongement de graphes 2.1.3 Les méthodes sur le plongement de graphes de connaissances 2.1.3.1 Les modèles de distance translationnelle 2.1.3.2 Modèles d’appariement sémantique 2.1.4 PyTorch-Biggraph 11 11 11 15 18 19 21 23 Solution proposée et méthodologies 3.1 Solution proposée 3.1.1 Choix de l’outil pour les calculs de vecteurs 3.1.1.1 PyTorch-BigGraph Configuration 3.1.1.2 Schéma de configuration de PBG 3.1.2 Paramètres de configuration de nos vecteurs 3.2 Méthodologies 3.2.1 Préparation de données 3.2.1.1 Première méthode du cluster 27 27 29 29 29 31 32 32 32 ii TABLE DES MATIÈRES 3.2.1.2 Observation de la première méthode du cluster 3.2.1.3 Deuxième Méthode du cluster 3.2.1.4 Observation de la deuxième méthode du cluster 3.2.2 Calcul des vecteurs 3.3 Expérimentations et Résultats 3.3.1 Choix de technologies 3.3.2 Description de notre jeu des données 3.3.3 Description et Analyse exploratoire des instances contenant des valeurs numériques 3.3.3.1 Analyse et bilan sur nos valeurs numériques distinctes 3.3.4 Transformation des valeurs numérique en symboliques en appliquant les méthodes du clustering 3.3.5 Calculs de vecteurs et Plongement de Graphes 3.3.5.1 Paramètres et Configurations de vecteurs 3.3.5.2 Préparation de données et l’apprentissage 3.3.6 Mesure de similarité entre les vecteurs d’un graphe de connaissance 3.3.7 Expérimentations et analyse exploratoire sur la similarité entre les entités des valeurs numériques 3.3.7.1 Expérimentations 3.3.7.2 Analyse exploratoire sur la similarité entre les entités des valeurs numériques 3.3.8 Observations sur les résultats obtenus 3.3.9 Evaluation de l’approche proposée pour estimer la similarité des entités 33 34 36 36 37 38 38 39 41 42 47 47 47 51 51 52 54 55 56 Conclusion et Perspectives 58 4.1 Conclusion générale 58 4.2 Perspectives 59 iii CHAPITRE SOLUTION PROPOSÉE ET MÉTHODOLOGIES Appremtisage : Pour lancer l’apprentissage de nos vecteurs nous utilisons la commande torchbiggraph-train, les paramètres d’apprentissage sont cachés dans un fichier de configuration dont le chemin est donné la commande précédente sur l’apprentissage de notre modèle, cela va lire nos données spécifiées dans la configuration et lancera l’apprentissage en fonction de nombre des époques définis dans notre configuration Conversion de sortie de vecteurs : Au cours du prétraitement, les entités et les types de relations voient leurs identifiants convertis de chnes de caractères en ordonnées cela permet de faire correspondre les vecteurs de sortie aux noms d’origines de chaque entités et relations la figure suivante illustre le processus de la préparation de données lors notre apprentissage ainsi que la conversion de sortie de nos vecteurs 48 CHAPITRE SOLUTION PROPOSÉE ET MÉTHODOLOGIES 49 CHAPITRE SOLUTION PROPOSÉE ET MÉTHODOLOGIES une fois que l’apprentissage est terminé , nos vecteurs seront prêts et stocker dans un fichier dans notre répertoire la figure suivante illustre les résultats de nos vecteurs obtenus lors de nos expérimentations 50 CHAPITRE SOLUTION PROPOSÉE ET MÉTHODOLOGIES F IGURE 3.14 – résultats des vecteurs obtenus après apprentissage de notre jeu de données DB-lake 3.3.6 Mesure de similarité entre les vecteurs d’un graphe de connaissance Pour calculer la similarité entre nos vecteurs , nous avons utiliser la distance Euclidienne, qui est une de meilleur méthodes pour mesurer la similarité compte tenu de nos données graphes , il faut noter aussi que la distance Euclidienne mesure la distance en ligne droite entre deux points dans l’espace Lors de nos expérimentations nous avons calculer la distance Euclidienne entre nos vecteurs des entités des instances ayant les valeurs numériques choisis par rapport aux reste dautres vecteurs pour avoir un aperỗu sur la notion de similarité entre les entités des instances ayant de valeurs numériques 3.3.7 Expérimentations et analyse exploratoire sur la similarité entre les entités des valeurs numériques Nous avons faits au moin trois expérimentations différentes sur les calculs de distances entre les vecteurs des entités d’instances respectives savoir : 51 CHAPITRE SOLUTION PROPOSÉE ET MÉTHODOLOGIES — a) Distance entre les vecteurs des entités d’instances ayant de valeurs numériques clusterisées — b) Distance entre les vecteurs des entités d’instances ayant rien que de valeurs symboliques — C) Distance entre les vecteurs des entités d’instances combinées de valeurs numériques clusterisées et symboliques 3.3.7.1 Expérimentations les points suivants expliquent les différentes expérimentations faites avec nos données enrichies par les méthodes du clustering nous avons choisi une entité bien précise dans notre jeu de données DB-Lake qui est le lac “Buffalo-lac(Alberta)” travers lequel nous calculons sa distance euclidienne par rapport au reste des entités de notre jeu de données ; ensuite nous choissisons le top 10 premier du résultats obtenus — La première expérimentation La première expérimentation s’est fait rien qu’avec les données des entités d’instances ayant que de valeurs numériques clusterisées, données récrit avec notre deuxième méthodes du clustering) (voir section méthodologie) Dans le tableau suivant nous avons dans la première colonne notre lac de référence et dans la deuxième colonne c’est les lacs les plus proches de notre lac de référence et dans la troisième colonne c’est la distance Euclidienne entre les deux lacs respectifs F IGURE 3.15 – résultats sur la similarité des entités avec des données de valeurs numériques clusterisées — La deuxième expérimentation La deuxième expérimentation se fait avec des données des entités d’instances ayant que de valeurs symboliques, Dans le tableau suivant nous avons dans la première colonne notre lac de référence et dans la deuxième colonne c’est les lacs les plus proches de notre lac 52 CHAPITRE SOLUTION PROPOSÉE ET MÉTHODOLOGIES de référence et dans la troisième colonne c’est la distance Euclidienne entre les deux lacs respectifs F IGURE 3.16 – résultats sur la similarité des entités avec de données de valeurs symboliques — La troisième expérimentation La troisième expérimentation se fait avec des données combinées c.a.d nous avons combiné les données des entités d’instances ayant des valeurs numériques clusterisées avec des données des entités d’instances ayant de valeurs symboliques après la combinaison de ce deux groupes de données nous avons pu effectuer une troisième expérimentation Dans le tableau suivant nous avons dans la première colonne notre lac de référence et dans la deuxième colonne c’est les lacs les plus proches de notre lac de référence et dans la troisième colonne c’est la distance Euclidienne entre les deux lacs respectifs F IGURE 3.17 – résultats sur la similarité des entités avec des données de valeurs numériques clusterisées combiner avec de données de valeurs symboliques 53 CHAPITRE SOLUTION PROPOSÉE ET MÉTHODOLOGIES 3.3.7.2 Analyse exploratoire sur la similarité entre les entités des valeurs numériques Pour mieux analyser nos résultats nous avons choisis une entité bien précis dans notre jeu de données DB-Lake qui est le lac “Buffalo-lac(Alberta)”, les résultats présentés sont le top 10 premier entités ou Lacs le plus proches de notre entité de référence “Buffalo-lac(Alberta)”.c’est travers cette entité “Buffalo-lac(Alberta)” que nous avons mené toutes les trois différentes expérimentations pour pouvoir bien comparer et analyser nos résultats et surtout en déduire quelques bonnes observations sur l’impact de la récriture ou l’enrichissement des nos valeurs numériques présent dans les graphes de connaissance et souvent ces valeurs numériques sont très précis.À Travers les résultats obtenus nous avons pu avoir un aperỗu profond sur la représentation des valeurs numériques dans un graphe de connaissance sur ce qui concerne la similarité entre les instances des valeurs numériques les tableaux suivants nous présentent les résultats obtenus après nos différentes expérimentations F IGURE 3.18 – Résultats sur la similarité des entités avec des données de valeurs numériques clusterisées( voir top numérique) et résultats des données de valeurs symboliques( voir top symbolique) 54 CHAPITRE SOLUTION PROPOSÉE ET MÉTHODOLOGIES F IGURE 3.19 – résultats sur la similarité des entités avec des données de valeurs numériques clustérisées combiner avec de données de valeurs symboliques 3.3.8 Observations sur les résultats obtenus Observation1 : Observation du resultat de l’expérimentation sur la similarité entre deux entités avec de données des valeurs numériques : Nous observons que la distances euclidiennes entre deux entités de nos données numériques clustérisées est tres petites d’où nous trouvons un taux élevé ou encore une forte similarité entre deux entités car ces dernier (deux entités) partagent plusieurs élément en commun cad ces entités partagent plusieurs relations et entités en commun : Dans ce cas nous trouvons que Lac et Lac seront très proches et très similaires car ils partagent la même relation en commun qui est width et ils partagent aussi une même entités du même groupe qui est “width 1” , ce qui n’est pas le cas pour le lac3 Observation2 : Observation du résultat de l’expérimentation sur la similarité entre deux entités avec des données symboliques : Avec des données de valeurs symboliques, nous observons que la distance euclidienne entre deux entités est très grande cela est dû par le fait que dans le données avec de valeurs symboliques, nous trouvons une diversité des éléments et les entités ne partagent pas beaucoup d’élément en commun d’où le taux de similarités entre deux entités est faible suite du fait que les entités ne partagent pas des éléments ou propriétés en commun Observation3 : Observation du résultat de l’expérimentation sur la similarité entre deux entités avec des données combinées cad , la combinaison de données de valeurs nu55 CHAPITRE SOLUTION PROPOSÉE ET MÉTHODOLOGIES mériques clustérisés et de données de valeurs symboliques : Nous remarquons qu’ici , nous avons plusieurs nombre d’instance que dans le cas précédent et la distance euclidienne entre deux entités est moyenne en comparant les résultats précédents notamment aux résultats de valeurs symbolique, il faut noter ici que la combinaison de données numériques clustérisés avec des données symboliques fait que plusieurs entités ici partagent certaines propriétés et éléments en commun d’ou nous obtenons un taux moyen de similarités entre deux entités ; par exemple : — Si les données de valeurs numériques clusterisées possèdent 90 % similarités entre deux entités — Si les données de valeurs symboliques possèdent 60 % de similarité entre deux entités — D’où la combinaison de données avec de valeurs numériques clusterisés et données avec valeurs symboliques possèdent 75 % de similarités entre deux entités 3.3.9 Evaluation de l’approche proposée pour estimer la similarité des entités Nous avons procédé par une évaluation manuelle pour évaluer notre approche compte tenu du manque de vérité de terrain selon notre étude sur la littérature (État de l’art) qui montre qu’il n’existe pas des méthodes existantes sur l’apprentissage de représentation pour des valeurs numériques dans les graphes de connaissances Nous avons premièrement définis notre protocole d’évaluation qui est basé sur le plan géographique, c.a.d l’emplacement géographique de chaque Lac de notre jeu de données (DB-Lake) est un grand critère et protocole d’évaluation, nous y ajoutons aussi les critères comme la superficie en km2 (area km2 ),longueur et la largeur sont aussi définis comme protocole d’évaluations pour estimer la similarité de lacs de notre jeu de données vu que nous pouvons comparer deux lacs en tenant compte sa superficie , de la largeur et longueur représentées par des valeurs numériques et en déduire une conclusion si ses lacs sont similaire, proche ou pas en terme de localisation geographique,superficie, largeur ou longueur Après avoir définis notre protocole d’évaluation manuelle, nous avons décidé de regarder dans la vie réelle quelles sont les lacs qui sont réellement proche de notre Lac de référence (Buffalo-Lake) que nous avons utilisé lors de nos différentes expérimentations, car les résultats de la sélection des lacs les plus proches de Buffalo-Lake nous a servis de faire une comparaison statistique avec nos résultats obtenus lors de nos expérimentations La figure suivante illustre les résultats des lacs les plus proche de Buffalo-Lake dans la vie réelle en terme de superficie en km2(area km2),l’emplacement géographique représenter par le bassin versant(watershed) puis le bassin 56 CHAPITRE SOLUTION PROPOSÉE ET MÉTHODOLOGIES F IGURE 3.20 – évaluation de lacs proches de lac Buffalo-lake(Alberta) dans la vie réelle La deuxième figure illustre les résultats des lacs les plus proches Buffalo-lake(Alberta) avec nos expérimentations F IGURE 3.21 – évaluation de lacs proches de lac Buffalo-lake(Alberta) avec nos xpérimentations Lorsque nous faisons une comparaison statistique en comparant les résultats de la vie réelle et les résultats de nos expérimentations nous trouvons un score de 80% d’exactitude de nos résultats car nous avons au moin lacs sur 10 comme résultats obtenus de nos expérimentations 57 Chapitre Conclusion et Perspectives 4.1 Conclusion générale Notre travail de recherche a abordé le problème de la représentation des valeurs numériques dans des graphes de connaissances qui posent problème dans toutes les étapes cycle de vie dans le domaine du web sémantique notamment en partant de l’intégration de données jusqu’au liage des données Pour répondre ce problème de représentation numérique, nous avons utiliser les méthodes d’apprentissage de représentation dites plongement des graphes ou encore graph Embeddings en anglais, d’où l’idée principale est de plonger nos graphes dans un espace vectoriel et pouvoir être en mesure travers nos vecteurs obtenus d’estimer la similarité entre les entités en se concentrant beaucoup plus sur les entités des instances ayant les valeurs numériques Nous avons procédé par un prétraitement de données ou encore une récriture de notre jeu de données en utilisant les méthodes de clustering qui se basent sur la notion de “Pas” ainsi que le groupement des entités en tenant compte d’une répartition équilibrée en fonction de nombre total des instances de chaque relation que nous trouvons dans notre jeu de données, dans cette phase de prétraitement de données qui a pour but d’enrichir nos valeurs numériques présent dans notre graphe de connaissances, nous retenons que les methodes proposées pour le pré traitements de données dépend du contenus de valeurs numériques de chaque jeu de données et cela tient compte de la valeur Maximale et Minimale pour chaque relation de jeu de données qui est très capital car travers les valeurs Maximales et minimales de chaque relation, nous calculons le “Pas” pour chaque groupement ou cluster Après la phase de traitement de données, nous plongeons nos graphes en utilisant l’outils PyTorchBigraph qui nous a servis d’obtenir de meilleurs vecteurs “Embedding” ensuite avec nos vecteurs nous calculons la distance euclidienne qui est un des meilleurs mesure d’estimation pour calculer la similarité entre les entités ; en fin vient la phase d’une étude ou analyse exploratoire sur les différents résultats obtenus avec nos données numériques clusterisées et symboliques, cette études nous a permis de mieux comprendre l’importance et l’impact qu’apporter l’enrichissement de nos 58 CHAPITRE CONCLUSION ET PERSPECTIVES données numériques présent dans notre jeu de données ainsi que la récriture de notre jeu de données, nous avons observé que nous trouvons une forte similarité entre des entités ayant de valeurs numériques lorsque nous enrichissons nos données numériques avant l’obtention de nos “embeddings” 4.2 Perspectives Comme perspectives de notre travail de recherche, nous proposons de faire encore plusieurs expérimentations concernant la représentation de valeurs numériques notamment en explorant plusieurs méthodes de clustering et d’autres méthodes comme le plus proche voisin, ces méthodes peuvent ou pourront être exploitées après la phase d’obtention de nos vecteurs”Embeddings” et pourront nous donner encore une vue plus large sur la représentations de valeurs numériques qui est d’une grande importance dans le domaine de la recherche car les données ou des valeurs numériques sont présent dans les graphes de connaissances En ce qui concerne les travaux futurs, nous avons l’intention d’aborder d’autres tâches comme la prédiction des liens en utilisant notre approche de la similarité des entités tout en tenant compte de literals qui ont des valeurs numériques, nous envisageons présenter nos résultats dans une conférence internationale qui pourra servir la communauté scientifique de recherche dans le domaine du web sémantique et apprentissage automatique 59 Bibliographie [Ahmed et al., 2013] Ahmed, A., Shervashidze, N., Narayanamurthy, S., Josifovski, V., and Smola, A J (2013) Distributed large-scale natural graph factorization In Proceedings of the 22nd international conference on World Wide Web, pages 37–48 [Bansal et al., 2014] Bansal, M., Gimpel, K., and Livescu, K (2014) Tailoring continuous word representations for dependency parsing In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume : Short Papers), pages 809–815 [Belkin and Niyogi, 2002] Belkin, M and Niyogi, P (2002) Laplacian eigenmaps and spectral techniques for embedding and clustering In Advances in neural information processing systems, pages 585–591 [Bengio et al., 2003] Bengio, Y., Ducharme, R., Vincent, P., and Jauvin, C (2003) A neural probabilistic language model Journal of machine learning research, 3(Feb) :1137– 1155 [Bhagat et al., 2011] Bhagat, S., Cormode, G., and Muthukrishnan, S (2011) Node classification in social networks In Social network data analytics, pages 115–148 Springer [Bollacker et al., 2008] Bollacker, K., Evans, C., Paritosh, P., Sturge, T., and Taylor, J (2008) Freebase : a collaboratively created graph database for structuring human knowledge In Proceedings of the 2008 ACM SIGMOD international conference on Management of data, pages 1247–1250 [Bordes et al., 2013] Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., and Yakhnenko, O (2013) Translating embeddings for modeling multi-relational data In Advances in neural information processing systems, pages 2787–2795 [Cancho and Solé, 2001] Cancho, R F I and Solé, R V (2001) The small world of human language Proceedings of the Royal Society of London Series B : Biological Sciences, 268(1482) :2261–2265 [Ding et al., 2001] Ding, C H., He, X., Zha, H., Gu, M., and Simon, H D (2001) A minmax cut algorithm for graph partitioning and data clustering In Proceedings 2001 IEEE international conference on data mining, pages 107–114 IEEE 60 BIBLIOGRAPHIE [Freeman, 2000] Freeman, L C (2000) Visualizing social networks Journal of social structure, 1(1) :4 [Grover and Leskovec, 2016] Grover, A and Leskovec, J (2016) node2vec : Scalable feature learning for networks In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining, pages 855–864 [Heckerman et al., 2007] Heckerman, D., Meek, C., and Koller, D (2007) Probabilistic entity-relationship models, prms, and plate models Introduction to statistical relational learning, pages 201–238 [Lehmann et al., 2015] Lehmann, J., Isele, R., Jakob, M., Jentzsch, A., Kontokostas, D., Mendes, P N., Hellmann, S., Morsey, M., Van Kleef, P., Auer, S., et al (2015) Dbpedia– a large-scale, multilingual knowledge base extracted from wikipedia Semantic Web, 6(2) :167–195 [Lerer et al., 2019] Lerer, A., Wu, L., Shen, J., Lacroix, T., Wehrstedt, L., Bose, A., and Peysakhovich, A (2019) PyTorch-BigGraph : A Large-scale Graph Embedding System In Proceedings of the 2nd SysML Conference, Palo Alto, CA, USA [Leskovec et al., 2007] Leskovec, J., Kleinberg, J., and Faloutsos, C (2007) Graph evolution : Densification and shrinking diameters ACM transactions on Knowledge Discovery from Data (TKDD), 1(1) :2–es [Liben-Nowell and Kleinberg, 2007] Liben-Nowell, D and Kleinberg, J (2007) The link-prediction problem for social networks Journal of the American society for information science and technology, 58(7) :1019–1031 [Lin et al., 2015] Lin, Y., Liu, Z., Sun, M., Liu, Y., and Zhu, X (2015) Learning entity and relation embeddings for knowledge graph completion In Twenty-ninth AAAI conference on artificial intelligence [Maaten and Hinton, 2008] Maaten, L v d and Hinton, G (2008) Visualizing data using t-sne Journal of machine learning research, 9(Nov) :2579–2605 [Mahdisoltani et al., 2013] Mahdisoltani, F., Biega, J., and Suchanek, F M (2013) Yago3 : A knowledge base from multilingual wikipedias [McGuinness and van Harmelen, 2005] McGuinness, D L and van Harmelen, F (2005) Owl web ontology language overview w3c recommendation 10 february 2004,(2004) [Mesnil et al., 2013] Mesnil, G., He, X., Deng, L., and Bengio, Y (2013) Investigation of recurrent-neural-network architectures and learning methods for spoken language understanding In Interspeech, pages 3771–3775 [Mikolov et al., 2013a] Mikolov, T., Chen, K., Corrado, G., and Dean, J (2013a) Efficient estimation of word representations in vector space arXiv preprint arXiv :1301.3781 [Mikolov et al., 2013b] Mikolov, T., Sutskever, I., Chen, K., Corrado, G S., and Dean, J (2013b) Distributed representations of words and phrases and their compositionality In Advances in neural information processing systems, pages 3111–3119 61 BIBLIOGRAPHIE [Morin and Bengio, 2005] Morin, F and Bengio, Y (2005) Hierarchical probabilistic neural network language model In Aistats, volume 5, pages 246–252 Citeseer [Nickel et al., 2011] Nickel, M., Tresp, V., and Kriegel, H.-P (2011) A three-way model for collective learning on multi-relational data In Icml, volume 11, pages 809–816 [Orponen, 1990] Orponen, P (1990) Dempster’s rule of combination is# p-complete situations, 1(4) :9–10 [Perozzi et al., 2014] Perozzi, B., Al-Rfou, R., and Skiena, S (2014) Deepwalk : Online learning of social representations In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 701–710 [Tang et al., 2015] Tang, J., Qu, M., Wang, M., Zhang, M., Yan, J., and Mei, Q (2015) Line : Large-scale information network embedding In Proceedings of the 24th international conference on world wide web, pages 1067–1077 [Theocharidis et al., 2009] Theocharidis, A., Van Dongen, S., Enright, A J., and Freeman, T C (2009) Network visualization and analysis of gene expression data using biolayout express 3d Nature protocols, 4(10) :1535 [Vrandeˇci´c and Krötzsch, 2014] Vrandeˇci´c, D and Krötzsch, M (2014) Wikidata : A free collaborative knowl base Commun ACM [Wang et al., 2017] Wang, Q., Mao, Z., Wang, B., and Guo, L (2017) Knowledge graph embedding : A survey of approaches and applications IEEE Transactions on Knowledge and Data Engineering, 29(12) :2724–2743 [Wang et al., 2014] Wang, Z., Zhang, J., Feng, J., and Chen, Z (2014) Knowledge graph embedding by translating on hyperplanes In Twenty-Eighth AAAI conference on artificial intelligence [Wilcke et al., 2017] Wilcke, X., Bloem, P., and De Boer, V (2017) The knowledge graph as the default data model for learning on heterogeneous knowledge Data Science, 1(1-2) :39–57 [Yang et al., 2014] Yang, B., Yih, W.-t., He, X., Gao, J., and Deng, L (2014) Embedding entities and relations for learning and inference in knowledge bases arXiv preprint arXiv :1412.6575 [Zhang et al., 2016] Zhang, D., Yin, J., Zhu, X., and Zhang, C (2016) Homophily, structure, and content augmented network representation learning In 2016 IEEE 16th international conference on data mining (ICDM), pages 609–618 IEEE 62 ... représentation pour des valeurs numériques dans les graphes de connaissances Học tự động đặc trưng cho giá trị số biểu đồ tri thức Spécialité : Systèmes Intelligents et Multimédia Code : Programme... est un ensemble de triplets, chacun composé d’un sujet,d’un prédicat et d’un objet, Par exemple, db :Berlin dbo :capitalDe db :Allemagne représente un triplet Un ensemble de ces triplets est appelé... représentation — Q.R Comment combiner les structures de nos triplets ( sujets, prédicats , objets ) et des informations non structurées (triplets attributifs qui sont des littéraux sous forme de texte

Ngày đăng: 29/01/2021, 17:28

Mục lục

  • Table des figures

  • Introduction, contexte et problématique

    • Introduction générale.

    • Contexte.

      • Définition de concepts

        • Le web sémantique

        • Graphe de connaissances ou Knowledge Graph

        • Type de littéraux dans le graphe de connaissances.

        • Problématique.

          • Défis dans les graphes de connaissance

          • Objectifs visés.

          • État de l'art

            • Méthodes de Plongement

              • Plongement de mots

              • Plongement de graphes.

              • Les méthodes sur le plongement de graphes de connaissances

                • Les modèles de distance translationnelle

                • Modèles d'appariement sémantique

                • PyTorch-Biggraph

                • Solution proposée et méthodologies

                  • Solution proposée

                    • Choix de l’outil pour les calculs de vecteurs

                      • PyTorch-BigGraph Configuration

                      • Schéma de configuration de PBG

                      • Paramètres de configuration de nos vecteurs

                      • Méthodologies.

                        • Préparation de données .

                          • Première méthode du cluster

                          • Observation de la première méthode du cluster

                          • Deuxième Méthode du cluster

                          • Observation de la deuxième méthode du cluster

                          • Calcul des vecteurs

Tài liệu cùng người dùng

Tài liệu liên quan