1. Trang chủ
  2. » Luận Văn - Báo Cáo

Liage des jeux de données complémentaires a l’aide de méthodes d’augmentation des graphes de connaissances et plongement multimodals

70 75 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 70
Dung lượng 3,25 MB

Nội dung

UNIVERSITÉ NATIONALE DU VIETNAM À HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL SONFACK SOUNCHIO Serge LIAGE DES JEUX DE DONNÉES COMPLÉMENTAIRES A L’AIDE DE MÉTHODES D’AUGMENTATION DES GRAPHES DE CONNAISSANCES ET PLONGEMENT MULTIMODALS MEMOIRE DE FIN D’ETUDE DE MASTER EN INFORMATIQUE HANOÏ-2019 UNIVERSITÉ NATIONALE DU VIETNAM À HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL SONFACK SOUNCHIO Serge LIAGE DES JEUX DE DONNÉES COMPLÉMENTAIRES A L’AIDE DE MÉTHODES D’AUGMENTATION DES GRAPHES DE CONNAISSANCES ET PLONGEMENT MULTIMODALS spécialité: Systèmes Intelligents et Multimédia (SIM) Code: Programme pilote MEMOIRE DE FIN D’ETUDE DE MASTER EN INFORMATIQUE Sous la direction de : • PhD, enseignant chercheur au LIRMM, Kontantin TODOROV • PhD, chargé de recheche IRD Hanoi, Pierre LARMANDE HANOÏ-2019 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée LI CAM ÐOAN Tôi cam đoan cơng trình nghiên cu ca riêng tơi Các s liu, kt qu nêu Lun văn trung thc cha tng đc công b bt k cơng trình khác Các thơng tin trích dn Lun văn đc ch rõ ngun gc SONFACK SOUNCHIO Serge SONFACK SOUNCHIO Serge LIAGE DES JEUX DE DONNÉES COMPLÉMENTAIRES A L’AIDE DE MÉTHODES D’AUGMENTATION DES GRAPHES DE CONNAISSANCES ET PLONGEMENT MULTIMODALS LIÊN KT TRÒ CHI D LIU B SUNG S DNG CÁC PHNG PHÁP S DNG CÁC HÌNH NH KIN THC VÀ ÐA NĂNG DIVING spécialité: Systèmes Intelligents et Multimédia (SIM) Code: Programme pilote MEMOIRE DE FIN D’ETUDE DE MASTER EN INFORMATIQUE Sous la direction de : • PhD, enseignant chercheur au LIRMM, Kontantin TODOROV • PhD, chargé de recheche IRD Hanoi, Pièrre LARMANDE HANOÏ-2019 REMERCIEMENTS Pour les efforts consentis dans la réalisation de ce mémoire, j’exprime mes très vives reconnaissances l’endroit de : • Konstantin Todorov et Pierre Larmande pour leur encadrement et conseil durant ce stage • Laurence Albar, Christine Tranchant-Dubreuil de m’avoir bien accueillir et faciliter mon insertion au laboratoire IRD • Fati Chen, Mehdi Mirzapour du LIRMM pour les nombreux pauses café effectués, débats instructifs et toujours dans la bonne humeur Mes remerciements vont également l’endroit de notre très cher institut de formation, l’Institut de la Francophonie pour l’Innovation (IFI) Je remercie tout particulièrement le corps enseignant pour la qualitộ de la formation reỗue et le personnel administratif pour la chaleureuse collaboration Cette année de Master Recherche n’était pas facile nécessitant beaucoup d’efforts A cet effet je remercie ma famille pour le soutient moral, qu’elle m’a apporter durant tout ce parcours i LIST OF FIGURES 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 Exemple de base de connaissances Exemple de triplet Exemple de plongement de mots dans Plongement de graphe Exemple de liage Logo de AgroLD La base de connaissances AgroLD Problème visé Données multimodales 3.1 3.2 Représentation des mots dans un espace dimensions Architectures de CBOW et Skip-gram Efficient Estimation of Word Representations in Vector Space, Tomas Mikolov et al [15] Régularité sémantique: Linguistic Regularities in Continuous Space Word Representations, Tomas Mikolov et al [17] Extraction des triplets des tables: Annotating and searching web tables using entities, types and relationships, Limaye et al [13] 3.3 3.4 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 Plongement du corpus Génération de poids TF-IDF Agrégation des vecteurs Workflow de méthode représentation de l’évaluation Importance des mots sur les tf-idf Exemple de modèle sac mots Workflow de approche de base ii un espace de deux dimensions 10 10 11 12 14 15 16 22 30 31 32 34 35 37 38 38 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 Logo Debian Logo Python Logo Emacs comparaison de du nombre d’entités comparaison des mots utilisés Visualization of corpus embeddings Extracting properties information from graphs TF-IDF des bases de mots des graphes de connaissances Comparaison de l’approche de base et la solution proposée iii 40 40 40 42 43 44 45 45 47 LIST OF TABLES 2.1 Classification des modèles de plongements lexicaux 4.1 4.2 Nombre de possibilité pour le choix de modèle de plongement du corpus 36 Nombre de possibilité pour le choix de modèle de plongement et le poids utiliser pour 36 Nombre de possibilité pour le choix de modèle de plongement et le choix de la propriété description des graphes de connaissances 36 4.3 iv GLOSSAIRES ET ACRONYMES AgroLD Agronomic Linked Data (AgroLD) C’est le projet créé pour mettre en place un portail pour bioinformaticien et aux experts du domaine pour exploiter les modèles de données homogènes en vue de générer efficacement des hypothèses de recherche BOW Bag Of Words CBOW Continuous Bag Of Words IRD Institut de recherche pour le développement LIRMM Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier NLP Natural Language Processing OBO Open Biological and Biomedical Ontology OWL Web Ontology Language RDF Resource Description Framework SPARQL SPARQL Protocol and RDF Query Language URI Uniform Resource Identifier W3C Le World Wide Web Consortium, abrégé par le sigle W3C, est un organisme de standardisation but non lucratif, fondé en octobre 1994 chargé de promouvoir la compatibilité des technologies du World Wide Web telles que HTML5, HTML, XHTML, XML, RDF, SPARQL, v WEB World Wide Web XML eXternded Markup Language vi – 17354 entités – 7524 entités sans descriptions • Pour la donnée nommée: nous comptons: (Ground_truth) – 15772 entités – 6933 entités sans correspondance (has_rap_identifier) Figure 5.4 – comparaison de du nombre d’entités 5.1.4 Les mots utilisés Nous exploitation dans notre méthode beaucoup de chnes de caractères c’est-à-dire des mots, de ce fait il serait important pour nous de conntre les quantités de mots utilisés pour l’atteinte nos résultats La figure 5.5 nous donne un apperỗu des mots utilisộs au niveau de chaque base de connaissances 42 Figure 5.5 – comparaison des mots utilisés 5.2 Expérimentation Nos premier pas dans l’expérimentation commencent avec l’analyse des données du terrain ou encore les données liées manuellement Après extraction des données de vérité de terrain, nous remarquons ce n’est pas tout les entités qui avaient une correspondance has_rap_identifier 5.2.1 Plongement des mots du corpus Pour transformer les mots de notre corpus en vecteurs, plusieurs paramètres ont été essayés dans le but de trouver ceux qui nous permettrons d’avoir les meilleurs resultats • taille du vecteur Nous avons choisis les tailles suivantes: 25, 50, 150, 200, 250, 300 • taille de la fenêtre de mots Nous avons les fenêtres de tailles suivantes: 2, 3, Il est possible que ces deux paramètres utilisés lors de la création de vecteurs de mots de notre corpus influencent sur le plongement des graphes Celà est dû au fait que le modèle Skip-gram de Word2Vec apprend la représentation des vecteurs de mots en basant sur le 43 contexte de chaque mot, que nous appelons ici la taille de la fenêtre de mots et sur la dimension des vecteurs qui est la taille du vecteur Nous constatons que autour du point (a) Zoom model with vectore 30 and window (b) Zoom model with vectore 50 and window Figure 5.6 – Visualization of corpus embeddings (−1.4, 0.0), nous n’avons pas les même mots, ce qui s’explique par le fait que la variation de la taille de la fenêtres et la dimension des vecteurs ne sont pas les même 5.2.2 Distribution de mots dans les graphes Pour pouvoir transformer chaque noeud de nos graphes en vecteur, notre méthode utilise une pondération des vecteurs de mots avec leur fréquence Détermination de la fréquence des mots Pour déterminer la fréquence des mots, il est important de se fixer sur deux choses: • les attributs prendre en compte Dans ce cas nous avons la possibilité d’utiliser tous les attributs de chaque entité ou quelques un, notamment ceux ayant assez de textes • le type de fréquence utiliser 44 (a) Description only (b) Description and others Figure 5.7 – Extracting properties information from graphs Pour la pondération de nos vecteurs, nous avons plusieurs choix possible pour les mots des propriétés des graphes, qui sont dans le corpus Pour notre travail nous avons implémentés deux méthode de fréquence: • TF • TF-IDF (a) TF-IDF des mots de la base gramene Oryza (b) TF-IDF des mots de la base oryzabase Figure 5.8 – TF-IDF des bases de mots des graphes de connaissances 5.2.3 Agrégation des vecteurs de chaque entité des graphe L’objectif de l’agrégation est de pouvoir définir les vecteurs de entités de graphe partir des vecteurs des mots qui les constituent et de la frộquence de chaque mot De faỗon 45 générale, on effectue une somme pondérée des vecteurs de mots par leur fréquence Exemple: Considérons l’entité OS10G0434200 et déterminons son vecteur • Entité OS10G0434200 • Description: Putative uncharacterized protein TrEMBL Acc:B9G5V7] • TF-IDF des mots de cette description OS10G0434200 OS10G0434200 OS10G0434200 OS10G0434200 OS10G0434200 OS10G0434200 acc b9g5v7 protein putative trembl uncharacterized 0.102047 0.940986 0.114229 0.172686 0.112048 0.220699 • les mots ayant des représentations vectorielles des mots de cette entité disponibles dans le corpus Dimension: 25 Putative = −0.39852768, 0.54840094, −0.11242925, , −0.45396224, −0.47414994 uncharacterized = −0.17749694, 0.08031307, −0.65637976, , 0.44666195, −0.24213943 protein = 0.02870943, 0.48831978, −0.63331097, , −0.16238707, 1.16492319 • Calcul du vecteur de l’entité OS10G0434200 OS10G0434200 = Putative*0.172686 + uncharacterized*0.220699 + protein*0.114229 OS10G0434200 = −0.1047141, 0.16820646, −0.23661979, , 0.00163561, −0.00225098 Il faut noter que c’est pas tous les mots des propriétés des entités qui seront utilisé pour reconstruire leur vecteur, c’est uniquement les mots qui apparaissent aussi dans le vocabulaire du corpus A la fin de cette étape, nos graphes de connaissances sont entièrement représentés par les vecteurs et se trouvent dans le même espace vectoriel 46 5.2.4 Comparaison avec l’approche de base Pour notre comparaison, nous avons procédé une évaluation des résultats obtenus avec l’approche de base et la solution proposée Nous constatons figure 5.9 que les mesures de la similarité cosinus figure 5.9a de notre approche de base sont presque égales et que les mesures de la distance euclidienne sont très petites Par contre avec notre méthode proposée, bien que nous ayons des grandes mesures au niveau de la distance euclidienne, nous avons des mesure vrais semblables au niveau de similarité cosinus (b) résultat solution (a) résultat approche de base seuil=0.2 et PCA=2 vecteur=300 et tf-idf proposée fenêtre=5 Figure 5.9 – Comparaison de l’approche de base et la solution proposée Cette première évaluation se base sur la propriété description des graphes de connaissances, avec d’un côté l’approche de base qui utilise un seuil de 0.2 et une réduction de dimension la taille et de l’autre côté notre solution retenue avec un plongement utilisant une fenêtre de taille 5, des vecteurs de dimension 300 et une pondération en TFIDF nous pouvons de dire que notre solution basée sur la pondération et la méthode de plongement word2vec est meilleur que l’approche de base basée sur la méthode de sac mots En effet pour notre solution, la distance des entités similaire se trouve parmi les plus petites distances trouvées par la méthode alors que avec l’approche de base tous les correspondances sont la même distance qui un cosinus égale L’idéal atteindre avec notre méthode proposée, serait de trouver les meilleurs paramètre pour un résultat optimal Pour atteindre cet idéal, il faudra varier les paramètres comme: les différentes propriétés, la taille des fenêtres de plongement, la dimension des vecteurs de plongement et le type de pondération 47 CHAPTER CONCLUSION ET PERSPECTIVES Dans ce mémoire nous présentons non seulement une solution élaborée faisant usage de techniques plongement de mots et développée en langage Pythons pour la détection d’entités similaires des graphes de connaissances, mais aussi une méthode d’évaluation de cette solution et une approche de base utilisant les techniques de sac mots Anis, nous avons dans la première partie procédés une analyser du problème où nous avons définis les termes liés l’enrichissement des bases de connaissances et au plongement des mots Par la suite nous avons élaborés l’état de l’art, qui nous a permis d’exploitation les travaux similaires et de proposer une solution et une méthode de base pour la comparaison de la solution retenue Ces propositions sont suivies par l’implémentation de la solution retenue basé sur l’enrichissement des graphes de connaissances et le plongement de mots et de l’approche de base utilisant la technique de sac mots L’étape de développement des deux méthodes est suivie d’une expérimentation des méthodes et par la suite d’une évaluation comparative Par rapport cette méthode de base que nous avons modifié des paramètres comme le seuil de filtrage de mots clés et effectuer la réduction de la dimension, notre solution retenue présente un meilleur résultat avec une pondération en TF-IDF et un plongement de mots utilisant une taille de fenêtre égale et des vecteurs de dimension 300 et en utilisant la propriété description des graphes de connaissances Ce stage m’a offert une immense opportunité non seulement de construire de bout en bout une solution de liage, mais aussi de me former sur des grands axes de recherche dans le domaine de la représentation de la connaissance, du traitement du langage naturel et de l’intégration de données, par des échanges avec mes encadreurs et les différentes séminaires que j’ai eux assister Il m’a permit aussi d’améliorer ma méthodologie de recherche, qui va de l’analyse du sujet l’évaluation des résultats en passant par la recherche de la 48 question scientifique, de l’état de l’art et de l’amélioration d’une solution Néanmoins aucune oeuvre humaine n’étant parfaite, ce que je viens de faire n’est que la partie emergée de l’iceberg et beaucoup reste encore faire en perspective vu l’immense taille de ce sujet De ce fait pour améliorer notre approche du problème de liage en faisant usage de l’enrichissement et du plongement de mots, nous proposons l’exploitation des pistes suivantes: • Étant donnée la rareté des mots clés dans nos graphes de connaissances (voir 5.5), il serait judicieux d’utiliser les modèles de plongement qui représentent les mots en prenant en compte leurs morphologies comme decrit dans l’article Enriching word vectors with subword information de Biojanowski et al [3] En effet ce type de modèle utilise sous parties de mots pour leur représenter, ce qui dans pour notre cas pourrait permettre de représenter les racines de mots clés et réduire ainsi le vocabulaire des mot utilisés au stricte nécessaire • L’étude de la distribution des mots du corpus de données, dans l’objectif de trouver la distribution idéales permettant d’avoir le meilleur résultat en se basant sur les entités (les informations contenu dans les propriétés des entité) ou en se basant sur le vocabulaire utilisé pour construire le graphe de connaissances (l’ontologie) • L’analyse des anaphores, des synonymes dans le corpus de données pourrait augmenter la fréquence de certain mots important et peut être impacter dans l’agrégation des vecteurs de mots permettant la reconstruction des vecteurs d’entités • Trouver une méthode de complétion des données manquante pour les différents graphes de connaissances, pour les entités ne disposant pas de descriptions ou pas assez • Trouver la meilleure mesure de similarité entre les differents vecteurs representant les entités En effet il se peut que les mesures présentées et utilisées ne permettent pas comparer les entités de nos graphes de connaissances • Trouver une métrique d’évaluation de la combinaison des données de types différents (texte et vidéo), permettant d’avoir de meilleurs résultats Ce propos est basé sur l’hypothèse que la limite de notre méthode est peut être au niveau de l’enrichissement; il peut avoir des compléments de données permettant d’avoir un meilleur enrichissement 49 CHAPTER ANNEXE 7.1 7.1.1 Librairies Python utilisées Requirements affine==2.2.2 attrs==19.1.0 autopep8==1.4.4 beautifulsoup4==4.8.0 biopython==1.73 blis==0.2.4 boto==2.49.0 boto3==1.9.234 botocore==1.12.234 Brlapi==0.6.5 certifi==2019.9.11 chardet==3.0.4 Click==7.0 click-plugins==1.1.1 cligj==0.5.0 cryptography==1.7.1 cssselect==1.0.1 cssutils==1.0 cupshelpers==1.0 cycler==0.10.0 cymem==2.0.2 docutils==0.15.2 en-core-web-sm==2.1.0 entrypoints==0.3 eyeD3==0.8.10 Fiona==1.8.6 flake8==3.7.7 Flask==1.0.3 future==0.17.1 futures==3.1.1 gensim==3.8.0 geo-py==0.4 get==2019.4.13 html5lib==1.0.1 httplib2==0.9.2 idna==2.8 isodate==0.6.0 itsdangerous==1.1.0 jedi==0.14.0 Jinja2==2.10.1 jmespath==0.9.4 jsonschema==3.0.1 keyring==10.1 keyrings.alt==1.3 kiwisolver==1.1.0 louis==3.0.0 lxml==3.7.1 Mako==1.0.6 Markdown==2.6.8 Markups==2.0.0 MarkupSafe==1.1.1 matplotlib==3.0.3 mccabe==0.6.1 munch==2.3.2 murmurhash==1.0.2 numpy==1.17.2 oauthlib==3.1.0 OSR==0.0.1 pandas==0.24.2 parso==0.5.0 pexpect==4.2.1 Pillow==4.0.0 plac==0.9.6 50 post==2019.4.13 preshed==2.0.1 ptyprocess==0.5.1 public==2019.4.13 pyasn1==0.1.9 pycodestyle==2.5.0 pycrypto==2.6.1 pycups==1.9.73 pycurl==7.43.0 pyenchant==1.6.7 pyflakes==2.1.1 pyglet==1.1.4 Pygments==2.2.0 pygobject==3.22.0 pyparsing==2.4.2 pyrsistent==0.15.1 pysmbc==1.0.15.6 python-apt==1.4.0b3 python-dateutil==2.8.0 python-debian==0.1.30 python-debianbts==2.6.1 python-facebook-api==0.4.2 python-magic==0.4.15 python-whois==0.7.2 pytz==2019.1 pyxdg==0.25 PyYAML==3.12 query-string==2019.4.13 rasterio==1.0.25 rdflib==4.2.2 regex==2017.1.17 reportbug==7.1.7 reportlab==3.3.0 request==2019.4.13 requests==2.22.0 requests-oauthlib==1.2.0 roman==2.0.0 s3transfer==0.2.1 scikit-learn==0.20.3 scipy==1.3.1 SecretStorage==2.3.1 Shapely==1.6.4.post2 six==1.12.0 smart-open==1.8.4 snuggs==1.4.6 soupsieve==1.9.3 spacy==2.1.4 srsly==0.0.5 textile==2.3.5 thinc==7.0.4 tifffile==2019.7.26 tqdm==4.31.1 unattended-upgrades==0.1 urllib3==1.25.5 virtualenv==16.6.0 wasabi==0.2.2 webencodings==0.5.1 Werkzeug==0.15.4 yapf==0.27.0 51 LISTE DES CODES SOURCES 52 BIBLIOGRAPHY [1] Manel Achichi, Zohra Bellahsene, and Konstantin Todorov A survey on web data linking Revue des Sciences et Technologies de l’Information-Série ISI: Ingénierie des Systèmes d’Information, 2015 [2] Manuel Atencia, Jộrụme David, and Franỗois Scharffe Keys and pseudo-keys detection for web datasets cleansing and interlinking In International Conference on Knowledge Engineering and Knowledge Management, pages 144–153 Springer, 2012 [3] Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov Enriching word vectors with subword information Transactions of the Association for Computational Linguistics, 5:135–146, 2017 [4] Bob DuCharme Learning SPARQL: querying and updating with SPARQL 1.1 " O’Reilly Media, Inc.", 2013 [5] Alfio Ferrara, Andriy Nikolov, and Franỗois Scharffe Data linking for the semantic web International Journal on Semantic Web and Information Systems (IJSWIS), 7(3):46–76, 2011 [6] TAGNY NGOMPE GILDAS (AGROLD)” PhD thesis, 2015 LE PROJET “AGRONOMIC LINKED DATA [7] Palash Goyal and Emilio Ferrara Graph embedding techniques, applications, and performance: A survey Knowledge-Based Systems, 151:78–94, 2018 [8] Shu Guo, Quan Wang, Bin Wang, Lihong Wang, and Li Guo Semantically smooth knowledge graph embedding In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 84–94, 2015 53 [9] Shizhu He, Kang Liu, Guoliang Ji, and Jun Zhao Learning to represent knowledge graphs with gaussian embedding In Proceedings of the 24th ACM International on Conference on Information and Knowledge Management, pages 623–632 ACM, 2015 [10] Jeff Heflin and Dezhao Song Ontology instance linking: Towards interlinked knowledge graphs In Thirtieth AAAI Conference on Artificial Intelligence, 2016 [11] Marzanah A Jabar, Mustafa S Khalefa, Rusli Hj Abdullah, and Salfarina Abdullah Overview of types of ontology in the software development process In Open Systems (ICOS), 2013 IEEE Conference on, pages 83–88 IEEE, 2013 [12] Siwei Lai, Kang Liu, Shizhu He, and Jun Zhao How to generate a good word embedding IEEE Intelligent Systems, 31(6):5–14, 2016 [13] Girija Limaye, Sunita Sarawagi, and Soumen Chakrabarti Annotating and searching web tables using entities, types and relationships Proceedings of the VLDB Endowment, 3(1-2):1338–1347, 2010 [14] Teng Long, Ryan Lowe, Jackie Chi Kit Cheung, and Doina Precup Leveraging lexical resources for learning entity embeddings in multi-relational data arXiv preprint arXiv:1605.05416, 2016 [15] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean Efficient estimation of word representations in vector space arXiv preprint arXiv:1301.3781, 2013 [16] Tomas Mikolov, Jiri Kopecky, Lukas Burget, Ondrej Glembek, et al Neural network based language models for highly inflective languages In 2009 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 4725–4728 IEEE, 2009 [17] Tomas Mikolov, Wen-tau Yih, and Geoffrey Zweig Linguistic regularities in continuous space word representations In Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 746–751, 2013 [18] Markus Nentwig, Michael Hartung, Axel-Cyrille Ngonga Ngomo, and Erhard Rahm A survey of current link discovery frameworks Semantic Web, 8(3):419–436, 2017 [19] Gildas Tagny Ngompe, Aravind Venkatesan, Nordine Hassouni, Manuel Ruiz, and Pierre Larmande Agrold api une architecture orientée services pour l’extraction de connaissances dans la base de données liées agrold, 2016 [20] Andriy Nikolov, Peter Haase, Daniel M Herzig, Johannes Trame, and Artem Kozlov Combining rdf graph data and embedding models for an augmented knowledge graph In Companion Proceedings of the The Web Conference 2018, pages 977–980 International World Wide Web Conferences Steering Committee, 2018 [21] Heiko Paulheim Knowledge graph refinement: A survey of approaches and evaluation methods Semantic web, 8(3):489–508, 2017 54 [22] Dominique Ritze, Oliver Lehmberg, Yaser Oulabi, and Christian Bizer Profiling the potential of web tables for augmenting cross-domain knowledge bases In Proceedings of the 25th international conference on world wide web, pages 251–261 International World Wide Web Conferences Steering Committee, 2016 [23] Yoones A Sekhavat, Francesco Di Paolo, Denilson Barbosa, and Paolo Merialdo Knowledge base augmentation using tabular data In LDOW, 2014 [24] Richard Socher, Danqi Chen, Christopher D Manning, and Andrew Ng Reasoning with neural tensor networks for knowledge base completion In Advances in neural information processing systems, pages 926–934, 2013 [25] Tommaso Soru, Edgard Marx, and Axel-Cyrille Ngonga Ngomo Rocker: A refinement operator for key discovery In Proceedings of the 24th International Conference on World Wide Web, pages 1025–1033 International World Wide Web Conferences Steering Committee, 2015 [26] Rudi Studer, V Richard Benjamins, and Dieter Fensel Knowledge engineering: principles and methods Data & knowledge engineering, 25(1-2):161–197, 1998 [27] Danai Symeonidou, Vincent Armant, Nathalie Pernelle, and Fatiha Saïs Sakey: Scalable almost key discovery in rdf data In International Semantic Web Conference, pages 33–49 Springer, 2014 [28] Danai Symeonidou, Nathalie Pernelle, and Fatiha Saïs Kd2r: A key discovery method for semantic reference reconciliation In OTM Confederated International Conferences" On the Move to Meaningful Internet Systems", pages 392–401 Springer, 2011 [29] Konstantin Todorov, Zohra Bellahsene, Manel Achichi, and Mohamed Ben Ellefi Linking and disambiguating entities across heterogeneous rdf graphs Available at SSRN 3302524, 2018 [30] Peter D Turney and Patrick Pantel From frequency to meaning: Vector space models of semantics Journal of artificial intelligence research, 37:141–188, 2010 [31] Aravind Venkatesan, Gildas Tagny Ngompe, Nordine El Hassouni, Imene Chentli, Valentin Guignon, Clement Jonquet, Manuel Ruiz, and Pierre Larmande Agronomic linked data (agrold): A knowledge-based system to enable integrative biology in agronomy PloS one, 13(11):e0198270, 2018 [32] Quan Wang, Zhendong Mao, Bin Wang, and Li Guo Knowledge graph embedding: A survey of approaches and applications IEEE Transactions on Knowledge and Data Engineering, 29(12):2724–2743, 2017 [33] Zhigang Wang and Juan-Zi Li Text-enhanced representation learning for knowledge graph In IJCAI, pages 1293–1299, 2016 55 [34] Ruobing Xie, Zhiyuan Liu, Jia Jia, Huanbo Luan, and Maosong Sun Representation learning of knowledge graphs with entity descriptions In Thirtieth AAAI Conference on Artificial Intelligence, 2016 [35] Xiao Zhang, Qian Zhong, Juanzi Li, Jie Tang, Guotong Xie, and Hanyu Li Rimom results for oaei 2008 In Proceedings of the 3rd International Workshop on Ontology Matching, volume 431, pages 182–9, 2008 56 ...UNIVERSITÉ NATIONALE DU VIETNAM À HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL SONFACK SOUNCHIO Serge LIAGE DES JEUX DE DONNÉES COMPLÉMENTAIRES A L’AIDE DE MÉTHODES D’AUGMENTATION DES GRAPHES DE CONNAISSANCES. .. d’enrichissement des entités des graphes de connaissances et leurs liages, de plongement lexicaux ou des solutions aux problèmes similaires ceux des liages de bases de connaissances Ainsi nous exploiterons... entités des bases de connaissances renvoyant la même réalité Notre technique devra faire usage de la représentation vectorielle des entités des graphes de connaissances impliqués dans le liage De

Ngày đăng: 06/09/2020, 18:27

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w