Dèinissions de co-similarité,à partir des marches aléatoires d’un graphe biparti : Luận văn ThS. Công nghệ thông tin

Mémoire de fin d’études Option Systèmes Intelligents & Multimédia Sujet : Définissions de co-similarité, partir des marches aléatoires d’un graphe biparti Réalisé par DAO Van-Sang (Promotion 16 – IFI) Sous la direction de Thomas BURGER (CEA Grenoble) Gilles BISSON (Laboratoire LIG , Grenoble) Grenoble, Octobre 2013 "Petit petit, l’oiseau fait son nid" Dic Académie de 1835 I TABLE DES MATIÈRES REMERCIEMENT IV LISTE DES FIGURES V LISTE DES TABLEAUX VI RÉSUMÉ VII ABSTRACT VIII CHAPITRE I – INTRODUCTION 1.1 1.2 1.3 1.4 Problématique et motivation Méthode de travail Environnement de travail Plan de ce mémoire CHAPITRE II – ÉTAT DE L’ART 2.1 Représentation des données 2.1.1 Représentation par une matrice des co-occurrences 2.1.2 Représentation par un graphe biparti 2.2 Classification ascendante hiérarchique (CAH) 2.3 Évaluation 10 2.3.1 Matrice de confusion 10 2.3.2 Problème d’affectation et l’algorithme Hongrois 10 2.4 Notions de base du graphe 12 2.4.1 Définition de graphe 12 2.4.2 Graphe biparti 13 2.5 Marches aléatoires et Commute-Time Distance d’un graph 13 2.5.1 Matrice des degrés 14 2.5.2 Matrice Laplacienne 14 2.5.3 Marches aléatoires 16 2.5.4 Commute-Time Distance 17 2.6 Méthodes de co-similarité existantes 19 2.6.1 L’algorithme χ-Sim, 2008 19 2.6.2 La mesure SNOS, 2004 22 2.6.3 L’algorithme SIMRANK, 2001 23 2.6.4 L’analyse sémantique latente (LSA), 1990 24 2.6.5 Le noyau du temps d’aller-retour, 2007 25 CHAPITRE III – CO – SIMILARITE À PARTIR DES MARCHES ALÉATOIRES D’UN GRAPHE BIPARTI 26 3.1 Première approche : marches aléatoires d’un graphe biparti 26 3.2 Deuxième approche : nouvelle normalisation pour χ-Sim de base 29 3.3 Troisième approche : marches aléatoires et nouvelle normalisation 30 3.4 Quatrième approche : noyau du temps d’aller-retour d’un graphe 31 CHAPITRE IV - EXPÉRIMENTATIONS 33 II 4.1 Préparation des données 33 4.2 Environnement d’implémentation 34 4.3 Implémentation 34 4.4 Différence entre MATLAB et R 38 4.5 Résultat 41 4.6 Discussion 42 CHAPITRE V – CONCLUSION ET PERSPECTIVE 50 5.1 Conclusion 50 5.2 Perspective 50 BIBLIOGRAPHIE 51 III REMERCIEMENT Je tiens remercier tout particulièrement M Thomas BURGER, mon superviseur de stage au laboratoire EDyP au CEA de Grenoble, et M Gilles BISSON, mon co-superviseur de stage au laboratoire LIG Ils ont su m’orienter dans mon travail dans les bonnes directions tout en me laissant une large autonomie Je les remercie également pour leur gros travail pour corriger ce rapport de stage Mes remerciements s’adressent également M Syed Fawad Hussain qui m’a envoyé son code MATLAB de sa thèse, et M Clément Grimal qui a extrait les jeux de données que j’ai utilisé pour tester mon algorithme en ce stage Mon travail bénéficie aussi ses travaux de thèse de la mesure co-similarité pour classifier des données Je tiens remercier également tous les membres du laboratoire EDyP qui m’ont accueilli et ont créé un environnement idéal dans lequel j’ai travaillé pendant cinq mois et demi de stage Je voudrais aussi adresser mes remerciements tous les professeurs de l’IFI qui m’ont donné des connaissances et des expériences efficaces pendant ma scolarité l’IFI Merci également tous ceux que j’oublie mais qui d’une manière ou d’autre manière m’ont permis de bien terminer mon stage DAO Van-Sang Grenoble, France, Octobre 2013 IV LISTE DES FIGURES Figure 1: Le but de la classification des données Figure 2: Le processus de classification complet Figure 3: Comparaison des mesures classiques de similarité avec l’approche de χ-Sim Figure 4: Représentation des données par graphe biparti (sans poids) Figure 5: Dendrogramme s’affiche des clusters différents de documents Figure 6: Le problème d’affectation 10 Figure : La matrice de confusion de m5_8 de NG20-SMI 11 Figure : La solution de problème d’affectation (le coût maximal) 11 Figure 9: Un graphe simple, non-orienté de sommets 12 Figure 10: Marches aléatoires d'un graphe 17 Figure 11: Schéma de l'algorithme Χ-SIM de base (2008) 21 Figure 12: Illustration de la décomposition en valeurs singulières pour l’analyse sémantique latente 24 Figure 13: Illustration de co-occurrences d’ordres supérieurs dans un corpus simple, représenté sous la forme d’un graphe biparti 26 Figure 14: Schéma de la première appoche 29 Figure 15: Schéma de la deuxième approche 30 Figure 16: Schéma de la troisième approche 31 Figure 17: Schéma de la quatrième approche 32 Figure 18: Diagramme des résultats de M10 avec χ-Sim 2008 et la première approche 43 Figure 19: Diagramme des résultats de NG2 avec χ-Sim 2008 et la première approche 43 Figure 20: Diagramme des résultats de X-SIM 2008, 1eme approche et 2eme approche 44 Figure 21: Diagramme des résultats M2 de X-SIM 2008, XSIM 2010, 1eme approche et 2eme approche 45 Figure 22: Diagramme des résultats de M5 de X-SIM 2008, XSIM 2010, 1eme approche et 2eme approche 45 Figure 23: Diagramme des résultats de M10 de X-SIM 2008, 1eme approche et 2eme approche 46 Figure 24: Diagramme des résultats de NG1 de X-SIM 2008, XSIM 2010, 1eme approche et 2eme approche 46 Figure 25: Diagramme des résultats de NG2 de X-SIM 2008, XSIM 2010, 1eme approche et 2eme approche 47 Figure 26: Diagramme des résultats de NG3 de X-SIM 2008, XSIM 2010, 1eme approche et 2eme approche 47 Figure 27: Comparaison les résultats de la troisième approche et la deuxième approche 48 Figure 28: Comparaison les résultats de la deuxième approche et la quatrième approche 49 Figure 29: Comparaison les résultats de l'algorithme X-SIM 2010 et la quatrième approche 49 V LISTE DES TABLEAUX Tableau 1: Un exemple de données classifier Tableau 2: Un exemple de représentation par matrice Tableau 3: La matrice de confusion 10 Tableau 4: Matrice d'adjacences 13 Tableau 5: Matrice des degrés du graphe 14 Tableau 6: Matrice Laplacienne 16 Tableau 7: Matrice Laplacienne normalisée 16 Tableau 8: Matrice Pseudo-inverse de Moore-Penrose 18 Tableau 9: Matrice Commute-Temps Distance du graphe 19 Tableau 10 : Les noms des groupes de la base de données 20Newsgroup 33 Tableau 11: Les jeux de données extraites de la collection 20Newsgroups 33 Tableau 12: Liste des packages R utilisés 34 Tableau 13: Matrice SR en MATLAB après la boucle de l'échantillon m5_1 39 Tableau 14: Matrice SR en R après la boucle de l'échantillon m5_1 39 Tableau 15: Résultats dans l'article publié en 2010 par Gilles et al 41 Tableau 16: Résultats avec la base de données NG20-SMI 42 Tableau 17: Résultats avec la base de données NG20-PAM 42 VI RÉSUMÉ La classification de données (apprentissage non-supervisé) a pour but de regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées Les notions de distances et de similarités sont souvent utilisées dans le domaine d’apprentissage automatique, en particulier des méthodes de classification La plupart des mesures classiques ne sont pas adaptées pour les bases de données réelles En effet, lorsque l’on applique ces méthodes des données réelles, la grande taille de ces données et leur aspect creux rendent le plus souvent ces mesures inappropriées C’est en partie afin de mieux prendre en compte ces propriétés des données réelles, que des approches de co-classification ont été développées Ces approches classifient simultanément les attributs d’objets décrits par les données, permettant d’obtenir de bonnes performances, même lorsque celles-ci sont très creuses Récemment, quelques méthodes co-classification ont étés inventées par des chercheurs dans le monde Notre but principal dans ce stage est de développer une mesure de co-similarité en se basant sur des marches aléatoires d’un graphe biparti pour classifier des données textuelles Mots-Clés: Co-similarité, marches aléatoires, graphe biparti, co-classification, coclustering, apprentissage automatique, fouille de texte VII ABSTRACT Clustering is the unsupervised classification of patterns (observations, data items, or feature vectors) into groups in the homogeneous form and contrary classes The concepts of distance and similarity are often used in the machine for learning, especially in classification methods Most of conventional measures are not suitable for real databases Indeed, when these methods are applied to real data, the large size of these data and their hollow appearance often make these inappropriate actions This is partly in order to better take into account the properties of real data, as co-clustering approaches have been developed These approaches simultaneously classify attributes of objects described by the data, to obtain good performance, even when there are hollow Recently, some methods have summers co- classification invented by researchers in the world Our main goal in this internship is to develop a measure of co -similarity based on a random walk of a bipartite graph to classify the data textual Keyword: random walk, bipartite graph, co-clustering, co-similarity, machine learning, text mining VIII CHAPITRE I : INTRODUCTION CHAPITRE I – INTRODUCTION 1.1 Problématique et motivation L’objectif principal des méthodes de classification automatique (apprentissage non-supervisé) est de répartir les éléments d’un ensemble en groupes, c’est-à-dire d’établir une partition de cet ensemble, condition que, chaque groupe doit être le plus homogène possible, et les groupes doivent être les plus différents possibles entre eux Les notions de distances et de similarités sont souvent utilisées dans le domaine d’apprentissage automatique, en particulier des méthodes de classification Avec les méthodes de classification classique, par exemple, nous devons classifier des documents textuels Au début, on va représenter ces documents dans le modèle vectoriel C'est-à-dire que l'on va créer une matrice numérique Les lignes sont considérées comme des documents Les colonnes sont considérées comme des mots qui apparaissent dans ces documents Chaque document sera un vecteur de plusieurs dimensions Maintenant, pour calculer la similarité entre documents, on peut utiliser les similarités Cosinus 1, les distances Euclidiennes, les distances Minkowski 2, etc De telles mesures de similarité sont fondées sur le nombre de mots qui sont partagés entre les deux documents Ici, la similarité dépend beaucoup des mots communs entre des documents Enfin, on va utiliser des algorithmes dans le domaine d’apprentissage automatique pour regrouper des documents On peut citer quelques algorithmes traditionnels : K-Mean 3, Clustering Ascendante Hiérarchique – CAH (voir Sec 2.2) Ces étapes peuvent être illustrées dans la figure suivante : Figure 1: Le but de la classification des données Les étapes d’une classification sont comme les suivantes : L’étape (1) consiste pré-traiter les données brutes, afin de les mettre sous une forme (matrice, graphe, etc.) Dans la tâche de classification de documents, il s’agira de créer la matrice de co-occurrences avec les mots qui les composent Le site : http://fr.wikipedia.org/wiki/Similarit%C3%A9_cosinus Le site : http://en.wikipedia.org/wiki/Minkowski_distance Le site : http://fr.wikipedia.org/wiki/Algorithme_des_k-moyennes CHAPITRE IV : EXPÉRIMENTATIONS 4.4 Différence entre MATLAB et R Avant de présenter les résultats de test, nous allons mentionner une différence entre MATLAB et le logiciel R Nous présentons cette différence ; c’est parce qu’avec une même entrée, un même algorithme clustering (l’algorithme CAH), mais le résultat obtenu par MATLAB n’est pas la même que celui par le logiciel R Dans certains cas, ils sont énormément différents Pour reconnaitre la différence entre MATLAB et le logiciel R On va le tester sur l’échantillon m5_1 de M5 (NG20 – SMI, téléchargement sur le site de Clément 34) On va montrer que : pour la même matrice de similarité obtenue entre les documents de l’échantillon m5_1, l’algorithme clustering en MATLAB donne le résultat 0.92, lorsque cet algorithme clustering en R donne le résultat 0.56 En fait, dans l’article [26], Syed Fawad Hussain - un de ses co-auteurs, qui a écrit le code en MATLAB 35 pour tester la version de l’algorithme χ-Sim en 2010 Nous pouvons considérer que c’est semblable une amélioration de l’algorithme χSim de base, en 2008 Pour notre test, on va fixer le nombre d’itérations égale 4, le pruning p =0 et la valeur de normalisation k =0.8 Après la boucle du code χ-Sim en MATLAB, la matrice SR (c’est la matrice de similarité entre les documents de l’échantillon m5_1) en MATLAB est comme la suivante (En dessous, c’est une représentation en partie de la matrice SR) : 34 Accessible le site : http://membres-lig.imag.fr/grimal/data.html Le code X-SIM 2010 en MATLAB est écrit par l’auteur Syed Fawad Hussain sur son site web : https://sites.google.com/site/fawadsyed/Xsim_2010_ICMLA.m 35 38 CHAPITRE IV : EXPÉRIMENTATIONS Tableau 13: Matrice SR en MATLAB après la boucle de l'échantillon m5_1 A partir de cette la matrice de similarité, nous obtenons la matrice de confusion en dessous, après avoir utilisé l’algorithme CAH (avec le linkage Ward) Le résultat de clustering (accuracy) après avoir utilisé l’algorithme Hongrois : 0.92 De la mờme faỗon, aprốs la boucle du code χ-Sim en R, la matrice SR (c’est la matrice de similarité entre les documents de l’échantillon m5_1) est comme la suivante (Ce n’est pas la matrice SR complète) : Tableau 14: Matrice SR en R après la boucle de l'échantillon m5_1 Attention : l'œil nu, nous pouvons vérifier facilement que les valeurs de cette matrice et ceux de la matrice au-dessus (obtenus par MATLAB) sont identiques A partir de cette la matrice de similarité, nous obtenons la matrice de confusion en dessous, après avoir utilisé l’algorithme Hierarchical clustering (et le linkage Ward): 39 CHAPITRE IV : EXPÉRIMENTATIONS Enfin, le résultat de clustering (accuracy) : 0.56 ! En général, les résultats de clustering en R sont moins que ceux de clustering en MATLAB, sur tous les jeux de données de NG20-SMI et surtout m5_1, m5_2 et m5_3 C’est pour cette raison que dans le logiciel R, on ne peut jamais atteindre les bons résultats comme dans l’article publié (l’algorithme χ-Sim en 2008[2] et son amélioration en 2010[26]) Un autre exemple, on exécute le code MATLAB de χ-Sim en 2010 (fourni par Fawad) avec la base de données M2 (dans la base de données NG20-SMI, fourni par Clément), t = 4, k = 0.8 et p = Les résultats sont comme les suivants : Avec MATLAB: 0.95 0.936 0.96 0.946 0.946 0.946 0.946 0.946 0.946 0.95 En moyenne : 0.947 ~ 0.95 (dans l’article publié 2010[26]) Avec le logiciel R : 0.928 0.934 0.96 0.934 0.934 0.934 0.934 0.934 0.934 0.928 En moyenne : 0.936 < 0.95 (dans l’article publié 2010[26]) En conclusion, la méthode Clustering Ascendante Hiérarchique (CAH), qui est implémentée dans le logiciel R et dans MATLAB est différente ! Différence de base de données de test : comme nous avons mentionné avant, dans ce stage, on va utiliser des jeux de données extraites par Clément sut son site web 36 Clément et Hussain 37 sont deux étudiants qui ont bien travaillé sur l’algorithme χ-Sim sous encadrant de Gilles Cependant, après avoir testé le code Python (de Clément) et le code MATLAB (de Hussain) (Ce sont deux versions du code de l’algorithme χ-Sim : en Python et en MATLAB) sur des jeux de données extraites partir de la collection NG20, on a récupéré des résultats près des résultats dans l’article publié[26], ainsi que dans ses thèse Plus précisément, avec le code Python et le jeu de données M5 (NG20-SMI) : le résultat maximum est 0.954 (au lieu de 0.97 dans l’article), et le résultat maximum de M10 (NG20-SMI) est 0.725 (au lieu de 0.79) De plus, avec le jeu de données NG1 (NG20-PAM), le résultat maximum est 0.777 (au lieu de 0.81) 36 37 Accessible la page : http://membres-lig.imag.fr/grimal/data.html Accessible la page : https://sites.google.com/site/fawadsyed/ 40 CHAPITRE IV : EXPÉRIMENTATIONS C’est-à-dire que six jeux de données mises sur le site web de Clément ne sont pas la même version de six jeux de données utilisés dans l’article publié[26], ainsi que dans deux thèse de Clément[1] et Hussain[20] 4.5 Résultat Résultats dans l’article publié en 2010[26] : La table des résultats en bas sont extraite partir de l’article publié en 2010 par Gilles et al.[26] Les auteurs ont comparé le résultat de classification de l’algorithme χSim (version en 2008, en 2010) et d’autres algorithmes de classification et de coclassification : Cosine : la mesure de similarité Cosinus est présenté dans [29] LSA : Latent Semantic Analysis est décrit dans Sec 2.6.4 ITCC: Information theoretic co-clustering algorithm [30] BVD: based on matrix block value decomposition [31] SNOS: la mesure SNOS est présentée dans Sec 2.6.2 χ-Sim : l’algorithme χ-Sim 2008[2] χ-Sim0.8 : l’algorithme χ-Sim 2010[26] (sans paramètre p) Tableau 15: Résultats dans l'article publié en 2010 par Gilles et al Grâce ce tableau des résultats au-dessus, on peut reconntre que l’algorithme χ-Sim fonctionne efficacement que d’autres algorithmes de classification mentionnés dans le tableau Résultats de stage : Comme on a présenté au-dessus, cause de la différence entre MATLAB (il est utilisé par l’auteur de χ-Sim) et le logiciel R, donc, on ne peut pas récupérer les bons résultats comme dans le Tableau 20 au-dessus de χ-Sim avec le logiciel R En fait, nous avons implémenté les deux versions de l’algorithme χ-Sim avec le logiciel R Dans la table en dessous, nous mettons les résultats obtenus par quatre approches présentées au-dessus, en les comparants avec les résultats de l’algorithme χSim (en 2008 et en 2010) Il y a une remarque que le code R ne peut être exécuté dans certains cas, par exemple : l’échantillon m10_5 du jeu de données m10 dans la base de données NG20-SMI, et d’autres échantillons de la base de données NG20-PAM, malgré que les opérations dans le code R sont des multiplications, des additions et des soustractions Il n’y a pas de division Plus précisément, comme tous les échantillons, 41 CHAPITRE IV : EXPÉRIMENTATIONS on va exécuter itérations pour l’échantillon m10_5, deux premières itérations marchent bien, mais la troisième itération ne peut pas exécuter avec R ! Malgré que R exécute bien d’autres échantillons de m10, i.e m10_1, m10_2, m10_3, m10_4 (Quand on teste avec MATLAB, il n’y a pas de problème) Dans ce tableau les résultats en dessous, nous avons testé les méthodes mentionnées dans le Chapitre III, sur tous les jeux de données décrits dans la Sec 4.1, Pour tous les tests, le nombre d’itérations vaut de Pour l’algorithme χ-Sim 2010, nous fixons le pruning p = 0.0, la normalisation k = 0.8 (il est mentionné dans l’article[26]) Tous ces six linges sont des résultats du code R - La ligne : les résultats de l’algorithme χ-Sim de base, en 2008[2], en R La ligne : les résultats de l’algorithme χ-Sim 2010[26], en R La ligne : les résultats de la 1ière approche La ligne : les résultats de la 2ième approche La ligne : les résultats de la 3ième approche La ligne : les résultats de la 4ième approche N0 Algorithmes χ-Sim 2008 χ-Sim 2010 Approche Approche Approche Approche N0 Algorithmes χ-Sim 2008 χ-Sim 2010 Approche Approche Approche Approche M2 M5 M10 NG1 NG2 NG3 92.54 88.50 63.10 96.67 92.54 75.52 94.18 86.06 98.23 92.64 86.82 93.24 88.52 62.02 96.62 92.37 75.55 93.98 93.76 68.54 98.25 93.63 87.01 89.96 93.38 67.96 97.30 93.77 88.43 94.80 95.18 73.56 98.00 93.55 89.25 Tableau 16: Résultats avec la base de données NG20-SMI M2 M5 M10 NG1 NG2 NG3 55.74 55.68 41.06 58.01 53.67 42.13 61.24 64.10 33.78 58.24 55.68 41.06 58.01 53.67 42.18 54.80 63.32 46.20 54.07 56.78 48.66 54.28 67.30 44.64 56.62 55.18 48.34 60.30 77.84 52.42 53.05 64.74 52.93 Tableau 17: Résultats avec la base de données NG20-PAM « - » : le logiciel R ne peut pas exécuter le code pour un certain échantillon de jeu de donnée 4.6 Discussion La première chose que nous pouvons reconntre facilement, c’est que les résultats de classification avec les jeux de données extraites par SMI[15] (voir le tableau 21) sont plus hauts que ceux par PAM[16] (voir le tableau 22) Tous nos approches se basent sur l’algorithme χ-Sim 2008, donc on va discuter de nos algorithmes en comparant avec χ-Sim 2008 La deuxième chose, l’algorithme χ-Sim 2010 donne toujours les meilleurs résultats que χ-Sim 2008 On peut considérer que l’algorithme χ-Sim 2010 est comme une version d’amélioration de χ-Sim 2008 χ-Sim 2008 et première approche : 42 CHAPITRE IV : EXPÉRIMENTATIONS Dans l’algorithme χ-Sim 2008, les deux matrices de similarité sont initialisées par matrices identités C’est-à-dire qu’avant les itérations, la similarité entre le document et lui-même égal 1, la similarité entre un document et d’autres égal zéro Le paramètre unique de l’algorithme χ-Sim 2008 est le nombre d’itérations t Quand on augmente la valeur du paramètre t, alors le résultat de classification augmente aussi, ensuite le résultat de classification se baisse malgré la valeur de t augmente C’est parce que quand le nombre d’itérations augmente, alors les matrices de similarité seront près de matrice identité Dans la première approche, on utilise les initialisations différentes, au lieu d’utiliser les matrices identités comme dans l’algorithme χ-Sim 2008 original Grâce la table 21, on peut reconntre que les résultats de classification de la première approche sont très près que l’algorithme χ-Sim 2008, sauf le jeu de données M2 : la première approche donne 93.24%, χ-Sim 2008 donne 92.54% Pour le jeu de données M10 (NG20- SMI), le diagramme est comme suivant : Figure 18: Diagramme des résultats de M10 avec χ-Sim 2008 et la première approche Le diagramme de NG2 (NG20-SMI) : Figure 19: Diagramme des résultats de NG2 avec χ-Sim 2008 et la première approche 43 CHAPITRE IV : EXPÉRIMENTATIONS Cependant, il y a une différence concernant la complexité entre ces deux approches Selon la Sec 2.6.1, la complexité de l’algorithme χ-Sim 2008 est O (k*N3) ; k : le nombre d’itérations, N : la dimension de données Dans la première approche, on doit calculer la matrice Pseudoinverse de la matrice Laplacian La complexité de cette étape est O(N3) [38] Alors, la complexité de la première approche est O ((k+1)*N3) qui est plus grande que celle de l’algorithme χ-Sim 2008 Donc, on peut tirer une conclusion que l’idée d’utilisation des marches aléatoires, ce n’est pas l’idée très bonne pour définir co-similarité Il existe un seul jeu de données qui nous donne le résultat de classification plus grand que l’algorithme χ-Sim 2008 χ-Sim 2008, première approche et deuxième approche : Notre deuxième approche marche très vite, la même complexité que l’algorithme χ-Sim 2008 Elle marche plus beaucoup rapide que l’algorithme χ-Sim 2010 En comparant la deuxième approche avec χ-Sim 2008 et la première approche, on reconnt qu’elle nous donne toujours les meilleurs résultats que deux autres Figure 20: Diagramme des résultats de X-SIM 2008, 1eme approche et 2eme approche La deuxième approche donne aussi les meilleurs résultats que l’algorithme χSim 2010, sauf le jeu de données M2 (χ-Sim 2010 : 94.18% plus grande que deuxième approche : 93.98) N0 Algorithmes M2 M5 M10 NG1 NG2 NG3 χ-Sim 2010 94.18 86.06 98.23 92.64 86.82 Approche 93.98 93.76 68.54 98.25 93.63 87.01 38 A la page 27 de cet article "Fast Computation of Moore-Penrose Inverse Matrices" - 2005, Piere Courrieu ( http://arxiv.org/ftp/arxiv/papers/0804/0804.4809.pdf ) 44 CHAPITRE IV : EXPÉRIMENTATIONS Un des avantages très importance de la deuxième approche, c’est de marcher très vite Dans tous cas, on peut récupérer les bons résultats après deux ou trois itérations, au lieu de quatre ou cinq itérations de χ-Sim 2008 ou χ-Sim 2010 Le jeu de données M2 : En observant le diagramme ci-dessous, on peut reconntre que la deuxième approche donne immédiatement les bons résultats après la deuxième itération Figure 21: Diagramme des résultats M2 de X-SIM 2008, XSIM 2010, 1eme approche et 2eme approche Le jeu de données M5 : La deuxième approche nous donne le plus grand résultat (voir la colonne violette) Figure 22: Diagramme des résultats de M5 de X-SIM 2008, XSIM 2010, 1eme approche et 2eme approche 45 CHAPITRE IV : EXPÉRIMENTATIONS Le jeu de données M10 : l’algorithme ne donne pas le résultat dans le logiciel R Figure 23: Diagramme des résultats de M10 de X-SIM 2008, 1eme approche et 2eme approche Le jeu de données NG1 : Figure 24: Diagramme des résultats de NG1 de X-SIM 2008, XSIM 2010, 1eme approche et 2eme approche 46 CHAPITRE IV : EXPÉRIMENTATIONS Le jeu de données NG2 : Figure 25: Diagramme des résultats de NG2 de X-SIM 2008, XSIM 2010, 1eme approche et 2eme approche Le jeu de données NG3 : Figure 26: Diagramme des résultats de NG3 de X-SIM 2008, XSIM 2010, 1eme approche et 2eme approche Les avantages de la deuxième approche : Elle marche très vite Elle donne les plus grands résultats que d’autres Elle est simple 47 CHAPITRE IV : EXPÉRIMENTATIONS Troisième approche : A partir de la table 21, on regarde que les initialisations différentes de la première approche ont influencé sur les résultats de la deuxième approche Plus précisément, les résultats de la deuxième approche ont été descendus un peu Figure 27: Comparaison les résultats de la troisième approche et la deuxième approche Pour l’instant, la deuxième approche est la meilleure Quatrième approche : Dans cette approche, on a ajouté un post-pruning après la boucle C’est de considérer la sortie de la boucle est comme une entrée pour calculer la matrice Commute-Time Kernel (voir la Sec 2.6.5) Cette approche nous donne les plus grands résultats de classification que d’autres approches dans ce stage De plus, elle donne immédiatement le meilleur résultat après la deuxième ou troisième itération de la boucle 48 CHAPITRE IV : EXPÉRIMENTATIONS Figure 28: Comparaison les résultats de la deuxième approche et la quatrième approche Figure 29: Comparaison les résultats de l'algorithme X-SIM 2010 et la quatrième approche 49 CHAPITRE V : CONCLUSTION ET PERSPECTIVE CHAPITRE V – CONCLUSION ET PERSPECTIVE 5.1 Conclusion Il y a une remarque qu’on voit que l’algorithme χ-Sim 2010 nous donne les résultats mieux que l’algorithme χ-Sim 2008 Quand nous proposons de nouvelles approches, on ne peut pas réutiliser son idée fondamentale dans nos approches Elle nous donne des résultats de classification plus bas que χ-Sim 2008 Le but principal de ce stage est de définir une mesure de co-similarité Jusqu’à maintenant, on peut conclure que l’idée d’utilisation des marches aléatoires, ce n’est pas l’idée très bien pour définir une mesure de co-similarité De plus, la deuxième approche, c’est de normaliser les deux matrice de similarité entre documents et entre mots de la boucle de l’algorithme χ-Sim 2008, est une bonne idée pour définir une nouvelle mesure de cosimilarité En réalité, elle nous donne les meilleurs résultats Elle fonctionne plus vite que χ-Sim 2010 (la complexité : O (t*N3), où : t est le nombre d’itération, N est la dimension de données) L’algorithme le plus efficacement dans ce stage pour classifier des données est la quatrième approche En fait, on peut tout fait considérer que c’est une méthode de co-similarité (la complexité : O ((t+1)*N3)) En se basant sur la complexité, on peut choisir la deuxième approche ou la quatrième approche pour notre but de classification Enfin, toutes les méthodes de classification mentionnées dans des sections précédentes peuvent considérer être des méthodes de co-classification car nous pouvons classifier documents (grâce la matrice SR) et mots (grâce la matrice SC) en même temps 5.2 Perspective L’étude de la convergence des algorithmes est nécessaire Nous pouvons étudier d’autres techniques pour définir co-similarité, i.e : Locality Sensitive Hashing[32] 50 BIBLIOGRAPHIE [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] C Grimal, “Apprentissage de co-similarités pour la classification automatique de données monovues et multivues,” Université de Grenoble, 2012 G Bisson and F Hussain, “Chi-Sim: A New Similarity Measure for the Co-clustering Task,” in Seventh International Conference on Machine Learning and Applications, 2008 ICMLA ’08, 2008, pp 211–217 D Harel and Y Koren, “On clustering using random walks,” in FST TCS 2001: Foundations of Software Technology and Theoretical Computer Science, Springer, 2001, pp 18–41 F Fouss, A Pirotte, J.-M Renders, and M Saerens, “Random-Walk Computation of Similarities between Nodes of a Graph with Application to Collaborative Recommendation,” IEEE Trans Knowl Data Eng., vol 19, no 3, pp 355–369, 2007 D Harel and Y Koren, “Clustering spatial data using random walks,” in Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining, 2001, pp 281–286 B Cai, H Wang, H Zheng, and H Wang, “An improved random walk based clustering algorithm for community detection in complex networks,” in 2011 IEEE International Conference on Systems, Man, and Cybernetics (SMC), 2011, pp 2162–2167 L Grady, “Random walks for image segmentation,” Pattern Anal Mach Intell IEEE Trans On, vol 28, no 11, pp 1768–1783, 2006 U Von Luxburg, “A tutorial on spectral clustering,” Stat Comput., vol 17, no 4, pp 395–416, 2007 M Saerens, F Fouss, L Yen, and P Dupont, “The Principal Components Analysis of a Graph, and Its Relationships to Spectral Clustering,” in Machine Learning: ECML 2004, J.-F Boulicaut, F Esposito, F Giannotti, and D Pedreschi, Eds Springer Berlin Heidelberg, 2004, pp 371–383 L Yen, D Vanvyve, F Wouters, F Fouss, M Verleysen, and M Saerens, Clustering Using a Random Walk Based Distance Measure 2005 F Fouss, L Yen, A Pirotte, and M Saerens, “An Experimental Investigation of Graph Kernels on a Collaborative Recommendation Task,” in Sixth International Conference on Data Mining, 2006 ICDM ’06, 2006, pp 863–868 L Yen, F Fouss, C Decaestecker, P Francq, and M Saerens, “Graph Nodes Clustering Based on the Commute-Time Kernel,” in Advances in Knowledge Discovery and Data Mining, Z.-H Zhou, H Li, and Q Yang, Eds Springer Berlin Heidelberg, 2007, pp 1037–1045 L Yen, M Saerens, A Mantrach, and M Shimbo, “A Family of Dissimilarity Measures Between Nodes Generalizing Both the Shortest-path and the Commute-time Distances,” in Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA, 2008, pp 785–793 L Yen, F Fouss, C Decaestecker, P Francq, and M Saerens, “Graph Nodes Clustering with the Sigmoid Commute-time Kernel: A Comparative Study,” Data Knowl Eng, vol 68, no 3, pp 338–361, Mar 2009 G Salton and M J McGill, Introduction to Modern Information Retrieval New York, NY, USA: McGraw-Hill, Inc., 1986 R Battiti, “Using mutual information for selecting features in supervised neural net learning,” IEEE Trans Neural Netw., vol 5, no 4, pp 537–550, 1994 L Kaufman and P J Rousseeuw, “Partitioning Around Medoids (Program PAM),” in Finding Groups in Data, John Wiley & Sons, Inc., 2008, pp 68–125 N Liu, B Zhang, J Yan, Q Yang, S Yan, Z Chen, F Bai, and W.-Y Ma, “Learning Similarity Measures in Non-orthogonal Space,” in Proceedings of the Thirteenth ACM International Conference on Information and Knowledge Management, New York, NY, USA, 2004, pp 334– 341 J H Ward Jr, “Hierarchical grouping to optimize an objective function,” J Am Stat Assoc., vol 58, no 301, pp 236–244, 1963 A K Jain and R C Dubes, Algorithms for Clustering Data Upper Saddle River, NJ, USA: Prentice-Hall, Inc., 1988 51 [21] H W Kuhn, “The Hungarian method for the assignment problem,” Nav Res Logist Q., vol 2, no 1–2, pp 83–97, 1955 [22] F Chung, Spectral Graph Theory (CBMS Regional Conference Series in Mathematics, No 92) American Mathematical Society, 1996 [23] B D Loynes, “Graphes et marches aléatoires,” Université Rennes 1, 2012 [24] D Babić, D J Klein, I Lukovits, S Nikolić, and N Trinajstić, “Resistance-distance matrix: A computational algorithm and its application,” Int J Quantum Chem., vol 90, no 1, pp 166– 176, 2002 [25] A K Chandra, P Raghavan, W L Ruzzo, R Smolensky, and P Tiwari, The Electrical Resistance of a Graph Captures Its Commute and Cover Times [26] S F Hussain, G Bisson, and C Grimal, “An Improved Co-Similarity Measure for Document Clustering,” in Proceedings of the 2010 Ninth International Conference on Machine Learning and Applications, Washington, DC, USA, 2010, pp 190–197 [27] G Jeh and J Widom, “SimRank: A Measure of Structural-context Similarity,” in Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA, 2002, pp 538–543 [28] S Deerwester, S T Dumais, G W Furnas, T K Landauer, and R Harshman, “Indexing by latent semantic analysis,” J Am Soc Inf Sci., vol 41, no 6, pp 391–407, 1990 [29] S F Hussain, “Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique,” Institut National Polytechnique de Grenoble - INPG, 2010 [30] N Speer, C Spieth, and A Zell, A Memetic Clustering Algorithm for the Functional Partition of Genes Based on the Gene Ontology 2004 [31] I S Dhillon, S Mallela, and D S Modha, “Information-Theoretic Co-Clustering,” in In KDD, 2003, pp 89–98 [32] B Long, Z (Mark) Zhang, and P S Yu, “Co-clustering by Block Value Decomposition,” in Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining, New York, NY, USA, 2005, pp 635–640 [33] F O D Franca, “Scalable Overlapping Co-clustering of Word-Document Data,” in 2012 11th International Conference on Machine Learning and Applications (ICMLA), 2012, vol 1, pp 464–467 oOo 52 ... présenter des marches aléatoires (de l’anglais, random walk) et Commute-Time Distance d’un graphe 13 CHAPITRE II : ÉTAT DE L’ART 2.5.1 Matrice des degrés En théorie des graphes, la matrice des degrés... CO – SIMILARITE À PARTIR DES MARCHES ALÉATOIRES D’UN GRAPHE BIPARTI 26 3.1 Première approche : marches aléatoires d’un graphe biparti 26 3.2 Deuxième approche : nouvelle normalisation... mieux ! 25 CHAPITRE III : CO – SIMILARITE A PARTIR DES MARCHES ALEATOIRES D’UN GRAPHE BIPARTI CHAPITRE III – CO – SIMILARITE À PARTIR DES MARCHES ALÉATOIRES D’UN GRAPHE BIPARTI Dans ce chapitre,

Định dạng
Số trang	61
Dung lượng	3,02 MB