Fouille de graphes et classification de graphes application au symbol spotting

Mémoire de fin d’étude Fouille de graphes et Classification de graphes Application au "Symbol Spotting" Réalisé par : Nguyen Quoc Toan Responsable du stage : Jean-Marc Ogier Jean-Christophe Burie Romain Raveaux Ce stage a été réalisé au département Pascal de Laboratoire Informatique, Image et Interaction, Université de la Rochelle La Rochelle, France, Novembre 2009 Table des matières Introduction 1.1Problématique 1.2Objectif et contribution du stage 1.3Environnement de stage 1.4Plan du document Conceptions 2.1Définition de graphe 2.2Correspondance de Graphe 2.3Graphe de distance 2.3.1Distance d'édition 2.3.2Distance entre signatures d 2.4Symbol spotting Etat de l'art 3.1Les méthodes de construction de graphe 3.2Les methodes de mise en correspondances des graphes 3.3Récaputulation des méthodes Une méthode de mise en correspondance de graphes fondée sur l’assignement de sous4 graphes 4.1Définition : Décomposition en sous-graphes 4.2La correspondance de sous-graphes 4.3Le coût de fonction (c) pour la correspondance des signatures 4.4Sous graphe de longueur ι 4.5Construction de matrice de coûts Représentation de l’information contenue dans une image 5.1Constitution de l'ensemble des nœuds 5.2Extraction des composantes connexes 5.3 Étiquetage des composantes connexes 5.3.1Extraction de caractéristiq 5.3.2Statistique de la forme 5.3.3Classification non supervis 5.4Organisation de l’information : Construction d’un Graphe de vo 5.4.1Relations d'Allen bidimens 5.4.2Intervalle basé sur les dista Application 6.1Protocole 6.1.1Test en classification 6.1.2Symbol Spotting 6.2Bases de tests 6.2.1Pour la classification 6.2.2Pour le Symbol Spotting 6.3Résultat 6.3.1Test en classification 6.3.2Symbol Spotting 6.4Complexité algorithmique Symbol spotting Conclusions Références NGUYEN Quoc Toan – Promotion 13 Page REMERCIEMENTS Je voudrais tout d'abord remercier professeur Jean-Marc Ogier, Jean-Christophe Burie, mes responsables de stage, de m'avoir accueillie au sein de l’équipe du projet ALPAGE du Laboratoire L3i (Laboratoire Informatique, Image et Interaction) de l’Université de la Rochelle et de m’a donné l’environnement de travail très chaleureuse pendant toute la durée du stage Je remercie également Romain Raveaux pour ses conseils, son explication très clairement des nouveaux concepts, ses aides, ses commentaires et ses discussions qui ont fait progresser mon travail Je lui suis reconnaissant d’avoir toujours été disponible et agréable Je voudrais remercier tout le personnel du laboratoire L3I et particulièrement l’équipe du projet ALPAGE pour leur accueil chaleureux Je voudrais aussi adresser mes l’IFI sincères remerciements tous les professeurs de les pour leurs enseignements et mes cours intéressants qu’ils m’ont donné pendant études au niveau master Finalement, je voudrais remercier ma famille, mes parents et mes amis qui sont toujours près de moi et m’ont apporté le courage dans les moments difficiles de ma scolarité l’IFI NGUYEN Quoc Toan – Promotion 13 Page Résumé Reconnaissance des symboles est un domaine de recherche visant le développement d'algorithmes et de techniques et il y a une nombreuse méthode de reconnaissance de graphiques ont été développées pour la reconnaissance des symboles graphiques Le problème « Symbole Spotting » est comme la localisation d'un ensemble de régions d'intérêt d'un document image, qui sont susceptibles de contenir une instance d'un certain symbole demandé sans le reconntre explicitement Nous présentons donc dans ce mémoire un processus d’extraction et d’organisation de l’information contenue dans une image afin de la structurer sous forme d’un graphe pour tenir compte de la spécificité que contiennent les documents techniques Chaque nœud du graphe représente une composante connexe dans l’image de document, ces nœuds sont étiquetés automatiquement par l’algorithme de clustering « k-Mean » Ce dernier utilise des descripteurs de formes extraits des composantes connexes La relation entre deux composantes connexes est matérialisée dans un graphe de « voisinage » par un arc étiqueté automatiquement en utilisant les relations d'Allen bidimensionnelles ou la distance entre composantes connexes Nous proposons une méthode de mise en correspondance de graphes fondée sur l’assignement de sous-graphes de longueur l Nous proposons aussi une définition de sousgraphe de longueur l Le problème de reconnaissance des symboles devient donc de trouver les sous-graphes les plus similaires au graphe symbole donné en requête Nous extrayons le graphe de plan en des sous-graphes de longueur l Le résultat de notre application est ensemble de sous-graphes isomorphisme que la distance entre les sous-graphes et le graphe de symbole est inférieur une valeur seuil Afin d’évaluer la classification de graphes, nous utilisons un classifieur de type K-NN pour évaluer la performance de notre méthode de mise en correspondance de graphes fondée sur l’assignement de sous-graphes NGUYEN Quoc Toan – Promotion 13 Page Abstract Symbol Recognition is a research area for the development of algorithms and techniques, a lot of method of graphics recognition are developed for the recognition of graphic symbols The problem "Symbol Spotting" aims to find the locations of a set of regions interest in a document image, which may contain an instance of a symbol without explicitly recognize We therefore present in this paper a process for extracting and organizing information in an image to the structure of a graph for the specificity technical documents Each graph node is a connected component These nodes are labeled automatically by the clustering algorithm "k-means” We extract the connected components using shape descriptors We use the family of graph "Neighborhood based on k nearest neighbors" to build edges and they are automatically labeled by the Bi-dimensional Allen Algebra or the distance between regions We propose a method for mapping graph-based assignment of subgraphs of length l We also propose a definition of subgraph of length l The symbols recognition problem is like to find subgraphs which are the nearest similar to the graph of symbol We extract the graph of technical documents in many subgraphs of length l The recognition task consists of finding all subgraphs isomorphism which the distance between sub-graphs and symbol graphs is less than a certain threshold To test the classification of graphs based on graph prototypes, we use a K-NN classifier in order to evaluate our method for mapping graph-based assignment of subgraphs of length l by the rate of recognition NGUYEN Quoc Toan – Promotion 13 Page Liste des figures Figure 1: La distance entre signatures de graphe GP, (a) les graphes non orienté, sans étiquetage, (b) les graphes orientés, sans étiquetage, (c) les graphes étiquetés, orientés 16 Figure 2: La distance entre deux graphes selon ED et GP, (a) les graphes non orienté, sans étiquetage, (b) les graphes orientés, sans étiquetage, (c) les graphes étiquetés, orientés 17 Figure : Graphiques attribués relationnelle, chaque nœud est comme une ligne segmentée, un arcs établis la relation d’adjection entre deux segmentations (source[14]) 19 Figure 4: Chaque nœud est une région fermée L’arc lie deux régions adjacentes (source[32]) 19 Figure 5: Graphe transaction, source [33] 20 Figure 6: vectorisation de quadrilatères, source [45] 20 Figure 7: La zone influence de quadrilatère et le graphe correspondant, source [45] 21 Figure 8: exemple de construction d’un graphe basé sur les relations topologique, source [35] 21 Figure 9: La décomposition en sous-graphes p1, p2, p3, p4 est des sous-graphes d’extractions de longueur qui associés chaque nœuds du graphe G 25 Figure 10: partir deux graphes G1, G2 (a), on extrait des sous-graphes de longueur (a), (b) Le graphe bipartite complet Gem obtenu par P1 et P2 26 Figure 11: (a) un graph G(V, E), partir du nœud 1, on extrait les sous graphes avec (b)longueur=1, (c)longueur=2 28 Figure 12: un exemple de la correspondance de graphe, (a), (b) les sous-graphes d’extraction de longueur 1, (c) la correspondance de sous-graphe selon distance d’édition (ED) 30 Figure 13: Analyse des composantes connexes 31 Figure 14: Mesure de l'élongation, comme le ratio de la longueur-largeur 33 Figure 15:Graphe des k plus proches voisins (a) les composantes connexes, (b) k=2, (c) k=134 Figure 16: Jeu restreint de relations d'Allen 35 Figure 17: (a) deux composantes connesxes, (b) détermination du système de coordonnées lié aux 35 Figure 18: L’image gauche : représentation de la distance entre deux composantes connexes, d-max = 39 Le graphe droit obtenu par n = 10 (n est le nombre d’intervalles) 36 Figure 19: La vérité terrain pour un plan 41 Figure 20: Les exemples de lettres A, M, K et Z: l'origine et la déformation des niveaux faible, moyen et élevé (de gauche droite) 42 Figure 21 : Illustration du composant d’une molécule 43 Figure 22:la comparaison le temps de calcul sur PMDED et PMDGP 45 Figure 23: La courbe de précision, rappel selon la méthode Hu_Dist 47 Figure 24: La courbe de précision, rappel selon la méthode Hu_ Allen 48 Figure 25: La courbe de précision, rappel selon la méthode Shape_Allen 49 Figure 26: La courbe de précision, rappel selon la méthode Shape_Dist 50 Figure 27: Les meilleurs courbes de chaque méthode d'étiquetage 51 NGUYEN Quoc Toan – Promotion 13 Page Liste des tableaux Table 1: Matrice des coûts de G1, G2 13 Table 2: étape : réduction des lignes 13 Table 3: étape : réductions des colonnes 13 Table 4: étape : déterminer le nombre minimal de lignes sur les lignes, colonnes pour couvrir tous les zéros 14 Table 5: étape : Trouver la cellule de valeur minimum non-couverte par une ligne 14 Table 6: étape : recaler la valeur pour les cellules basées sur cette valeur minimum 14 Table 7: étape : déterminer le nombre minimal de lignes 14 Table 8: étape : déterminer la solution optimale 15 Table 9: le coût minimal de G1, G2 15 Table 10 : La matrice de coûts entre deux graphes G1, G2 29 Table 11: Résumé des données de graphes des caractéristiques 43 Table 12: Les taux de reconnaissance pour deux méthode PMDED et PMDGP 45 Table 13: La valeur moyenne de précision, rappel selon la méthode Hu_Dist 46 Table 14 : La valeur moyenne de précision, rappel selon la méthode Hu_Allen 47 Table 15: La valeur moyenne de précision, rappel selon la méthode Shape_Allen 48 Table 16: La valeur moyenne de précision, rappel selon la méthode Shape_Dist 49 Table 17: La comparaison des méthodes d'étiquetage des noeuds, des arcs 50 Table 18: Comparaison nos résultats avec les rộsultats de Marỗal [51] 51 NGUYEN Quoc Toan – Promotion 13 Page Introduction 1.1 Problématique Reconnaissance de symbole est une des applications importantes dans le domaine de la reconnaissance de formes qui est appliqué dans plusieurs domaines comme l'architecture, la cartographie, l'électronique, la mécanique etc En raison des types de documents graphiques sont trop large, chacune d’entre eux possèdent un ensemble caractéristique de symboles propres, il n'est pas facile de trouver une définition précise d'un symbole Dans une manière très générale, un symbole peut être défini comme une entité graphique avec un sens particulier dans le contexte d'un domaine d'application spécifique Il y a un grand nombre d'approches ont été proposées pour la reconnaissance des symboles Chacune d’entres elles possèdent des propriétés qui lui sont propres et ne peut s’appliquer qu’à certains contextes, réunissant certaines conditions Dans notre cas, nous utilisons la méthode basées sur le graphe pour représenter les images de documents techniques et de symbole demandé en des graphes Chaque nœud du graphe représente une composante connexe dans l’image de document La relation entre deux composantes connexes est matérialisée dans un graphe de « voisinage » Le problème de la reconnaissance de symbole est tourné en une question d’isomorphisme de sous graphe, afin de trouver les sous-graphes qui correspondent des symboles graphiques 1.2 Objectif et contribution du stage L'objectif de stage est dans un premier temps d'étudier le problème de la correspondance de graphes « Graph Matching », les mesures de calculer la distance entre deux graphes Et puis, nous proposons une méthode de mise en correspondance de graphes fondée sur l’assignement de sous-graphes de longueur l Ensuite nous construisons un protocole de test en classifications basé sur les prototypes de graphes en utilisant la méthode K plus proche voisins (K-NN) basé sur notre méthode de mise en correspondance de graphes Enfin, nous créons une application de type reconnaissance de symbole basé sur le graphe pour trouver toutes les localisations d’un symbole dans un plan donné 1.3 Environnement de stage Ce stage s’intègre dans le contexte d’un projet appelé : « ALPAGE » de Laboratoire L3I, Université de La Rochelle, France Ce projet traite des plans cadastraux couleurs de l’espace urbain parisien suivant différentes époques, allant du 14 ème au 19 ème siècle en intégrant réellement la dimension spatiale Les travaux de ce projet ont concernant les domaines telles que la vision par ordinateur, la géométrie, l’archéologie et reconnaissance des formes La contribution du stage est une nouvelle approche dans le domaine de reconnaissance de forme basé sur le graphe 1.4 Plan du document Le reste du document est organisé de la manière suivante La deuxième partie, nous présentons des conceptions fondamentales Dans la troisième partie, nous présentons un état de l’art des méthodes base de graphe pour la reconnaissance des symboles graphiques Alors, la quatrième partie présente une nouvelle méthode de mise en correspondance de graphes fondée sur l’assignement de sous-graphe de longueur l en utilisant la matrice de coỷts La cinquiốme partie fournit la faỗon de construire un graphe basé sur l’information contenue dans une image, dans ce chapitre nous proposons des méthodes d’étiquetage des nœuds et des arcs pour avoir des types de graphe différent Dans la sixième partie, nous présentons la contribution de notre stage http://alpageproject.free.fr NGUYEN Quoc Toan – Promotion 13 Page construire deux protocoles : Test en classification et Symbol Spotting, nous présentons aussi la méthode d’évaluation que nous avons utilisée pour notre système, ainsi que les résultats obtenus La dernière partie présente la conclusion, ainsi que les perspectives NGUYEN Quoc Toan – Promotion 13 Page Conceptions 2.1 Définition de graphe Soient deux fonctions d'étiquetage LV (V) et LE(E) qui associent chacun des éléments de V, respectivement de E, une étiquette Un graphe étiqueté G est un 4-tuple G = (V, E, µ, ξ), avec : V est un ensemble de nœuds E ⊆ V × V : un ensemble d’arcs µ : V → LV : la fonction d’étiquetage de nœud ξ : E → LE : la fonction d’étiquetage d’arcs 2.2 Correspondance de Graphe Les graphes constituent un mode de représentation fréquemment utilisé dans le domaine des sciences et technologies de l'information qui permettent la description de données structurées Un graphe G est un ensemble V de nœuds et un ensemble E d'arcs, G = (V, E) Les outils de classification supervisée sont de plus en plus nécessaires dans de nombreuses applications telles que la reconnaissance des formes [1], la CBR (Case Based Reasoning) [2], l’analyse des composantes chimiques [3], …Pour lancer le sujet de la mise en correspondance de graphe « graph matching », nous rappelons qu'il existe une étude approfondie sur les techniques de la correspondance de graphes apparues au cours de ces 30 dernières années dans [4] Dans le cas du problème de reconnaissance des formes, étant donné deux graphes : le graphe de modèle GM et le graphe de données GD, la procédure de comparaison implique de vérifier si ils sont similaires ou non De manière générale, nous pouvons représenter le problème de la correspondance de graphe comme suit : Etant donné deux graphes G M = (VM, EM) et GD = (VD, ED), avec | VM | = | VD |, le problème est de trouver une fonction de correspondance f: VD → VM, tel que (u, v) ∈ ED Si et seulement si (f (u), f (v)) ∈ EM Lorsqu’une telle fonction de correspondance f existe, nous somme en présente d’un isomorphisme, et GD est dit d'être isomorphe GM et ce type s’appelle « correspondance exacte » D'autre part, le terme « inexact » appliquée aux problèmes de la correspondance de graphe, indique qu'il n'est pas possible de trouver un isomorphisme entre les deux graphiques C'est le cas lorsque le nombre de sommets ou le nombre d’arcs sont différents la fois dans le graphe modèle et graphe de données Dans ce cas là, on peut trouver la meilleure correspondance entre eux en trouvant une correspondance non-bijective entre le graphe de données et le graphe de modèle Le problème de la correspondance de graphe a été prouvé être le NP-complet [5] Lorsque le nombre de nœuds dans les deux graphes sont différents, le problème de la correspondance de graphe devient plus difficile que dans le cas de la correspondance de graphe exact De même, la complexité du problème de sous-graphe inexact est équivalente la complexité du problème de la plus grand sous graphe commun, qui est aussi connu pour être NP-complet Plusieurs techniques ont été proposées pour résoudre ce problème, par exemple, la relaxation probabiliste, l'algorithme EM [6], [7], les réseaux de neurones [8], [9], des arbres de décision [10] et un algorithme génétique [11], [12] Toutes les méthodes énoncées antérieurement ont comme point commun l'utilisation d'un algorithme d'optimisation pour adapter un graphe dans un autre et une fonction « qualité » pour mesure la bonne similaritộ entre deux graphes Cette fonction est conỗue en tenant compte du coût pour faire la correspondance VD → VM Les auteurs sont convaincus qu‘une correspondance convenable doit conduire une distance entre graphe précise Selon cette hypothèse, le problème est tourné en une question de distance entre graphes De plus, ce point de vue sur le problème de la correspondance de graphe permettra de lancer un banc de tests sur notre approche et de fournir une étude comparative NGUYEN Quoc Toan – Promotion 13 Page 10 Table 12: Les taux de reconnaissance pour deux méthode PMDED et PMDGP DB Mutagenicity Graph Probing DB Letter Graph Probing Edit Distance Le temps de calcul pour PMD (ED, GP) 14 12 heures 10 0 sous-graphe longueur l Figure 22:la comparaison le temps de calcul sur PMDED et PMDGP 6.3.2 Symbol Spotting A partir de base de donnée Floor Plan, nous avons testé notre programme avec les méthodes pour étiquetage des nœuds et des arcs comme : Moment de Hu (Hu), Shape statistiques (Shape) pour étiqueter des nœuds et les relations d'Allen bidimensionnelles (Allen) ou sur les distances entre deux régions pour étiqueter des arcs (Dist) Pour évaluer la performance de cet propose nous utilisons les valeurs précision et rappelle Pour chaque requête (symbole), soit T est le nombre symbole de type requête dans le plan, R est le nombre résultats obtenues par le programme Le nombre élément bien détecté s’appel e La valeur précision a été définie par le ratio entre le nombre élément bien détecté et le nombre résultats obtenues NGUYEN Quoc Toan – Promotion 13 Page 45 p=e/R Le rappel est défini par le nombre élément bien détecté sur le nombre symboles de type requête r=e/T Le nombre résultats obtenus dépendent une valeur de seuil distance que nous avons abordé Voici les résultats obtenues pour notre application en utilisant 100 plans architecturaux binaire et 16 symboles requêtent par plan Min Max Moyen Total Pour chaque plan, nous fait environs : 25 (seuil distance : 0, 2, … 48) x (nb de cluster : 4, 8, 16) x 16 (type de symbole) = 1200 requêtes Table 13: La valeur moyenne d Seuil dist (%) 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 NGUYEN Quoc Toan – Promotion 13 Page 46 Précision Figure 23: La courbe de précision, rappel selon Table 14 : La valeur moyenne de précision, rap Seuil dist (%) 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 NGUYEN Quoc Toan – Promotion 13 Page 47 0.9 0.8 0.7 Précision 0.6 0.5 0.4 0.3 0.2 K=4 K=8 K=16 Moyen 0.1 0 Figure 24: La courbe de précision, rappel selon la méthode Hu_ Allen Table 15: La valeur moyenne de précision, rappel selon la méthode Shape_Allen Seuil dist (%) 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 NGUYEN Quoc Toan – Promotion 13 Page 48 0.2 0.8 0.7 0.6 Précision 0.5 0.4 0.3 0.2 K=4 K=8 K=16 Moyen 0.1 0 0.2 Figure 25: La courbe de précision, rappel selon la méthode Shape_Allen Table 16: La valeur moyenne de précision, rappel selon la méthode Shape_Dist Seuil dist (%) 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 NGUYEN Quoc Toan – Promotion 13 Page 49 K=4 0.8 0.7 0.6 Précision 0.5 0.4 0.3 0.2 K=4 K=8 K=16 Moye 0.1 0 Figure 26: La courbe de précision, rappel selon la méthode Shape_Dist Pour déterminer la meilleur méthode d’étiquetage de nœuds et d’arcs, nous déterminons la meilleure courbe de chaque méthode selon le nombre de cluster en calculant les valeurs maximale, minimale, moyenne selon la valeur de précision et rappel en moyenne est comme suivante : max(methode, k) = max{moyen( precisionseuil _ dist ) + moyen(rappelseuil _ dist )} min(methode, k) = min{moyen( precisionseuil _ dist ) + moyen(rappelseuil _ dist )} moyen(methode, k) = moyen{moyen( precisionseuil _ dist ) + moyen(rappelseuil _ dist )} avec seuil _ dist = 0, 2, 4, 48% k = 4, 8, 16 est le nombre de cluster Dans le tableau 19 représente la comparaison des méthodes d’étiquetage des nœuds et des arcs Dans tous le cas, on peut facilement s’apercevoir que la méthode d’étiquetage de nœuds de moment de Hu combiné l’algèbre d’Allen donne de meilleures performances car cette dernière est plus robuste aux changements d’échelles et de rotations présentes dans les plans que nous traitons Table 17: La comparaison des méthodes d'étiquetage des noeuds, des arcs Méthode Max Min Moyen 0.2 NGUYEN Quoc Toan – Promotion 13 Page 50 Précision Les meilleurs résultats de chaque méthode Figure 27: Les meilleurs courbes de chaque méthode d'étiquetage Voici une comparaison de nos résultats avec les rộsultats de Marỗal avec les mờmes la base FoorPlan de Mathieu Delalandre, les requêtes de Mathieu aussi et les valeurs de rappel / precision moyennes Table 18: Comparaiso Méthode Hu_Allen Rappel Précision On peut conclure que dans tous le cas, nos résultats sont très bon ce qui montre la performance de notre approche 6.4 Complexité algorithmique Pour le test en classification La correspondance de graphique basé sur la distance d’édition peut être calculée en temps de O (n3) dans le pire des cas Pour calculer la distance entre deux graphes G1 et G2 basé sur l’assignement de sous-graphes, nous construisons la matrice des coûts que chaque élément est comme le coût de la distance entre des sous-graphes de longueur l de G1, G2 Nous utilisons l'algorithme de la méthode hongroise [23] pour résoudre ce problème de trouver la correspondance de coût minimum partir de cette matrice de coûts, dont la complexité est en O(n3) où n est dans notre cas le nombre de sous-graphes Symbol spotting Pour extraire des composantes connexes nous utilisons un algorithme d’analyse des composantes connexes qui est une complexité linéaire fonction du nombre de pixels contenu dans l'image La phase d’extraction des caractéristiques selon le moment de Hu et Shape NGUYEN Quoc Toan – Promotion 13 Page 51 statistiques qui est aussi une complexité linéaire, le processus de trouver des sous-graphes de plan qui correspondent des symboles graphiques est une complexité de O (n 1.n23) où n1 est le nombre de composantes connexes, n2 est le nombre de nœuds des sous-graphes NGUYEN Quoc Toan – Promotion 13 Page 52 Conclusions Nous avons présenté donc dans ce mémoire une application de reconnaissance de symbole basé sur le graphe Chaque nœud du graphe représente une composante connexe dans l’image de document Ces nœuds sont étiquetés automatiquement par l’algorithme de clustering « k-Mean » La relation entre deux composantes connexes est matérialisée dans un graphe de « voisinage » par un arc étiqueté automatiquement en utilisant les relations d'Allen bidimensionnelles ou la distance entre composantes connexes Nous extrayons le graphe de plan en des sous-graphes de longueur l Le résultat de notre application est ensemble de sous-graphes isomorphisme que la distance entre ces sous-graphes et le graphe de symbole est inférieur une valeur seuil Nous avons utilisé les valeurs précision et rappelle pour évaluer la performance de notre application Les résultats obtenus sont assez bien ce qui montrent la pertinence de notre approche Nous avons proposé une méthode de mise en correspondance de graphes fondée sur l’assignement de sous-graphes basée sur la « distance d’édition » PMD ED et basée sur le « Graphe Probing » PMDGP Dans le contexte de classification de graphes, nous avons utilisé un classifieur de type K-NN pour évaluer la performance de notre méthode de mise en correspondance de graphes fondée sur l’assignement de sous-graphes Nous avons comparé nos résultats obtenues avec d’autres approches faisant référence dans ce domaine Cette étude comparative a montré que nos résultats étaient encourageants En effet, nous obtenons des résultats similaires comparés aux systèmes de références parfois même meilleurs NGUYEN Quoc Toan – Promotion 13 Page 53 Références [1] Alessandra Serrau, Gian Luca Marcialis, Horst Bunke, and Fabio Roli An experimental comparison of fingerprint classification methods using graphs Graph-Based Representations in Pattern Recognition, pages 281–290, 2005 [2] Pierre antoine Champin and Christine Solnon Measuring the similarity of labeled graphs Case-Based Reasoning Research and Development, pages 80–95, 2003 [3] Liva Ralaivola, Sanjay Joshua Swamidass, Hiroto Saigo, and Pierre Baldi Graph kernels for chemical informatics Neural Networks, 18(8) :1093–1110, 2005 [4] Donatello Conte, Pasquale Foggia, Carlo Sansone, and Mario Vento Thirty years of graph matching in pattern recognition International Journal of Pattern Recognition and Artificial Intelligence, 18(3) :265–298, 2004 [5] M R Garey and David S Johnson Computers and intractability : A guide to the theory of np-completeness ISBN :0716710455, 1979 [6] Andrew D J Cross and Edwin R Hancock Graph matching with a dual-step em algorithm IEEE Trans Pattern Anal Mach Intell , 20(11) :1236–1253, 1998 [7] Bin Luo and Edwin R Hancock Symbolic graph matching using the em algorithm and singular value decomposition 15th International Conference on Pattern Recognition (ICPR’00), pages 2141–2144, 2000 [8] Yang-Lyul Lee and Rae-Hong Park A surface-based approach to 3-d object recognition using a mean field annealing neural network Pattern Recognition, 35(2) :299–316, 2002 [9] R.S.T Lee and J.N.K Liu Tropical cyclone identification and tracking system using integrated neural oscillatory elastic graph matching and hybrid rbf network track mining techniques Neural Networks, IEEE Transactions on, 11(3) :680–689, May 2000 [10] Bruno T Messmer and Horst Bunke A decision tree approach to graph and subgraph isomorphism detection Pattern Recognition, 32(12) :1979–1998, 1999 [11] Andrew D J Cross and Edwin R Hancock Inexact graph matching with genetic search Advances in Structural and Syntactical Pattern Recognition, pages 150–159, 1996 [12] Gordon, A D (1999) Classication Chapman & Hall, 2nd edition [13] Enrique Vidal New formulation and improvements of the nearest neighbour approximating and eliminating search algorithm (aesa) Pattern Recognition Letters, 15(1) : 1–7, 1994 [14] Paolo Ciaccia, Marco Patella, and Pavel Zezula M-tree: An eﬃcient access method for similarity search in metric spaces Proceedings of 23 rd International Conference on Very Large Data Bases (VLDB’97), pages 426–435, 1997 [15] Vidal, E (1994) New formulation and improvements of the nearerst-neighbour approximationg and eliminating search algorithm (AESA) Pattern Recognition Letters, 15(1):1_7 NGUYEN Quoc Toan – Promotion 13 Page 54 [16] Horst Bunke and Kim Shearer A graph distance metric based on the maximal common subgraph Pattern Recognition Letters, 19(3-4) :255–259, 1998 [17] Michel Neuhaus and Horst Bunke Automatic learning of cost functions for graph edit distance Information Science, 177(1) :239–247, 2007 [18] Dzena Hidovic and Marcello Pelillo Metrics for attributed graphs based on the maximal similarity common subgraph International Journal of Pattern Recognition and Artificial Intelligence, 18(3) :299{313, 2004 [19] Antonio Robles-Kelly and Edwin R Hancock Graph edit distance from spectral seriation IEEE Trans Pattern Anal Mach Intell., 27(3) :365{378, 2005 [20] Richard Myers, Richard C Wilson, and Edwin R Hancock Bayesian graph edit distance IEEE Trans Pattern Anal Mach Intell., 22(6) :628{635, 2000 [21] Steven Gold and Anand Rangarajan Graph matching by graduated assignment IEEE transactions on pattern analysis and machine intelligence, pages 239{244, 1996 [22] Hans peter Kriegel and Stefan Schonauer Similarity search in structured data DataWarehousing and Knowledge Discovery, pages 309{319, 2003 [23] Kuhn, H W (1955) The hungarian method for the assignment problem Naval Research Logistics Quarterly, 2(83-87) [24] Kaspar Riesen and Horst Bunke Approximate graph edit distance computation by means of bipartite graph matching Image and Vision Computing, In Press, Corrected Proof , 2008 [25] D Lopresti and G Wilfong A fast technique for comparing graph representations with applications to performance evaluation International Journal on Document Analysis and Recognition, 6(4) :219{229, 2003 [26] Cordella, L.P., Vento, M Symbol recognition in documents: a collection of techniques? International Journal on Document Analysis and Recognition (2000) 73–88 [27] Belkasim, S.O., Shridar, M., Ahmadi, M Pattern Recognition with Moment Invariants: A Comparative Study and New Results Pattern Recognition 24 (1991) 1117–1138 [28] S Belongie, J.M., Puzicha, J Shape matching and object recognition using shape contexts IEEE Transactions on PAMI 24 (2002) 509–522 [29] Lin, B.C., Shen, J Fast Computation of Moment Invariants Pattern Recognition 24 (1991) 807–813 [30] J Llado, E.M., Jose, J Symbol Recognition by Subgraph Matching Between Region Adjancy Graphs IEEE Transactions on PAMI 23 (2001) 1137–1143 [31] B.T Messmer and H Bunke Automatic Learning and Recognition of Graphical Symbols in Engineering Drawings In Graphics Recognition Methods and Applications, volume 1072 of Lecture Notes on Computer Science, pages 123–134 1996 doi: 10.1007/3-540-61226-2 11 [32] J Lladós, E Martí, and J Villanueva Symbol Recognition by Error-Tolerant Subgraph Matching between Region Adjacency Graphs IEEE Transactions on Pattern Analysis and Machine Intelligence, 23(10):1137–1143, 2001 doi: 10.1109/34.954603 NGUYEN Quoc Toan – Promotion 13 Page 55 [33] E Barbu, P Hérroux, S Adam, and E Trupin Using Bags of Symbols for Automatic Indexing of Graphical Document Image Databases In Graphics Recognition Ten Years Review and Future Perspectives, volume 3926 of Lecture Notes on Computer Science, pages 195–205 2005 doi: 10.1007/11767978 18 [34] H Locteau, S Adam, E Trupin, J Labiche, and P Hérroux Symbol Spotting Using Full Visibility Graph Representation In Proceedings of the Seventh International Workshop on Graphics Recognition, GREC07, 2007 [35] R.L Qureshi, J.Y Ramel, D Barret, and H Cardot Spotting Symbols in Line Drawing Images Using Graph Representations In Graphics Recognition Recent Advances and New Opportunities, volume 5046 of Lecture Notes on Computer Science, pages 91–103 2008 doi: 10.1007/978-3-540-88188-9 10 [36] S Muller and G Rigoll Engineering Drawing Database Retrieval Using Statistical Pattern Spotting Techniques In Graphics Recognition Recent Advances, volume 1941 of Lecture Notes on Computer Science, pages 246–255 2000 doi: 10.1007/3-540-40953-X 21 [37] S Tabbone, L.Wendling, and K Tombre Matching of Graphical Symbols in LineDrawing Images Using Angular Signature Information International Journal on Document Analysis and Recognition, 6(2):115–125, 2003 doi: 10.1007/s10032-003-0105-0 [38] S Tabbone and L Wendling Recognition of Symbols in Grey Level Line-Drawings from an Adaptation of the Radon Transform In Proceedings of the Seventeenth International Conference on Pattern Recognition, ICPR04, pages 570–573, 2004 doi: 10.1109/ICPR.2004.1334310 [39] A Della Ventura and R Schettini Graphic Symbol Recognition Using a Signature Technique In Proceedings of the Twelveth International Conference on Pattern Recognition, ICPR94, pages 533–535, 1994 doi:10.1109/ICPR.1994.577011 [40] W Zhang and L Wenyin A New Vectorial Signature for Quick Symbol Indexing, Filtering and Recognition In Proceedings of the Ninth International Conference on Document Analysis and Recognition, ICDAR07, pages 536–540, 2007 doi: 10.1109/ICDAR.2007.4378767 [41] D Zuwala and S Tabbone A Method for Symbol Spotting in Graphical Documents In Document Analysis Systems VII, volume 3872 of Lecture Notes on Computer Science, pages 518–528 2006 doi: 10.1007/11669487 46 [42] S Tabbone and D Zuwala An Indexing Method for Graphical Documents In Proceedings of the Ninth International Conference on Document Analysis and Recognition, ICDAR07, pages 789–793, 2007 doi: 10.1109/ICDAR.2007.4377023 [43] Khotanzad, A and Hong, Y H (1990) Invariant image recognition by Zernike moments IEEE Transactions on Pattern Analysis and Machine Intelligence, 12(5) :489_497 [44] Kaufmann, L., Rousseeuw, P.J.: Clustering by means of medoids In Dodge, Y., ed.: Statistical Data Analysis based on the L1 Norm and Related Methods, Elsevier Science (1987) 405–416 [45] Ramel, J.Y., Vincent, N., Emptoz, H.: A Structural Representation for Understanding Line NGUYEN Quoc Toan – Promotion 13 Page 56 Drawing Images International Journal on Document Analysis and Recognition 3(2), 58–66 (2000) [46] P Bille A survey on tree edits distance and related problems Theoretical Computer Science, 337(1-3):217{239, 2005 [47] DTP, AIDS antiviral screen (2004), http://dtp.nci.nih.gov/docs/aids/aids data.html [48] M Delalandre, Analyse de documents graphiques : une approche par reconstruction d’objets, Ph.D thesis, Université de Rouen, France, 2005 [49] K Riesen, H Bunke IAM Graph Database Repository for Graph Based Pattern Recognition and Machine Learning Accepted for publication in SSPR 2008 [50] Kuramochi, M and Karypis, G (2001) Frequent subgraph discovery In Proceedings of the 2001 International Conference on Data Mining (ICDM2001), pages 313-320 [51] Marcal Rusinol, 2009, Geometric and Structural-based Symbol Spotting Application to Focused Retrieval in Graphic Document Collections NGUYEN Quoc Toan – Promotion 13 Page 57 ... 3.1Les méthodes de construction de graphe 3.2Les methodes de mise en correspondances des graphes 3.3Récaputulation des méthodes Une méthode de mise en correspondance de graphes fondée... chaque niveau de distorsion qui représente les lettres A, M, K, et Z Figure 20: Les exemples de lettres A, M, K et Z: l'origine et la déformation des niveaux faible, moyen et élevé (de gauche droite)... correspondance de graphes apparues au cours de ces 30 dernières années dans [4] Dans le cas du problème de reconnaissance des formes, étant donné deux graphes : le graphe de modèle GM et le graphe de données

Định dạng
Số trang	64
Dung lượng	1,91 MB