Binarisation d’images de documents graphiques

Institut de la Francophonie Laboratoire Lorrain de Recherche en p Informatique o et ses u Applications r l’ I n f o r m a ti q u e RAPPORT DE STAGE DE FIN D’ETUDES Sujet : Binarisation d’images de documents graphiques Etudiante : Nancy, juin - novembre 2004 REMERCIEMENTS Je tiens tout d’abord exprimer toutes mes reconnaissances sincères Madame Hélène Kirchner, Directrice du LORIA (Laboratoire Lorrain de Recherche en Informatique et ses Applications) et de l’INRIA Lorraine, pour m’avoir accueillie chaleureusement au sein de son laboratoire, et Monsieur Karl Tombre, responsable de l’équipe QGAR (Querying Graphics through Analysis and Recognition), qui ma reỗue dans son ộquipe de recherche et m’a donné des conditions favorables pour travailler Je tiens remercier profondément mon responsable, Monsieur Salvatore Tabbone, professeur associé l’Université de Nancy 2, chercheur au LORIA, qui a accepté de diriger mon stage de fin d’études, a aussi consacré beaucoup de temps pour m’aider lors de mon stage Je voudrais remercier particulièrement tous les professeurs l’Institut de la Francophonie pour l’Informatique (IFI) pour leur soutien, ce qui m'a permis de pouvoir bien effectuer mon stage de fin d'études Je remercie également les membres de l’équipe QGAR qui m’ont beaucoup aidée durant mon séjour Nancy Un grand merci tous mes amis l’IFI et au LORIA pour leurs encouragements, leurs aides et la sympathie qu'ils m’ont données tout au long de mon stage J'adresse, enfin, mes remerciements sincères ma famille pour ses stimulations Page RESUME La binarisation des images a suscité beaucoup de travaux de recherche ces dernières décennies Cependant, il n’existe pas une solution idéale qui est affectée tous les différents types d’images Durant mon stage, nous nous sommes intéressés définir une approche de binarisation qui s’applique des documents graphiques Après avoir testé des solutions différentes, nous avons proposé une méthode de binarisation pour l’image de documents niveaux de gris Cette méthode repose sur la coopération entre une approche de seuillage global et une approche de seuillage local La méthode se compose de deux étapes La technique de seuillage global est affectée la première étape et a pour but d’éliminer la partie du fond de l’image La deuxième est basée sur la segmentation hiérarchique floue de Gadi et Benslimane pour rendre l’objet dans l’image plus net Dans cette étape, les traitements sont effectués sur les données des zones de tailles différentes du résultat intermédiaire en prenant le principe de l’arbre quaternaire La classification finale d’un pixel sera déterminée grâce la fonction d’agrégation partir de ses différents degrés d’appartenance qui sont calculés tous les niveaux de l’arbre La méthode proposée a donné des résultats intéressants en appliquant sur l’ensemble des images de test Son efficacité est démontrée par une étude comparative avec d’autres méthodes et par des mesures de performance Mots clés : binarisation local adaptatif, binarisation coopérative, image de documents, arbre quaternaire, sous-ensembles flous, fonction d’appartenance Page ABSTRACT Binarization of the images has been a subject of an intense research interest for a long time However, there is not a perfect solution, which can apply for all the various kinds of images Therefore, during my training course, we define a method working effectively on image of graphic documents After testing different solutions, we propose a binarization method for the gray level image of documents This method is considered to be the cooperation between a global and a local thresholding technique The method presented is based on two stages The global thresholding is used in the first stage to give a preliminary result Then, a second based on the fuzzy hierarchical segmentation refines the result by analyzing local characteristics In this stage, the treatments are carried out on the data zones with different sizes by taking the quadtree principle on the preliminary result The classification of a pixel depends on its final degree of membership calculated from its various degrees determined by the node local information at all quadtree levels The method suggested gives remarkable results by applying it to a set of images that be used tested Its effectiveness is shown in comparing with other methods Keywords: adaptive local thresholding, cooperative binarization, document image, quadtree, fuzzy set, membership function Page TABLE DE MATIERES REMERCIEMENTS RESUME ABSTRACT LISTE DE FIGURES LISTE DE TABLEAUX CHAPITRE : INTRODUCTION 1.1 PROBLEMATIQUE 1.2 OBJECTIF 1.3 STRUCTURE DU RAPPORT 1.4 LIEU DE STAGE CHAPITRE : ETAT DE L’ART 2.1 GENERALITE 2.1.1 Segmentation 2.1.2 Binarisation 2.1.3 Sous-ensemble flou 11 2.2 METHODES DE SEUILLAGE GLOBAL 13 2.2.1 Méthode de Otsu 14 2.2.2 Méthodes se basant sur l’entropie 15 2.3 SEGMENTATION HIERARCHIQUE FLOUE 17 CHAPITRE : METHODE PROPOSEE 20 3.1 PRINCIPE DE LA METHODE 20 3.2 ETAPE DE SEUILLAGE GLOBAL 20 3.3 ETAPE DE RAFFINAGE 21 3.3.1 Construction de l’arbre quaternaire 22 3.3.2 Calcul des degrés d'appartenance de chaque pixel 25 3.3.3 Décision de degré d'appartenance final 26 CHAPITRE : EVALUAT IONS 28 4.1 RESULTATS EXPERIMENTAUX 28 4.2 MESURES DE PERFORMANCE 34 4.2.1 Mesure de contraste 34 4.2.2 Mesure d’homogénéité 35 4.3 AVANTAGES ET INCONVENIENTS 35 CHAPITRE : CONCLUSIONS 37 REFERENCES 38 Page LISTE DE FIGURES Figure 2.1 : Fonction d’appartenance linéaire 13 Figure 2.2 : Fonction S de Zadeh 13 Figure 2.3 : Un problème de la méthode de Gadi et Benslimane 18 Figure 2.4 : Le résultat de la méthode [Gadi,2000] avec h = min(…) 19 Figure 3.1 : Principe de la méthode proposée 20 Figure 3.2 : Image originale – jaures_patie1.tif 21 Figure 3.3 : Image intermédiaire de jaures_patie1.tif 21 Figure 3.4 : Image binaire de jaures_patie1.tif après la première étape 21 Figure 3.5 : Structure tridimensionnelle de l’arbre quaternaire 23 Figure 3.6 : Quadrillage de l’image intermédiaire 25 Figure 3.7 : Résultat final de la méthode proposée sur l’image jaures_partie1.tif 27 Figure 4.1 : Image originale jaures.tif 28 Figure 4.2 : Image originale harchure.tif 28 Figure 4.3 : Image originale plan2.tif 28 Figure 4.4 : Image originale extraire_1.tif 28 Figure 4.5 : Résultats de l’image jaures.tif en appliquant : a) la méthode proposée ; b) la méthode de Cheng et Chen ; c) la méthode de Gadi et Benslimane 30 Figure 4.6 : Résultats de l’image harchure.tif en appliquant : a) la méthode proposée ; b) la méthode de Cheng et Chen ; c) la méthode de Gadi et Benslimane 31 Figure 4.7 : Résultats de l’image plan2.tif en appliquant : 32 Figure 4.8 : Résultats de l’image extrait_1.tif en appliquant : a) la méthode proposée ; b) la méthode de Cheng et Chen ; c) la méthode de Gadi et Benslimane 33 LISTE DE TABLEAUX Tableau 4.1 : Performances quantitatives 35 Tableau 4.2 : Comparaison du temps de calculs 36 Page CHAPITRE : INTRODUCTION 1.1 Problématique Au sein de développements forts de la science, on ne peut pas nier le rôle de l’image numérique, un support important des applications dans de très nombreux domaines tels que la médecine, le multimédia, la robotique Parmi une série d’opérations effectuées sur les images, le traitement d’images est considéré comme une étape de base et indispensable dans toutes ces applications et a suscité de nombreuses recherches Il peut être vu comme préalable la reconnaissance de formes, l’analyse de scènes, l’intelligence artificielle La segmentation, un traitement de base ayant pour but de partitionner l’image en des régions homogènes qui représentent normalement les objets, est un problème classique mais très considéré C’est évident qu’il n’existe pas toujours une solution idéale pour tous les cas Plusieurs solutions ont été proposées pour résoudre ce problème de segmentation d’images du plus général au plus particulier Cependant, chaque méthode a ses avantages et ses inconvénients tels que la manipulation des paramètres [Trier,1995a], la complexité de calcul [Cheng,1999b] [Tao,2003] Problème Dans l’analyse d’images de documents et la reconnaissance de symboles, la binarisation est toujours une des premières étapes utilisées avant l’étape de reconnaissance Elle a donc une grande influence sur la performance des étapes suivantes et sur le résultat final C’est une technique importante dans les applications de traitement d’images Une image de documents graphiques contient généralement du graphique mais également du texte qui sont quelques fois assez proches Le texte risque donc de fusionner des différentes parties du graphique cause du changement faible d’intensité des pixels du fond et ceux de l’objet Recherchant des solutions pour l’image de documents graphiques, nous essayons de trouver une méthode automatique de binarisation simple et efficace qui sépare le fond et l’objet dans des images aux niveaux de gris Remarque Travaillant avec l’image de documents graphiques, nous supposons toujours que l’image contient l’objet noir (des lignes, des textes) sur le fond blanc Page 1.2 Objectif Ce stage se situe dans la problématique de la segmentation d’images et de chercher une méthode simple mais efficace pour l’image de documents graphiques afin de séparer clairement le fond et l’objet Autrement dit, il s’agit de trouver une méthode de binarisation qui peut déterminer automatiquement et efficacement le seuil pour chaque point de l’image 1.3 Structure du rapport Mon rapport se compose de cinq parties Quelques mots d’introduction de mon stage sont dans la première partie La deuxième est consacrée une présentation générale des techniques de segmentation d’images surtout la binarisation Des brèves descriptions de quelques méthodes y sont aussi présentées La troisième partie est dédiée la description détaillée de la méthode proposée L’analyse de résultats et les mesures d’évaluations sont abordées dans la quatrième Ce rapport se termine par la conclusion (cinquième partie) 1.4 Lieu de stage Laboratoire Le LORIA (Laboratoire Lorraine de Recherche en Informatique et ses Applications) est une Unité Mixte de Recherche - UMR7503 – constituée par plusieurs établissements : Centre National de Recherche Scientifique (CNRS), Institut National Polytechnique de Lorraine (INPL), Institut National de Recherche en Informatique et en Automatique (INRIA), Université Henri Poincaré Nancy (UPH), Université Nancy Equipe Mon stage, qui a duré six mois, s’est déroulé au sein de l’équipe QGAR (Querying Graphics through Analysis and Recognition) de l’INRIA lorraine sous la responsabilité de Salvatore Tabbone (Mtre de conférences l’université de Nancy 2) C’est une équipe spécialisée dans l’analyse de documents forte composante graphique Les objectifs sont l’indexation et la recherche d’informations dans le contexte de la documentation technique Le site http://www.loria.fr vous fournira des informations plus détaillées sur le laboratoire La présentation plus détaillée de l’équipe se trouve dans les sites webs http://www.loria.fr/equipes/qgar et http://www.inria.fr/recherche/equipes/qgar.en.html Page CHAPITRE : ETAT DE L’ART 2.1 Généralité 2.1.1 Segmentation La segmentation, un traitement essentiel des images, consiste créer une partition de l’image en des sous-ensembles appelés régions Ri Une région est un ensemble de pixels qui possèdent des propriétés communes telles que l’intensité, la texture, etc Le but de la segmentation est d’extraire de l’image originale un certain nombre d’entités différentes appelées objets ou régions Comme c’est extrêmement difficile d’avoir un algorithme idéal qui fonctionne correctement dans tous les cas, des nombreuses méthodes sont proposées En bref, on peut les classifier en deux grandes approches, l’approche « frontière » et l’approche « région » [Horaud,1993] La première, l’approche « frontière », est basée sur la forte variation d’intensité ou sur la discontinuité des propriétés de deux ensembles connexes de points Elle regroupe les techniques de détections de contours En général, cette approche ne conduit pas directement une segmentation de l’image cause de la continuité rare des contours Il faut donc procéder une fermeture de contours si on souhaite une partition complète de l’image Les régions sont définies comme l’intérieur d’une ligne fermée Par contre, des méthodes appartenant l’approche « région » sont construites grâce la similarité des points en évaluant des critères prédéfinis pour les regrouper directement en régions Le seuillage, la croissance de région, la division-fusion sont des exemples de méthodes différentes de segmentation région Il existe également des méthodes qui se basent la fois sur les propriétés des frontières et sur les propriétés de la région, on les appelle approche collaboration « région-frontière » Pour des images de documents graphiques, la valeur d’intensité des pixels appartenant l’objet est assez différente de la valeur d’intensité des pixels appartenant au fond Donc, la technique de seuillage est devenue un outil simple mais efficace dans les applications de traitement d’images de documents Il a attiré de nombreuses recherches ayant pour but de trouver un algorithme qui optimise le seuil tels que les approches dans [Otsu, 1978] [Trier, 1995a] [Cheng,1999b] [Cheriet,1998]… 2.1.2 Binarisation Définition : la binarisation (le seuillage) est la technique de classification la plus simple où les pixels de l’image sont partagés par un seul seuil s en deux classes : ceux qui appartiennent au fond et ceux qui appartiennent la scène (l’objet) L’image est alors Page ì ï gF ( x, y) = í ï255 ỵ Page 26 Figure 3.7 : Résultat final de la méthode proposée sur l’image jaures_partie1.tif Page 27 CHAPITRE : EVALUATIONS 4.1 Résultats expérimentaux Implémentation : - Le langage de programmation : C++ - L’environnement : LINUX - La mode d’exécution : commande en ligne La méthode proposée a été implémentée et testée avec un ensemble des images de documents graphiques existant dans la bibliothèque de l’équipe Les résultats obtenus sont satisfaisants Dans cette partie, on présente quelques résultats obtenus par comparaison d’autres méthodes Images originales : Figure 4.2 : Image originale harchure.tif Figure 4.1 : Image originale jaures.tif Figure 4.3 : Image originale plan2.tif Page 28 Images résultats Des résultats de la méthode proposée et ceux de la méthode de binarisation en utilisant la principe de maximum d’entropie [Cheng,1998b] et de la méthode de Gadi et Bensilimane [Gadi,2000] sont présentés ci-dessous Nous remarquons que les images c) dans les figures de 4.5 4.8 sont des résultats obtenus par la méthode de Gadi et Benslimane avec un changement : la fonction d’agrégation est t-norme (min) de Zadeh a) Page 29 b) c) Figure 4.5 : Résultats de l’image jaures.tif en appliquant : a) la méthode proposée ; b) la méthode de Cheng et Chen ; c) la méthode de Gadi et Benslimane Page 30 a) b) c) Figure 4.6 : Résultats de l’image harchure.tif en appliquant : a) la méthode proposée ; b) la méthode de Cheng et Chen ; c) la méthode de Gadi et Benslimane Page 31 a) b) c) d) Figure 4.7 : Résultats de l’image plan2.tif en appliquant : a) la méthode propos ée ; b) la méthode de Cheng et Chen ; c) la méthode de Gadi et Benslimane ; d) la méthode de Trier et Taxt [Trier,1995a] Page 32 a) b) c) Figure 4.8 : Résultats de l’image extrait_1.tif en appliquant : a) la méthode proposée ; b) la méthode de Cheng et Chen ; c) la méthode de Gadi et Benslimane Page 33 Dans la figure 4.5a), on a obtenu clairement des lignes et chiffres Le fond entre les lignes proches est bien détecté Tandis que dans la figure 4.5b) les lignes, les textes ne sont pas distingués Dans la figure 4.5c) il y a des faux pixels classés l’objet, et les bords de l’objet ne sont pas lisses La méthode proposée a bien éliminé des bruits sur le fond et rendu un résultat vraiment net dans la figure 4.6a) La méthode dans [Cheng,1998b] a mise des bruits comme l’objet (figure 4.6b) ) Des fautes de binarisation appartrent dans la figure 4.6c) et 4.7c) Le résultat de Trier et Taxt dans 4.7d) serait le meilleur parmi les résultats (figure 4.7a) b) et c)) si une zone solide de l’objet n’est pas disparue Dans les figures 4.8c) et 4.8a), l’objet est bien détecté Cependant, le résultat dans 4.8c) est plus claire La raison ici, c’est que le fond sur l’image originale extrait_1.tif est déjà tout fait homogène 4.2 Mesures de performance Pour examiner l’efficacité de la méthode proposée, on l’évalue sur deux critères qualitatifs des résultats obtenus Ce sont deux critères de base dans la segmentation des images Le premier, c’est le contraste entre des classes Le deuxième critère qu’il faut tenir compte est l’homogénéité Dans cette partie, on va prendre ces deux critères pour faire une comparaison entre la méthode proposée avec quelques autres méthodes existant tel que la méthode de Otsu, la méthode de Gadi et Benslimane, la méthode de Trier et Taxt [Trier,1995a] Les deux mesures de performance proposées par Levine & Nazif sont utilisées pour quantifier le contraste et l’homogénéité [Tabbone,2003]: 4.2.1 Mesure de contraste å m −m F Ri CI Où : mF : la moyenne des valeurs des pixels appartenant au fond mO : la moyenne des valeurs des pixels appartenant l’objet m Ri : la moyenne des valeurs des pixels dans la région Ri #Régions : le nombre de régions dans l’image sans compter le fond La valeur de CI indique le contraste entre les deux classes fond et objet Plus la valeur de CI est grande, plus le contraste entre deux régions est élevé Page 34 4.2.2 Mesure d’homogénéité å (g (x, y) − mO )2 HI =σ objet où : Card (objet) est le nombre des pixels dans la classe objet La valeur HI indique le degré d’homogénéité dans les régions Dans ce cas, c’est l’homogénéité des pixels dans la classe objet On constate que plus cette valeur est petite, plus la région est homogène Dans le tableau 4.1 ci-dessous, les mesures de contraste et les mesures d’homogénéité des résultats correspondant la méthode proposée et ceux de Otsu, de Gadi & Benslimane, et de Trier & Taxt sont indiquées : Jaures.tif hachures.tif plan2.tif Extrait_1.tif Ce tableau a montré des avantages de notre méthode 4.3 Avantages et inconvénients Avantages A travers des tests, notre méthode a démontré son efficacité dans la binarisation des images de documents graphiques C’est une bonne solution pour résoudre le problème de classification des pixels dans la zone floue la frontière fond-objet De plus, la complexité temporelle de la méthode proposée n’est pas trop grande On ne peut pas faire des comparaisons avec les méthodes de seuillage global comme Otsu Page 35 mais il y a une grande différence du temps d’exécution entre la méthode proposée et la méthode de Gadi et Benslimane [Gadi,2000] Les chiffres montrés dans le tableau 4.2 sont les temps d’exécution de deux méthodes quand on les exécute sur la même machine avec les mêmes images Tableau 4.2 : Comparaison du temps d’exécution Inconvénients Néanmoins, le résultat final de cette méthode dépend du résultat de l’étape de seuillage global Donc, si la première étape ne peut pas conserver l’objet entier dans l’image, aucune opération ne peut donner un bon résultat final Observant l’image originale et le résultat dans la figure 4.8a), on trouve que le fond de l’image originale est vraiment uniforme et le résultat de la première étape est déjà parfait La binarisation de cette image n’a pas besoin de la deuxième étape Alors, le résultat final est moins bien que le résultat intermédiaire Il risque de perdre des points de l’objet Malheureusement, on n’avait pas encore trouvé une solution pour vérifier la nécessité de cette étape En principe, la vérification d’homogénéité de l’ensemble ORi au sens que la variance est faible peut être une solution Cependant, le test dhomogộnộitộ de faỗon automatique pour une région de l’image est encore un problème ouvert Page 36 CHAPITRE : CONCLUSIONS Pendant la durée de stage de six mois, j’ai fait des études sur les techniques de segmentation d’images surtout la technique de binarisation et essayé de proposer, sous des suggestions de mon responsable, une méthode de binarisation pour l’image de documents graphiques Après l’échec de quelques tests, une méthode de binarisation coopérative en deux étapes a été proposée Les résultats expérimentaux obtenus sur des images de documents graphiques en terme de séparation l’objet et le fond sont prometteurs Nous avons, également, fait des études comparatives de notre méthode avec d’autres comme celle de Otsu, la méthode se basant sur l’entropie floue de Cheng et Chen et la méthode de Gadi et Benslimane De plus, la complexité de la méthode n’est pas grande en temps de calcul par comparaison la méthode de Gadi sur laquelle la méthode proposée se base Néanmoins, lorsque l’image issue de la première étape est trop homogène (i.e variance très faible) le résultat issu de la deuxième se dégrade car la condition d’arrêt liée la construction de l’arbre quaternaire n’est plus vérifiée Dans ce cas, pour chaque sous région Ri, il faut examiner l’homogénéité des pixels dans ORi avant de vérifier la condition de découpage pour éviter une fausse binarisation Un seuil prédéfini pour la variance est peut-être une solution pour le test d’homogénéité d’un ensemble, cependant le problème réside dans le choix du seuil On recherchera donc une méthode qui peut définir automatiquement le seuil pour chaque ensemble ou bien vérifier automatique son homogénéité Actuellement, en terme de complexité temporelle, l’essentiel des temps de calculs se focalisent sur les calculs des moyennes et des écart-types de tous les nœuds dans l’arbre Alors si on peut augmenter la performance des ces calculs, le temps d’exécution aura des diminutions considérables Le choix d’une structure de données plus appropriée sera une de nos premières priorités en terme de perspective de recherche Page 37 REFERENCES [Braviano,1995] [Cheng,1998a] [Cheng,1998b] [Cheng,1999a] [Cheng,1999b] [Cheriet,1998] [Gadi, 2000] [Horaud, 1993] [Kapur, 1985] [Kunt, 1993] [Mello, 2000] [Otsu, 1978] [Pun, 1980] Page 38 [Tabbone,2003] [Tao,2003] [Trier,1995a] [Trier, 1995b] [Wu,2003] [NIST,ehandbook] Page 39 ... segmentation d’images surtout la technique de binarisation et essayé de proposer, sous des suggestions de mon responsable, une méthode de binarisation pour l’image de documents graphiques Après l’échec de. .. approche de binarisation qui s’applique des documents graphiques Après avoir testé des solutions différentes, nous avons proposé une méthode de binarisation pour l’image de documents niveaux de gris... 28 Images résultats Des résultats de la méthode proposée et ceux de la méthode de binarisation en utilisant la principe de maximum d’entropie [Cheng,1998b] et de la méthode de Gadi et Bensilimane

Định dạng
Số trang	46
Dung lượng	3,28 MB