Phân tích và mô tả cấu trúc tài liệu nhằm đảm bảo an toàn thông tin

UNIVERSITÉ NATIONALE DU VIETNAM À HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL Mémoire de stage de Master Option : Systèmes Intelligents et Multimédia (SIM) Promotion : XXI Analyse et description de la structure du document pour la sécurisation DIALLO Azise Oumar Encadrants : Mme Petra Gomez-Krämer M Mickặl Coustaty Mtre de Conférences Mtre de Conférences (L3I) (L3I) Année académique 2017-2018 Résumé Chaque jour, de nombreux documents sont produits, exploités et échangés travers le monde Que ce soit en entreprise, l’université, dans les supermarchés et même la maison, ces documents nous accompagnent dans notre vie quotidienne Face l’amplitude des données et des services dématérialisés (fiche d’état civil, feuille d’impôts, relevé de consommation électrique, diplômes ), chacun peut se trouver en situation de fragilité numérique Ainsi, il est plus qu’urgent de disposer de moyens ou outils pour se prémunir contre les modifications frauduleuses de documents sous tous ses aspects (papier et/ou numérique) De nos jours, les documents papier sont sécurisés avec des filigranes ou autres technologies physiques et les documents numériques avec des systèmes de cryptographie utilisant des algorithmes de hachage Cependant, les filigranes ne résistent pas toujours la numérisation Les systèmes cryptographiques quant eux, restent fragiles face au bruit introduit par le processus d’impression/photocopie et de numérisation C’est dans cette dynamique que les auteurs du projet SHADES (Semantic Hash for Advanced Document Electronic Signature) [2] ont proposé une signature électronique avancée basée sur l’analyse de trois éléments du document : la mise en page (layout), les textes et les images et autres contenus graphiques Cependant, le descripteur de la mise en page obtenu (voir [17]) présente quelques insuffisances liées particulièrement son manque de tolérance vis-à-vis de certains résultats (le plus souvent instables) des algorithmes de segmentation et les bruits de numérisation et de photocopies/impression Ce manque de tolérance est lié l’algorithme de matching qui utilise une approche globale (toute la triangulation globale) de comparaison Cette triangulation est construite partir des centroïdes des régions contenues dans le document Le nouveau descripteur que nous proposons utilise une approche de matching local (décomposition de la mise en page en de petites parties) ce qui lui permet d’avoir un seuil de tolérance lors de la comparaison de deux documents Ainsi, il est plus tolérant et permet de prendre en compte certaines instabilités des résultats de segmentation (nombres et formes de régions différents pour un même document) et les bruits dans les processus de numérisation/photocopie Le présent rapport présente le fruit de six mois de travail pour proposer cette mise jour du descripteur de layout présenté dans [17] Ce travail a été réalisé dans le cadre notre stage de Master pour l’obtention du diplôme Mots clés : document, document hybride, layout, mise en page, descripteur de mise en page, sécurité, signature électronique, hachage i Abstract Every day, a lot of documents are produced, exploited and exchanged around the world Whether in entreprises, universities, supermarkets or even at home, these documents follow us in our daily lives In front of the amplitude of data and dematerialized services (civil status sheet, tax sheet, electricity consumption record, diplomas ), everyone can be in a situation of digital fragility Thus, it is more than urgent to have means or tools to proctect against fraudulent changes of documents in all its aspects (paper and/or digital) Today, paper documents are secured with watermarks or other physical technologies and digital documents with cryptographic systems using hashing algorithms However, watermarks not always resist to the scanning process Cryptographic systems, on the other hand, remain fragile due to the noise introduced by the printing/photocopying and scanning process It is in this dynamic that the authors of the SHADES project (Semantic Hash for Advanced Document Electronic Signature) [2] proposed an advanced electronic signature based on the analysis of three elements of the document: the layout (layout), texts and images and other graphic content However, the descriptor of the resulting layout (see [17]) has some shortcomings particularly related to its lack of tolerance for some (mostly unstable) results of segmentation algorithms and scanning and photocopying/printing noise This lack of tolerance is related to the matching algorithm that uses a global approach (all the overall triangulation) of comparison This triangulation is constructed from the centroids of the regions contained in the document The new descriptor that we propose uses a local matching approach (decomposing the layout into small parts) which allows it to have a tolerance threshold when comparing two documents Thus, it is more tolerant and makes it possible to take into account certain instabilities of the segmentation results (numbers and forms of different regions for the same document) and the noises in the digitization/photocopying processes This report presents the result of six months of work to propose this improvement of the layout descriptor presented in [17] This work was done as a part of our Master graduation internship Keywords : document, hybrid document, layout, layout descriptor, security, electronic signature, hash ii Remerciements « Celui qui ne remercie pas les gens n’a pas remercié Allah » (Hadith) Alors, je voudrais très sincèrement remercier Madame Petra Gomez-Krämer, mon encadrante principale En effet, malgré son emploi du temps très chargé, elle a su se montrer disponible pour m’accompagner tout au long de ce stage En outre, je la suis très reconnaissant pour m’avoir fait participer dans un projet d’envergure savoir le projet SHADES qui est interdisciplinaire portant sur la sécurité des documents, en partenariat avec des acteurs et des chercheurs des domaines de l’informatique et du droit Je voudrais également remercier Monsieur Mickaël Coustaty, mon second encadrant pour ses interventions pertinentes et ses orientations pointues durant ce travail Je remercie Monsieur Yacine Ghamri-Doudane, Directeur du L3I pour m’avoir accueilli dans sa structure Je remercie également les agents du laboratoire avec qui j’ai collaboré durant ce stage Mes remerciements vont également l’endroit de notre très cher institut de formation, l’Institut Francophone International (IFI) Je remercie tout particulièrement le corps enseignant pour la qualitộ de la formation reỗue et le personnel administratif pour la chaleureuse collaboration Enfin, je dit merci tous ceux ou toutes celles qui m’ont assisté durant ce travail iii Table des matières Table des figures vi Liste des tableaux viii Nomenclature ix Chapitre Introduction générale 1.1 Contexte de l’étude 1.1.1 Les types de documents étudiés 1.1.2 Les algorithmes de sécurisation 1.1.3 Systèmes de sécurité des documents 1.1.4 Projet SHADES 1.2 Problématique 1.3 Travail réaliser 1.4 Environnement de travail 1.4.1 Environnement matériel 1.4.2 Environnement logiciel 2 10 11 11 12 13 13 16 17 18 21 24 hybrides Chapitre Problématique de la représentation de la mise en page et les travaux relatifs 2.1 Les bruits d’impression et de numérisation 2.2 Définition et analyse de la notion de stabilité 2.3 La problématique de la mise en page 2.4 Les travaux relatifs la description de mise en page (layout) 2.4.1 Les descripteurs globaux de la mise en page 2.4.2 Les descripteurs locaux de la mise en page 2.4.3 Le descripteur de layout « Delaunay Layout Descriptor : DLD » Chapitre Solutions pour l’amélioration du DLD 34 3.1 Problème de l’isomorphisme des graphes 35 3.1.1 Définitions 35 iv 3.2 3.3 3.1.2 État de l’art du graph matching 3.1.3 Algorithme de Shazam, un exemple de « graph isomorphism » Nouvelle approche de hachage des layouts de documents Nouvelle approche de mises en correspondance des layouts de documents Chapitre Analyse des résultats 4.1 Présentation du nouveau descripteur 4.2 Tests 4.2.1 Tests du descripteur sur les images artificielles 4.2.2 Tests du descripteur sur le corpus L3iLayoutCopies 4.3 Résultats comparatifs 4.4 Analyse des résultats 4.4.1 Les points forts du nouveau descripteur 4.4.2 Les points faibles du nouveau descripteur Chapitre Bilan 35 38 40 43 48 49 49 49 52 55 57 57 58 59 Chapitre Annexe 61 6.1 Les résultats des tests du nouveau descripteur sur les images artificielles 61 6.2 Les indicateurs de performance 63 v Table des figures 1.1 1.2 1.3 1.4 1.5 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 Typologie de Documents Processus d’utilisation du hachage Technologie de la signature avancée Exemple de document d’un document sécurisé avec la technologie développée dans le projet SIGNED Calcul de la signature basée sur le contenu Exemple de transformations géométriques Exemple de correction gamma Bruit colorimétrique introduit par la conversion des couleurs RGB aux couleurs CMYK Bruit lors de numérisation des images en fonction de la source lumineuse Les types de layout trois layouts similaires Exemple de création de graphe produit par le descripteur de Gordo et Valveny Exemples de deux triangulations d’un ensemble de points du plan : (a) n’est pas de Delaunay alors que (b) l’est Exemple de la triangulation du DLD Exemple de calcul d’angles pour l’ordonnancement des sommets du graphe Dans ce cas, l’ordre est ABC, A etant le sommet « pere », B et C les sommets « fils » Processus de calcul du DLD ([18]) Exemple de calcul de la matrice d’adjacence Exemple de quatre points circonscrits Exemple de triangle plat Exemple d’instabilité d’ordonnancement Exemple de triangulation d’un layout original et sa copie avec une région en moins Exemple de triangulation possible pour deux résultats de deux algorithmes de segmentation différents vi 13 14 14 15 16 17 22 25 26 28 29 29 30 30 30 32 33 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 4.1 4.2 4.3 4.4 4.5 4.6 6.1 6.2 6.3 6.4 6.5 Exemple de spectogramme de Minato (Source [45]) Schéma du principe de fonctionnement de Shazam (Source [29]) Exemple de point d’ancrage avec ses voisins directs (en gras) sur la triangulation des centroïdes des régions d’un document Principe d’extraction des sous-graphes et calcul des matrices d’adjacence Nouveau processus de calcul du DLD Principe de la mise en correspondance entre deux layouts Principe de la mise en correspondance d’un layout avec la liste des layouts Exemple d’instabilités d’ordonnancement en considérant le PA 39 39 41 42 43 45 45 46 Exemple de trois layouts tests 50 Exemple d’extraction des sous-graphes du layout original et du layout avec une région de moins 50 Exemple d’extraction des sous-graphes du layout original et du layout ayant subi une rotation de 7˚ 51 Exemple d’extraction des sous-graphes du layout original et du layout dont les régions ont subi des transformations 52 Exemple de 04 layouts de L3iLayoutCopies 54 Exemple d’extraction des sous-graphes sur les images du corpus L3iLayoutCopies 55 Matching entre l’image originale et une image dont les écartées sans prises en comptes des instabilités Matching entre l’image originale et une image dont les écartées après prise en compte des instabilités Matching entre l’image originale et une image dont les une rotation d’un angle de -5˚ Matching entre l’image originale et une image dont les des déformations Les indicateurs de performance pour la classification vii régions sont plus régions sont plus régions ont subie régions ont subie 61 62 62 63 64 Liste des tableaux 1.1 1.2 Travaux relatifs aux algorithmes de sécurisation de documents hybrides Planning prévisionnel 10 3.1 Travaux traitant de différents domaines d’application au moyen de techniques de graph matching en fonction des périodes 36 Comparaison des approches de Shazam [46] et du DLD[17] 40 3.2 4.1 4.2 Tableau récapitulatif des résultats des tests sur les images manuelles 53 Tableau comparatif des descripteurs : DLDv2, DLD[17], descripteur de Gordo et al et le descripteur de LLAH 56 viii d’origine de matching comme fonction de similarité pour l’espace de sortie Cependant, l’exigence d’une stabilité exacte sera maintenue pour le DLD et le DLDv2 Leur fonction de similarité de sortie est l’égalité des descripteurs Par la suite, la fonction d’entrée des descripteurs DLDv2 et DLD utilise 15˚comme erreur d’angle pour deux instabilités simultanées De plus, les résultats de DLD, Gordo et LLAH sont rapportés de [18] avec une configuration technique de : processeur Intel Core i7 3740QM avec cœurs 2,7 GHz et Go de RAM Le tableau 4.2 présente les différents indicateurs de performance des descripteurs DLDv2, DLD [17], de Gordo et al [23] et de Nakai et al (LLAH) [32] sur le layouts du corpus CopiesLayout Les détails des formules de calculs des métriques de performances (FNR, FPR, FOR et FDR) sont présentés en Annexe (section 6.2) Table 4.2 – Tableau comparatif des descripteurs : DLDv2, DLD[17], descripteur de Gordo et al et le descripteur de LLAH DLDv2 sc50% DLDv2 sc80% FNR (%) 0.0 FPR (%) 0.0 FOR (%) FDR (%) Ind de perf DLDv2 sc100% DLD[17] Gordo et al LLAH 0.0 0.8 35.0 45.0 0.0 0.0233 0.0 2.8 3.7 0.0 0.0 0.0 0.1 2.9 3.3/3.7 0.0 0.0 0.0 0.0 34.9 44.9 O(n log(log(n))) O(n log(log(n))) O(n log(n)) O(n) Complexité de calcul du descripteur Taille du descripteur Complexité de matching Temps de calcul du descripteur Temps de matching Utilisation de la mémoire O(n) O(1) O(n) O(n) O(m × n) O(1) O(m) O(1) 0.153s 0.01 s 0.05 s 0.06 s 5,6s 7,5s 48,8s 0.01 s 0.06 s 0.07 s 212 Mo 212 Mo 500 Mo 284(96) Mo 4.7(3.9) Go (114) Go Nombre de régions requis RAS < 30 − 40 RAS > 100 Utilisation dans les applications de sécurisation Oui Oui Non Non La complexité de la transformation de la triangulation de Delaunay en un graphe ordonné est de O(n) car chaque centrọde est traité une fois Le cỏt de calcul total du descripteur est alors O(n2 ) dans sa mise en œuvre actuelle et il peut être optimisé O(n log n) et O(n log(log(n)) dans le cas général (confère [17]) Le nouveau DLD a une taille équivalente au nombre de régions présentes dans le document, donc sa taille de mémoire est O(n) Au stade actuel, nous considérons toutes les centroïdes des régions du document Nous pensons réduire la taille du descripteur en ne considérant pas systématiquement tous les centroïdes En effet, l’un des avantages de l’approche locale est de 56 pouvoir choisir les points d’ancrage et leurs voisins On peut décider par exemple de ne pas en compte les sommets situes dans les zones d’instabilités En ce qui concerne la mise en correspondance d’une mise en page avec la base de données, il peut être réalisé en O(m) avec m représentant le nombre de régions de la mise en page requête Nous recherchons une correspondance exacte entre les sous-graphes de chaque layout Cependant, au stade actuel, la taille de la table de hachage est équivalente au nombre de layouts dans la base dû au fait que nous considérons les coordonnées des Points d’ancrage de chaque région Donc, le temps de matching est de O(m × n) 4.4 4.4.1 Analyse des résultats Les points forts du nouveau descripteur Pour un score de moins de 80%, tous les métriques de performance (FPR, FNR, FDR, FOR) sont nuls Cela permet donc de faire une meilleure appréciation de la similarité de document En effet, dans le cas du DLD actuel, tous les documents dans cette situation auraient été classés systématiquement comme non similaires Ce qui n’est pas forcement avéré avec le risque d’introduction de bruits L’approche locale nous permet de ne pas être trop strict dans la comparaison Ce qui était un des grands défauts du DLD Ainsi, en fonction des situations, on peut décider de fixer un seuil de similarité pertinent partir duquel on pourra pousser la vérification du document comparer Par contre, si ce seuil n’est pas atteint, on peut en ce moment que les documents ne sont pas similaires Les métriques calculés avec un score de 100% sont presque identiques ceux du DLD Ces résultats sont logiques et montrent que l’approche locale reste fidèle l’approche globale Cette différence s’explique principalement au niveau du matching des sous-graphes En effet, nous avons vu qu’il y a une instabilité dans l’ordonnancement des sommets du sous-graphe due aux mesures d’angle Ainsi, lorsque l’angle de rotation du document est supérieur celui défini lors du paramétrage des calculs, on peut avoir des ordonnancements différents et par conséquence des matchings négatifs Les performances avec un score de 100% peuvent être améliorées en ne considérant pas par exemple tous les sommets du graphe principal En décidant de ne prendre en compte que les sommets situées hors des zones d’instabilité, l’ordonnancement des sommets sera plus stable ce qui permet d’avoir des matchings positifs A l’image du DLD, le nouveau descripteur reste meilleur que ceux de Gordo et LLAH notamment sur les métriques de performance En effet, le descripteur reste toujours plus stable malgré son approche locale Cela s’explique principalement par le fait que le descripteur n’utilise pas de valeurs continues pour modéliser les régions ainsi que leurs relations 57 spatiales Au regard des résultats obtenus, nous pouvons dire que le nouveau descripteur est plus tolérant que son prédécesseur En effet, il ne souffre plus des problèmes de nombre de régions qui doivent être identiques pour deux layouts et qui doit être inférieur 30-40 régions En outre, grâce au paramétrage de seuillage de similarité, on peut mieux améliorer les critères d’appréciations de comparaison de deux documents Car l’objectif n’est pas de dire que les documents sont identiques mais qu’ils sont similaires Le nouveau descripteur partir d’un certain seuil de similarité reste meilleur que le DLD actuel ainsi que les autres descripteurs dans la littérature 4.4.2 Les points faibles du nouveau descripteur La nouvelle mise en correspondance étant locale, les cas d’échecs se situent donc au niveau des sous-graphes Comme évoqué plus haut, l’ordonnancement des sommets du sous-graphe a une instabilité liée aux erreurs d’angle Ainsi, en fonction des situations, on peut avoir des ordonnancements des sommets des deux sous-graphes comparer Par la suite, si le nombre total de bons matching locaux est inférieur au seuil de similarité, le mactching sera négatif Mais nous pouvons voir que cette situation arrive lorsqu’on cherche exactement un matching 100% De plus, les cas de rotation supérieur 15˚sont un peu rares dans la réalité Outre les cas d’échec, le nouveau descripteur présente un temps de calcul et de matching plus longs que ses prédécesseurs Cela s’explique principalement par l’utilisation de l’approche locale de calcul et de mise en correspondance De plus, la prise en compte des instabilités lors du matching a un impact important sur son temps En effet, en plus des celles issues du graphe principal de triangulation, nous avons celle de l’ordonnancement des sommets du sous-graphe Ainsi, en choisissant de ne pas prendre en compte lesdites instabilités les temps de calcul et de matching sont de l’ordre de la milliseconde avec des résultats comparables aux autres descripteurs On peut donc faire le compromis entre la rapidité des calculs et les erreurs de classification Précisément, si on veut avoir de meilleurs résultats, il faut prendre le temps qu’il faut 58 Chapitre Bilan Dans le cadre de notre stage, nous avons étudié le descripteur de mise en page DLD Ce travail fait suite aux travaux menés dans [18] afin d’améliorer la tolérance dudit descripteur Pour ce faire, nous avons subdivisé le travail en deux parties principales savoir une étude théorique et une implémentation pratique Dans la partie théorique, nous avons effectué une analyse et une étude bibliographique qui nous ont permis d’avoir une large compréhension de notre sujet Nous avons ainsi pu étudier quelques travaux en rapport avec notre thème Il s’agit particulièrement des travaux réalisés par Sébastien Ezkenazi dans sa thèse [18] notamment les chapitres 1, et Par la suite, nous avons approfondi notre compréhension travers d’autres travaux Enfin, c’est sur la base de cette recherche bibliographique que nous avons proposé une solution notre problème De plus, nous avons élaboré un planning prévisionnel pour entamer la deuxième partie de notre stage Il s’agit de la partie pratique où dans un premier temps, nous avons testé le descripteur actuel pour voir comment il se comporte sur des images artificielles Nous avons par la suite recalculé les indicateurs obtenus par Eskenazi et al dans [18] sur le corpus LayoutCopies pour évaluer notre descripteur Dans la phase pratique, nous avons fait des tests sur le descripteur développé avec des images crées manuellement pour faire ressortir un certain cas de figures de la vie réelle Cela nous a permis d’améliorer et/ou valider notre descripteur suite son évaluation Nous avons pu ainsi améliorer la tolérance du descripteur En outre, nous avons testé le descripteur sur le corpus d’images LayoutCopies pour avoir une comparaisons avec le DLD Les résultats obtenus sont assez satisfaisants En effet, le nouveau descripteur présente des indicateurs (FNR, FPR, FDR et FOR) presque identiques que son prédécesseur Par contre, son temps de matching est légèrement plus important au regard de son approche locale Mais, comme nous l’avions souligné dans le Chapitre 3, nous nous ne sommes pas essentiellement focalisés sur le temps de calcul Par ailleurs, le nouveau descripteur produit un matching positif pour une similarité proche de 80% entre deux documents Nous pensons pourvoir encore améliorer ce score en travaillant encore sur l’ordonnancement des sommets des sous-graphes Nous avons rempli notre objectif de proposer une solution alternative au manque de tolérance du descripteur de mise en page DLD initialement proposé dans [18] En effet, comme cela a été présenté la fin de la section précédente, notre nouveau descripteur ne souffre plus des deux problèmes relevés lors de son analyse (voir Section 1.2) Parallèlement cela, nous avons pu identifier des paramètres crédibles et intuitifs afin de palier au problème d’instabilité des résultats des algorithmes de segmentation En effet, il s’agit de considérer un certain nombre de régions et non toutes les régions de manière globale Cela permet ainsi de se focaliser sur certaines parties du document car il est presque impossible d’avoir toujours la même segmentation pour deux documents en considérant les bruits d’impression et de numérisation en plus de l’imperfection des algorithmes de segmentation En outre, nous pouvons décider de ne prendre en considération des sommets de la triangulation si ces derniers situés dans une zone d’instabilités L’approche locale présente plus de souplesse de celle globale et permet donc plus de largesse dans les manipulations Par contre, notre approche présente une faiblesse dans le sens où le choix des valeurs des paramètres (seuil de tolérance, distance entre centroïdes de deux régions ) est laissé l’appréciation de l’utilisateur Ainsi, il se peut que en fonction des valeurs choisies les résultats obtenus peuvent différer De plus, on peut se poser des questions sur la pertinence de dire qu’« un document n’a pas été falsifié car il a x% de similarité avec le document original » En d’autre terme, partir de quelle valeur le seuil de tolérance peut ne pas être réfuté ? C’est cette question qui constitue notre perspective dans le court terme afin de proposer un certain nombre de valeurs ou de plage de valeurs plus objectives pour paramétrer le descripteur Ainsi, en fonction des situations, le descripteur pourra être adapté la situation qui prévaut Pour ce faire, nous allons tester le descripteur sur les résultats de différents algorithmes de segmentations et sur des documents ayant plus de 60 régions Cela permettra donc de mesurer la stabilité du descripteur A long terme, nous envisageons une approche de matching pyramidale Il s’agit d’effectuer le matching par niveau et d’avancer au fur et mesure en fonction des résultats positifs obtenus Pour ce faire, on peut décider de faire des clusters regroupant des centroïdes particuliers et de faire le matching sur les clusters obtenus En effet, nous pensions que cette approche présentera l’avantage d’augmenter plus le score de similarité entre deux documents notamment en cas de nombre de régions différent En outre, elle permettra de réduire considérablement le temps de matching 60 Chapitre Annexe 6.1 Les résultats des tests du nouveau descripteur sur les images artificielles Figure 6.1 – Matching entre l’image originale et une image dont les régions sont plus écartées Dans ce cas, on a un score de 1/6 sans prises en comptes des instabilités Les sommets qui correspondent deux deux sont P1 : (265 ;217) et P2 : (325.5 ;210.5) Figure 6.2 – Matching entre l’image originale et une image dont les régions sont plus écartées Dans ce cas, on a un score de 6/6 après prise en compte des instabilités notamment de triangulation Tous les sommets correspondent Figure 6.3 – Matching entre l’image originale et une image dont les régions ont subie une rotation d’un angle de -5˚avant la prise en compte des instabilités Dans ce cas, on a un score de 6/6 Tous les sommets correspondent deux deux un décalage près 62 Figure 6.4 – Matching entre l’image originale et une image dont les régions ont subie des déformations Dans ce cas, on a un score de 1/6 Les sommets correspondant deux deux sont P(841.12 ;138.99) et P(845.5 ; 210.5) 6.2 Les indicateurs de performance Il existe un ensemble d’indicateurs de performance pour mesurer un algorithme de classification sur un ensemble de données donné (voir la figure 6.5) — Le taux de faux négatifs (FNR) est la probabilité qu’un événement soit prédit négatif quand il est positif Par exemple « qu’un document authentique soit détecté tort comme modifié » — Le taux de faux positifs (FPR) est la probabilité qu’un événement soit prédit positif quand il est négatif Par exemple « qu’un document modifié soit détecté tort comme authentique » — Le taux de fausse omission (FOR) est la probabilité qu’un événement soit positif quand il est prédit négatif Par exemple « qu’un document détecté comme modifié soit réellement authentique » — Le taux de fausse découverte (FDR) est la probabilité qu’un événement soit négatif quand il est prédit positif Par exemple « qu’un document détecté comme authentique soit réellement modifié » — Condition positive = nombre des documents similaires (par rapport la vérité Tableau reproduit de https ://en.wikipedia.org/wiki/Precision_and_recall 63 Figure 6.5 – Les indicateurs de performance pour la classification Dans notre cas, ce sont les indicateurs de performance grisés qui sont utilisés (source [18]) terrain) — Condition negative = nombre des documents différents (par rapport la vérité terrain) — Prediction positive = nombre des documents qui ont le même layout et ils sont reconnus comme les mêmes ou nombre des documents qui ont un layout différent et ils sont reconnus comme différents (TP + TN) — Prediction negative = nombre des documents qui ont le même layout et ils sont reconnus comme différents ou nombre des documents qui ont un layout différent et ils sont reconnus comme les mêmes (FP + FN) — True positive (TP) : les deux documents ont le même layout et ils sont reconnus comme les mêmes — False positive (FP) : les deux documents ont le même layout et ils sont reconnus comme différents — True negative (TN) : les deux documents ont un layout différent et ils sont reconnus comme différents — False negative (FN) : les deux documents ont un layout différent et ils sont reconnus comme mes mêmes Les formules de calculs des indicateurs FPR, FNR, FDR et FOR définis par les acteurs 64 sur les layouts du corpus CopiesLayout se présentent comme suit : n Mij − n FPR = − i=1 j=1 N −n (6.1) n Mij F NR = − i=1 j=1 (6.2) N n N− Mij i=1 j=1 n F OR = n×n− (6.3) Mij i=1 j=1 n Mij F DR = i=1 j=1 N où les Mij correspondent aux valeurs des documents non similaires (6.4) (6.5) où — n désigne le nombre total de documents du corpus c’est-à-dire 960 — M désigne la matrice carrée d’ordre 960 contenant les résultats du matching entre les layouts du corpus CopiesLayout deux deux — N désigne le nombre total de similarité entre les documents  1 quand le matching est positif entre le layout et le layout i j Mij = 0 sinon N = 64 × 64 × 17 (6.6) (6.7) En plus de ces indicateurs, nous nous sommes intéressés aux facteurs industriels de notre descripteur Il s’agit principalement de la taille, de la complexité de calcul et le temps de calcul, de la complexité et le temps de matching du descripteur Cependant, 65 nous tenons rappeler une fois de plus que nous nous sommes pas focalisés sur ces derniers indicateurs 66 Bibliographie [1] Francisco Alvaro and Richard Zanibbi A shape-based layout descriptor for classifying spatial relationships in handwritten math In Proceedings of the 2013 ACM symposium on Document engineering, pages 123–126 ACM, 2013 [2] ANR Projet shades (hachage sémantique pour la signature électronique avancée de document) _ anr - agence nationale de la recherche http ://www.agence-nationalerecherche.fr/Projet-ANR-14-CE28-0022, 2014, consultée en février 2018 [3] ANSSI.fr Le règlement eidas https ://www.ssi.gouv.fr/entreprise/reglementation/confiancenumerique/le-reglement-eidas/, , consultée en février 2018 [4] Apostolos Antonacopoulos, David Bridson, Christos Papadopoulos, and Stefan Pletschacher A realistic dataset for performance evaluation of document layout analysis In Document Analysis and Recognition, 2009 ICDAR’09 10th International Conference on, pages 296–300 IEEE, 2009 [5] László Babai and Eugene M Luks Canonical labeling of graphs In Proceedings of the fifteenth annual ACM symposium on Theory of computing, pages 171–183 ACM, 1983 [6] Andrew D Bagdanov and Marcel Worring First order gaussian graphs for efficient structure classification Pattern Recognition, 36(6) :1311–1324, 2003 [7] Jorge Calvo-Zaragoza, Ke Zhang, Zeyad Saleh, Gabriel Vigliensoni, and Ichiro Fujinaga Music document layout analysis through machine learning and human feedback In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), pages 23–24 IEEE, 2017 [8] Francesca Cesarini, Marco Lastri, Simone Marinai, and Giovanni Soda Encoding of modified xy trees for document classification In Document Analysis and Recognition, 2001 Proceedings Sixth International Conference on, pages 1131–1136 IEEE, 2001 [9] Bidyut B Chaudhuri Digital document processing : major directions and recent advances Springer Science & Business Media, 2007 67 [10] Kai Chen, Fei Yin, and Cheng-Lin Liu Hybrid page segmentation with efficient whitespace rectangles extraction and grouping In Document Analysis and Recognition (ICDAR), 2013 12th International Conference on, pages 958–962 IEEE, 2013 [11] Donatello Conte, Pasquale Foggia, Carlo Sansone, and Mario Vento Thirty years of graph matching in pattern recognition International journal of pattern recognition and artificial intelligence, 18(03) :265–298, 2004 [12] Nicholas Dahm, Horst Bunke, Terry Caelli, and Yongsheng Gao Topological features and iterative node elimination for speeding up subgraph isomorphism detection In Pattern Recognition (ICPR), 2012 21st International Conference on, pages 1164– 1167 IEEE, 2012 [13] Quoc Bao Dang, Marỗal Rusiủol, Mickaởl Coustaty, Muhammad Muzzamil Luqman, CD Tran, and Jean-Marc Ogier Delaunay triangulation-based features for camerabased document image retrieval system In Document Analysis Systems (DAS), 2016 12th IAPR Workshop on, pages 1–6 IEEE, 2016 [14] Samuel de Sousa and Walter G Kropatsch Data graph formulation as the minimumweight maximum-entropy problem In International Workshop on Graph-Based Representations in Pattern Recognition, pages 13–22 Springer, 2015 [15] Yining Deng and BS Manjunath Unsupervised segmentation of color-texture regions in images and video IEEE transactions on pattern analysis and machine intelligence, 23(8) :800–810, 2001 [16] Draw.io Draw.io https ://www.draw.io/, , consultée le 01 octobre 2017 [17] Sébastien Eskenazi, Petra Gomez-Krämer, and Jean-Marc Ogier The delaunay document layout descriptor In Proceedings of the 2015 ACM Symposium on Document Engineering, pages 167–175 ACM, 2015 [18] Sébastien Eskenazi On the stability of document analysis algorithms : application to hybrid document hashing technologies PhD thesis, La Rochelle, 2016 [19] Floriana Esposito, Donato Malerba, and Giovanni Semeraro Multistrategy learning for document recognition Applied Artificial Intelligence an International Journal, 8(1) :33–84, 1994 [20] Pasquale Foggia, Gennaro Percannella, and Mario Vento Graph matching and learning in pattern recognition in the last 10 years International Journal of Pattern Recognition and Artificial Intelligence, 28(01) :1450001, 2014 [21] Xinbo Gao, Bing Xiao, Dacheng Tao, and Xuelong Li A survey of graph edit distance Pattern Analysis and applications, 13(1) :113–129, 2010 [22] A Malvido Garcia Secure imprint generated for paper documents (signed) Bit Oceans Research, Tech Rep, 2013 68 [23] Albert Gordo and Ernest Valveny A rotation invariant page layout descriptor for document classification and retrieval In Document Analysis and Recognition, 2009 ICDAR’09 10th International Conference on, pages 481–485 IEEE, 2009 [24] Imatag exemples d’usages du tatouage numérique https ://imatag.com/blog/2017/06/30/6-exemples-dusages-du-tatouagenumerique/, 30 juin 2017, consultée en mai 2018 [25] Eiji Kasutani and Akio Yamada The mpeg-7 color layout descriptor : a compact image feature description for high-speed image/video segment retrieval In Image Processing, 2001 Proceedings 2001 International Conference on, volume 1, pages 674–677 IEEE, 2001 [26] Koichi Kise, Akinori Sato, and Motoi Iwata Segmentation of page images using the area voronoi diagram Computer Vision and Image Understanding, 70(3) :370–382, 1998 [27] Ina Koch Enumerating all connected maximal common subgraphs in two graphs Theoretical Computer Science, 250(1-2) :1–30, 2001 [28] Jesse Kornblum Identifying almost identical files using context triggered piecewise hashing Digital investigation, :91–97, 2006 [29] lesnumeriques La magie de shazam_ dans les entrailles de l’algorithme https ://www.lesnumeriques.com/audio/magie-shazam-dans-entraillesalgorithme-a2375.html#page-2, 13/11/15, consultée le 30 avril 2018 [30] Jian Liang, David Doermann, Matthew Ma, and Jinhong Katherine Guo Page classification through logical labelling In Pattern Recognition, 2002 Proceedings 16th International Conference on, volume 3, pages 477–480 IEEE, 2002 [31] James J McGregor Backtrack search algorithms and the maximal common subgraph problem Software : Practice and Experience, 12(1) :23–34, 1982 [32] Tomohiro Nakai, Koichi Kise, and Masakazu Iwamura Use of affine invariants in locally likely arrangement hashing for camera-based document image retrieval In International Workshop on Document Analysis Systems, pages 541–552 Springer, 2006 [33] Diego Massola Shimizu and Hae Yong Kim Perceptual hashing for hardcopy document authentication using morphological segmentation In Int Symposium on Mathematical Morphology, pages 77–78, 2007 [34] Andreea Smoaca ID Photograph hashing : a global approach PhD thesis, Saint Etienne, 2011 69 [35] Kaushal Solanki, Upamanyu Madhow, BS Manjunath, Shiv Chandrasekaran, and Ibrahim El-Khalil Print and scan’resilient data hiding in images IEEE Transactions on Information Forensics and Security, 1(4) :464–478, 2006 [36] Lina Tan, Xingming Sun, Zhili Zhou, and Wei Zhang Perceptual text image hashing based on shape recognition Adv Inf Sci Serv Sci.(AISS), 3(8) :1–7, 2011 [37] Wen-Hsiang Tsai and King-Sun Fu Error-correcting isomorphisms of attributed relational graphs for pattern analysis IEEE Transactions on systems, man, and cybernetics, 9(12) :757–768, 1979 [38] Renato Villán, Sviatoslav Voloshynovskiy, O Koval, Frédéric Deguillaume, and Thierry Pun Tamper-proofing of electronic and printed text documents via robust hashing and data-hiding In Security, Steganography, and Watermarking of Multimedia Contents IX, volume 6505, page 65051T International Society for Optics and Photonics, 2007 [39] Avery Wang et al An industrial strength audio search algorithm In Ismir, volume 2003, pages 7–13 Washington, DC, 2003 [40] Wikipedia Graph isomorphism problem https ://en.wikipedia.org/wiki/Graph_isomorphism_pro , consultée en mai 2018 [41] Wikipedia Github — wikipédia https ://fr.wikipedia.org/wiki/GitHub, 15 novembre 2017 14 :43., consultée le 30 septembre 2017 [42] Wikipedia Sharelatex — wikipédia https ://fr.wikipedia.org/wiki/ShareLaTeX, 29 mai 2017 17 :11., consultée le 01 octobre 2017 [43] Wikipédia Tatouage numérique https ://fr.wikipedia.org/wiki/Tatouage_numérique, 24 février 2018, consultée en mai 2018 [44] Wikipédia Fonction de hachage https ://fr.wikipedia.org/wiki/Fonction_de_hachage, 29 avril 2018, consultée le 12 mai 2018 [45] Wikipédia Spectrogramme — wikipédia https ://fr.wikipedia.org/wiki/Spectrogramme, février 2015 [46] Laurenz Wiskott, Jean-Marc Fellous, Norbert Krüger, and Christoph Von Der Malsburg Face recognition by elastic bunch graph matching In International Conference on Computer Analysis of Images and Patterns, pages 456–463 Springer, 1997 [47] Christoph Zauner Implementation and benchmarking of perceptual image hash functions PhD thesis, Fachhochschul-Masterstudiengang Sichere Informationssysteme in Hagenberg, 2010 70 ... the printing/photocopying and scanning process It is in this dynamic that the authors of the SHADES project (Semantic Hash for Advanced Document Electronic Signature) [2] proposed an advanced electronic... particularly related to its lack of tolerance for some (mostly unstable) results of segmentation algorithms and scanning and photocopying/printing noise This lack of tolerance is related to the matching... indétectables dans les images 1.1.4 Projet SHADES Le projet SHADES, pour Semantic Hash for Advanced Document Electronic Signature (en franỗais Hachage Sộmantique pour la Signature Electronique Avancée

Định dạng
Số trang	81
Dung lượng	4,6 MB