1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Développement d’un prototype de laboratoire sur le marquage de documents textuels et texturés en vue d’empêche la fraude des diplômes de l’université de la rochelle

63 74 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 1,7 MB

Nội dung

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONIE INTERNATIONAL LÊ THỊ THÙY TRANG DÉVELOPPEMENT D’UN PROTOTYPE DE LABORATOIRE SUR LE MARQUAGE DE DOCUMENTS TEXTUELS ET TEXTURÉS EN VUE D’EMPÊCHE LA FRAUDE DES DIPLÔMES DE L’UNIVERSITÉ DE LA ROCHELLE PHÁT TRIỂN MỘT SẢN PHẨM THỬ NGHIỆM NHẰM ĐÁNH DẤU CÁC VĂN BẢN ĐỂ NGĂN CHẶN SỰ GIAN LẬN CÁC VĂN BẰNG CỦA ĐH LA ROCHELLE MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2018 UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONIE INTERNATIONAL LÊ THỊ THÙY TRANG DÉVELOPPEMENT D’UN PROTOTYPE DE LABORATOIRE SUR LE MARQUAGE DE DOCUMENTS TEXTUELS ET TEXTURÉS EN VUE D’EMPÊCHE LA FRAUDE DES DIPLÔMES DE L’UNIVERSITÉ DE LA ROCHELLE PHÁT TRIỂN MỘT SẢN PHẨM THỬ NGHIỆM NHẰM ĐÁNH DẤU CÁC VĂN BẢN ĐỂ NGĂN CHẶN SỰ GIAN LẬN CÁC VĂN BẰNG CỦA ĐH LA ROCHELLE Spécialité: Systèmes intelligents et Multimédia Code: Programme pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de: Dr Mickaël COUSTATY HANOI – 2018 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Các thơng tin trích dẫn Luận văn rõ nguồn gốc Signature de l’étudiant Lê Thị Thùy Trang Table de matière REMERCIEMENTS Table des figures et tableaux Tableau des acronymes INTRODUCTION Chapitre : PRÉSENTATION GENÉRALE 1.1 Présentation de l’établissement d’accueil 1.1.1 Présentation de l’Université de La Rochelle – organisme d’accueil 1.1.2 Présentation du laboratoire L3i – lieu de travail 1.1.3 Présentation du projet SeAD 10 1.2 Contexte du sujet 10 Chapitre – DESCRIPTION DES MODELES GENERATIFS 13 2.1 Les variations de l’auto-encodeur (AE) 13 2.1.1 Auto-encodeur vanille et Auto-encodeur multicouches 14 2.1.1.1 L’architecture de l’auto-encodeur 14 2.1.1.2 La fonction de perte 16 2.1.2 Auto-encodeur sparse (SPAE) 17 2.1.3 Auto-encodeur contractif (CAE) 18 2.1.4 Auto-encodeur convolution (convolutional auto-encodeur -convAE) 19 2.1.5 Dé-bruitage auto-encodeur (de-noising auto-encodeur – denoisingAE) 20 2.1.6 Auto-encodeur variationnel (VAE) 22 2.1.7 Auto-encodeur variationnel conditionnel (CVAE) 23 2.2 Les variations de générative réseau contradictoire (GAN) 24 2.2.1 Générative réseau contradictoire (Generative adversarial network GAN) 24 2.2.1.1 L’architecture de GAN 24 2.2.1.2 Le processus d’apprentissage 25 2.2.1.3 La fonction de perte 25 2.2.2 Générative réseau contradictoire conditionnel (Conditional Generative Adversarial Networks – CGAN) 26 2.2.3 Profond convolutif générative réseau contradictoire (Deep Convolutional Generative Adversarial Networks – DCGAN) 27 2.2.4 Wasserstein générative réseau contradictoire (Wasserstein generative adversarial networks – WGAN) 28 2.2.5 Auto-encodeur contradictoire (Adversarial auto-encoder – AAE) 29 Chapitre – PROTOCOLE EXPRÉRIMENTAL 32 3.1 Les base de données 32 3.1.1 La base MNIST 32 3.1.2 La base BALI 33 3.2 Le protocole expérimental 36 3.3 Brève description de la technique de reconnaissance 49 3.3.1 Le système de reconnaissance pour la base MNIST 49 3.3.2 Le système de reconnaissance pour la base BALI 49 Chapitre – RÉSULTATS ET DISCUSSIONS 50 4.1 Les résultats obtenus 50 4.2 Discussions sur les résultats obtenus 50 Chapitre – CONCLUSION ET PERSPECTIVE 57 5.1 Conclusion 57 5.2 Perspective 58 BIBLIOGRAPHIE 59 REMERCIEMENTS Je tiens tout d’abord remercier tous les professeurs de l’Institut Francophone International (IFI) Je souhaite exprimer ma sincère gratitude vous qui avez pris le temps de m’aider au cours de ces trois années et de m’avoir accompagné dans la mtrise de mes connaissances Je tiens exprimer toute ma reconnaissance mon responsable du stage Mickaël COUSTATY Je voudrais le remercier pour son encadrement scientifique, mais également pour sa gentillesse, son talent et sa création Il était toujours disponible pour me soutenir normalement, scientifiquement ainsi qu’administrativement Je voudrais également remercier chaleureusement Tanmoy MONDAL pour ses conseils et ses discussions, ses explications, et sa gentillesse Cela faisait vraiment un grand plaisir de travailler avec lui pendant ces cinq mois Je remercie également toute l’équipe Image et Contenus ainsi que le laboratoire L3i pour leur accueil et leur aide pendant mon stage, notamment pour m’avoir fait profiter d’un bureau et d’un ordinateur ainsi que de toutes les infrastructures associées du L3i Je tiens en outre remercier Région Nouvelle Aquitaine & Européen Union qui, au travers du projet SeAD (contrat No ANR-13-BS02-0004), dans le programme opérationnel FEDER/FSE 2014-2020 a financé ce stage et sans qui rien n’aurait été matériellement possible Je désire remercier Made Windu Antara Kesiman pour m’avoir fourni le jeu de données BALI et pour son aide concernant les techniques de reconnaissance de caractères Je voudrais exprimer mes sincères remerciements aux Vietnamiens dans le laboratoire L3i qui m’a beaucoup aidé pendant mon séjour La Rochelle Je tiens remercier tous les employés ainsi que les secrétaires de l’IFI, pour leur aide plusieurs reprises Finalement, j’adresse un grand merci toute ma famille et mes amis pour leur soutien et leur énorme encouragement au long de la réalisation de ce mémoire A tous ces intervenants, je présente mes remerciements, mon respect et ma gratitude Table des figures et tableaux Figure 2-1: Structure générale d’un auto-encodeur 14 Figure 2-2: Auto-encodeur vanille 15 Figure 2-3: La couche de un-pooling 20 Figure 2-4: Le graphique de calcul de la fonction de coût pour un dé-bruitage auto-encodeur 21 Figure 2-5: L’architecture de GAN 24 Figure 2-6 : Le générateur DCGAN 27 Figure 2-7 : L’architecture de l’auto-encodeur contradictoire 31 Figure 3-1: Extrait de la base d'images MNIST 33 Figure 3-2: Extrait de la base d'images BALI 34 Figure 3-3: Extrait de la base d'images BALI après la chne de traitement 35 Figure 3-4: Les images générées par divers modèles 39 Figure 3-5 : Les classes de la base BALI qui donnent des bons résultats générés par l’auto-encodeur 40 Figure 3-6 : Les classes de la base BALI qui donnent des bons résultats générés par le CAE 41 Figure 3-7 : Les classes de la base BALI qui donent des bons résultats générés par le SPAE 42 Figure 3-8 : Les classes de la base BALI qui donent des mauvais résultats générés par l’auto-encodeur 43 Figure 3-9 : Les classes de la base BALI qui donent des mauvais résultats générés par le CAE 44 Figure 3-10 : Les classes de la base BALI qui donent des mauvais résultats générés par le SPAE 45 Figure 3-11: Le cas de deux classes : DI et I qui contiennts des images de caractères presque identiques 46 Figure 3-12 : Le cas de deux classes : KA et KATEDONG qui contiennts des images de caractères presque identiques 47 Figure 3-13 : Le cas de deux classes : TU et U qui contiennts des images de caractères presque identiques 48 Tableau 4-1: Précision sur les images générées / originales 50 Tableau des acronymes AAE AE CAE CGAN CNN convAE CVAE DCGAN DGM GAN KL MSE PCA SPAE VAE WGAN Adversarial auto-encoder Auto-encoder Contractive auto-encoder Conditional generative adversarial network Convolutional neural network Convolutional auto-encoder Conditional variational auto-encoder Deep convolutional generative adversarial network Deep generative network Generative adversarial network Kullback-Leibler Mean Squared Error Principal Component Analysis Sparse auto-encoder Variational auto-encoder Wassertein generative adversarial network INTRODUCTION À nos jours, le problème de la sécurisation de diplômes a pris beaucoup d’ampleur En particulier, des besoins ont émergé dans le domaine de la sécurisation des diplômes auquel s’intéressent aujourd’hui un certain nombre d’acteurs car l’enjeu est de taille Il s’agit de protéger la réputation des établissements ainsi que d’améliorer l’insertion professionnelle de leurs étudiants Il devient de plus en plus difficile pour les établissements d’assurer la protection de leurs diplômes, particulièrement une époque où de plus en plus de modes de transfert d'informations sont disponibles De nombreux mécanismes de sécurités des contenus (stéganographie) ont été proposés : QR code apposé sur les contenus, marquage des documents base de nanoparticules, coffre-fort numérique, watermarking Bien que ces mécanismes aient pu répondre un ensemble d’exigences de sécurité, ils demeurent uniquement efficaces dans un contexte spécifique lié aux hypothèses et aux exigences restrictives qui ont été émises lors de la conception Parmi les méthodes pour sécuriser des contenus, il existe des méthodes visible et invisible Pour les méthodes invisibles, l'idée est de cacher de l'information dans celle présente dans les documents comme celle proposée par le L3i et la société SOOD En outre, l’explosion de l'apprentissage en profondeur, en particulier les modèles génératifs profonds (qui connais en anglais avec le nom : Deep Generative Modeles - DGM) qui offrent un nouveau potentiel pour les techniques de dissimulation de l'information Dans le cadre du projet SeAD, nous aimerions donc appliquer le modèle génératif profond pour construire le prototype des diplômes de l’Université de La Rochelle Plus spécifiquement, après avoir identifié la zone importante, le modèle génératif est utilisé pour encoder des messages en fonction de cette zone détectée C’est pourquoi, dans le cadre du projet SeAD, le travail de stage consiste étudier les nouvelles méthodes de génération de caractères qui permettent d'encoder de l'information (via des caractères déformés) via des réseaux de neurones profonds Dans le cadre de ce stage, une évaluation de la performance des douze modèles génératifs profonds différents des deux catégories des modèles : Auto-encodeur (AE) et Générative réseau contradictoire (qui connait en anglais : Generative Adversarial Network - GAN) sur deux ensembles de données manuscrites (MNIST et BALI) est proposée Cette évaluation nous permet non seulement trouver le modèle génératif parmi les douze modèles qui correspond le mieux aux caractères d’écritures, mais encore mettre en évidence les avantages et les inconvénients de chaque modèle À partir de ces remarques sur ces modèles, nous pourrons proposer l’avenir un modèle génératif qui fonctionnera efficacement avec des caractères manuscrits sur des diplômes de l’Université de La Rochelle Le mémoire est structuré en cinq grandes parties suivantes : Chapitre – Présentation générale Ce chapitre présente brièvement l’environnement du stage, le contexte du sujet et la description générale de l’objectif du stage, le domaine de recherche et le cadre du sujet Chapitre – Description des modèles génératifs Dans ce chapitre, nous représentons les idées principales douze modèles génératifs de deux types de modèles : Auto-encoder (AE) et Generative Adversarial Network (GAN) Chapitre – Protocole expérimental Dans le cadre de ce chapitre, on parlera des ensembles des données pour évaluer les modèles génératifs Ensuite, le protocole expérimental sera présenté Enfin, nous montrerons la technique de reconnaissance des images Chapitre – Résultats et discussions Ce chapitre consacre présenter des résultats obtenus et des discussions sur ces résultats Chapitre – Conclusion et Perspective Il s’agira de faire la conclusion et de présenter les perspectives du sujet 46 Image originale Image généré par l’AE Image généré par le CAE Image généré par le SPAE Classe DI Classe I Figure 3-11: Le cas de deux classes: DI et I qui contiennts des images de caractères presque identiques 47 Image originale Image généré par l’AE Image généré par le CAE Image généré par le SPAE Classe KA Classe KATEDONG Figure 3-12 : Le cas de deux classes : KA et KATEDONG qui contiennts des images de caractères presque identiques 48 Image originale Image généré par l’AE Image généré par le CAE Image généré par le SPAE Classe TU Classe U Figure 3-13 : Le cas de deux classes : TU et U qui contiennts des images de caractères presque identiques 49 3.3 Brève description de la technique de reconnaissance Nous utilisons un système de reconnaissance basé sur le réseau neuronal convolutif (CNN) pour reconntre les images générées car le réseau neuronal convolutif est une méthode unique Il combine la segmentation, l'extraction des fonctionnalités et la classification dans un module de traitement Dans le cadre de ce travail, nous proposons deux l'architecture CNN différents pour deux bases d’images qui sont présentés suivants 3.3.1 Le système de reconnaissance pour la base MNIST Pour la base de données MNIST, l'architecture CNN suivante est utilisée Ce réseau se compose d'abord d'une couche convolutionnelle qui prend 64 matrices de convolution de taille × + LeakyReLu suivie de Max-Pooling de taille × 2, et strides = (2 × 2) La deuxième couche convolutionnelle prend 32 matrices de convolution de taille × + LeakyReLu suivies d'une couche MaxPooling de × 2, strides = (2 × 2) Il en résulte une réduction de dimension de × × 32 × × 1024 qui est ensuite appliquée au réseau neuronal entièrement connecté pour classer les images en 10 classes 3.3.2 Le système de reconnaissance pour la base BALI Dans le cas d'une base de données BALI, une architecture basée sur CNN plus profonde est utilisée en raison de la mauvaise qualité d'image de la base de données BALI L'architecture de ce CNN est la suivante : La première couche convolutionnelle prend 64 matrices de convolution de taille × + LeakyReLu, suivies de la couche Max-Pooling de taille × 2, strides = (2 × 2) La deuxième couche convolutionnelle prend 32 matrices de convolution de taille × + LeakyReLu, suivies d'une couche MaxPooling de taille × 2, strides = (2 × 2) La troisième couche convolutionnelle prend 32 matrices de convolution de taille × + LeakyReLu, suivies d'une couche MaxPooling de taille × 2, strides = (2 × 2) Le vecteur caractéristique est réduit des dimensions × × 32 des dimensions × × 100 qui sont ensuite introduites dans un réseau neuronal entièrement connecté pour classer les images en 50 classes 50 Chapitre – RÉSULTATS ET DISCUSSIONS 4.1 Les résultats obtenus Dans le but d’évaluer la performance des modèles, ces caractères générés sont reconnus en utilisant un outil de reconnaissance de caractères pour calculer les performances statistiques de ces caractères générés par rapport aux images de caractères originales Les résultats de la reconnaissance sont présentés dans le tableau 4-1 cidessous Il peut être visible que CAE, SPAE et CVAE ont mieux fonctionné dans le cas de l'ensemble de données MNIST alors que SPAE s'est bien comporté pour l'ensemble de données BALI Modèle AE CAE SPAE CVAE CGAN La base MNIST 89.98/97.25 96.79/97.25 95.92/97.25 92.40/97.25 87.52/97.52 La base BALI 40.01/60.01 47.50/60.01 54.99/60.01 35.01/60.01 29.97/60.01 Tableau 4-1: Précision sur les images générées / originales 4.2 Discussions sur les résultats obtenus Notez que nous avons choisir la base MNIST et la base BALI pour tester la performance des modèles car ces sont des bases connues et qui se prêtent bien au processus de validation de notre méthode de génération de caractères La base de données MNIST est une vaste base de données de chiffres manuscrits couramment utilisée pour la formation de divers systèmes de traitement d'images de l'apprentissage automatique et de l’apprentissage en profondeur La base BALI est le jeu de données d'images de manuscrit de BALInese de paume vient de BALI, Indonésie Cet ensemble de données a des mêmes spécifications techniques que les signatures manuscrites C’est la raison pour laquelle, dans le cadre de ce projet, nous avons choisi ces deux base de donnée pour tester Après avoir exécuté des expérimentals avec des modèles étudiés dans la section précédente avec deux ensembles de données, on peut tirer des conclusions générales sur les modèles comme suit : Dans le cas de l'ensemble de données BALI : Notez que la base BALI contient des images de manuscrits sur feuilles de palmier En raison de leurs 51 caractéristiques spécifiques, les manuscrits sur feuilles de palmier posent de nouveaux défis en matière de génération des images La qualité des manuscrits sur feuilles de palmier est généralement médiocre, car les documents se sont dégradés avec le temps en raison des conditions de stockage Les matériaux naturels issus des feuilles de palmier ne peuvent certainement pas lutter contre le temps Les manuscrits sur feuilles de palmier contiennent des parties et des artefacts décolorés dus au vieillissement et de faibles variations d'intensité ou un faible contraste, des bruits aléatoires et la décoloration Plusieurs déformations des formes de caractères sont visibles en raison des fusions et des fractures dues l’utilisation de polices non standard, de l’espace variable entre les lettres et de l’espace entre les lignes Ces caractéristiques non seulement constituent un défi pour les tests et l'évaluation de la robustesse des méthodes d'extraction de caractéristiques déjà proposées pour la reconnaissance de caractères mais encore proposent des difficultés pour les modèles génératifs profonds Les scripts balinais sur des manuscrits en feuilles de palmier représentent un nouveau défi pour le développement de systèmes d’analyse de documents ainsi que génération de manuscrits 1) En général, l’application de modèles GAN au jeu de données BALI est très difficile Car les images du jeu de données BALI ont une taille variable, tandis que les modèles génératifs actuels nécessitent la même taille de toutes les images d’entrée Nous devons donc modifier la taille de ces images afin qu’elles aient la même taille Ce qui modifie la distribution capturer En revanche, pour les modèles GAN, des modifications des données d'entrée, même très petites et subtiles, rendent la difficulté d’échantillonage 2) La plupart des modèles basés sur l'encodeur automatique fonctionnent mieux que les modèles basés sur le GAN Car, l'idée principale des modèles basés sur l'auto-codeur est de reconstruire les images originales partir des représentations cachées Tandis que, les modèles basés sur le GAN essaient de générer les images partir de la distribution priori C'est la raison pour laquelle les GANs ont besoin de plusieurs images d'apprentissage par rapport l'auto-encodeur De plus, la qualité des images dans la base de données BALI est dégradée et bruyante Ainsi, il est difficile pour les modèles génératifs de reconstruire de telles images 3) Parmi les modèles basés sur GAN, le wGAN fonctionne mieux que d'autres parce que wGAN résout le problème de convergence (existe dans 52 4) 5) 6) 7) le modèle GAN classique) pendant le processus d'apprentissage en utilisant la distance de Wasserstein À partir des résultats obtenus, il peut être visible que CAE, SPAE et CVAE ont mieux fonctionné dans le cas de l'ensemble de données MNIST alors que SPAE s'est bien comporté pour l'ensemble de données BALI Parmi tous les auto-encodeurs, le modèle SPAE donne les meilleurs résultats car ce modèle ajoute un terme de pénalité supplémentaire la fonction d'optimisation Ce terme permet au SPAE d'apprendre une représentation robuste vis-à-vis de petits changements autour de ses exemples d'apprentissage Tandis que, les modèle auto-encodeur qui se base sur le réseau de neurones convolutionnels tels que convAE, denoisingAE donne des pires résultats car le réseau de neurones convolutionnels a besoin de nombreux échantillons pour chaque classe (qui ne fonctionne pas bien avec l'ensemble de données BALI), comme celui qui existe pour l'ensemble de données MNIST (≈ 60000) Si nous comparons les performances des modèles auto-encodeurs avec les modèles auto-encodeurs variationels, on peut constater que dans le cas des ensembles de données BALI, les modèles AE fonctionnent mieux car : Après avoir formé un VAE, nous disposons de deux correspondances (généralement paramétrées par des réseaux de neurones) : un réseau de codeurs et de décodeurs C'est la même chose qu'un AE de vanille, mais la différence est que ceux-ci correspondent une distribution sur des valeurs plutôt que des estimations ponctuelles Par conséquent, le processus de redimensionnement des images dans le jeu de données affecte la qualité des échantillons produits par le VAE Parmi les classes d’images, certaines classes donnent de bons résultats tels que : A, BA, CA, DA, DA-MADU, DU, KU, LA, YA, SA, GANTUNGAN-A, GANTUNGAN-DA car ces classes contiennent des images de caractères qui ont de nombreuses fonctionnalités Tandis que, d'autres classes donnent de mauvais résultats tels que : PEPET, SUKU, SUKU-KENGBUM, SURANG, ULU, ADEG-ADEG, TALENG, GANTUNGAN-MA, CECEK car ces classes contiennent des images de caractères moins caractéristiques, de plus la qualité de l'image n'est pas bonne Certaines classes contiennent des images de caractères presque identiques tels que DI et I ; KA et KATEDONG ; TU, U ; ce qui provoque la confusion du modèle pendant la génération de l'image 53 En général, nous pouvons tirer des commantaires sur les caractéristiques des modèles testés après avoir examiné les résultats des deux ensembles de données : • Les auto-encodeur régularisés tels que SPAE, CAE donnent des bons échantillons car les procédures de formations de ces auto-encodeur impliquent un compromis entre deux forces : i Apprentissage d'une représentation sur un exemple d'apprentissage x tel que x puisse être approximativement récupéré partir de h via un décodeur Le fait que x soit tiré des données d'apprentissage est crucial, car cela signifie que l'auto-codeur n'a pas besoin de reconstruire avec succès des entrées qui ne sont pas probables dans la distribution génératrice de données ii Satisfaire la contrainte ou la pénalité de régularisation Ces techniques préfèrent généralement des solutions qui sont moins sensibles l'entrée Les auto-codeurs régularisés apprennent des variétés en équilibrant deux forces opposées Les deux forces ensemble sont utiles car elles forcent la représentation cachée capturer des informations sur la structure de la distribution génératrice de données • Dans le car du CAE, ces deux forces sont une erreur de construction et la pénalité contractive Une erreur de reconstruction encouragerait le CAE apprendre une fonction d’identité La pénalité contractive encouragerait le CAE apprendre des caractéristiques constantes par rapport x Le compromis entre ces deux forces donne une auto-encodeur dont les ¶ f (x) sont presque petits Seul un petit nombre d'unités cachées, ¶x correspondant un petit nombre de directions dans l'entrée, peut avoir des dérivées significatives Le CAE est capable de former des estimations plus précises partir de données d’entrainement limitées, car il exploite le partage des paramètres dans différents endroits qui partagent un sousensemble d'unités cachées actifs Cependant, construire un CAE en profondeur est difficile car il est peu coûteux calculer dans le cas d'une seule couche cachée, mais il devient beaucoup plus coûteux dans le cas des auto-encodeurs profonds • L'approche de l'auto-encodeur variationnel est élégante, théoriquement plaisante et simple mettre en œuvre Il obtient également d'excellents dérivés 54 résultats et fait partie des approches de pointe en matière de modélisation générative Cependant, son principal inconvénient est que les échantillons d'auto-encodeurs variés formés aux images ont tendance être un peu flous Les causes de ce phénomène ne sont pas encore connues Une possibilité est que le flou est un effet intrinsèque du maximum de likelihood, qui minimise le Cela signifie que le modèle affectera des points de haute probabilité qui se produisent dans l'ensemble d'apprentissage, mais peut également attribuer une haute probabilité d'autres points Ces autres points peuvent inclure des images floues Une partie de la raison pour laquelle le modèle choisirait de mettre la masse de probabilité sur des images floues plutôt qu’une autre partie de l’espace tient au fait que les auto-codeurs variationnels utilisés dans la pratique ont généralement une distribution gaussienne pour pmodel (x; g(z)) Maximiser une limite inférieure sur likelihood d'une telle distribution est similaire la formation d'un auto-encodeur traditionnel avec une erreur quadratique moyenne, en ce sens qu'il a tendance ignorer les caractéristiques de l'entrée qui occupent peu de pixels ou qui ne causent qu’une faible modification dans la luminosité des pixels occupés Ce problème n'est pas de specific pour les VAEs et est partagé avec les modèles génératifs qui optimisent un log-likelihood, ou l'équivalent, Un autre problème troublant des modèles VAEs contemporains est qu'ils ont tendance n'utiliser qu'un petit sous-ensemble des dimensions de z , comme si le codeur n'était pas capable de transformer suffisamment de directions locales dans l'espace d'entrée en un espace où la distribution marginale correspond la distribution factorisée antérieure • La différence principale entre auto-encodeur et auto-encodeur variationnel est que : i Les auto-encodeurs apprennent automatiquement une "représentation compressée" de l'entrée en compressant d'abord l'entrée (encodeur) et en la décompressant (décodeur) pour correspondre l'entrée d'origine L'apprentissage est facilité par l'utilisation de la fonction qui quantifie la perte d'informations résultant de la compression avec perte ii Au lieu d'apprendre simplement une fonction représentant les données (une représentation compressée) comme les autoencodeurs, les auto-encodeurs variationnels apprennent les 55 paramètres d'une distribution de probabilité représentant les données Comme il apprend modéliser les données, nous pouvons échantillonner partir de la distribution et générer de nouveaux échantillons de données d'entrée • L’auto-encodeur contradictoire (AAE) est une combinaison de l’autoencodeur et le GAN Dans ce modèle, deux objectifs sont optimisés: le premier, la minimisation de l'erreur de reconstruction des données x via les réseaux de codeurs et de décodeurs, P et Q , respectivement Le second critère de formation est l'exécution d'une distribution a priori sur le code P (x), via une formation contradictoire où le générateur correspond P Ainsi, alors que P et Q sont optimisés pour minimiser la distance entre x et Q(z) , où z est le vecteur d’espace de code de l’auto-codeur, le codeur et le discriminateur sont optimisés en tant que GAN pour forcer l’espace de code P(x) correspondre structure prédéfinie Cela peut être vu comme une régularisation sur l'auto-codeur, l'obligeant apprendre un espace de code significatif, structuré et cohộrent ã Les modốles GANs entraợnent un gộnộrateur de réseau profond qui convertit une graine aléatoire en une image réaliste En même temps, ils forment un réseau profond discriminateur pour différencier sa sortie des images réelles, lesquelles sont utilisées pour produire un retour de gradient afin d'améliorer le réseau du générateur En pratique, le réseau profond du générateur commence produire des résultats réalistes la fin, et l'objectif se rapproche de sa valeur optimale Notez que les GAN diffèrent de nombreuses méthodes précédentes d'apprentissage des distributions en ce sens qu'elles ne fournissent pas d'estimation d'une mesure de l'ajustement de la distribution La formation d’un GAN nécessite de trouver l’équilibre de Nash d’une partie Parfois, la descente de gradient se produit, parfois non Nous n’avons pas encore un bon algorithme de recherche d’équilibre L’entrnement GAN est donc instable par rapport lentraợnement VAE ou AE ã Il est difficile d’apprendre générer des données discrètes avec les GANs, telles que du texte Si nous comparons l'image d'origine l'image qui est récupérée par, la texture n'est pas récupérée correctement Les GANs remplit la texture avec un élément qui n’existe pas dans l’image originale L'observation devient plus forte dans le cas de la base de données BALI qui contient des palmiers anciens Cette ensemble de données contient de nombreux caractères petits et discrets En outre, le processus de collecte et 56 de traitement des données provoque une distorsion de l'image d'origine Ce qui rend les GANs récupère des objets totalement différents Il n'est plus textuel ni lisible dans les GANs C'est cause de la fonction de perte Cela donne l’image une apparence réaliste en général -> conduit privilégier une scène naturelle mais non naturelle (texte, structure artificielle) • Si on fait la comparaison entre le VAE et le GAN, on peut tirer des remarques suivantes : i Un avantage des VAEs par rapport aux GANs est qu’il existe un moyen clair et reconnu pour évaluer la qualité du modèle (on utilise souvent le log-likelihood ou estimée par échantillonnage d’importance ou borne inférieure) Tandis que, présent, il n’est pas clair comment comparer deux GANs ou un GAN et d’autres modèles génératifs, sauf en visualisant des échantillons ii Un inconvénient des VAE est qu’en raison du bruit injecté et de la reconstruction imparfaite, et avec le décodeur standard (avec distribution de sortie factorisée), les échantillons générés sont beaucoup plus flous que ceux provenant des GAN iii Le fait que les VAEs optimisent fondamentalement la probabilité alors que les GANs optimisent autre chose peut être considéré la fois comme un avantage ou un inconvénient pour l'un ou l'autre En maximisant le likelihood, on obtient une densité estimée qui élimine toujours les probabilités en masse de la variété de données estimée Tandis que, les GAN peuvent être satisfaits d'une fonction de densité estimée très nette même si elle ne coïncide pas parfaitement avec la densité de données (c'est-à-dire que certains exemples de formation peuvent se rapprocher des images générées mais avoir une probabilité presque nulle sous le générateur, ce qui serait infiniment mauvais en termes de probabilité) 57 Chapitre – CONCLUSION ET PERSPECTIVE 5.1 Conclusion Dans ce qui précède, nous venons de décrire les travaux que nous avons effectué lors de notre stage de Master Nous avons montré, en particulier, que nous avons profité de ce stage pour travailler la fois sur des aspects théoriques et appliqués En effet, nous avons dû lire un certain nombre d’article relatifs aux modèles génératifs profonds et nous nous approprié de ces articles afin d’être capable de les comprendre Cela a été l’occasion de mettre profit les enseignements que nous avons suivi l’IFI Nous avons également utilisé les connaissances théoriques afin de reimplémenter des différents modèles de deux types de modèles générateurs (GAN et Auto-encoder) avec deux ensembles de données : MNIST et BALI Nous avons ensuite construit des systèmes de reconnaissance pour calculer les performances statistiques de ces caractères générés par rapport aux images de caractères originales À partir de l'évaluation expérimentale, il est visible que certains modèles fonctionnent bien avec les ensembles de données BALI et MNIST et certains ne le sont pas car la complexité de l'écriture balinaise et la médiocre qualité des manuscrits sur feuilles de palmier constituent un nouveau défi pour tester et évaluer la robustesse des méthodes de génération des images via des réseaux de neurones profonds La formation de modèles génératifs avec des unités cachées est un moyen puissant de faire en sorte que les modèles comprendre le monde représenté dans la base de données d’apprentissage En apprenant un modèle pmodel (x) et une représentation , un modèle génératif peut fournir des réponses de nombreux problèmes d'inférence concernant les relations entre les variables d'entrée dans x et peut offrir plusieurs manières différents de représenter x en prenant des attentes de h différentes couche de la hiérarchie Les modèles génératifs promettent de fournir aux systèmes d’intélligence artificielle un cadre pour tous les nombreux concepts intuitifs dont ils ont besoin pour comprendre En particulier, dans le cadre du projet, ces modèles génératifs introduisent les nouvelles méthodes de génération de caractères qui permettent d'encoder de l'information (via des caractères déformés) Après avoir étudié les résultats empiriques, nous pouvons conclure que les modèles auto-encodeur est appropriée pour la tâche d’encoder des informations importantes telles que des 58 caractères manuscrits sur des diplômes de l’Université de La Rochelle pour construire le prototype du diplôme Ces travaux ont de plus donné lieu une soumission [19] dans une conférence internationale spécialisé du domaine, garantissant ainsi la qualité du travail réalisé 5.2 Perspective Nous avons évalué la performance des modèles génératifs avec l'ensemble de données de Bali après la chaine de traitement Il est possible d’effectuer cette évaluation avec les images non pré-traitement À côté des modèles génératifs, nous prévoyons de travailler avec un modèle basé sur les GAN pour améliorer les performances de l'ensemble de données BALI en proposant certaines techniques pour mieux définir la distribution d'un priori en tant qu'entrée pour générer une classe particulière d'images (c.-à-d amélioration du modèle CGAN) Dans le but d’évaluer la qualité des images générées par rapport aux images originales, il existe plusieurs techniques telles que reconnaissance de formes, méthode consiste utiliser des algorithmes tels que Mean Squared Error (MSE) ou l'indice de similarité structurelle (SSIM) Il est intéressant d'appliquer la méthode de l'indice de similarité structurelle pour comparer les performances statistiques de ces caractères générés par rapport aux images de caractères originales 59 BIBLIOGRAPHIE [1] Dosovitskiy, A., Springenberg, J T., and Brox, T (2015), “Learning to generate chairs with convolutional neural networks”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1538–1546 [2] M Arjovsky, S Chintala, and L Bottou (2017), “Wasserstein GAN” [3] C Doersch, (2016), “Tutorial on Variational Autoencoders” [4] Kingma, D., Rezende, D., Mohamed, S., and Welling, M (2014), “Semisupervised learning with deep generative models” NIPS [5] Kingma, D P (2013), “Fast gradient-based inference with continuous latent variable models in auxiliary form”, Technical report [6] Alain, G and Bengio, Y (2013) “What regularized auto-encoders learn from the data generating distribution”, ICLR [7] P Galeone, “Introduction to Autoencoders – P Galeone’s blog”, [Online] https://pgaleone.eu/neural-networks/2016/11/18/ introduction-to-autoencoders/ [8] P Galeone, “Convolutional Autoencoders – P Galeone’s blog”, [Online] https://pgaleone.eu/neural-networks/2016/11/24/ convolutional-autoencoders [9] I Goodfellow, J Pouget-Abadie, and M Mirza (2014), “Generative Adversarial Networks”, pp 1–9 [10] I Goodfellow J., Bulatov, Y., Ibarz, J., Arnoud, S., and Shet, V (2014d), “Multi-digit number recognition from Street View imagery using deep convolutional neural networks”, International Conference on Learning Representations [11] Agustinus Kristiadi, “Conditional Variational Autoencoder: Intuition and Implementation Agustinus Kristiadi’s Blog”, [Online] https://wiseodd.github.io/techblog/2016/12/17/conditional-vae/ [12] A Makhzani, J Shlens, N Jaitly, I Goodfellow, and B Frey (2015), “Adversarial Autoencoders” [13] J.Masci, U.Meier, D.Ciresan, and J.Schmidhuber, (2011) “Stacked Convolutional Auto-Encoders for Hierachical Feature Extraction ” [14] M Mirza and S Osindero, (2014) “Conditional Generative Adversarial Nets”, [15] A Ng, “Sparse autoencoder,” CS294A Lecture notes, pp 1–19, 2011 [Online] http://www.stanford.edu/class/cs294a/sae/sparseAutoencoderNotes.pdf [16] K Sohn, X.Yan, H.Lee (2015), “Learning Structured Output Representation using Deep Conditional Generative Models” [17] A Radford, L Metz, and S Chintala (2015), “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks” 60 [18] S Rifai, P Vincent, X Muller, X Glorot, and Y Bengio (2011), “Contractive Auto-Encoders: Explicit Invariance During Feature Extraction” [19] Le Thi Thuy Trang, Tanmoy Mondal, Mickaël Coustaty (2018), “Performance Evaluation of Deep Generative Models for Generating HandWritten Character Images”, ICFHR [20] “Denoising Autoencoders (dA) — DeepLearning 0.1 documentation”, [Online] http://deeplearning.net/tutorial/dA.html ... que de limiter la taille du code Ces autres propriétés incluent la faible densité de la représentation, la petite taille de la dérivée de la représentation et la robustesse du bruit ou des entrées... pourquoi, le CVAE a été développer Alors que la VAE modélise essentiellement des variables latentes et des données directement, le CVAE [6] modélise des variables et des données latentes, toutes deux... L''effet de la dilatation est d''abord d''élargir la figure, la hauteur et largeur de la figure dilatée seront les sommes respectivement des hauteurs et largeurs de la figure originelle et de l''élément

Ngày đăng: 16/02/2020, 14:04

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w