Implémentation et test de méthodes de deep learning en télédétection pour détecter des palmiers rafias en milieu naturel et sur différents types d’images (satellites, aériennes, drones)

UNIVERSITẫ NATIONALE DU VIETNAM HANOăI INSTITUT FRANCOPHONE INTERNATIONAL Mộmoire de stage de Master Option : Systèmes Intelligents et Multimédia (SIM) Promotion : XXII Implémentation et test de méthodes de Deep Learning en télédétection pour détecter des palmiers rafias en milieu naturel et sur différents types d’images (satellites, aériennes, drones) KINDA Zakaria Encadrant : M BORNE Frédéric Ph.D, Ingénieur de recherche CIRAD Année académique 2018-2019 Résumé Les Rafias sont des plantes situées dans des forêts denses, notamment dans les zones marécageuses où les couronnes sont imbriquées les unes dans les autres On les trouve principalement dans les pays de l’Afrique Centrale et de l’Ouest avec des rendements économiques très importants Compte tenu de cette importance économique, il est nécessaire de connaˆıtre le nombre de Rafias se trouvant dans ces forêts denses Récemment plusieurs travaux ont été réalisés en télédétection pour la détection des objets en utilisant des images réelle et de synthèse La télédétection serait donc un outil pouvant intervenir dans la détection des palmiers Rafias Les méthodes actuelles de détection d’objets dans des images réelles et de synthèse sont basées principalement sur l’apprentissage profond utilisant les fenêtres glissantes À cet effet plusieurs réseaux tels-que le réseau de neurones convolutionnels (CNN), le Fast-RCNN, le Faster R-CNN, le Mask R-CNN, etc ont atteint des performances de pointe sur le traitement des données spatiales, notamment des images Ainsi, le Faster-RCNN est un réseau largement utilisé pour la détection des objets dans une image Il est utilisé sur des images réelles, mais également sur les images de synthèse pour la détection des fruits, de fleurs, des plantes, etc avec des F-Mesures allant jusqu’à 93% Dans cette étude, il était question d’évaluer l’intérêt des images de synthèse pour entrainer un réseau destiné traiter des images réelles Les expérimentations ont été effectuées sur des images présentant des caractéristiques contrôlées (résolution de l’image, résolution métrique, ombrage, direction de la lumière, etc) Pour ce faire, nous avons utilisé le modèle VGG16 déjà pré-entraˆınés avec le jeu de données PASCALVOC 2007 Les résultats expérimentaux montrent que l’apprentissage profond peut faire un grand bond en avant sur la détection des plantes en forêt dense en utilisant des images de synthèse Mots clés : Rafia, Apprentissage profond, télédétection, image de synthèse, réseau de neurone convolutionnel (CNN), Faster R-CNN i Abstract Rafias are plants located in dense forests, especially in swampy areas where the crowns are intertwined They are mainly found in Central and West African countries with very high economic returns Given this economic importance, it is necessary to know the number of raffia trees in these dense forests Recently, several works have been carried out in remote sensing for the detection of objects using real and synthetic images Remote sensing would therefore be a tool that could be used to detect raffia palm trees Current methods of detecting objects in real and synthetic images are based mainly on deep learning using sliding windows To this end, several networks such as the Convolutional Neural Network (CNN), Fast-RCNNN, Faster R-CNN, Mask R-CNN, etc have achieved advanced performance in spatial data processing, particularly images Thus, the Faster-RCNNN is a widely used network for detecting objects in an image It is used on real images, but also on computer-generated images for the detection of fruits, flowers, plants, etc with F-Score up to 93% In this study, it was a question of evaluating the interest of synthetic images to train a network designed to process real images The experiments were carried out on images with controlled characteristics (image resolution, metric resolution, shading, light direction, etc.) To this, we used the VGG16 model already pre-trained with the PASCALVOC 2007 dataset Experimental results show that deep learning can take a big leap forward in plant detection in dense forests using synthetic images Keywords :Rafia, Deep Learning, remote sensing, Synthetic image, convolutional neural network (CNN), Faster R-CNN ii Avant-propos Ce travail a bénéficié d’une aide de l’État gérée par l’Agence Nationale de la Recherche au titre du programme d’Investissements d’Avenir portant la référence ANR-16-CONV-0004 Cette étude s’inscrit dans le cadre des stages financés par l’Institut de Convergence de l’agriculture numérique DigitAg basé Montpellier et avec des antennes satellites Rennes et Toulouse L’objectif est de construire un socle de connaissances qui favorise le développement de l’agriculture numérique en France et au Sud L’Institut de Convergence DigitAg structure ses actions autour de six axes de recherche et huit challenges iii Remerciements « N’a pas remercié Allah celui qui ne remercie pas les gens » (Hadˆıth) Pour cela, je voudrais très sincèrement adresser toute ma gratitude et ma reconnaissance mes encadrants, M Frédéric Borne et Mme Gaăelle Viennois, pour leur patience, pour leur disponibilitộ et surtout pour la confiance qu’ils ont portée mon égard Leurs judicieux conseils et encouragements ont contribué au bon déroulement de mon stage et l’aboutissement de ces résultats Je tiens également remercier M Philippe Borianne pour ses remarques pertinentes, sa disponibilité, ses encouragements et toutes les discussions que nous avons pu avoir sur le sujet Mes remerciements vont l’endroit de M Marc Jaeger pour l’acquisition des données et pour ses différents conseils et remarques Je voudrais remercier l’Agence Nationale de la Recherche (ANR) pour le financement de ce projet Je désire également remercier le corps enseignant de l’Institut Francophone International (IFI), qui m’a fourni les outils nécessaires la réussite de mes études universitaires Mes remerciements vont l’endroit de tout le personnel et les étudiants de l’UMR AMAP pour les échanges enrichissants, tant humainement que scientifiquement Enfin, je tiens exprimer ma profonde gratitude mes parents, toute ma famille et aussi tous ceux et celles qui m’ont apporté leur soutien et leurs encouragements indéfectibles tout au long de mes années de Master iv Table des matières Table des figures vii Liste des tableaux viii INTRODUCTION Chapitre Analyse du contexte 1.1 Contexte de l’étude 1.2 Problématique 1.3 Objectif Chapitre État de l’art 2.1 Approche du Machine Learning ou approche classique 2.2 Approche du Deep Learning Chapitre Données et Méthodes 3.1 Données 3.1.1 Méthode d’acquisition des données 3.1.2 Présentation des images du masque 3.1.3 Pré-traitement de données 3.2 Méthodes 3.2.1 Faster R-CNN 3.2.2 Architecture du Faster R-CNN 3.2.3 Fonctionnement du Faster R-CNN 3.2.4 Transfer learning 3.2.5 Méthode d’entraˆınement du réseau 3.2.6 Méthode de validation du réseau 12 13 13 18 19 20 20 20 21 21 22 22 Chapitre Expérimentations et résultats 24 4.1 Expérimentations 25 4.1.1 Environnement de travail 25 v 4.2 4.1.2 Création des fichiers d’annotations 4.1.3 Entraˆınement du réseau 4.1.4 Validation du réseau Résultats 4.2.1 vérification de l’indice spéculaire 4.2.2 Évaluer l’influence d’une deuxième classe sur la première (troisième expérimentation) 4.2.3 Transposition l’image réelle (Quatrième expérimentation) Chapitre Discussion et bilan 5.1 Discussion 5.1.1 Entraˆınement du réseau 5.1.2 Aspect spéculaire 5.1.3 Choix du fichier de poids 5.1.4 Matrice de confusion 5.1.5 Les annotations 5.2 Bilan 25 26 27 27 27 33 36 37 38 38 38 39 39 40 41 Chapitre Conclusion et perspectives 42 6.1 Conclusion 43 6.2 Perspectives 43 ANNEXE 45 vi Table des figures 1.1 1.2 Photographie d’un Rafia hookeri Image aérienne Rafia 2.1 Popularité des méthodes en % 10 3.1 3.2 3.3 3.4 3.5 3.6 Image de synthèse de Rafias prenant en compte une forte réflexion spéculaire Image de synthèse avec des Rafias présentant une réflectance plus faible Image drone de Rafias Image de synthèse et son masque Masque d’image annotée Architecture Faster R-CNN [26] 14 14 18 19 19 20 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 4.13 Test d’annotations sur l’image du masque Fonction de perte globale Fonctions de perte RPN et CLS Courbe de F-Mesure expérimentation Matrice de confusion une classe Résultats de validation avec des Rafias en blanc Matrice de confusion Rafias en couleur résultats de validation avec des Rafias en vert Courbe de F-Mesure pour la classe Rafia Matrice de confusion pour la classe Rafia Courbe de F-Mesure de Rafia et du cocotier Confusion classes plus Background Résultat de validation sur une image réelle 26 28 29 30 30 31 32 32 33 34 35 35 36 5.1 Résultats en sortie de validation 40 vii Liste des tableaux 4.1 4.2 Liste des images d’entraˆınement 27 Liste des images de validation 27 5.1 Bilan de résultats de expérimentations 41 viii 4.2.3 Transposition l’image réelle (Quatrième expérimentation) Dans cette expérimentation, nous effectuons une évaluation en utilisant une image réelle composée de 315 Rafias annotés Nous avons effectué la validation en utilisant les fichiers de poids de la première et de la troisième expérimentations (entraˆınement pour la classe Rafia) Les résultats des validations sont les suivants : — Résultats (expérimentation 1) PRÉCISION = 66%, RAPPEL = 30%, F-Mesure = 37% VP = 95, FP = 102, FN = 220 — Résultats (expérimentation 3) PRÉCISION = 48%, RAPPEL = 0.6%, F-Mesure = 1% VP = 2, FP = 1, FN = 313 Figure 4.13 – Résultat de validation sur une image réelle L’image utilisée pour cette validation est la reconstitution de plusieurs imagettes (7) de 500*500 associées aux différents fichiers d’annotation Le résultat en sortie de cette expérimentation montre les bonnes prédictions qui sont les rectangles associés aux cercles rouge et les mauvaises prédictions avec les rectangles rouge (annotation de l’expert) Nous pouvons donc en conclure que réseau ne parvient pas détecter les Rafias sur les images réelles 36 Chapitre Discussion et bilan 37 5.1 Discussion Ce travail se concentre sur la détection des palmiers Rafias en milieu naturel en utilisant des images de synthèse créées en 2019 Afin d’évaluer la méthode de détection des palmiers Rafias que nous proposons, nous avons effectué plusieurs tests en tenant compte de plusieurs paramètres 5.1.1 Entraˆınement du réseau La courbe de la fonction de perte est un indicateur global nous permettant de caractériser le comportement d’apprentissage du réseau Faster R-CNN L’entraˆınement de notre réseau permet d’établir la courbe de perte globale (figure 4.2), ainsi que celle pour la détection et la classification des boites englobantes (figure 4.3) Sur la figure 4.3 nous observons une différence d’oscillations entre la courbe permettant de classifier les boites englobantes (loss_cls) et celle permettant de détecter les boites englobantes (RPN_loss_bbox) Les fortes amplitudes de la courbe loss_cls montrent que le réseau ne parvient pas bien classifier les boites englobantes prédites La courbe RPN_loss_bbox, avec des basses amplitudes (courbe quasiment linéaire), montre que le réseau parvient détecter les boites englobantes sur chaque objet annoté Cette différence entre les deux courbes peut s’expliquer par la taille de certaines boites englobantes très petites, ce qui favorise leur mauvaise classification par le réseau Les erreurs d’annotations peuvent également être la cause de ces fortes variations d’amplitude de la courbe Loss_cls Une annotation de tous les objets pourrait diminuer l’amplitude de cette courbe De plus, la fonction de perte globale (figure 4.2), bien qu’elle soit un indicateur caractérisant le comportement d’apprentissage du réseau, pourrait être utilisée pour le choix du fichier de poids En observant la courbe, l’amplitude la plus basse est localisée 70000 itérations, ce qui peut être utilisé comme fichier de poids Mais le choix du fichier de poids se fera en utilisant la courbe de F-Mesure 5.1.2 Aspect spéculaire Dans le réseau de neurones convolutionnel, la détection des objets est basée sur différents aspects Le réseau peut donc apprendre reconnaˆıtre un objet en se basant sur l’aspect couleur, forme, etc Afin de vérifier si l’aspect spéculaire influe sur sur la détection du Rafia, nous avons utilisé deux expérimentations avec des scènes différentes Il s’agit d’une image (expérimentation 1) avec des Rafias en blanc et une autre image avec des Rafias en verts (expérimentation 2) Le résultat de validation de ces deux expérimentations donnent une F-Mesure identique de 90% Pour vérifier cette hypothèse, nous avons effectué un test avec une image associée d’annotations cocotier sur les deux expérimentations Nous 38 obtenons alors un taux de 0% de détection Ainsi donc ces expérimentations permettent de montrer que notre réseau (Faster-RCNN) n’apprend pas reconnaˆıtre les palmiers Rafias sur les couleurs 5.1.3 Choix du fichier de poids Pour choisir le meilleur fichier de poids du réseau, nous utilisons la courbe de F-Mesure établie en fonction des itérations De plus, cette courbe permet de mettre en évidence, le cas échéant, le problème de sur-apprentissage du réseau Ainsi en observant les courbes de nos expérimentations, nous remarquons que toutes les courbes deviennent linéaires partir d’un certain nombre d’itérations et ne rechutent plus jusqu’à la fin de l’entraˆınement du réseau Cela permet de dire qu’il n’y a pas de sur-apprentissage du réseau Cependant, comment peut-on choisir le meilleur fichier de poids ? Pour ce faire, nous utilisons la courbe de F-Mesure Dans les deux premières expérimentations, nous observons que le réseau se stabilise partir de 10000 itérations Ce palier atteint par le système permet de dire que le réseau apprend reconnaˆıtre les Rafias partir de 10000 itérations Ainsi donc, tout fichier de poids obtenu partir de 10000 itérations convient dans ces expérimentations La courbe de la troisième expérimentation (figure 4.11 ci-dessus) est une courbe représentant les deux classes (Rafia et Cocotier) Les deux courbes sont confondues Cependant, nous remarquons une légère différence de leur évolution La courbe de la classe Rafia se stabilise partir de 10000 itérations, par contre celle du cocotier atteint un pic 10000 itérations et se stabilise partir de 20000 itérations Nous pouvons donc en déduire que le réseau apprend plus rapidement reconnaˆıtre les Rafias que les cocotiers Les fichiers de poids pouvant être utilisés sont donc ceux obtenus partir de 20000 itérations 5.1.4 Matrice de confusion Les différentes expérimentations permettent d’établir des matrices de confusion une classe plus le fond et des matrices de confusion multi-classes Ces matrices de confusion permettent d’observer les erreurs de détection et d’identification du réseau La matrice de confusion multi-classes permet d’avoir plus d’informations sur ces erreurs que la matrice une classe Sur la figure 4.12, nous remarquons que le réseau fait plus d’erreurs de détection que d’identification En effet, on voit que sur la verticale, sur les 512 faux négatifs de Rafias, le réseau en identifie 94 comme cocotiers et 418 comme le background, et sur les 362 faux négatifs de cocotiers il en détecte 92 comme Rafias et 270 comme background Ces résultats montrent que le réseau a plus de mal la détection qu’à l’identification des objets A cet effet, le résultat qualitatif de l’expérimentation (voir figure 5.1 ci-dessous) montre la difficulté pour le réseau de détecter les objets dans certains endroits de l’image 39 Ces objets bien qu’ils soient annotés, sont très regroupés et le réseau ne parvient pas en détecter certains et les considère comme le fond (background) En plus de cela, il existe des objets de petite taille avec une forte densité qui ne sont pas détectés par le réseau car ils sont recouverts par d’autres plantes, donc ils sont considérés aussi comme le fond par le réseau Sur la figure 5.1 l’ellipse blanche est un faux négatif de cocotier et en bleu figure un faux négatif du Rafia Figure 5.1 – Résultats en sortie de validation 5.1.5 Les annotations — Annotations d’images de synthèse Au cours de nos expérimentations, nous avons vérifié l’impact de l’introduction de la classe cocotier sur la capacité du réseau détecter le Rafia Les résultats des expériences montrent que l’introduction d’une deuxième classe perturbe le résultat de la classe Rafia En effet le réseau passe de 72% 68% pour la classe Rafia après introduction de la classe cocotier dans le fichier d’annotations Cela s’explique par le fait que le réseau, en cherchant minimiser l’erreur, considère certaines annotations du Rafia comme des cocotiers, ce qui baisse considérablement le taux de Rafia Aussi,compte tenu de la taille de certaines boites englobantes, l’ajout d’une deuxième classe peut impacter sur ces objets de petites taille et ce qui pourrait entraˆıner une baisse du taux de reconnaissance de Rafia.Nous pouvons donc déduire qu’il est possible que la taille des boites englobantes contribue la baisse de la performance du réseau 40 — Annotations d’images réelles Les tests sur les images réelles donnent de faibles taux de détection du Rafia par rapport aux images de synthèses Le premier résultat où nous avons utilisé le fichier de poids de l’expérimentation donne 37% de F-Mesure Par contre, le résultat donne un taux de F-Mesure de 1% en utilisant le fichier de poids de l’expérimentation (une classe) Ceci s’explique par le fait que l’image utilisée dans l’expérimentation est moins dense, que celle de la troisième expérimentation Ces résultats montrent la difficulté d’annoter les images réelles du palmier Rafia 5.2 Bilan Les différents résultats des expérimentations sont présentés dans le tableau 5.1 ci-dessous Ce tableau est composé des images d’entraˆınements et de validations, ainsi que les valeurs de PRÉCISION, de RAPPEL et de F-Mesure Table 5.1 – Bilan de résultats de expérimentations Images d’en- Images de va- traˆınements lidations Scene_1 Scene_1 Scene_1 Image réelle Scene_1bis Classes PRECISION RAPPEL F-MESURE (%) (%) (%) Rafia 93% 87% 90% Rafia 66% 30% 37% Scen_1bis Rafia 92% 87% 90% Scene_3bis Scene_3bis Rafia 80% 80% 80% Scene_12 Scene_3bis Rafia 69% 76% 72% Scene_6 Scene_6 Rafia, Cocotier Rafia=91%, Rafia=62%, Rafia=74% Cocotier=81% Cocotier=77% Cocotier=78% Scene_12 Scene_12 Rafia 83% 88% 86% Scene_12bis Scene_6 Rafia, Cocotier Rafia=79%, Rafia=59%, Rafia=68%, Cocotier=63% Cocotier=75% Cocotier=68% Rafia=92%, Rafia=82%, Rafia=87%, Cocotier=65% Cocotier=88% Cocotier=75% 73% 73% 73% Scene_12bis Scene_8 Scene_12bis Scene_6 Rafia, Cocotier Rafia 41 Chapitre Conclusion et perspectives 42 6.1 Conclusion Dans le cadre de notre stage, nous avons mené une étude sur la détection du palmier Rafia en milieu naturel en utilisant l’approche Deep Learning Pour ce faire, nous avons utilisé des images de synthèses pour les différents tests et par la suite nous avons évalué la méthode sur les images réelles (image drone) Bien avant la mise en place de notre méthode, nous avons effectué des études théoriques basées sur les images aériennes, notamment sur la détection des plantes et aussi sur des images de synthèse Une étude comparative entre l’approche Deep Learning et le Machine Learning, nous a permis de choisir le Deep Learning qui est plus efficace sur les forêts denses Selon la littérature, le Faster R-CNN a été appliqué sur la détection des arbres en milieux naturels[27], sur la détection des fruits, mais aussi sur les images de synthèse [23, 25], ce qui nous a amenés également utiliser ce réseau Nous avons donc utilisé le Faster R-CNN sous l’environnement Caffe pour la détection du palmier Rafia en milieu naturel Pour ce faire, des images de synthèses et réelles avec différentes caractéristiques ont été utilisées Les expérimentations ont donné des résultats variables selon le type de données utilisées Ces expérimentations ont permis de vérifier plusieurs critères du réseau pour la détection du Rafia, notamment le critère de la luminance, de la densité des objets dans l’image et aussi de l’impact de l’ajout d’une deuxième classe sur la détection du Rafia Les résultats des expérimentations et ont montré que la couleur n’avait pas d’impact sur la détection du Rafia La validation sur une image avec moins de densité donne un F-Mesure de 90%, par contre, les images avec une forte densité (plus d’arbres) nous obtenons un résultat de 72% En ajoutant une classe supplémentaire notre réseau, les résultats F-Mesure du Rafia passe de 72% 68%, ce qui montre que l’ajout une deuxième classe perturbe la reconnaissance du Rafia par le réseau Ainsi, l’utilisation de la matrice de confusion multi-classes a permis de comprendre que notre réseau détecte difficilement certains objets contenus dans l’image, en les considérant comme le fond La transpositionn avec une image réelle donne respectivement un F-Mesure de 37% et de 1%, ce qui permet de dire qu’il est difficile d’évaluer sur les images réelles En somme, nous pouvons dire que notre réseau Faster R-CNN parvient détecter les Rafias sur les images de synthèse bien qu’il y ait des difficultés dues aux annotations Cependant, il reste mauvais sur les images réelles 6.2 Perspectives Le réseau Faster R-CNN mis en place au cours de notre stage, a été testé sur plusieurs paramètres, notamment les paramètres de couleur, de densité, etc Les résultats obtenus nous permettent de dégager des perspectives pouvant contribuer l’amélioration de ces 43 résultats Ces perspectives peuvent être orientées sur les images réelles, les images de synthèses, ou sur l’utilisation d’un autre réseau Dans le cadre des images réelles, il serait intéressant, d’observer l’impact de la luminosité sur la détection de Rafia Il s’agit donc d’acquérir des images réelles dans différentes conditions de luminosité et d’effectuer plusieurs annotations sur les objets IL est important de trouver des méthodes pour quantifier les images réalistes par rapport aux images réelles C’est dire qu’il faut la distance entre les arbres des images de synthèse par rapport aux arbres sur les images réelles Il est aussi envisageable d’ajouter une troisième classe dans les fichiers d’annotation, afin d’observer l’impact de deux classes sur le résultat du Rafia Par la suite, il sera important d’effectuer des tests sur la taille des objets, en créant différents fichiers d’annotation selon la taille des objets Ceci permettra de comprendre l’influence de la taille de la boite englobante sur le réseau 44 ANNEXE 45 Algorithme du Fichier d’annotation c=couleur de l’objet width= largeur de limage height= hauteur de limage listeObjet=liste des objets dans le fichier d’annotation image= image d’entrainement xmin = abscisse minimum de la boite englobante xmax = abscisse maximale de la boite englobante ymin = ordonnée minimale de la boite englobante ymax = ordonnée maximale de la boite englobante h= hauteur de la boite englobante l=largeur de la boite s=la densité des pixels permet d’éliminer les boites englobantes qui ne contiennent pas beaucoup d’information nbObjet = nombre d’objets trouvés Pour objet danslisteObjet(){ Pour i dans range(width){ Pour j dans range(heigth){ si image[i][j]==c{ nbObjet++ ; si i>ymax: ymax=i si i

Định dạng
Số trang	61
Dung lượng	14,32 MB