[4] sur la classification des terrescultivées à travers la méthode de l’analyse de distorsion temporelle dynamique pondérée dans le temps TWDTW avec les données Sentinel-2, à montré que
Trang 1U N I V ER SI T É N AT I ON A L E DU V I ET N A M À H A N O¨I
I N ST I T U T F R A N COP H ON E I N T ER N AT I ON A L
A BOU BA CA R DJ I BO M aman Sani
Cartographie des déterminants de l’infiltrabilité des sols par traitement de série de données satellite
optiques Sentinel-2
X ác định các yếu tố quyết định thẩm thấu nước bằng
việc xử lý các dữ liệu quang học Sentinel-2
Trang 2UNIVERSITÉ NATIONALE DU VIETNAM À HANO¨I
INSTITUT FRANCOPHONE INTERNATIONAL
ABOUBACAR DJIBO Maman Sani
Cartographie des déterminants de l’infiltrabilité des sols par traitement de série de données satellite
optiques Sentinel-2
Xác định các yếu tố quyết định thẩm thấu nước bằng
việc xử lý các dữ liệu quang học Sentinel-2
Spécialité : Systèmes Intelligents et Multimédia
Code : Programme pilote
MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE
Sous la direction de :
Mme GOMEZ Cécile , Chargée de recherche à l’IRD
M BAILLY Jean-Stéphane, Enseignant chercheur à AgroParisTech
HANOI 2018
Trang 3UNIVERSITÉ NATIONALE DU VIETNAM À HANO¨I
INSTITUT FRANCOPHONE INTERNATIONAL
Mémoire de stage Master 2
Option : Systèmes Intelligents et Multimédia (SIM)
02 Mai - 31 Octobre 2018
Trang 4Table des matières
1.1 Contexte Scientifique 1
1.1.1 Lien avec l’infiltrabilité 1
1.1.2 Télédétection Multispectrale 2
1.1.3 Objectif du Stage 5
1.1.4 Les approches développées 6
1.2 Contexte Administratif 7
1.2.1 Positionnement à l’UMR LISAH 7
1.2.2 Le stage dans le projet A-MUSE 7
1.3 Conclusion 8
2 Présentation des données 9 2.1 La zone d’étude 9
2.1.1 Localisation géographique 9
2.1.2 Les parcelles observées 9
2.2 Les données d’observation 10
2.3 Les données sentinel-2 15
2.4 Conclusion 16
3 Les méthodes proposées 18 3.1 Les méthodes de classification non supervisée 18
3.1.1 Kmeans 19
3.1.2 Classification ascendante hiérarchique 21
3.1.3 Implémentation du Kmeans et du CAH 23
3.2 Les méthodes de classification supervisée 23
3.2.1 Random forest 24
3.2.2 Support Vector Machine 25
3.3 Apprentissage, test et validation des modèles de classification 27
3.3.1 Validation croisée 27
3.3.2 Partitionnement des données relatifs à chaque approche 28
3.4 Les indicateurs de qualité 32
3.4.1 La précision 32
Trang 53.4.2 Coefficient Kappa 33
3.4.3 Indice de rand normalisé 33
3.5 Outils et environnement de développement 34
3.6 Conclusion 34
4 Résultats 35 4.1 Approche mono-date par classification non supervisée 35
4.1.1 Résultats pour le 2016/08/04/ 35
4.1.2 Résultats pour le 2016/12/02 36
4.1.3 Comparaison des méthodes de Kmeans et CAH 38
4.1.4 Conclusion 39
4.2 Approche mono-date par classification supervisée 39
4.2.1 Approche pixellaire 39
4.2.2 Approche parcellaire 42
4.2.3 Conclusion 45
4.3 Approche multi-date non ordonnées par classification supervisée 45
4.3.1 Approche pixellaire 46
4.3.2 Approche parcellaire 48
4.3.3 Conclusion 50
4.4 Approche multi-date semi ordonnées par classification supervisée 50
4.4.1 Conclusion 53
4.5 Approche multi-dates ordonnées par classification supervisée 53
4.6 Comparaison entre l’approche multi-date non-ordonnée et l’approche mono-date 56 4.7 Conclusion 59
Trang 6Table des figures
1.1 Processus d’acquisition d’une image satellitaire par télédétection [17] 41.2 Exemple de signatures spectrales de quelques objets 42.1 Localisation du bassin versant de kamech 102.2 Exemple de suivi des états de surface sur Kamech (Z Jenhaoui, IRD Tunis) 112.3 Parcellaire de Kamech 112.4 Distribution des classes de la végétation verte En abscisse 1 : Vgtv_0%, 2 :Vgtv_0-5%, 3 :Vgtv_5-25%, 4 :Vgtv_25-50%, 5 :Vgtv_50-75%, 6 :Vgtv_75-100% 122.5 Distribution des classes de la végétation sèche En abscisse 1 : Tvgts_5-25%,
2 :Tvgts_25-50%, 3 :Tvgts_50-75%, 4 :Tvgts_75-100% 132.6 Distribution des classes travail du sol En abscisse 1 :TR, 2 :TA, 3 :NT 142.7 Distribution des classes de la rugosité En abscisse 1 :RT0, 2 :RT2, 3 :RT5 142.8 Distribution des classes de faciès En abscisse 1 :F0, 2 :F0/F1, 3 :F1, 4 :F1/F2,
5 :F2, 6 :Saturée 152.9 Exemple des données Sentinel-2, avec band1 = B2, band2 = B3, band3 = B4,band4 = B5, band5 = B6, band6 = B7, band7 = B8, band8 = B8a, band9 =B11, band10 = B12 de la figure 2.10 162.10 Caractéristiques de l’instrument multi-spectral (MSI) à bord de Sentinel-2 [11] 172.11 Image Sentinel du 2016-08-04 avec le parcellaire de Kamech 173.1 Exemple du choix du nombre de cluster par la méthode Elbow (source : Wikipedia) 203.2 Exemple du fonctionnement de l’algorithme du random forest 253.3 Exemple d’un hyper-plan avec la maximisation de la distance 263.4 Processus de la validation croisée 283.5 Partitionnement relatifs à l’approche mono-date et multi-date non-ordonnée 293.6 Partitionnement relatifs à l’approche multi-date semi-ordonnée et multi-date or-donnée 304.1 Evolution de l’inertie et l’indice de Calinski en fonction du nombre du clusters 364.2 Dendrogramme (image du 4 aoˆut 2016) 364.3 Classification par Kmeans (image du 4 aoˆut 2016) 374.4 Classification par CAH (image du 4 aoˆut 2016) 374.5 Evolution de l’inertie et l’indice de Calinski en fonction du nombre du clusters 37
Trang 74.6 Dendrogramme (image du 2 déc 2016) 374.7 Classification Kmeans (image du 2 déc 2016) 384.8 Classification CAH (image du 2 déc 2016) 384.9 Comparaison des résultats de l’indice de rand entre la classification hiérarchique
et kmeans 394.10 Précision du RF et SVM sur les données test avec l’approche mono-date à l’échellepixellaire 404.11 Classement des bandes spectrales basées sur la mesure d’importance MDA (MeanDecrease in Accuracy) obtenue à partir du modèle Forest Forest (RF) 414.12 Spatialisation de la végétation verte sur les données du 2016-12-02 à l’échellepixellaire avec le RF 414.13 Matrice de confusion de la VgtV des données du 2016-12-02 avec le RF 424.14 Précision du RF et SVM avec l’approche mono-date à l’échelle parcellaire 434.15 Spatialisation de la végétation verte sur les données du 2016-12-02 à l’échelleparcellaire avec RF 444.16 Matrice de confusion de la VgtV à l’échelle parcellaire avec RF 444.17 Précision du RF et SVM avec l’approche multi-date non-ordonnée à l’échelle pixel-laire 464.18 Spatialisation de la végétation verte sur les données du 2016-12-02 avec l’approchemulti-date non-ordonnée à l’échelle pixellaire avec RF 474.19 Matrice de confusion de la VgtV des données du 2016-12-02 avec l’approche non-ordonnée à l’echelle pixellaire avec RF 474.20 Précision du RF et du SVM avec l’approche multi-date non-ordonnée à l’échelleparcellaire 484.21 Spatialisation de la végétation sèche avec l’approche multi-date non-ordonnée àéchelle parcellaire, avec RF 494.22 Matrice de confusion de la végétation sèche des données du 2016-09-01 avec l’ap-proche multi-date non-ordonnée à l’échelle parcellaire 494.23 Résultats de la rugosité sur les modèles calibrés avec les données du 2016-11-03,2016-11-22 et 2016-12-02 514.24 Résultats de la rugosité sur le modèle calibré avec les données du 2016-12-02 524.25 Matrice de confusion du modèle de la rugosité calibré sur les données du 2016-11-22 et testé sur les données du 2016-12-02 524.26 Spatialisation de la rugosité avec l’approche multi-date semi-ordonnée à échellepixellaire 534.27 Matrice de confusion de la période (t4, t5) 544.28 Spatialisation des changements de végétation verte avec l’approche multi-dateordonnée à échelle pixellaire avec le RF 554.29 Comparaison entre l’approche non-ordonnée et mono-date sur les résultats de laclassification pixellaire de la végétation verte 56
Trang 84.30 Comparaison entre l’approche non-ordonnée et mono-date sur les résultats de la classification en fonction de la classe majoritaire dans la parcelle de la végétation
verte 57
4.31 Carte de différence de l’approche non-ordonnée et mono-date de la classification parcellaire de la végétation verte du 2016-12-02 58
4.32 Étude de la caractérisation des parcelles par la superficie 58
1 Précision du RF sur les données test avec les spectres et les indices 66
2 Précision du RF sur les données test avec les spectres entier 66
Trang 9Liste des tableaux
1.1 Typologie des caractéristiques observables expliquant l’infiltrabilité [1] 3
1.2 Acteurs du projet 7
2.1 Statistiques de la superficie des parcelles suivies (en m2) 10
2.2 Dates d’observations des états de surface 10
2.3 Dimensions des données Sentinel-2 utilisées 16
3.1 Exemple matrice de confusion 33
4.1 Précision de la méthode du RF et de SVM sur la végétation verte avec l’approche pixellaire 42
4.2 Précision de la méthode du RF et de SVM sur la végétation verte avec l’approche parcellaire 44
4.3 Précision de la méthode du RF et de SVM sur la végétation verte avec l’approche non-ordonnée 47
4.4 Précision de la méthode de Random Forest et de SVM sur la végétation verte date, avec t1 = 2016-08-04, t2 = 2016-10-03, t3 = 2016-11-02, t4 = 2016-11-21, t5 = 2016-12-02 54
1 Précision de la méthode de Random Forest et de SVM sur la végétation verte date 65 2 Précision de la méthode de Random Forest et de SVM sur la végétation sèche par date 65
3 Précision de la méthode de Random Forest et de SVM sur le travail du sol date 65 4 Précision de la méthode de Random Forest et de SVM sur la rugosité date 66
5 Précision de la méthode de Random Forest et de SVM sur le faciès date 66
Trang 10Par ce document, je voudrais très sincèrement remercier mes deux encadrants Madame MEZ Cécile et Monsieur Jean-Stéphane BAILLY En effet, malgré leur emploi du temps trèschargé, ils ont su se montrer disponible pour m’accompagner tout au long de ce stage En outre,
GO-je leur suis très reconnaissant pour m’avoir fait participer dans un proGO-jet d’envergure à savoir
le projet A-MUSE qui porte sur la surveillance de de caractéristiques observables de la surface
du sol en lien avec l’infiltrabilité
Je voudrais également remercier les membres du projet pour leurs interventions pertinentes
et leurs orientations pointues durant les présentations de ce travail
Je voudrais également remercier Monsieur Denis FEURER, pour les corrections apportéesdans ce mémoire et ses orientations
Je remercie Monsieur Jérôme MOLENAT, Directeur du LISAH pour m’avoir accueilli dans
sa structure Je remercie également les agents du laboratoire avec qui j’ai collaboré durant cestage
Mes remerciements vont également à l’endroit de notre très cher institut de formation, titut de la Francophonie pour l’Innovation (IFI) Je remercie tout particulièrement le corpsenseignant pour la qualité de la formation re¸cue et le personnel administratif pour la chaleu-reuse collaboration Je remercie également l’Agence Universitaire de la Francophonie (AUF),pour nous avoir donné l’opportunité de poursuivre nos études de Master à l’IFI à travers unebourse
l’Ins-Enfin, je dis merci à tous ceux ou toutes celles qui m’ont assisté durant ce travail
Trang 11Face à la croissance de la population au cours des dernières décennies et, par conséquent,l’expansion et l’intensification de l’utilisation des zones agricoles pour répondre à la demandealimentaire, il est nécessaire de surveiller l’utilisation et la couverture du sol pour la gestionenvironnementale de ces zones
Ainsi avec l’avènement de la suivie et de la caractérisation de la surface d’un sol, la tection s’avère être un outil intéressant dans la suivie et la cartographie des états de surfaced’un sol en lien avec l’infiltrabilité comme l’ont montré des nombreux travaux (e.g : Corbane
télédé-et al., 2008 ; Quiquerez télédé-et al., 2014) La mise en service récente de la constellation des satelliteSentinel-2 apporte de nouvelles perspectives avec une résolution spectrale et temporelle élevée.L’objectif de ce travail est de cartographier les caractéristiques observables (variables) de
la surface du sol, plus précisément déterminer le pourcentage d’occupation de ces variablesdans une parcelle afin de déterminer le niveau d’infiltrabilité en eau de cette parcelle Pour cefaire nous avons proposé quatre approches basées sur des algorithmes d’apprentissage supervisé
et non supervisé Ces approches ont été traitée à l’échelle pixellaire et parcellaire Les résultatsobtenus sont prometteurs en ce sens que nous avons obtenu des bons taux de précision Parmi cesapproches, ce sont les approches mono-date et multi-date non-ordonnée supervisée à l’échellepixelaire qui ont permis d’obtenir les meilleurs résultats avec l’algorithme du random forest.Ces approches nous ont permis de bien classifier 337 parcelles sur 384 parcelles de la zoned’étude L’approche multi-date ordonnée quant à elle nous a permis de détecter le changementsubit par une parcelle entre deux dates Les résultats obtenus sont prometteurs et peuvent êtreaméliorés pour une plus grande précision, notamment en combinant les différentes approches ou
en combinant les spectres et les indices spectraux
Mots-clés : Agronomie, télédétection, détection de changement, classification
Trang 12In response to population growth in recent decades and, consequently, the expansion andintensification of the use of agricultural areas to meet food demand, it is necessary to monitorland use and land cover for the environmental management of these areas
Thus with the advent of monitoring and characterization of the surface of a soil, remotesensing proves to be an interesting tool in the monitoring and mapping of the surface condi-tions of a soil related to infiltration as have shown numerous works (eg : Corbane et al., 2008,Quiquerez et al., 2014) The recent commissioning of the Sentinel-2 satellite constellation bringsnew perspectives with high spectral and temporal resolution
The objective of this work is to map the observable (variable) characteristics of the soilsurface, more precisely to determine the percentage of occupancy of these variables in a plot
in order to determine the level of water infiltrability of this plot To do this, we proposed fourapproaches based on supervised and unsupervised learning algorithms These approaches weretreated on a pixel and plot scale The results obtained are promising in that we have obtainedgood accuracy rates Among these approaches, it is the mono-date and non-ordered, pixel-scalesupervised multi-date approaches that have produced the best results with the random forestalgorithm These approaches allowed us to properly classify 337 plots out of 384 plots in thestudy area The ordered multi-date approach allowed us to detect the change in a plot betweentwo dates The results obtained are promising and can be improved for a greater accuracy, inparticular by combining different approaches or by combining spectra and spectral indices
Keywords : Agronomy, remote sensing, change detection, classification
Trang 13Dans un second temps nous présentons les objectifs de notre stage, son positionnement dans
le projet et les approches adoptées pour mener le travail
1.1 Contexte Scientifique
La population mondiale devrait passer de 7,3 milliards à 8,7 milliards d’ici 2030, 9,7 liards d’ici 2050 et 11,2 milliards d’ici 2100 [18] Cette croissance démographique a un impactsur les systèmes d’approvisionnement alimentaire dans le monde entier [27], rendant urgent ledéveloppement de gestion durable des ressources naturelles Les sols agricoles cultivés en pluvialreprésentent 80% des terres cultivées dans le monde et assurent 70% des ressources alimentairesmondiales, jouant ainsi un rôle crucial sur la sécurité alimentaire mondiale face au changementglobal [22] L’infiltrabilité des sols contrôle le partage entre ruissellement et infiltration des pluiesdans la zone critique, l’infiltrabilité a un impacte directe sur les capacités du sol à fournir cesservices écosystémiques L’infiltrabilité d’un sol, ou capacité d’infiltration, est la vitesse à la-quelle l’eau pénètre dans le sol Elle est contrôlée par les facteurs du sol dont la perméabilité,elle-même dépendante des facteurs du sol (e.g., végétation vivante ou résidus de cultures) qui,indirectement, contrôlent la surface du sol (e.g., battance) En plus du type de sol, elle dépenddonc des pratiques agricoles (e.g., travail du sol, enherbement) [12]
mil-Ainsi, notre stage vise à contribuer à déterminer cette infiltrabilité des sols
1.1.1 Lien avec l’infiltrabilité
Plusieurs travaux [26], [12], [25] ont montré que l’infiltrabilité des sols cultivés en terranéens ou semi-arides en régime permanent (lorsque le sol est saturé en eau) peut êtreexpliquée et raisonnablement prédite à partir de caractéristiques observables de la surface dusol et de leurs modalités : présence/absence de travail du sol, caractéristiques structurales («
Trang 14médi-rugosité » ou taille des mottes, présence/absence de croˆutes) et caractéristiques de couverture
du sol (éléments minéraux ou organiques, débris de végétaux et couverture végétale) (e.g., [26],[12], [25]) Ces caractéristiques peuvent être corrélées pour partie et des modèles explicitant cescorrélations existent [25]
Une méthode générique de prédiction de l’infiltrabilité des sols cultivés à partir de différentescaractéristiques observables localement1 de la surface du sol a été développée en régime perma-nent au LISAH2 Afin d’être généralisée et opérationnelle, cette méthode nécessite l’observationrégulière de caractéristiques de surface à grande échelle (résolution métrique à parcellaire) Cetteméthode résulte de la capitalisation de bases de données observées au champ depuis 25 ans etdans différents contextes de sols cultivés (en pluvial) ([12] et [3]), dont ceux de l’ORE OMERE3
situé sur les deux rives de la Méditerranée Cette méthode attribue l’infiltrabilité (valeur moyenne
et gamme d’infiltrabilité) en fonction d’un vecteur de caractéristiques observables de la surface
du sol (typologie suivant 4 types) [19] et s’écrit :
Ks = f (RT, V gt, L, Cx, )
Où Ks correspond à l’infiltrabilité du sol étudié et f est fonction a minima de la rugosité dusol RT , du couvert végétal V gt, du couvert par la litière L, et des éléments grossiers Cx.D’après les études menées par Leonard et al [12] puis Tighe et al [25] l’infiltrabilité dessols cultivés en climat méditerranéen ou semi-aride peut être expliquée et prédite à partir : dutravail du sol, de la rugosité, de la couverture végétale, et des débris de végétaux Pour notreétude, nous n’allons tenir compte d’une autre variable (faciès) pour mieux caractériser le travail
du sol Ces variables sont présentées dans le tableau 1.1, ainsi que leur nomenclature Nousn’allons en revanche pas tenir compte d’autres caractéristiques du sol propres au terrain d’étudetrès argileux, et difficilement observables, telle que la présence de fentes de retrait qui peuventjouer un rơle très important une partie de l’année sur l’infiltration
1.1.2 Télédétection Multispectrale
Principes généraux de télédétection
La télédétection est une technique permettant d’observer, analyser et comprendre ronnement à partir d’images et acquisitions obtenues généralement à partir des plates-formesắroportées ou spatiales Les images issues de la télédétection peuvent provenir soit de capteursactifs (tels que les capteurs Radar) soit de capteurs passifs Chaque capteur est dédié à l’en-registrement d’une gamme d’onde électromagnétique Les capteurs passifs utilisés à bord desplates-formes de télédétection permettent d’enregistrer les ondes électromagnétiques émises par
l’envi-le sol’envi-leil et réfléchies par l’envi-les éléments à la surface de la terre L’information acquise passe par l’envi-leprocessus de traitement suivant avant d’être prête à être exploitée :
1 De 1 à quelques m2
2 Notre structure d’accueil, Site web
3 Observatoires de Recherche en Environnement mise en place par le LISAH, UMR HSM (Montpellier), l’INAT et l’INRGREF (Tunis) dans le contexte de l’étude des changements globaux affectant les hydrosystèmes
et se focalise sur les agrosystèmes méditerranéens
Trang 15Couverturevégétation sèche
V gts
Permet de caractériser la végétation sèche, leschaumes et la litière Elle permet également dedéterminer le niveau de rétention et de ruissel-lement en eau d’une parcelle
Éléments grossiers
Cx
Permet de caractériser les cailloux et les graviers
à la surface du sol Elle permet de déterminer leniveau de rétention de la parcelle en eauRugosité RT Permet de caractériser la taille des mottes, et
d’identifier le type de labour appliqué au sol
Faciès Correspond à l’ouverture de la surface du sol
Elle permet en ce sens de déterminer également
le niveau d’infiltration en eau d’une parcelle
Travail du sol Permet de caractériser la pratique ou
l’ab-sence d’un labour sur un sol, ce qui permet deconnaˆıtre l’état d’un sol (ouvert : labouré oufermé : non labouré) et le niveau de d’infiltration
et de ruissellement de l’eau
Table 1.1: Typologie des caractéristiques observables expliquant l’infiltrabilité [1]
— Phase 1 : Le rayonnement électromagnétique incident venant du soleil va illuminer lacible à la surface de la terre, une partie de ce rayonnement va être absorbée par la terre
et une autre partie va se réfléchir et sera détectée par le capteur
— Phase 2 : Les capteurs à bord des plates-formes de télédétection enregistrent la partie durayonnement électromagnétique réfléchi par la cible ainsi que le rayonnement électroma-gnétique émis par la cible elle-même
— Phase 3 : Les capteurs à bord des satellites transmettent les données enregistrées parvoie hertzienne jusqu’à la station de réception sur terre Les capteurs aéroportés stockentquant à eux les données pendant la durée de la campagne aéroportée
— Phase 4 : Pour les capteurs satellites, les données re¸cues par la station de réception sonttraitées Pour les capteurs aéroportés, les données sont téléchargées après un retour au sol
Le graphique à la figure 1.1 résume toutes ces différentes phases de traitement des données
de télédétection
Dans la suite de ce mémoire l’intérêt sera porté sur les capteurs passifs enregistrant l’énergieréfléchie par la surface terrestre sous forme de réflectance dans le domaine spectral du visible
au proche infrarouge (400 à 2500 nm)
Trang 16Figure 1.1: Processus d’acquisition d’une image satellitaire par télédétection [17]
Principes généraux de spectroscopie
Lorsque le rayonnement solaire rencontre un matériau, il interagit avec ce dernier L’énergielumineuse incidente est alors en partie transmise à travers le matériau, diffusée au sein dumatériau, ou encore absorbée, et finalement une certaine quantité d’énergie seulement est ré-émise dans le milieu ambiant Les termes de "réflectance" ou celui d’"albédo" font référence à lafraction de l’énergie incidente réfléchie par un matériau Le spectre de reflectance du matériaucorrespond ainsi à l’expression de sa réflectance en fonction de la longueur d’onde La variation
de la réflectance en fonction de la longueur d’onde est appelée signature spectrale La figure 1.2présente des exemples de signatures spectrales de la végétation vivante, du sol humide et du solsec
Figure 1.2: Exemple de signatures spectrales de quelques objetsDans le sol, trois éléments chimiques majeurs affectent majoritairement le spectre : les miné-
Trang 17raux (argileux, ferriques et carbonatés), la matière organique et l’eau [24] A titre d’exemple, laprésence de carbonate de calcium dans les sols entraine une bande d’absorption autour de 2340
nm, due aux vibrations d’ions CO3 Les caractéristiques physiques du sol, liées à la trie, la géométrie de l’échantillon, l’angle de vue de la source lumineuse (angle incident et angleazimut) influencent quant à eux la forme générale du spectre à travers un changement d’intensitédes bandes d’absorption spectrale et de hauteur de ligne de base [5], mais n’affectent généra-lement pas la position des bandes d’absorption [5] L’effet de la granulométrie des sols (tailledes particules) joue ainsi un rôle sur l’intensité du spectre Plus la granulométrie est fine, plusl’intensité du spectre est forte Ainsi, les sols sableux ont logiquement les bandes d’absorption
granulomé-de l’eau les moins marquées
Télédétection pour l’état de surface
Il existe diverses études, utilisant des algorithmes supervisés ou non supervisés, dédiées à lacartographie des terres cultivées à partir de séries chronologiques ou d’images de télédétection
à date unique [20][28] Les méthodes de cartographie des terres cultivées appliquées aux images
de séries chronologiques ont montré de meilleures performances que les méthodes de phie à date unique [8] Par exemple, les modèles phénologiques identifiés à l’aide de la sériechronologique EVIS (Enhanced Vegetation Index, EVIS) de 250 m ont été utilisés avec succèspour classer les cultures de soja , de ma¨ıs, de coton et de cultures non commerciales au Brésil[2] Les schémas de dynamique de la végétation identifiés à partir des données MODIS EVI ontété utilisés par Maus et al [14] pour cartographier la double culture, la monoculture, la forêt
cartogra-et les pâturages Senf cartogra-et al [22] ont utilisé des images MODIS cartogra-et Landsat multi-saisonnièrespour différencier les cultures de la savane, et M¨uller et al [16] ont classé avec succès les terrescultivées et les pâturages de la série temporelle Landsat
Parmi toutes ces études, peu d’entre elles ont porté sur les données Sentinel-2 Par exemple,Immitzer M et al [11] ont mené une étude sur la classification des espèces de cultures etd’arbres en Europe centrale à travers la méthode de random forest (RF) avec des donnéesSentinel-2 Leur étude à démontré que la classification classique basée sur les pixels donnaientdes résultats plus satisfaisants que la classification orientée objet Ils ont démontré égalementque les bandes infrarouges à ondes courtes (SWIR) étaient très importantes dans la cartographie
de la végétation Par contre, l’étude menée par Mariana et al [4] sur la classification des terrescultivées à travers la méthode de l’analyse de distorsion temporelle dynamique pondérée dans
le temps (TWDTW) avec les données Sentinel-2, à montré que la classification orientée objetobtient des meilleurs résultats que la classification basée sur les pixels
Étant donné que nous voulons mener notre étude avec une approche pixel, notre travail sebasera sur les travaux menés par Immitzer M et al [11]
1.1.3 Objectif du Stage
L’objectif de ce présent travail, est d’utiliser les données de télédétection Sentinel-2 tique, passif) multi-temporelle pour cartographier les caractéristiques observables (variables) de
Trang 18(op-la surface du sol, plus précisément déterminer le pourcentage d’occupation de ces variables danschaque parcelle L’objectif final du projet A-MUSE, dans lequel s’inscrit ce stage, sera de déter-miner la classe d’infiltrabilité de chaque parcelle de la zone d’étude, autrement dit, déterminer
la quantité d’eau qui sera infiltrée et celle qui va ruisseler dans le sol après une pluie
Les enjeux de cette étude sont multiples Ils sont d’ordre :
— agronomiques : déterminer les parcelles qui sont sensibles à l’érosion pour prévenir lecas d’érosion ;
— économiques : identifier les zones à forte capacité d’infiltrabilité et adapter une culturebien spécifique au profil de ces zones, accroˆıtre la productivité de ces zones, gérer ladistribution des engrais en fonction du niveau d’infiltrabilité de ces zones
1.1.4 Les approches développées
Pour cartographier les variables liées à l’infiltrabilité (végétation verte, végétation sèche,travail
du sol, faciès et rugosité), nous utilisons cinq approches :
— Approche mono-date non supervisée : cette approche consiste à utiliser un algorithmenon supervisé pour cartographier les variables de l’infiltrabilité à une date donnée (dated’acquisition de l’image Sentinel-2) Cette approche est traitée à l’échelle pixellaire ;
— Approche mono-date supervisée : cette approche consiste à cartographier chaquevariable de l’infiltrabilité à une date donnée (date d’acquisition de l’image Sentinel-2) àtravers un algorithme supervisé Cette approche est traitée à l’échelle pixellaire et parcel-laire ;
— Approche multidate non-ordonnée supervisée : cette approche consiste à phier chaque variable de l’infiltrabilité, simultanément pour toutes les dates d’acquisitionSentinel-2, à partir d’un seul modèle de prédiction construit sur une partie des données
cartogra-de chaque image Sentinel-2 disponible Elle est également traitée à l’échelle pixellaire etparcellaire ;
— Approche multidate semi-ordonnée : cette approche consiste à cartographier chaquevariable de l’infiltrabilité, en utilisant les données de la date ti pour construire un modèle
de prédiction et en l’appliquant aux n − 1 autres images Plus précisement, cette approchenous permet de prédire les observations d’une parcelle d’une date ti à partir des donnéesd’une date ti−1 Cette approche est traitée à l’échelle pixellaire
— Approche multidate ordonnée : cette approche consiste à étudier le changement d’unevariable entre la date ti et la date ti+1 dans une parcelle donnée Plus précisément, nouscherchons à déterminer si entre deux dates la variable a subi une croissance (changementcroissant), une décroissance (changement décroissant) ou est restée stable (pas de change-ment) La classe (changement croissant, décroissant ou pas de changement) à prédire est
la différence des classes terrain de la variable étudiée entre la date ti et la date ti+1 Cetteapproche est traitée à l’échelle pixellaire
Trang 19Toutes ces approches sont proposées dans le but de trouver celle qui nous permettra de mieuxcartographier nos variables Nous testons toutes ces approches avec les spectres entiers S’agis-sant des méthodes, nous utilisons des algorithmes d’apprentissage supervisé et non-supervisé(Random Forest, SVM, Kmeans, Classification hiérarchique).
1.2 Contexte Administratif
1.2.1 Positionnement à l’UMR LISAH
Mon stage s’est déroulé du 02 Mai au 31 octobre 2018 au Laboratoire d’Etude des Interactionsentre Sol-Agrosystème-Hydrosystème (LISAH) de Montpellier, au sein de l’équipe Organisationspatiale et dynamique des sols et des paysages cultivés Mon travail a été encadré et orienté parMme Gomez Cécile chargée de recherche à l’IRD et M Jean-Stéphane Bailly enseignantchercheur à AgroParisTech de Montpellier, tous deux du laboratoire LISAH
Le tableau 1.2 présente ces acteurs en les spécifiant par groupe
Pilotage
— Cécile GOMEZ
— Jéan-Stéphane BAILLY
— Chargée de recherche à l’IRD
— Enseignant chercheur à AgroParisTechPartenaire
— Maguelonne TEISSEIRE
— Anne BIARNÈS
— Denis FEURER
— Chargé de recherche à l’Irstea
— Directrice de recherche à l’Irstea
— Chargée de recherche à l’IRD
— Ingénieur de recherche à l’IRD
Table 1.2: Acteurs du projet
Une réunion mensuelle est organisée avec les différents membres du projet pour discuter
de l’avancement du projet Au cours de ces réunions, nous présentons l’état d’avancement denos travaux et les résultats obtenus Nous avons effectué au total quatre présentations avec lesmembres du projet et une présentation devant le personnel du LISAH lors de la journée de laprésentation des travaux des stagiaires
1.2.2 Le stage dans le projet A-MUSE
Ce travail de stage a été réalisé dans le cadre du projet TOSCA A-MUSE (Analyse temporelle de données SENTINEL 2 et 1 pour le monitoring de caractéristiques observables de
Trang 20MUlti-la surface du sol, en lien avec l’infiltrabilité, 2018-2019) financé par le CNES Une analyse desdonnées Sentinel-2 acquises sur le Bassin Versant de Kamech entre aoˆut et décembre 2016 ắté préalablement menée dans l’objectif d’identifier le changement du couvert végétal de cettezone Cette analyse s’est focalisée sur l’étude du NDVI (Normalized Difference Vegetation Index)comme indicateur de changements de couvert végétal vert (Vgtv).
C’est dans la continuité de cette analyse que se situe notre stage
1.3 Conclusion
Dans ce chapitre, nous avons présenté dans un premier temps le contexte général dans lequel
se situe notre travail et les différents travaux qui ont été menés dans ce sens Il est important
de noter que plusieurs travaux ont été menés sur la cartographie des états de surface, mais peud’entre eux portent sur des données Sentinel-2 Pour la caractérisation des variables de l’infiltra-bilité, les travaux dans [21] ont montré des limitations majeures dues à la capacité limitée descapteurs utilisés pour l’acquisition des données, d’ó l’intérêt de cette étude, utiliser les donnéesmultispectrales à haute répétitivité Sentinel-2 pour caractériser ces variables d’infiltrabilité.Dans un second temps, nous avons présenté l’objectif de notre travail et les différentes ap-proches adoptées pour la réalisation de ce travail Nous précisons également que nous utilisons lesalgorithmes d’apprentissage supervisé et non-supervisé comme dans [11] pour mener ce travail
Trang 21Chapitre 2
Présentation des données
L’objectif de ce chapitre est de présenter la zone d’étude et les données dont nous disposonspour la réalisation de ce travail Elles sont principalement de deux types : les données d’observa-tions (les données d’états de surface) et les données Sentinel-2 Les données d’observations sontcelles recueillies sur le terrain par Zakia JENHAOUI dans le cadre de la description des états
de surface des sols de la dorsale Tunisienne dans le cadre de l’ORE OMERE Ces données nousservirons à calibrer et à tester les modèles que nous aurons à concevoir Les données Sentinel-
2 nous serviront à la conception de nos différents modèles et à l’extrapolation spatiale de cesmodèles sur l’ensemble d’un territoire test : le bassin versant de Kamech
2.1 La zone d’étude
2.1.1 Localisation géographique
Le bassin versant de Kamech est situé dans une région agricole du nord du Cap Bon enTunisie Il s’étend sur une superficie de 2, 63 km2 (figure 2.1) C’est un bassin versant trèscultivé En effet, environ 80 à 90 % de sa superficie est cultivée Il comprend en moyenne 390parcelles1 sur lesquelles les paysans pratiquent trois cultures céréalières (orge, blé et avoine),trois cultures de légumineuses (fèves, pois chiches et vesce), deux cultures arborées (oliviers,vignes) et des cultures irriguées sur de petites parcelles à l’aval du bassin (tomates, piments,oignons et ails) Pour chaque type de culture, l’agriculteur suit un itinéraire technique et uncalendrier cultural (Tab 2.2) qui détermine l’évolution des états de surface au cours du temps.Les surfaces non-cultivées du bassin sont des terres de parcours pour les élevage ovins
2.1.2 Les parcelles observées
Les pratiques culturales sur le bassin versant de Kamech sont représentatives de l’agriculturetraditionnelle en zone de relief du Cap Bon Le suivi de ces pratiques et des conditions de surface
a été réalisé sur un échantillon de parcelles cultivées L’objectif de ce suivi est de mettre au point
un modèle d’évolution pour la prédiction des états de surface connaissant un ensemble de facteurs
1 Les parcelles dites culturales peuvent être redéfinies à chaque début de mise en culture
Trang 22Figure 2.1: Localisation du bassin versant de kamechexplicatifs comme les pratiques culturales Chaque parcelle suivie est photographiée à chaquesortie sur le terrain La figure 2.2 présente un exemple de ce suivi Au total 34 parcellescultivées sont suivies tous les mois, de septembre à juillet depuis 2006 La figure 2.3 présente
la carte des parcelles observées Le tableau 2.1 présente les statistiques des parcelles suivies
L’ensemble des parcelles de Kamech Les 34 parcelles observées
Table 2.1: Statistiques de la superficie des parcelles suivies (en m2)
2.2 Les données d’observation
Le suivi des parcelles concernent plusieurs variables d’états de surface, mais celles qui pactent l’infiltrabilité et qui nous intéressent sont : la végétation verte, la végétation sèche, letravail du sol, la rugosité et le faciès Le tableau 2.2 présente les dates auxquelles ces variablesont été observées
im-Date d’observations des
champs (J/M/A)
Date d’acquisition des imagesS2 (J/M/A)
Nombre jours cart
Trang 23Figure 2.2: Exemple de suivi des états de surface sur Kamech (Z Jenhaoui, IRD Tunis)
Figure 2.3: Parcellaire de Kamech
— La végétation verte : elle représente le taux de couverture végétale (végétation relle, et culture) du sol Cette variable est très importante, dans le sens ó elle permet laprotection du sol contre l’érosion due a l’impact des gouttes de pluies et augmente glo-balement l’infiltration de l’eau dans le sol, du fait également du système racinaire de la
Trang 24natu-végétation qui favorise les chemins de l’eau dans le sol [29].
Elle est constituée de six classes : Vgtv_0% (végétation 0%), Vgtv_0-5% (végétation verteentre 0 et 5%), Vgtv_5-25% (végétation verte entre 5 et 25%), Vgtv_25-50% (végétationverte entre 25 et 50%), Vgtv_50-75% (végétation verte entre 50 et 75%), Vgtv_75-100%(végétation verte entre 75 et 100%) comme le montre la figure 2.4 Ces classes définissent
le taux de cette variable sur chaque parcelle L’observation de cette figure nous permet deconstater une évolution de cette variable dans le temps et dans l’espace entre fin septembre
et début décembre En outre elle nous permet de remarquer une discrimination des classes
au cours du temps, ce qui nous permettra de mieux cartographier cette variable
Les faibles valeurs de cette variable en septembre s’expliquent par le fait que cette périodecorrespond à la période de la préparation du terrain pour un nouveau semis et la poussée de
la végétation naturelle A l’inverse sa forte présence en novembre et décembre, correspond
à la période du démarrage de la culture
Figure 2.4: Distribution des classes de la végétation verte.
En abscisse 1 : Vgtv_0%, 2 :Vgtv_0-5%, 3 :Vgtv_5-25%, 4 :Vgtv_25-50%, 5 :Vgtv_50-75%, 6 100%
:Vgtv_75-— La végétation sèche : elle représente la combinaison de la litière et des chaumes Leschaumes sont constitués des tiges de céréales ou de fèves qui restent dressées à la surface
du sol après la récolte La litière est constituée des résidus végétaux coupés et étendus à lasurface du sol Elle joue également un rơle dans l’infiltrabilité, car recouvrant bien le sol,
ce qui le protège encore une fois de l’impact des gouttes de pluie et qui aussi du fait que lalitière freine considérablement le ruissellement de l’eau en surface [29] Cette variable estconstituée de quatre classes : Tvgts_5-25% (végétation sèche entre 5 et 25%), Tvgts_25-50% (végétation sèche entre 25 et 50%), Tvgts_50-75% (végétation sèche entre 50 et 75%),Tvgts_75-100% (végétation sèche entre 75 et 100%) (figure 2.5) L’observation de cettefigure nous permet de remarquer une évolution et une variabilité dans le temps et dansl’espace en septembre de cette variable En effet cette période correspond à la période
de transition après la récolte ó l’on retrouve les débris des arbres et de la litière avant
Trang 25les premiers labours Par contre, la période de novembre à décembre ó cette variable seretrouve pratiquement avec une seule classe correspond à la période de la poussée et de lacroissance de la végétation naturelle et des cultures.
Figure 2.5: Distribution des classes de la végétation sèche.
En abscisse 1 : Tvgts_5-25%, 2 :Tvgts_25-50%, 3 :Tvgts_50-75%, 4 :Tvgts_75-100%
— Le travail du sol : il représente l’état de labour d’un sol, c’est-à-dire si un sol a été labouré
ou non Cette variable est importante également dans l’explication de l’infiltrabilité d’unsol, dans la mesure ou elle permet de déterminer le niveau de perméabilité (ouverture dusol) en eau d’un sol Elle est constituée de trois classes TR, TA, NT :
— TR (Travail Récent) : indique si le travail est récent, ce qui correspond à un solouvert ;
— TA (Travail Ancien) : indique si le travail est ancien, ce qui correspond à un sol fermé
Un travail est considéré comme ancien s’il n’y a pas eu un autre travail du sol deuxsemaines après l’observation ;
— NT (Non Travaillé) : indique que le sol n’est pas travaillé
La figure 2.6 présente la distribution de cette variable A travers cette figure, nous vons remarquer une faible variabilité des observations du travail du sol Ainsi, nous avonsjugé utile de chercher d’autres variables qui présentent plus de variabilité dans le temps etdans l’espace et qui nous permettront de mieux caractériser le travail du sol C’est dans
pou-ce sens que nous avons proposé d’étudier les variables Rugosité et Faciès qui sont liées autravail du sol
— La rugosité : représente l’état rugueux d’une surface après un labour Sur le bassin versant
de Kamech, deux types de rugosités sont étudiées : la Rugosité topographique (RT) et laRugosité aratoire (RA) Pour notre travail nous travaillerons avec la rugosité topographiquepour laquelle nous avons des observations Elle est composée de trois classes :
— RT0 (Rugosités Topographique 0) (faible 0-2 cm)
— RT2 (moyenne 2-5 cm)
Trang 26Figure 2.6: Distribution des classes travail du sol.
En abscisse 1 :TR, 2 :TA, 3 :NT
— RT5 (forte > 5 cm)
La figure 2.7 présente la distribution de cette variable L’observation de cette figure nouspermet de constater une variabilité dans le temps et dans l’espace de cette variable entredébut novembre et décembre, ce qui nous informe mieux sur l’état du sol que la variable
Trang 27— F1 : surface "finement" fermée ; il y a eu au moins une pluie depuis le dernier travail ;une croˆute structurale fine et continue recouvre la surface du sol mais les mottes ouagrégats restent parfaitement visibles Le pied s’enfonce facilement dans le sol.
— F2 : surface du sol fermée de fa¸con continue et consolidée sur plusieurs centimetre deprofondeur ; plusieurs pluies sont tombées et le sol est franchement croˆuté Le pied
ne s’enfonce pas dans le sol qui est compact
— F0/F1 (état transitoire) : la surface du sol est partiellement fermée, on note clairementdes espaces largement ouverts (macroporosité)
— F1/F2 (état transitoire) : la surface du sol est totalement fermée et largement lidée mais il subsiste des zones foisonnées
conso-La figure 2.8 présente la distribution de cette variable L’observation de cette variablenous permet de constater une variabilité assez continue de cette variable sur toutes lespériodes Au vu des deux graphiques précédents (figure 2.7 et 2.8), nous pensons que
la combinaison de ces deux déterminants nous permettra de mieux caractériser les activitésliées au travail du sol que la variable "travail du sol" seule
Figure 2.8: Distribution des classes de faciès.
En abscisse 1 :F0, 2 :F0/F1, 3 :F1, 4 :F1/F2, 5 :F2, 6 :Saturée
C’est à travers ces cinq variables que nous déterminerons le niveau de l’infiltrabilité desdifférentes parcelles
2.3 Les données sentinel-2
Sentinel-2 est un couple de satellites d’observation de la Terre de l’Agence Spatiale ropéenne développé dans le cadre du programme Copernicus mis en orbite en 2015 et 2017.L’objectif du programme est de fournir aux pays européens des données complètes et actualiséesleur permettant d’assurer le contrôle et la surveillance de l’environnement[23]
Eu-L’objectif de la mission Sentinel-2 est de répondre aux enjeux globaux de la gestion de vironnement, de permettre de comprendre les effets du changement climatique et enfin d’assurer
Trang 28l’en-la sécurité civile Sentinel-2 est équipé d’un imageur multispectral (MSI) à l’en-large fauchée et àhaute résolution, avec 13 bandes spectrales dans les domaines visible, proche et moyen infra-rouge Il dispose également d’une résolution spatiale 10 à 60m (en fonction des bandes spectrales)(figure 2.10) Il offre également une large couverture (jusqu’à 290 km) avec un temps de retourglobal minimal de cinq jours (avec les satellites jumeaux en orbite) Pour la présente étude, desimages de niveau 2A (BoA : Bottom of Atmosphere reflectance) ont été utilisées Le niveau 2Asignifie que les images sont corrigées des effets atmosphériques.
Les données Sentinel sur lesquelles nous travaillons sont les valeurs radiométriques des pixels
La figure 2.9 présente un extrait de ces valeurs radiométriques des pixels Chaque ligne sente une information sur un pixel La dimension des données Sentinel-2 est présentée dans letableau 2.3
repré-Dimensions (pixels x Nbr variables)Données terrains (Parcelles observées) 1264 x 10
Données Kamech (ensemble des données
de la zone d’étude)
15127 x 10Table 2.3: Dimensions des données Sentinel-2 utilisées
Figure 2.9: Exemple des données Sentinel-2, avec band1 = B2, band2 = B3, band3 = B4, band4 = B5, band5 = B6, band6 = B7, band7 = B8, band8 = B8a, band9 = B11, band10 = B12 de la figure 2.10
Les fonctions de réponse spectrale de la figure 2.10 sont représentées en couleurs avec lalongueur d’onde centrale en noir Les noms de bande et les résolutions spatiales correspondantes(en mètres) sont également indiqués Pour ce travail, les trois bandes "atmosphériques" (B1,B9 et B10) à 60m de résolution n’ont pas été utilisées En outre une partie limitée de la zoned’étude a été utilisée pour la suite de ce travail La figure 2.11 présente un exemple d’uneimage Sentinel-2 centrée sur la zone d’étude
2.4 Conclusion
Dans ce chapitre, nous avons présenté dans un premier temps notre zone d’étude et lespratiques culturales appliquées Dans un second temps nous avons présenté les données d’états
Trang 29Figure 2.10: Caractéristiques de l’instrument multi-spectral (MSI) à bord de Sentinel-2 [11]
Figure 2.11: Image Sentinel du 2016-08-04 avec le parcellaire de Kamech
de surface, plus précisément celles liées à l’infiltrabilité Ces données nous servirons de calibration
et de test des modèles que nous aurons à concevoir
Enfin, nous avons présenté les données Sentinel-2 dont nous disposons pour la réalisation de
ce travail et leurs dimensions Pour rappel c’est à travers les données terrain que nous formeronsnos modèles avant de réaliser la prédiction sur toute la zone d’étude
Trang 30Chapitre 3
Les méthodes proposées
Une classification consiste à regrouper n observations (ó, dans notre cas, n = nombre depixels observés) en K classes (ó, dans notre cas, K = nombre de classes de la variable d’état desurface recherchée), à partir de l’étude de p caractéristiques (ó, dans notre cas, p = nombre debandes spectrales considérées)
L’objectif du présent chapitre est de présenter en détail les différentes méthodes de cation supervisée et non supervisée utilisées, les approches de partitionnements utilisées et lesindicateurs de qualité utilisés pour l’évaluation des différentes méthodes
classifi-Nous avons choisi la méthode de Kmeans pour l’apprentissage non supervisé et la méthode
de Random Forest pour l’apprentissage supervisé Nous avons ensuite proposé pour chaque proche une autre méthode alternative pour comparer les résultats des deux méthodes proposées.Les méthodes proposées pour la comparaison sont : la Classification Hiérarchique Ascendante(CAH) pour l’apprentissage non supervisé et les machines à vecteurs de support (SVM) pourl’apprentissage supervisé
ap-Comme indicateur de qualité, nous avons utilisé la précision (Accuracy) et le kappa
3.1 Les méthodes de classification non supervisée
La classification non supervisée consiste à extraire des classes ou groupes d’individus tant des caractéristiques communes sans l’aide des données d’apprentissage La classification nonsupervisée nécessite un apport initial minimum de la part de l’utilisateur Par contre, l’utilisa-teur doit décider du nombre de clusters à former Après la classification, l’utilisateur attribueraces classes spectrales aux classes d’information d’intérêt L’utilisateur doit bien connaˆıtre lescaractéristiques spectrales du terrain en cours de classification afin que les groupes puissent êtreétiquetés de manière conforme L’utilisateur s’appuie sur les informations de référence (vérité deterrain) dont il dispose sur le sol pour identifier les classes spectrales créées par un classificateurnon supervisé
présen-Au fil des années, de nombreux algorithmes de clustering ont été développés, qui diffèrent entermes d’efficacité de clustering et de règles de décision utilisées pour effectuer la classification.Tous ces algorithmes impliquent une forme de calcul itératif afin d’arriver à un ensemble optimal
Trang 31de règles de décision pour l’ensemble de données.
Dans cette section nous présentons deux algorithmes de classification non supervisée : leKmeans et la classification hiérarchique ascendante (CAH) Ces algorithmes font partie desalgorithmes de classification non supervisée les plus utilisés dans la classification des données
3.1.1 Kmeans
L’algorithme de Kmeans est l’un des algorithmes de clustering non paramétriques le plusutilisé pour réaliser une classification non supervisée En général, tous les pixels sont classés enfonction de leurs distances (distance spectrale, dans notre cas) par rapport aux moyennes desclusters La distance utilisée ici est la distance euclidienne Une fois cette opération effectuée,les nouveaux vecteurs moyens de chaque cluster sont calculés Cette procédure est effectuée demanière itérative jusqu’à ce qu’il n’y ait plus aucune variation de l’emplacement des vecteurs de
la moyenne des clusters entre les itérations successives Le principe de l’algorithme est présentécomme suit :
Algorithm 1: Principe de l’algorithme de Kmeans
input : X (N obs., p variables #bandes spectrales), K #classes
initialisation: Initialiser K centres de classes Gk (K choisis au hasard)
Répéter
Allocation : Affecter chaque pixel au cluster dont le centre est le plus proche
Représentation : Recalculer les centres des clusters à partir des pixels rattachés
JUSQU’À Convergence
Sortie : Une partition des pixels caractérisée par les K centres de clusters Gk
Cet algorithme présente les avantages suivants :
— Scalabilité : Capacité à traiter les très grandes bases Seuls les vecteurs des moyennes sont
à conserver en mémoire centrale ;
— Complexité linéaire par rapport au nombre d’observations (pas de calcul des distancesdeux à deux des individus, contrairement à la classification hiérarchique ascendante)
Il présente également des inconvénients :
— Lenteur : il présente souvent une lenteur dans le traitement des données, car il nécessite
de faire passer plusieurs fois les observations ;
— Choix initial du centre : la solution dépend du choix initial des centres de classes ;
Choix du nombre de classes
Les résultats de l’algorithme de Kmeans dépendent fortement de son initialisation, dire du nombre de clusters choisis Ainsi pour déterminer le nombre de clusters idéaux pourréaliser une classification non supervisée, plusieurs techniques ont été développées, qui diffèrent
Trang 32c’est-à-selon leurs procédures et leurs efficacités Pour notre étude, nous avons utilisé deux de cestechniques : la méthode Elbow (ou méthode du coude) et l’indice de Calinski.
La méthode Elbow : Cette méthode examine le pourcentage de variance expliqué en fonction
du nombre de clusters Elle permet de choisir un nombre K de clusters à partir duquel l’ajoutd’un autre cluster ne permet pas une meilleure classification des données Plus précisément, sil’on trace le pourcentage de la variance expliquée par les clusters par rapport au nombre declusters, les premiers clusters ajouteront beaucoup d’informations, mais à un moment donné legain marginal baissera, ce qui graphiquement forme un angle Le nombre de clusters est choisi à
ce stade, d’ó le "critère du coude" (Fig 3.1) Le pourcentage de variance expliqué est le rapportentre la variance inter-groupe (inter-cluster) et la variance totale
%V ariance expliquee = V ariance Inter−cluster
V ariance T otale
Figure 3.1: Exemple du choix du nombre de cluster par la méthode Elbow (source : Wikipedia)
Indice de Calinski Harabasz (CH) : Il consiste à effectuer un rapport pondéré de la sommedes carrés entre les clusters (mesure de la séparation de clusters) par rapport à la somme descarrés dans le cluster (mesure de proximité des points dans un cluster) De manière idéale, lesclusters doivent être bien séparés, afin que la somme des carrés entre les clusters soit élevée, maisles points dans un cluster doivent être les plus proches possible l’un de l’autre, ce qui entraˆıne
de plus petites valeurs pour la mesure de la somme des carrés dans le cluster Ainsi étant donnéque cet indice Calinski-Harabasz est un rapport, avec la somme des carrés entre les clusters auniveau du numérateur et la somme des carrés dans le cluster au niveau du dénominateur, lessolutions de cluster dont l’indice est élevé correspondent à de « meilleures » solutions que cellesprésentant des valeurs plus petites L’équation de l’indice CH est donnée ci-dessous :
CH = N −KK−1 SSWSSB
— K : nombres de clusters
— N : nombres d’observations
Trang 33— SSB : somme des carrées entre les groupes
— SSW : somme des carrées dans les groupes
3.1.2 Classification ascendante hiérarchique
La classification ascendante hiérarchique (CAH) est une méthode de classification itérativeutilisée en analyse des données dont l’objectif est de produire une structure (arborescence)permettant la mise en évidence de liens hiérarchiques entre individus ou groupes d’individus et
la détection d’un nombre de classes naturel au sein de la population des données Pour classer lesindividus la méthode mesure la dissimilarité entre les individus à travers le calcul de la distanceséparant ces individus Le principe de la méthode est le suivant :
— On commence par calculer la dissimilarité entre les N individus ;
— Puis on regroupe les deux individus dont le regroupement minimise un critère d’agrégationdonné, créant ainsi une classe comprenant ces deux individus ;
— On calcule ensuite la dissimilarité entre cette classe et les N-2 autres individus en utilisant
le critère d’agrégation Puis on regroupe les deux individus ou classes d’individus dont leregroupement minimise le critère d’agrégation ;
— On continue ainsi jusqu’à ce que tous les individus soient regroupés
Ces regroupements successifs produisent un arbre binaire de classification (dendrogramme),dont la racine correspond à la classe regroupant l’ensemble des individus Ce dendrogrammereprésente une hiérarchie de partitions On peut alors choisir une partition en tronquant l’arbre
à un niveau donné, le niveau dépendant du nombre de classes que nous voulons obtenir
Il existe plusieurs critères d’agrégation à savoir :
Cet algorithme présente les avantages suivants :
— Il permet de visualiser (dendrogramme) le regroupement progressif des données Ce quipermet à l’utilisateur de se faire une idée du nombre adéquat de clusters à constituer
— Il permet le choix du type de critère de dissimilarité à utiliser Ce qui permet à l’utilisateur
de choisir le critère de dissimilarité le plus adapté à ses données
Le principal inconvénient de cet algorithme est qu’il n’est pas adapté pour un grand ensemble
de données En effet il calcule la distance entre chaque individu de la base de données, ce quiest très coˆuteux en espace mémoire
Trang 34Critère de Ward
Une classification est dite de bonne qualité lorsque les individus d’une même classe sontproches (dans notre cas, les bandes spectrales) et les individus de deux classes différentes sontéloignés Ceci se traduit mathématiquement par une variabilité intra-classe petite (minimiserl’inertie inter) et une variabilité inter-classes grande (maximiser l’inertie intra) L’équation del’inertie totale est donnée ci-dessous :
Inertie totale
=
kXk=1
QXq=1
IXi=1(xiqk− ¯xqk)2
Inertie intra
+
kXk=1
QXq=1
IXi=1(¯xqk− ¯xk)2
Inertie inter
Où :
— i : représente les individus
— q : représente les classes
— k : représente les variables
— ¯xk : moyenne de xk
— ¯xqk : moyenne de xk dans la classe q
La qualité d’une partition est donc mesurée par :
0 ≤ Inertie totaleInertie inter ≤ 1Inertie inter
Inertie totale = 0 =⇒ ∀k, ∀q, ¯xqk = ¯xk ⇒ toutes les classes ont la même moyenne et ce,pour chaque variable : ceci ne permet pas de classifier
de classes
Ainsi c’est dans cet ordre d’idées que Ward a développé une méthode appelée critère
de Ward L’objectif de cette méthode est de minimiser la diminution de l’inertie inter àtravers la formule ci-dessous :
Inertie(a) + Inertie(b) = Inertie(a ∪ b) − mamb
ma+ mb d
2(a, b)
à minimiser
Où :
Trang 35— a, b : représentent les classes a et b ;
— ma, mb : représentent respectivement le nombres d’individus de la classe a et de laclasse b ;
— d(a, b)2 : représente la distance entre le centre de gravite de la classe a et la classe b.Avec cette méthode ce critère permet de regrouper les individus de faible poids etpermet d’éviter les effets de chaˆınes (regroupement des individus de proche en proche).C’est donc cette méthode que nous avons choisie comme critère d’agrégation pour réaliser
la classification hiérarchique ascendante
Choix du nombre de classes
Pour cette méthode de classification, le choix du nombre de classes se fait de manièrenaturelle à partir de l’arbre hiérarchique En général, on a tendance à couper l’arbre là óles branches sont les plus longues ou en fonction du nombre de classes que nous souhaitonsobtenir Il est aussi possible de choisir le nombre de classes à partir du diagramme desindices du niveau, c’est-à-dire arrêter de couper l’arbre lorsqu’on ne récupère plus assezd’informations, et qu’il n’est plus important de regrouper certaines classes
3.1.3 Implémentation du Kmeans et du CAH
Pour réaliser la classification kmeans nous avons utilisé le package stats de R Pour larecherche du nombre de classes nous avons utilisé le package fpc pour l’indice de Calinski
et quant à la méthode de Elbow nous l’avons programmée
Concernant la classification hiérarchique ascendante, nous avons utilisé le packageFactoMineR Ce package présente l’avantage d’être simple d’utilisation, mais aussi depermettre aux utilisateurs de couper l’arbre hiérarchique au niveau souhaité de manièreinteractive En outre, étant donnée que la dimension de données est un peu élevée (401 x
498 x 10), nous avons réalisé une analyse en composante proncipale (ACP) qui consiste
à réduire le nombre de dimensions de nos données Nous avons choisi trois composantesprincipales, avec ces trois composantes principales, nous récupérons environ 95% d’in-formations de nos données L’intérêt de réaliser cette analyse avant une classificationest d’éliminer les dernières composantes qui ne sont que du bruit (de l’aléatoire), ce quipermet d’obtenir une classification plus stable
3.2 Les méthodes de classification supervisée
L’apprentissage supervisé consiste à apprendre une fonction de prédiction à partird’exemples annotés (étiquetés) La classification supervisée est l’une des tâches les plusimportantes dans l’analyse des images en télédétection La classification est effectuée
Trang 36en examinant les informations spectrales présentes dans les pixels et en attribuant uneétiquette au pixel en fonction de ces informations spectrales.
Au fil des années, de nombreux algorithmes de classification supervisée ont été loppés Ces algorithmes diffèrent selon leurs approches et leurs règles de décision utiliséespour effectuer la classification
déve-Dans cette section nous présentons deux algorithmes qui sont utilisés en télédétection :
la forêt aléatoire (ou random forest) [11] et la machine à vecteur de support (support vectormachine) [15]
3.2.1 Random forest
L’algorithme de classification de forêt aléatoire est une méthode d’apprentissage semble utilisée à la fois pour la classification et la régression Dans notre cas, nous utili-sons la méthode à des fins de classification [6] Cet algorithme qui se base sur l’algorithmeCART (Classification and Regression Tree) de Breiman utilise l’agrégation bootstrap,c’est-à-dire l’ensachage (bagging), pour créer différents sous-ensembles d’entraˆınementpour produire une diversité d’arbres, chacun fournissant un résultat de classification pourles échantillons non choisis Les arbres sont composés de branches et de feuilles
d’en-Les arbres issus de CART sont issus de partitions binaires récursives ou chaque tition (embranchement = noeud) crée deux branches Les noeuds comprennent des seuilsdéfinis pour les variables mesurées (connues) de l’ensemble de données Les feuilles sontles étiquettes de classe attribuées aux extrémités des arbres L’échantillonnage aléatoire
par-de nombreux sous-ensembles entraˆınera la construction par-de nombreux arbres Les classessont ensuite attribuées en fonction des classes attribuées par toutes ces arborescences se-lon une règle de majorité, comme si chaque classe attribuée par un arbre de décision étaitconsidérée comme un vote La figure 3.2 présente un exemple du fonctionnement de laméthode de random forest Chaque arborescence détermine les étiquettes attribuées enfonction du jeu de données d’apprentissage Une fois que tous les arbres sont assemblés, lesclasses sont attribuées à des pixels inconnus en fonction de la classe qui re¸coit la majoritédes votes en fonction de tous les arbres de décision construits
L’algorithme de random forest présente des avantages pour la classification des données,qui sont entre autres :
— Il produit une estimation interne non biaisée de l’erreur de généralisation, en sant les échantillons dits «out-of-bag» (OOB) (qui ne sont pas inclus dans le sous-ensemble de formation) ;
utili-— Il fournit une mesure de l’importance des caractéristiques d’entrée, appelée tion moyenne de précision (MDA), par permutation aléatoire, qui peut être utiliséepour le classement ou la sélection de caractéristiques [10] ;
diminu-— Il est insensible au nombre de données d’entrée et multicolinéarité des données [9] ;
Trang 37Figure 3.2: Exemple du fonctionnement de l’algorithme du random forest
— Bien adapté aux problèmes multiclasses
Cependant, il présente l’inconvénient de trop s’adapter aux données d’apprentissage,
ce qui conduit généralement au problème d’overfiting (sur-ajustement)
Nous avons utilisé cet algorithme pour tous les avantages qu’il offre et surtout pourles bons résultats qu’il permet d’obtenir [11]
Implémentation
Dans cette étude, nous avons utilisé le package caret de R pour l’implémentation derandom forest Un modèle RF nécessite la définition de deux paramètres :
— le nombre d’arbres à utiliser (ntree) ;
— le nombre de caractéristiques utilisées dans chaque division (mtry)
Plusieurs études ont démontré que les paramètres du modèle par défaut donnent vent des résultats satisfaisants [10] [13] Par conséquent, nous avons utilisé les valeurspar défaut [13] et défini ntree sur 500 arbres, tandis que mtry est déterminer de manièreautomatique par le package utilisé
sou-3.2.2 Support Vector Machine
La machine à vecteur de support (SVM) est un algorithme d’apprentissage tique supervisé qui peut être utilisé à la fois pour des problèmes de classification ou derégression Cependant, dans notre étude, il est utilisé à des fins de classification Cet algo-rithme permet de représenter chaque élément de données (dans notre cas, la réflectance)sous forme de point dans un espace à n dimensions (ó n représente le nombre d’entitésdes données (dans notre cas, le nombre des bandes spectrales)), la valeur de chaque entité
Trang 38automa-étant la valeur d’une coordonnée particulière Ensuite, la classification est effectuée enrecherchant l’hyperplan qui différencie au mieux les différentes classes de l’ensemble desdonnées L’objectif principal de cet algorithme est de maximiser la distance entre le point
de données le plus proche et l’hyperplan Cette distance est appelée la marge La figure3.3 présente un exemple d’un hyperplan linéaire L’observation de la figure nous permet
de constater que l’hyperplan C maximise mieux la marge avec les vecteurs de supports(les individus des deux classes) que A et B Ce qui fait de cet hyper-plan l’idéal pour laclassification de ces deux classes
Figure 3.3: Exemple d’un hyper-plan avec la maximisation de la distance
En outre, SVM permet de trouver un hyper-plan pour des données qui ne sont paslinaire à travers une technique appelée astuce du noyau Ce sont des fonctions qui prennent
un espace d’entrée de dimension basse et le transforment en un espace de dimensionsupérieure, c’est-à-dire qu’il convertit un problème non séparable en problème séparable,ces fonctions sont appelées noyaux Ces fonctions sont très utiles pour des problèmes
de séparation non linéaire Les figures ci-contre présentent un exemple de ce genre deproblème
Recherche d’un hyper-plan non linéaire pour mieux séparer les classes Hyper-plan non linéaire avec l’utilisation du SVM à noyau
Cet algorithme présente les avantages et les inconvénients suivants :
Trang 39Avantages :
— Il permet de bien maximiser la distance entre les classes pour mieux les discriminer ;
— Il est efficace dans les espaces de grandes dimensions ;
— Il est également adapté aux problèmes linéaires et non linéaires ;
— Il est efficace dans les cas ó le nombre de dimensions est supérieur au nombred’échantillons
Inconvénients :
— Il requiert un temps d’apprentissage élevé pour un grand ensemble de données ;
— Il n’est pas adapté à des données à bruit élevé ;
— Il ne fournit pas directement d’estimations de probabilité au contraire du randomforest L’estimation de probabilité est calculée à l’aide d’une validation croisée.Nous avons utilisé cet algorithme dans le but de comparer ces résultats avec ceux durandom forest Nous l’avons choisi parce que c’est un algorithme de classification trèsefficace au vu des avantages qu’il offre et des bons résultats qu’il a permis d’obtenir dans
la littérature, comme dans [15]
Implémentation
Pour l’implementation de cet algorithme, nous avons utilisé le package caret de R.Nous avons utilisé SV M à noyau radial En effet, ce noyau permet de créer des régionscomplexes pour mieux séparer les classes, ce qui est utile pour nous étant donné que nosdonnées sont corrélées Un modèle SVM à noyau radial nécessite deux paramètres : sigma
et C Tous ces deux paramètres sont déterminés de manière automatique par le packageutilisé
3.3 Apprentissage, test et validation des modèles de
classifica-tion
Pour créer un modèle d’apprentissage supervisé, il est nécessaire de lui faire apprendre
à partir d’une partie des données (ensemble d’apprentissage) dont nous disposons et detester sa performance sur les données restantes (ensemble de test) Nous présentons danscette section le partitionnement utilisé pour définir les ensembles d’apprentissage de test
et de validation des modèles de classification ainsi que la procédure de validation croisée.3.3.1 Validation croisée
La validation croisée est une technique qui consiste à subdiviser un ensemble dedonnées en k échantillon, puis on sélectionne un des k échantillons comme ensemble de vali-dation et les k-1 autres échantillons constitueront l’ensemble d’apprentissage L’opération
Trang 40se poursuit en sélectionnant un autre échantillon de validation parmi les k-1 échantillonsqui n’ont pas encore été utilisés pour la validation du modèle L’opération se répète ainsi
k fois jusqu’à ce que chaque sous-ensemble soit utilisé comme échantillon de validation
La performance du modèle est calculée en faisant la moyenne des performances du modèlesur les k échantillons de validation La figure 3.4 résume ce processus de la validationcroisée
Figure 3.4: Processus de la validation croisée
Nous utilisons cette technique dans le but de pallier le problème d’overfiting ajustement aux données d’apprentissage) du modèle de random forest, et pour calculer laprobabilité d’estimation (d’appartenance à une classe) pour le modèle de SVM
(sur-3.3.2 Partitionnement des données relatifs à chaque approche
Étant donné que nous travaillons à l’échelle pixellaire et parcellaire, nous avons mis
en place une procédure de partitionnement des données en ensemble d’apprentissage,test et validation pour chaque approche proposée Les figures 3.5 et 3.6 présentent lespartitionnements relatifs à chaque approche
Approche Mono-Date
L’objectif de cette approche est de cartographier chaque variable de l’infiltrabilité à unedate donnée (date d’acquisition de l’image Sentinel-2) à travers un algorithme supervisé.Elle est traitée à l’échelle pixellaire et parcellaire
— Partitionnement par pixels : avec ce partitionnement, c’est les pixels qui sontutilisés comme données à répartir lors des approches par pixel Ils sont répartis en70% pour l’apprentissage et 30% pour le test, et ce pour toutes les dates La répar-tition est effectuée de fa¸con équitable selon le pourcentage de partitionnement et enfonction des modalités (classes) de chaque variable C’est-à-dire qu’il est exactementpris 70% des pixels de chaque modalité pour l’apprentissage et 30% pour le test, et
ce de manière aléatoire