1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xác định các yếu tố quyết định thẩm thấu nước bằng việc xử lý các dữ liệu quang học sentinel 2

99 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 99
Dung lượng 5,74 MB

Nội dung

4.6 Dendrogramme image du 2 d†c 20164.9 Comparaison des r†sultats de l’indice de rand entre la classification hi†rarchique et kmeans 4.10 Pr†cision du RF et SVM sur les donn†es test avec

Trang 1

UNIVERSITÉ NATIONALE DU VIETNAM À HANO¨I INSTITUT FRANCOPHONE INTERNATIONAL

A B OU B A C A R DJ I B O M aman Sani

C artographie des déterminants de l’infiltrabilité des sols par traitement de série de données satellite

optiques Sentinel -2

X ác định các yếu tố quyết định thẩm thấu nước bằng việc

xử lý các dữ liệu quang học Sentinel-2

M ÉM OIRE DE FIN D’ÉTUDES DU M ASTER INFORM ATIQUE

Autorisé à soutenir, C

Gomez & J-S Bailly,

i

Trang 2

UNIVERSIT NATIONALE DU VIETNAM HANOI

INSTITUT FRANCOPHONE INTERNATIONAL

ABOUBACAR DJIBO Maman Sani

Cartographie des d†terminants de l’infiltrabilit† des

sols par traitement de s†rie de donn†es

satellite optiques Sentinel-2

X¡c ành c¡c y‚u tŁ quy‚t ành th'm th§u n÷îc b‹ng vi»c xß lþ

c¡c dœ li»u quang håc Sentinel-2

Sp†cialit† : Syst–mes Intelligents et Multim†dia

Code : Programme pilote

M MOIRE DE FIN D’ TUDES DU MASTER INFORMATIQUE

Sous la direction de :

Mme GOMEZ C†cile , Charg†e de recherche l’IRD

M BAILLY Jean-St†phane, Enseignant chercheur AgroParisTech

HANOI 2018

ii

Trang 3

UNIVERSIT NATIONALE DU VIETNAM HANOI

INSTITUT FRANCOPHONE INTERNATIONAL

M†moire de stage Master 2 Option : Syst–mes Intelligents et Multim†dia (SIM)

Encadrants :

Mme GOMEZ C†cileCharg†e de recherche(IRD, UMR LISAH)

02 Mai - 31 Octobre 2018

Trang 4

Table des mati–res

1.2.1 Positionnement l’UMR LISAH

2 Pr†sentation des donn†es

2.2 Les donn†es d’observation 2.3 Les donn†es sentinel-2

3 Les m†thodes propos†es

Trang 5

3.2 Les m†thodes de classification supervis†e

3.3 Apprentissage, test et validation des mod–les de classification

i

Trang 6

3.4.2 Coefficient Kappa

3.4.3 Indice de rand normalis†

3.5 Outils et environnement de d†veloppement

Trang 7

ii

Trang 8

Table des figures

1.1 Processus d’acquisition d’une image satellitaire par t†l†d†tection [17]

1.2 Exemple de signatures spectrales de quelques objets

2.1 Localisation du bassin versant de kamech

2.2 Exemple de suivi des †tats de surface sur Kamech (Z Jenhaoui, IRD Tunis)

5 :F2, 6 :Satur†e2.9 Exemple des donn†es Sentinel-2, avec band1 = B2, band2 = B3, band3 = B4,

band4 = B5, band5 = B6, band6 = B7, band7 = B8, band8 = B8a, band9 =B11, band10 = B12 de la figure

2.10 Caract†ristiques de l’instrument multi-spectral (MSI) bord de Sentinel-2 [11]2.11 Image Sentinel du 2016-08-04 avec le parcellaire de Kamech

3.1 Exemple du choix du nombre de cluster par la m†thode Elbow (source : Wikipedia)3.2 Exemple du fonctionnement de l’algorithme du random forest

3.3 Exemple d’un hyper-plan avec la maximisation de la distance

Trang 9

3.5 Partitionnement relatifs

donn†e

4.1 Evolution de l’inertie et l’indice de Calinski en fonction du nombre du clusters

4.3 Classification par Kmeans (image du 4 aout 2016)4.4 Classification par CAH (image du 4 aout 2016)

4.5 Evolution de l’inertie et l’indice de Calinski en fonction du nombre du clusters

iii

Trang 10

4.6 Dendrogramme (image du 2 d†c 2016)

4.9 Comparaison des r†sultats de l’indice de rand entre la classification hi†rarchique

et kmeans

4.10 Pr†cision du RF et SVM sur les donn†es test avec l’approche mono-date

pixellaire4.11 Classement des bandes spectrales bas†es sur la mesure d’importance MDA (Mean

Decrease in Accuracy) obtenue4.12 Spatialisation de la v†g†tation verte sur les donn†es du 2016-12-02

pixellaire avec le RF4.13 Matrice de confusion de la VgtV des donn†es du 2016-12-02 avec le RF

4.14 Pr†cision du RF et SVM avec l’approche mono-date l’†chelle parcellaire

4.15 Spatialisation de la v†g†tation verte sur les donn†es du 2016-12-02

4.18 Spatialisation de la v†g†tation verte sur les donn†es du 2016-12-02 avec l’approche

multi-date non-ordonn†e l’†chelle pixellaire avec RF4.19 Matrice de confusion de la VgtV des donn†es du 2016-12-02 avec l’approche non-

ordonn†e4.20 Pr†cision du RF et du SVM avec l’approche multi-date non-ordonn†e

parcellaire4.21 Spatialisation de la v†g†tation s–che avec l’approche multi-date non-ordonn†e

†chelle parcellaire, avec RF4.22 Matrice de confusion de la v†g†tation s–che des donn†es du 2016-09-01 avec l’ap-

Trang 11

4.23 R†sultats de la rugosit† sur les mod–les calibr†s avec les donn†es du 2016-11-03,

2016-11-22 et 2016-12-02

4.24 R†sultats de la rugosit† sur le mod–le calibr† avec les donn†es du 2016-12-024.25 Matrice de confusion du mod–le de la rugosit† calibr† sur les donn†es du 2016-

11-22 et test† sur les donn†es du 2016-12-02

4.26 Spatialisation de la rugosit† avec l’approche multi-date semi-ordonn†e

pixellaire

4.28 Spatialisation des changements de v†g†tation verte avec l’approche multi-date

ordonn†e4.29 Comparaison entre l’approche non-ordonn†e et mono-date sur les r†sultats de la

classification pixellaire de la v†g†tation verte

iv

Trang 12

4.30 Comparaison entre l’approche non-ordonn†e et mono-date sur les r†sultats de laclassification en fonction de la classe majoritaire dans la parcelle de la v†g†tationverte 57

4.31 Carte de diff†rence de l’approche non-ordonn†e et mono-date de la classificationparcellaire de la v†g†tation verte du 2016-12-02 58 4.32 tude de la caract†risation des parcelles par la superficie 58

1 Pr†cision du RF sur les donn†es test avec les spectres et les

indices 66

2 Pr†cision du RF sur les donn†es test avec les spectres entier 66

Trang 13

Liste des tableaux

1.1 Typologie des caract†ristiques observables expliquant l’infiltrabilit† [1]

1.2 Acteurs du projet2.1 Statistiques de la superficie des parcelles suivies (en m2) 2.2 Dates d’observations des †tats de surface

2.3 Dimensions des donn†es Sentinel-2 utilis†es

3.1 Exemple matrice de confusion4.1 Pr†cision de la m†thode du RF et de SVM sur la v†g†tation verte avec l’approchepixellaire

4.2 Pr†cision de la m†thode du RF et de SVM sur la v†g†tation verte avec l’approcheparcellaire

4.3 Pr†cision de la m†thode du RF et de SVM sur la v†g†tation verte avec l’approche

4 Pr†cision de la m†thode de Random Forest et de SVM sur la rugosit† date 66 5

Pr†cision de la m†thode de Random Forest et de SVM sur le faci–s date 66

Trang 14

vi

Trang 15

Par ce document, je voudrais tr–s sinc–rement remercier mes deux encadrants MadameGO-MEZ C†cile et Monsieur Jean-St†phane BAILLY En effet, malgr† leur emploi du tempstr–s charg†, ils ont su se montrer disponible pour m’accompagner tout au long de ce stage

En outre, je leur suis tr–s reconnaissant pour m’avoir fait participer dans un projetd’envergure savoir le projet A-MUSE qui porte sur la surveillance de de caract†ristiquesobservables de la surface du sol en lien avec l’infiltrabilit†

Je voudrais †galement remercier les membres du projet pour leurs interventionspertinentes et leurs orientations pointues durant les pr†sentations de ce travail

Je voudrais †galement remercier Monsieur Denis FEURER, pour les correctionsapport†es dans ce m†moire et ses orientations

Je remercie Monsieur J†ræme MOLENAT, Directeur du LISAH pour m’avoir accueillidans sa structure Je remercie †galement les agents du laboratoire avec qui j’ai collabor†durant ce stage

Mes remerciements vont †galement l’endroit de notre tr–s cher institut de formation, titut de la Francophonie pour l’Innovation (IFI) Je remercie tout particuli–rement le corpsenseignant pour la qualit† de la formation recue et le personnel administratif pour la chaleu-reuse collaboration Je remercie †galement l’Agence Universitaire de la Francophonie(AUF), pour nous avoir donn† l’opportunit† de poursuivre nos †tudes de Master l’IFI traversune bourse

l’Ins-Enfin, je dis merci tous ceux ou toutes celles qui m’ont assist† durant ce travail

vii

Trang 16

Face la croissance de la population au cours des derni–res d†cennies et, parcons†quent, l’expansion et l’intensification de l’utilisation des zones agricoles pour r†pondre

la demande alimentaire, il est n†cessaire de surveiller l’utilisation et la couverture du sol pour

la gestion environnementale de ces zones

Ainsi avec l’av–nement de la suivie et de la caract†risation de la surface d’un sol, la tection s’av–re ¶tre un outil int†ressant dans la suivie et la cartographie des †tats de surface d’unsol en lien avec l’infiltrabilit† comme l’ont montr† des nombreux travaux (e.g : Corbane et al.,

t†l†d†-2008 ; Quiquerez et al., 2014) La mise en service r†cente de la constellation des satelliteSentinel-2 apporte de nouvelles perspectives avec une r†solution spectrale et temporelle †lev†e.L’objectif de ce travail est de cartographier les caract†ristiques observables (variables) de lasurface du sol, plus pr†cis†ment d†terminer le pourcentage d’occupation de ces variables dansune parcelle afin de d†terminer le niveau d’infiltrabilit† en eau de cette parcelle Pour ce fairenous avons propos† quatre approches bas†es sur des algorithmes d’apprentissage supervis† etnon supervis† Ces approches ont †t† trait†e l’†chelle pixellaire et parcellaire Les r†sultats

obtenus sont prometteurs en ce sens que nous avons obtenu des bons taux de pr†cision.Parmi ces approches, ce sont les approches mono-date et multi-date non-ordonn†esupervis†e l’†chelle pixelaire qui ont permis d’obtenir les meilleurs r†sultats avec l’algorithme

du random forest Ces approches nous ont permis de bien classifier 337 parcelles sur 384parcelles de la zone d’†tude L’approche multi-date ordonn†e quant elle nous a permis ded†tecter le changement subit par une parcelle entre deux dates Les r†sultats obtenus sontprometteurs et peuvent ¶tre am†lior†s pour une plus grande pr†cision, notamment encombinant les diff†rentes approches ou en combinant les spectres et les indices spectraux

Mots-cl†s : Agronomie, t†l†d†tection, d†tection de changement, classification

viii

Trang 17

In response to population growth in recent decades and, consequently, the expansionand intensification of the use of agricultural areas to meet food demand, it is necessary tomonitor land use and land cover for the environmental management of these areas

Thus with the advent of monitoring and characterization of the surface of a soil, remotesensing proves to be an interesting tool in the monitoring and mapping of the surface condi-tions of a soil related to infiltration as have shown numerous works (eg : Corbane et al.,

2008, Quiquerez et al., 2014) The recent commissioning of the Sentinel-2 satelliteconstellation brings new perspectives with high spectral and temporal resolution

The objective of this work is to map the observable (variable) characteristics of the soilsurface, more precisely to determine the percentage of occupancy of these variables in a plot inorder to determine the level of water infiltrability of this plot To do this, we proposed fourapproaches based on supervised and unsupervised learning algorithms These approaches weretreated on a pixel and plot scale The results obtained are promising in that we have obtainedgood accuracy rates Among these approaches, it is the mono-date and non-ordered, pixel-scalesupervised multi-date approaches that have produced the best results with the random forestalgorithm These approaches allowed us to properly classify 337 plots out of 384 plots in thestudy area The ordered multi-date approach allowed us to detect the change in a plot betweentwo dates The results obtained are promising and can be improved for a greater accuracy, inparticular by combining different approaches or by combining spectra and spectral indices

Keywords : Agronomy, remote sensing, change detection, classification

ix

Trang 18

Chapitre 1

Introduction

L’objectif de ce chapitre est de pr†senter le contexte scientifique et administratif, afin de poser leconcept de base de notre stage Dans un premier temps nous pr†sentons les travaux li†sl’infiltrabilit† des sols qui ont †t† men†s travers la t†l†d†tection et les diff†rentes variables

li†es cette infiltrabilit†

Dans un second temps nous pr†sentons les objectifs de notre stage, son positionnementdans le projet et les approches adopt†es pour mener le travail

1.1 Contexte Scientifique

La population mondiale devrait passer de 7,3 milliards 8,7 milliards d’ici 2030, 9,7 mil-liardsd’ici 2050 et 11,2 milliards d’ici 2100 [18] Cette croissance d†mographique a un impact sur lessyst–mes d’approvisionnement alimentaire dans le monde entier [27], rendant urgent led†veloppement de gestion durable des ressources naturelles Les sols agricoles cultiv†s enpluvial repr†sentent 80% des terres cultiv†es dans le monde et assurent 70% des ressourcesalimentaires mondiales, jouant ainsi un ræle crucial sur la s†curit† alimentaire mondiale face auchangement global [22] L’infiltrabilit† des sols contræle le partage entre ruissellement etinfiltration des pluies dans la zone critique, l’infiltrabilit† a un impacte directe sur les capacit†s dusol fournir ces services †cosyst†miques L’infiltrabilit† d’un sol, ou capacit† d’infiltration, est lavitesse la-quelle l’eau p†n–tre dans le sol Elle est contræl†e par les facteurs du sol dont laperm†abilit†, elle-m¶me d†pendante des facteurs du sol (e.g., v†g†tation vivante ou r†sidus decultures) qui, indirectement, contrælent la surface du sol (e.g., battance) En plus du type de sol,elle d†pend donc des pratiques agricoles (e.g., travail du sol, enherbement) [12]

Ainsi, notre stage vise contribuer d†terminer cette infiltrabilit† des sols

1.1.1 Lien avec l’infiltrabilit†

Plusieurs travaux [26], [12], [25] ont montr† que l’infiltrabilit† des sols cultiv†s en terran†ens ou semi-arides en r†gime permanent (lorsque le sol est satur† en eau) peut ¶treexpliqu†e et raisonnablement pr†dite partir de caract†ristiques observables de la surface dusol et de leurs modalit†s : pr†sence/absence de travail du sol, caract†ristiques structurales (

m†di-1

Trang 19

rugosit† ou taille des mottes, pr†sence/absence de croutes) et caract†ristiques decouverture du sol (†l†ments min†raux ou organiques, d†bris de v†g†taux et couverturev†g†tale) (e.g., [26], [12], [25]) Ces caract†ristiques peuvent ¶tre corr†l†es pour partie etdes mod–les explicitant ces corr†lations existent [25].

Une m†thode g†n†rique de pr†diction de l’infiltrabilit† des sols cultiv†s partir de diff†rentescaract†ristiques observables localement 1 de la surface du sol a †t† d†velopp†e en r†gime perma-nent au LISAH 2 Afin d’¶tre g†n†ralis†e et op†rationnelle, cette m†thode n†cessite l’observationr†guli–re de caract†ristiques de surface grande †chelle (r†solution m†trique parcellaire) Cettem†thode r†sulte de la capitalisation de bases de donn†es observ†es au champ depuis 25 ans et

dans diff†rents contextes de sols cultiv†s (en pluvial) ([12] et [3]), dont ceux de l’OREOMERE 3 situ† sur les deux rives de la M†diterran†e Cette m†thode attribue l’infiltrabilit†(valeur moyenne et gamme d’infiltrabilit†) en fonction d’un vecteur de caract†ristiquesobservables de la surface du sol (typologie suivant 4 types) [19] et s’†crit :

un ræle tr–s important une partie de l’ann†e sur l’infiltration

1.1.2 T†l†d†tection Multispectrale

Principes g†n†raux de t†l†d†tection

La t†l†d†tection est une technique permettant d’observer, analyser et comprendre ronnement partir d’images et acquisitions obtenues g†n†ralement partir des plates-formesa†roport†es ou spatiales Les images issues de la t†l†d†tection peuvent provenir soit decapteurs actifs (tels que les capteurs Radar) soit de capteurs passifs Chaque capteur est d†di†l’en-registrement d’une gamme d’onde †lectromagn†tique Les capteurs passifs utilis†s bord desplates-formes de t†l†d†tection permettent d’enregistrer les ondes †lectromagn†tiques †mises par

l’envi-le sol’envi-leil et r†fl†chies par l’envi-les †l†ments la surface de la terre L’information acquise passe par l’envi-leprocessus de traitement suivant avant d’¶tre pr¶te ¶tre exploit†e :

1 De 1 quelques m2

2 Notre structure d’accueil, Site web

3 Observatoires de Recherche en Environnement mise en place par le LISAH, UMR HSM (Montpellier), l’INAT et l’INRGREF (Tunis) dans le contexte de l’†tude des changements globaux affectant les hydrosyst–mes et se focalise sur les agrosyst–mes m†diterran†ens

Trang 20

Table 1.1: Typologie des caract†ristiques observables expliquant l’infiltrabilit† [1]

Phase 1 : Le rayonnement †lectromagn†tique incident venant du soleil va illuminer lacible la surface de la terre, une partie de ce rayonnement va ¶tre absorb†e par la terre

et une autre partie va se r†fl†chir et sera d†tect†e par le capteur

Phase 2 : Les capteurs bord des plates-formes de t†l†d†tection enregistrent la partie du

rayonnement †lectromagn†tique r†fl†chi par la cible ainsi que le rayonnement

†lectroma-gn†tique †mis par la cible elle-m¶me

Phase 3 : Les capteurs bord des satellites transmettent les donn†es enregistr†es parvoie hertzienne jusqu’ la station de r†ception sur terre Les capteurs a†roport†sstockent quant eux les donn†es pendant la dur†e de la campagne a†roport†e

Phase 4 : Pour les capteurs satellites, les donn†es recues par la station de r†ception sonttrait†es Pour les capteurs a†roport†s, les donn†es sont t†l†charg†es apr–s un retour au sol

Le graphique la figure 1.1 r†sume toutes ces diff†rentes phases de traitement desdonn†es de t†l†d†tection

Dans la suite de ce m†moire l’int†r¶t sera port† sur les capteurs passifs enregistrantl’†nergie r†fl†chie par la surface terrestre sous forme de r†flectance dans le domainespectral du visible au proche infrarouge (400 2500 nm)

Trang 21

Figure 1.1: Processus d’acquisition d’une image satellitaire par t†l†d†tection [17]

Principes g†n†raux de spectroscopie

Lorsque le rayonnement solaire rencontre un mat†riau, il interagit avec ce dernier.L’†nergie lumineuse incidente est alors en partie transmise travers le mat†riau, diffus†e ausein du mat†riau, ou encore absorb†e, et finalement une certaine quantit† d’†nergieseulement est r†-†mise dans le milieu ambiant Les termes de "r†flectance" ou celuid’"alb†do" font r†f†rence la fraction de l’†nergie incidente r†fl†chie par un mat†riau Lespectre de reflectance du mat†riau correspond ainsi l’expression de sa r†flectance enfonction de la longueur d’onde La variation de la r†flectance en fonction de la longueurd’onde est appel†e signature spectrale La figure 1.2 pr†sente des exemples de signaturesspectrales de la v†g†tation vivante, du sol humide et du sol sec

Figure 1.2: Exemple de signatures spectrales de quelques objetsDans le sol, trois †l†ments chimiques majeurs affectent majoritairement le spectre : les min†-

4

Trang 22

raux (argileux, ferriques et carbonat†s), la mati–re organique et l’eau [24] A titre d’exemple, lapr†sence de carbonate de calcium dans les sols entraine une bande d’absorption autour de 2340

nm, due aux vibrations d’ions CO3 Les caract†ristiques physiques du sol, li†es la granulom†-trie,

la g†om†trie de l’†chantillon, l’angle de vue de la source lumineuse (angle incident et angleazimut) influencent quant eux la forme g†n†rale du spectre travers un changement d’intensit†

des bandes d’absorption spectrale et de hauteur de ligne de base [5], mais n’affectentg†n†ra-lement pas la position des bandes d’absorption [5] L’effet de la granulom†trie dessols (taille des particules) joue ainsi un ræle sur l’intensit† du spectre Plus la granulom†trieest fine, plus l’intensit† du spectre est forte Ainsi, les sols sableux ont logiquement lesbandes d’absorption de l’eau les moins marqu†es

T†l†d†tection pour l’†tat de surface

Il existe diverses †tudes, utilisant des algorithmes supervis†s ou non supervis†s, d†di†es lacartographie des terres cultiv†es partir de s†ries chronologiques ou d’images de t†l†d†tectiondate unique [20][28] Les m†thodes de cartographie des terres cultiv†es appliqu†es aux images

de s†ries chronologiques ont montr† de meilleures performances que les m†thodes de phie date unique [8] Par exemple, les mod–les ph†nologiques identifi†s l’aide de la s†riechronologique EVIS (Enhanced Vegetation Index, EVIS) de 250 m ont †t† utilis†s avec succ–spour classer les cultures de soja , de ma s, de coton et de cultures non commerciales au Br†sil[2] Les sch†mas de dynamique de la v†g†tation identifi†s partir des donn†es MODIS EVI ont

cartogra-†t† utilis†s par Maus et al [14] pour cartographier la double culture, la monoculture, la for¶t et les

p¥turages Senf et al [22] ont utilis† des images MODIS et Landsat multi-saisonni–res

pour diff†rencier les cultures de la savane, et Muller

cultiv†es et les p¥turages de la s†rie temporelle Landsat

Parmi toutes ces †tudes, peu d’entre elles ont port† sur les donn†es Sentinel-2 Par exemple,Immitzer M et al [11] ont men† une †tude sur la classification des esp–ces de cultures etd’arbres en Europe centrale travers la m†thode de random forest (RF) avec des donn†esSentinel-2 Leur †tude d†montr† que la classification classique bas†e sur les pixels donnaientdes r†sultats plus satisfaisants que la classification orient†e objet Ils ont d†montr† †galementque les bandes infrarouges ondes courtes (SWIR) †taient tr–s importantes dans la cartographie

de la v†g†tation Par contre, l’†tude men†e par Mariana et al [4] sur la classification des terrescultiv†es travers la m†thode de l’analyse de distorsion temporelle dynamique pond†r†e dans letemps (TWDTW) avec les donn†es Sentinel-2, montr† que la classification orient†e objet obtientdes meilleurs r†sultats que la classification bas†e sur les pixels

tant donn† que nous voulons mener notre †tude avec une approche pixel, notre travail

se basera sur les travaux men†s par Immitzer M et al [11]

1.1.3 Objectif du Stage

L’objectif de ce pr†sent travail, est d’utiliser les donn†es de t†l†d†tection Sentinel-2 (op-tique,passif) multi-temporelle pour cartographier les caract†ristiques observables (variables) de

5

Trang 23

la surface du sol, plus pr†cis†ment d†terminer le pourcentage d’occupation de ces variablesdans chaque parcelle L’objectif final du projet A-MUSE, dans lequel s’inscrit ce stage, sera ded†ter-miner la classe d’infiltrabilit† de chaque parcelle de la zone d’†tude, autrement dit,d†terminer la quantit† d’eau qui sera infiltr†e et celle qui va ruisseler dans le sol apr–s une pluie.

Les enjeux de cette †tude sont multiples Ils sont d’ordre :

agronomiques : d†terminer les parcelles qui sont sensibles l’†rosion pour pr†venir lecas d’†rosion ;

†conomiques : identifier les zones forte capacit† d’infiltrabilit† et adapter une culturebien sp†cifique au profil de ces zones, accro tre la productivit† de ces zones, g†rer ladistribution des engrais en fonction du niveau d’infiltrabilit† de ces zones

1.1.4 Les approches d†velopp†es

Pour cartographier les variables li†es l’infiltrabilit† (v†g†tation verte, v†g†tation s–

che,travail du sol, faci–s et rugosit†), nous utilisons cinq approches :

Approche mono-date non supervis†e : cette approche consiste utiliser un algorithmenon supervis† pour cartographier les variables de l’infiltrabilit† une date donn†e (date

d’acquisition de l’image Sentinel-2) Cette approche est trait†e l’†chelle pixellaire ;

Approche mono-date supervis†e : cette approche consiste cartographier chaque

variable de l’infiltrabilit† une date donn†e (date d’acquisition de l’image Sentinel-2) travers un algorithme supervis† Cette approche est trait†e l’†chelle pixellaire et parcel-laire ;

Approche multidate non-ordonn†e supervis†e : cette approche consiste cartogra-phierchaque variable de l’infiltrabilit†, simultan†ment pour toutes les dates d’acquisitionSentinel-2, partir d’un seul mod–le de pr†diction construit sur une partie des donn†es

de chaque image Sentinel-2 disponible Elle est †galement trait†e l’†chelle pixellaire et parcellaire ;

Approche multidate semi-ordonn†e : cette approche consiste cartographier chaque

variable de l’infiltrabilit†, en utilisant les donn†es de la date ti pour construire un mod–le

de pr†diction et en l’appliquant aux n 1 autres images Plus pr†cisement, cetteapproche nous permet de pr†dire les observations d’une parcelle d’une date ti partirdes donn†es d’une date ti1 Cette approche est trait†e l’†chelle pixellaire

Approche multidate ordonn†e : cette approche consiste †tudier le changement d’unevariable entre la date ti et la date ti+1 dans une parcelle donn†e Plus pr†cis†ment,nous cherchons d†terminer si entre deux dates la variable a subi une croissance(changement croissant), une d†croissance (changement d†croissant) ou est rest†estable (pas de change-ment) La classe (changement croissant, d†croissant ou pas dechangement) pr†dire est la diff†rence des classes terrain de la variable †tudi†e entre ladate ti et la date ti+1 Cette approche est trait†e l’†chelle pixellaire

6

Trang 24

Toutes ces approches sont propos†es dans le but de trouver celle qui nous permettra de

mieux cartographier nos variables Nous testons toutes ces approches avec les spectres

entiers S’agis-sant des m†thodes, nous utilisons des algorithmes d’apprentissage supervis†

et non-supervis† (Random Forest, SVM, Kmeans, Classification hi†rarchique)

1.2 Contexte Administratif

1.2.1 Positionnement l’UMR LISAH

Mon stage s’est d†roul† du 02 Mai au 31 octobre 2018 au Laboratoire d’Etude des Interactions

entre Sol-Agrosyst–me-Hydrosyst–me (LISAH) de Montpellier, au sein de l’†quipe Organisation

spatiale et dynamique des sols et des paysages cultiv†s Mon travail a †t† encadr† et orient† par

Mme Gomez C†cile charg†e de recherche

Le tableau 1.2 pr†sente ces acteurs en les sp†cifiant par groupe

Groupe

Pilotage

C†cile GOMEZJ†an-St†phane BAILLYPartenaire

Dino IENCO

du projet

Maguelonne TEISSEIREAnne BIARN S

Une r†union mensuelle est organis†e avec les diff†rents membres du projet pour discuter

de l’avancement du projet Au cours de ces r†unions, nous pr†sentons l’†tat d’avancement

de nos travaux et les r†sultats obtenus Nous avons effectu† au total quatre pr†sentations

avec les membres du projet et une pr†sentation devant le personnel du LISAH lors de la

journ†e de la pr†sentation des travaux des stagiaires

1.2.2 Le stage dans le projet A-MUSE

Ce travail de stage a †t† r†alis† dans le cadre du projet TOSCA A-MUSE (Analyse

MUlti-temporelle de donn†es SENTINEL 2 et 1 pour le monitoring de caract†ristiques observables de

Trang 25

la surface du sol, en lien avec l’infiltrabilit†, 2018-2019) financ† par le CNES Une analysedes donn†es Sentinel-2 acquises sur le Bassin Versant de Kamech entre aout et d†cembre

2016 a †t† pr†alablement men†e dans l’objectif d’identifier le changement du couvert v†g†tal

de cette zone Cette analyse s’est focalis†e sur l’†tude du NDVI (Normalized DifferenceVegetation Index) comme indicateur de changements de couvert v†g†tal vert (Vgtv)

C’est dans la continuit† de cette analyse que se situe notre stage

1.3 Conclusion

Dans ce chapitre, nous avons pr†sent† dans un premier temps le contexte g†n†ral dans lequel sesitue notre travail et les diff†rents travaux qui ont †t† men†s dans ce sens Il est important de noterque plusieurs travaux ont †t† men†s sur la cartographie des †tats de surface, mais peu d’entre euxportent sur des donn†es Sentinel-2 Pour la caract†risation des variables de l’infiltra-bilit†, les travauxdans [21] ont montr† des limitations majeures dues la capacit† limit†e des capteurs utilis†s pourl’acquisition des donn†es, d’oò l’int†r¶t de cette †tude, utiliser les donn†es multispectrales hauter†p†titivit† Sentinel-2 pour caract†riser ces variables d’infiltrabilit†

Dans un second temps, nous avons pr†sent† l’objectif de notre travail et les diff†rentes proches adopt†es pour la r†alisation de ce travail Nous pr†cisons †galement que nous utilisons lesalgorithmes d’apprentissage supervis† et non-supervis† comme dans [11] pour mener ce travail

Trang 26

ap-Chapitre 2

Pr†sentation des donn†es

L’objectif de ce chapitre est de pr†senter la zone d’†tude et les donn†es dont nous disposons pour

la r†alisation de ce travail Elles sont principalement de deux types : les donn†es d’observa-tions (lesdonn†es d’†tats de surface) et les donn†es Sentinel-2 Les donn†es d’observations sont cellesrecueillies sur le terrain par Zakia JENHAOUI dans le cadre de la description des †tats de surface dessols de la dorsale Tunisienne dans le cadre de l’ORE OMERE Ces donn†es nous servirons calibrer ettester les mod–les que nous aurons concevoir Les donn†es Sentinel-

2 nous serviront la conception de nos diff†rents mod–les et l’extrapolation spatiale de ces

mod–les sur l’ensemble d’un territoire test : le bassin versant de Kamech

2.1.2 Les parcelles observ†es

Les pratiques culturales sur le bassin versant de Kamech sont repr†sentatives de l’agriculturetraditionnelle en zone de relief du Cap Bon Le suivi de ces pratiques et des conditions de surface a

†t† r†alis† sur un †chantillon de parcelles cultiv†es L’objectif de ce suivi est de mettre au point unmod–le d’†volution pour la pr†diction des †tats de surface connaissant un ensemble de facteurs

1 Les parcelles dites culturales peuvent ¶tre red†finies chaque d†but de mise en culture

9

Trang 27

Figure 2.1: Localisation du bassin versant de kamechexplicatifs comme les pratiques culturales Chaque parcelle suivie est photographi†e chaque

sortie sur le terrain La figure 2.2 pr†sente un exemple de ce suivi Au total 34 parcelles cultiv†es

sont suivies tous les mois, de septembre juillet depuis 2006 La figure 2.3 pr†sente la carte des

parcelles observ†es Le tableau 2.1 pr†sente les statistiques des parcelles suivies

L’ensemble des parcelles de Kamech

Table 2.1: Statistiques de la superficie des parcelles suivies (en m2)

2.2 Les donn†es d’observation

Le suivi des parcelles concernent plusieurs variables d’†tats de surface, mais celles qui

im-pactent l’infiltrabilit† et qui nous int†ressent sont : la v†g†tation verte, la v†g†tation s–che,

le travail du sol, la rugosit† et le faci–s Le tableau 2.2 pr†sente les dates auxquelles ces

variables ont †t† observ†es

Trang 28

Figure 2.2: Exemple de suivi des †tats de surface sur Kamech (Z Jenhaoui, IRD Tunis)

Figure 2.3: Parcellaire de Kamech

La v†g†tation verte : elle repr†sente le taux de couverture v†g†tale (v†g†tation natu-relle,

et culture) du sol Cette variable est tr–s importante, dans le sens oò elle permet laprotection du sol contre l’†rosion due a l’impact des gouttes de pluies et augmente glo-balement l’infiltration de l’eau dans le sol, du fait †galement du syst–me racinaire de la

Trang 29

v†g†tation qui favorise les chemins de l’eau dans le sol [29].

Elle est constitu†e de six classes : Vgtv_0% (v†g†tation 0%), Vgtv_0-5% (v†g†tation verte entre

0 et 5%), Vgtv_5-25% (v†g†tation verte entre 5 et 25%), Vgtv_25-50% (v†g†tation verte entre

25 et 50%), Vgtv_50-75% (v†g†tation verte entre 50 et 75%), Vgtv_75-100% (v†g†tation verteentre 75 et 100%) comme le montre la figure 2.4 Ces classes d†finissent le taux de cettevariable sur chaque parcelle L’observation de cette figure nous permet de constater une

†volution de cette variable dans le temps et dans l’espace entre fin septembre et d†butd†cembre En outre elle nous permet de remarquer une discrimination des classes au cours dutemps, ce qui nous permettra de mieux cartographier cette variable

Les faibles valeurs de cette variable en septembre s’expliquent par le fait que cette p†riodecorrespond la p†riode de la pr†paration du terrain pour un nouveau semis et la pouss†e de

la v†g†tation naturelle A l’inverse sa forte pr†sence en novembre et d†cembre, correspond

la p†riode du d†marrage de la culture

Figure 2.4: Distribution des classes de la v†g†tation verte

En abscisse 1 : Vgtv_0%, 2 :Vgtv_0-5%, 3 :Vgtv_5-25%, 4 :Vgtv_25-50%, 5 :Vgtv_50-75%, 6

:Vgtv_75-100%

La v†g†tation s–che : elle repr†sente la combinaison de la liti–re et des chaumes Les

chaumes sont constitu†s des tiges de c†r†ales ou de f–ves qui restent dress†es la surface

du sol apr–s la r†colte La liti–re est constitu†e des r†sidus v†g†taux coup†s et †tendus lasurface du sol Elle joue †galement un ræle dans l’infiltrabilit†, car recouvrant bien le sol, cequi le prot–ge encore une fois de l’impact des gouttes de pluie et qui aussi du fait que laliti–re freine consid†rablement le ruissellement de l’eau en surface [29] Cette variable estconstitu†e de quatre classes : Tvgts_5-25% (v†g†tation s–che entre 5 et 25%), Tvgts_25-50% (v†g†tation s–che entre 25 et 50%), Tvgts_50-75% (v†g†tation s–che entre 50 et75%), Tvgts_75-100% (v†g†tation s–che entre 75 et 100%) (figure 2.5) L’observation decette figure nous permet de remarquer une †volution et une variabilit† dans le temps etdans l’espace en septembre de cette variable En effet cette p†riode correspond la p†riode

de transition apr–s la r†colte oò l’on retrouve les d†bris des arbres et de la liti–re avant

Trang 30

les premiers labours Par contre, la p†riode de novembre

retrouve pratiquement avec une seule classe correspond

croissance de la v†g†tation naturelle et des cultures

d†cembre oò cette variable se

en eau d’un sol Elle est constitu†e de trois classes TR, TA, NT :

TR (Travail R†cent) : indique si le travail est r†cent, ce qui correspond un solouvert ;

TA (Travail Ancien) : indique si le travail est ancien, ce qui correspond un solferm† Un travail est consid†r† comme ancien s’il n’y a pas eu un autre travail dusol deux semaines apr–s l’observation ;

NT (Non Travaill†) : indique que le sol n’est pas travaill†

La figure 2.6 pr†sente la distribution de cette variable A travers cette figure, nous vons remarquer une faible variabilit† des observations du travail du sol Ainsi, nousavons jug† utile de chercher d’autres variables qui pr†sentent plus de variabilit† dans letemps et dans l’espace et qui nous permettront de mieux caract†riser le travail du sol.C’est dans ce sens que nous avons propos† d’†tudier les variables Rugosit† et Faci–squi sont li†es au travail du sol

pou-La rugosit† : repr†sente l’†tat rugueux d’une surface apr–s un labour Sur le bassin versant

de Kamech, deux types de rugosit†s sont †tudi†es : la Rugosit† topographique (RT) et la Rugosit† aratoire (RA) Pour notre travail nous travaillerons avec la rugosit† topographique pour laquelle nous avons des observations Elle est compos†e de trois classes :

RT0 (Rugosit†s Topographique 0) (faible 0-2

cm) RT2 (moyenne 2-5 cm)

13

Trang 31

Figure 2.6: Distribution des classes travail du sol.

En abscisse 1 :TR, 2 :TA, 3 :NT

RT5 (forte > 5 cm)

La figure 2.7 pr†sente la distribution de cette variable L’observation de cette figurenous permet de constater une variabilit† dans le temps et dans l’espace de cettevariable entre d†but novembre et d†cembre, ce qui nous informe mieux sur l’†tat du solque la variable "travail du sol"

Figure 2.7: Distribution des classes de la rugosit†

F0 : surface totalement ouverte ; pas de pluie depuis le dernier travail du sol ; pas

de croute, agr†gats ou mottes tr–s nets

14

Trang 32

F1 : surface "finement" ferm†e ; il y a eu au moins une pluie depuis le dernier travail ; une croute structurale fine et continue recouvre la surface du sol mais les mottes ou agr†gats restent parfaitement visibles Le pied s’enfonce facilement dans le sol.

F2 : surface du sol ferm†e de facon continue et consolid†e sur plusieurs

centimetre de profondeur ; plusieurs pluies sont tomb†es et le sol est franchementcrout† Le pied ne s’enfonce pas dans le sol qui est compact

F0/F1 (†tat transitoire) : la surface du sol est partiellement ferm†e, on note

clairement des espaces largement ouverts (macroporosit†)

F1/F2 (†tat transitoire) : la surface du sol est totalement ferm†e et largement conso-lid†e mais il subsiste des zones foisonn†es

La figure 2.8 pr†sente la distribution de cette variable L’observation de cette variablenous permet de constater une variabilit† assez continue de cette variable sur toutes lesp†riodes Au vu des deux graphiques pr†c†dents (figure 2.7 et 2.8), nous pensons que

la combinaison de ces deux d†terminants nous permettra de mieux caract†riser lesactivit†s li†es au travail du sol que la variable "travail du sol" seule

Figure 2.8: Distribution des classes de faci–s

En abscisse 1 :F0, 2 :F0/F1, 3 :F1, 4 :F1/F2, 5 :F2, 6 :Satur†e

C’est travers ces cinq variables que nous d†terminerons le niveau de l’infiltrabilit† desdiff†rentes parcelles

2.3 Les donn†es sentinel-2

Sentinel-2 est un couple de satellites d’observation de la Terre de l’Agence Spatiale rop†enne d†velopp† dans le cadre du programme Copernicus mis en orbite en 2015 et

Eu-2017 L’objectif du programme est de fournir aux pays europ†ens des donn†es compl–tes etactualis†es leur permettant d’assurer le contræle et la surveillance de l’environnement[23]

L’objectif de la mission Sentinel-2 est de r†pondre aux enjeux globaux de la gestion de vironnement, de permettre de comprendre les effets du changement climatique et enfin d’assurer

l’en-15

Trang 33

la s†curit† civile Sentinel-2 est †quip† d’un imageur multispectral (MSI) large fauch†e et haute r†solution, avec 13 bandes spectrales dans les domaines visible, proche et moyen infra-rouge Il dispose †galement d’une r†solution spatiale 10 60m (en fonction des bandes spectrales) (figure 2.10) Il offre †galement une large couverture (jusqu’ 290 km) avec un temps de retour global minimal de cinq jours (avec les satellites jumeaux en orbite) Pour la pr†sente †tude, des images de niveau 2A (BoA : Bottom of Atmosphere reflectance) ont †t† utilis†es Le niveau 2A signifie que les images sont corrig†es des effets atmosph†riques.

Les donn†es Sentinel sur lesquelles nous travaillons sont les valeurs radiom†triques des pixels

La figure 2.9 pr†sente un extrait de ces valeurs radiom†triques des pixels Chaque ligne repr†-senteune information sur un pixel La dimension des donn†es Sentinel-2 est pr†sent†e dans le

tableau 2.3

Donn†es terrains (Parcelles observ†es)

Donn†es Kamech (ensemble des donn†es

de la zone d’†tude)

Table 2.3: Dimensions des donn†es Sentinel-2 utilis†es

Figure 2.9: Exemple des donn†es Sentinel-2, avec band1 = B2, band2 = B3, band3 = B4, band4 = B5,band5 = B6, band6 = B7, band7 = B8, band8 = B8a, band9 = B11, band10 = B12 de la figure 2.10

Les fonctions de r†ponse spectrale de la figure 2.10 sont repr†sent†es en couleurs avec

la longueur d’onde centrale en noir Les noms de bande et les r†solutions spatialescorrespondantes (en m–tres) sont †galement indiqu†s Pour ce travail, les trois bandes

"atmosph†riques" (B1, B9 et B10) 60m de r†solution n’ont pas †t† utilis†es En outre unepartie limit†e de la zone d’†tude a †t† utilis†e pour la suite de ce travail La figure 2.11pr†sente un exemple d’une image Sentinel-2 centr†e sur la zone d’†tude

2.4 Conclusion

Dans ce chapitre, nous avons pr†sent† dans un premier temps notre zone d’†tude et lespratiques culturales appliqu†es Dans un second temps nous avons pr†sent† les donn†es d’†tats

Trang 34

Figure 2.10: Caract†ristiques de l’instrument multi-spectral (MSI)bord de Sentinel-2 [11]

Figure 2.11: Image Sentinel du 2016-08-04 avec le parcellaire de Kamech

de surface, plus pr†cis†ment celles li†es l’infiltrabilit† Ces donn†es nous servirons de calibration et de test des mod–les que nous aurons concevoir

Enfin, nous avons pr†sent† les donn†es Sentinel-2 dont nous disposons pour lar†alisation de ce travail et leurs dimensions Pour rappel c’est travers les donn†es terrainque nous formerons nos mod–les avant de r†aliser la pr†diction sur toute la zone d’†tude

17

Trang 35

Chapitre 3

Les m†thodes propos†es

Une classification consiste regrouper n observations (oò, dans notre cas, n = nombre depixels observ†s) en K classes (oò, dans notre cas, K = nombre de classes de la variabled’†tat de surface recherch†e), partir de l’†tude de p caract†ristiques (oò, dans notre cas, p =nombre de bandes spectrales consid†r†es)

L’objectif du pr†sent chapitre est de pr†senter en d†tail les diff†rentes m†thodes declassifi-cation supervis†e et non supervis†e utilis†es, les approches de partitionnementsutilis†es et les indicateurs de qualit† utilis†s pour l’†valuation des diff†rentes m†thodes.Nous avons choisi la m†thode de Kmeans pour l’apprentissage non supervis† et lam†thode de Random Forest pour l’apprentissage supervis† Nous avons ensuite propos†pour chaque ap-proche une autre m†thode alternative pour comparer les r†sultats des deuxm†thodes propos†es Les m†thodes propos†es pour la comparaison sont : la ClassificationHi†rarchique Ascendante (CAH) pour l’apprentissage non supervis† et les machinesvecteurs de support (SVM) pour l’apprentissage supervis†

Comme indicateur de qualit†, nous avons utilis† la pr†cision (Accuracy) et le kappa

3.1 Les m†thodes de classification non supervis†e

La classification non supervis†e consiste extraire des classes ou groupes d’individuspr†sen-tant des caract†ristiques communes sans l’aide des donn†es d’apprentissage Laclassification non supervis†e n†cessite un apport initial minimum de la part de l’utilisateur.Par contre, l’utilisa-teur doit d†cider du nombre de clusters former Apr–s la classification,l’utilisateur attribuera ces classes spectrales aux classes d’information d’int†r¶t L’utilisateurdoit bien conna tre les caract†ristiques spectrales du terrain en cours de classification afinque les groupes puissent ¶tre †tiquet†s de mani–re conforme L’utilisateur s’appuie sur lesinformations de r†f†rence (v†rit† de terrain) dont il dispose sur le sol pour identifier lesclasses spectrales cr††es par un classificateur non supervis†

Au fil des ann†es, de nombreux algorithmes de clustering ont †t† d†velopp†s, qui diff–rent entermes d’efficacit† de clustering et de r–gles de d†cision utilis†es pour effectuer la classification.Tous ces algorithmes impliquent une forme de calcul it†ratif afin d’arriver un ensemble optimal

18

Trang 36

de r–gles de d†cision pour l’ensemble de donn†es.

Dans cette section nous pr†sentons deux algorithmes de classification non supervis†e : leKmeans et la classification hi†rarchique ascendante (CAH) Ces algorithmes font partie desalgorithmes de classification non supervis†e les plus utilis†s dans la classification des donn†es

3.1.1 Kmeans

L’algorithme de Kmeans est l’un des algorithmes de clustering non param†triques le plusutilis† pour r†aliser une classification non supervis†e En g†n†ral, tous les pixels sontclass†s en fonction de leurs distances (distance spectrale, dans notre cas) par rapport auxmoyennes des clusters La distance utilis†e ici est la distance euclidienne Une fois cetteop†ration effectu†e, les nouveaux vecteurs moyens de chaque cluster sont calcul†s Cetteproc†dure est effectu†e de mani–re it†rative jusqu’ ce qu’il n’y ait plus aucune variation del’emplacement des vecteurs de la moyenne des clusters entre les it†rations successives Leprincipe de l’algorithme est pr†sent† comme suit :

Algorithm 1: Principe de l’algorithme de Kmeans

input : X (N obs., p variables #bandes spectrales), K #classes

initialisation: Initialiser K centres de classes Gk (K choisis au hasard)

R†p†ter

Allocation : Affecter chaque pixel au cluster dont le centre est le plus proche

Repr†sentation : Recalculer les centres des clusters partir des pixels

rattach†s JUSQU’ Convergence

Sortie : Une partition des pixels caract†ris†e par les K centres de clusters Gk

Cet algorithme pr†sente les avantages suivants :

Scalabilit† : Capacit†traiter les tr–s grandes bases Seuls les vecteurs des moyennes sont conserver en m†moire centrale ;

Complexit† lin†aire par rapport au nombre d’observations (pas de calcul des distancesdeux deux des individus, contrairement la classification hi†rarchique ascendante)

Il pr†sente †galement des inconv†nients :

Lenteur : il pr†sente souvent une lenteur dans le traitement des donn†es, car il

n†cessite de faire passer plusieurs fois les observations ;

Choix initial du centre : la solution d†pend du choix initial des centres de classes ;

Choix du nombre de classes

Les r†sultats de l’algorithme de Kmeans d†pendent fortement de son initialisation, c’est- - dire

du nombre de clusters choisis Ainsi pour d†terminer le nombre de clusters id†aux pour r†aliserune classification non supervis†e, plusieurs techniques ont †t† d†velopp†es, qui diff–rent

19

Trang 37

selon leurs proc†dures et leurs efficacit†s Pour notre †tude, nous avons utilis† deux de ces techniques : la m†thode Elbow (ou m†thode du coude) et l’indice de Calinski.

La m†thode Elbow : Cette m†thode examine le pourcentage de variance expliqu† en fonction

du nombre de clusters Elle permet de choisir un nombre K de clusters partir duquel l’ajout d’un autre cluster ne permet pas une meilleure classification des donn†es Plus pr†cis†ment,

si l’on trace le pourcentage de la variance expliqu†e par les clusters par rapport au nombre

de clusters, les premiers clusters ajouteront beaucoup d’informations, mais un moment donn† le gain marginal baissera, ce qui graphiquement forme un angle Le nombre de clusters est choisi ce stade, d’oò le "crit–re du coude" (Fig 3.1) Le pourcentage de variance expliqu† est le rapport entre la variance inter-groupe (inter-cluster) et la variance totale

%V ariance expliquee = V ariance Inter cluster

V ariance T otale

Figure 3.1: Exemple du choix du nombre de cluster par la m†thode Elbow (source : Wikipedia)

Indice de Calinski Harabasz (CH) : Il consiste effectuer un rapport pond†r† de la somme descarr†s entre les clusters (mesure de la s†paration de clusters) par rapport la somme des carr†sdans le cluster (mesure de proximit† des points dans un cluster) De mani–re id†ale, les clustersdoivent ¶tre bien s†par†s, afin que la somme des carr†s entre les clusters soit †lev†e, mais lespoints dans un cluster doivent ¶tre les plus proches possible l’un de l’autre, ce qui entra ne deplus petites valeurs pour la mesure de la somme des carr†s dans le cluster Ainsi †tant donn†que cet indice Calinski-Harabasz est un rapport, avec la somme des carr†s entre les clusters auniveau du num†rateur et la somme des carr†s dans le cluster au niveau du d†nominateur, lessolutions de cluster dont l’indice est †lev† correspondent de meilleures solutions que cellespr†sentant des valeurs plus petites L’†quation de l’indice CH est donn†e ci-dessous :

Trang 38

SSB : somme des carr†es entre les groupes

SSW : somme des carr†es dans les groupes

3.1.2 Classification ascendante hi†rarchique

La classification ascendante hi†rarchique (CAH) est une m†thode de classification it†rativeutilis†e en analyse des donn†es dont l’objectif est de produire une structure (arborescence)permettant la mise en †vidence de liens hi†rarchiques entre individus ou groupes d’individus et lad†tection d’un nombre de classes naturel au sein de la population des donn†es Pour classer lesindividus la m†thode mesure la dissimilarit† entre les individus travers le calcul de la distances†parant ces individus Le principe de la m†thode est le suivant :

On commence par calculer la dissimilarit† entre les N individus ;

Puis on regroupe les deux individus dont le regroupement minimise un crit–re

d’agr†gation donn†, cr†ant ainsi une classe comprenant ces deux individus ;

On calcule ensuite la dissimilarit† entre cette classe et les N-2 autres individus en utilisant le crit–re d’agr†gation Puis on regroupe les deux individus ou classes

d’individus dont le regroupement minimise le crit–re d’agr†gation ;

On continue ainsi jusqu’ ce que tous les individus soient regroup†s

Ces regroupements successifs produisent un arbre binaire de classification (dendrogramme),dont la racine correspond la classe regroupant l’ensemble des individus Ce dendrogrammerepr†sente une hi†rarchie de partitions On peut alors choisir une partition en tronquant l’arbre

un niveau donn†, le niveau d†pendant du nombre de classes que nous voulons obtenir

Il existe plusieurs crit–res d’agr†gation savoir :

Cet algorithme pr†sente les avantages suivants :

Il permet de visualiser (dendrogramme) le regroupement progressif des donn†es Ce quipermet l’utilisateur de se faire une id†e du nombre ad†quat de clusters constituer

Il permet le choix du type de crit–re de dissimilarit† utiliser Ce qui permet l’utilisateur

de choisir le crit–re de dissimilarit† le plus adapt† ses donn†es.

Le principal inconv†nient de cet algorithme est qu’il n’est pas adapt† pour un grand ensemble

de donn†es En effet il calcule la distance entre chaque individu de la base de donn†es, ce qui

est tr–s couteux en espace m†moire

21

Trang 39

Crit–re de Ward

Une classification est dite de bonne qualit† lorsque les individus d’une m¶me classe sont

proches (dans notre cas, les bandes spectrales) et les individus de deux classes diff†rentes

sont †loign†s Ceci se traduit math†matiquement par une variabilit† intra-classe petite

(minimiser l’inertie inter) et une variabilit† inter-classes grande (maximiser l’inertie intra)

L’†quation de l’inertie totale est donn†e ci-dessous :

XXX

(x

iqk k=1 q=1 i=1

|

Inertie totale

Oò :

i : repr†sente les individus

q : repr†sente les classes

k : repr†sente les variables

xk : moyenne de xk

xqk : moyenne de xk dans la classe q

La qualit† d’une partition est donc mesur†e par :

0InertieInertietotaleinter 1

= 0 =) 8k; 8q; x qk = x k ) toutes les classes ont la m¶me moyenne et ce, pour chaque variable : ceci ne permet pas de classifier.

= 1 =) 8k; 8q; 8i; x iqk = x qk ) les individus d’une m¶me classe sont iden-tiques, id†al pour la classification.

Cependant, ce crit–re ne peut ¶tre jug† en absolu car il d†pend du nombre

d’individus (dans notre cas, les pixels) et du nombre de classes (dans notre cas, les

bandes spectrales) Si on augmente le nombre d’individus, il est plus facile d’avoir

des classes homog–nes Par contre si le nombre de classes est petit la variabilit† au

sein de chaque classe sera plus grande, il faut donc relativiser ce crit–re par rapport

au nombre d’individus et au nombre de classes.

Ainsi c’est dans cet ordre d’id†es que Ward a d†velopp† une m†thode appel†e

crit–re de Ward L’objectif de cette m†thode est de minimiser la diminution de l’inertie

inter travers la formule ci-dessous :

Inertie(a) + Inertie(b) = Inertie(a [ b)

Inertie totale

Inertie inter

Inertie totale

Inertie inter

Trang 40

Oò :

22

Ngày đăng: 30/10/2020, 21:18

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w