Các thuật toán khai phá dữ liệu được áp dụng cho lập bản đồ đất kỹ thuật số

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUIT DE LA FRANCOPHONIE POUR L’INNOVATION (RENOMME DE L’INSTITUT FRANCOPHONE INTERNATIONAL, IFI) NKUBA KASANDA Lievin ALGORITHMES DE FOUILLES DE DONNEES APPLIQUES A LA CARTOGRAPHIE NUMERIQUE DES SOLS : MISE EN PLACE ET TESTS DE STRATEGIES ROBUSTES D'ESTIMATIONS DES INCERTITUDES DE PREDICTION CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU ĐƯỢC ÁP DỤNG CHO LẬP BẢN ĐỒ ĐẤT KỸ THUẬT SỐ: CÀI ĐẶT VÀ KIỂM TRA CÁC CHIẾN LƯỢC ỔN ĐỊNH CHO VIỆC ƯỚC LƯỢNG TÍNH KHƠNG CHẮC CHẮN CỦA CÁC DỰ ĐOÁN MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2018 UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUIT DE LA FRANCOPHONIE POUR L’INNOVATION (RENOMME DE L’INSTITUT FRANCOPHONE INTERNATIONAL, IFI) NKUBA KASANDA Lievin ALGORITHMES DE FOUILLES DE DONNEES APPLIQUES A LA CARTOGRAPHIE NUMERIQUE DES SOLS : MISE EN PLACE ET TESTS DE STRATEGIES ROBUSTES D'ESTIMATIONS DES INCERTITUDES DE PREDICTION CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU ĐƯỢC ÁP DỤNG CHO LẬP BẢN ĐỒ ĐẤT KỸ THUẬT SỐ: CÀI ĐẶT VÀ KIỂM TRA CÁC CHIẾN LƯỢC ỔN ĐỊNH CHO VIỆC ƯỚC LƯỢNG TÍNH KHƠNG CHẮC CHẮN CỦA CÁC DỰ ĐOÁN MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2018 UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUIT DE LA FRANCOPHONIE POUR L’INNOVATION (RENOMME DE L’INSTITUT FRANCOPHONE INTERNATIONAL, IFI) NKUBA KASANDA Lievin ALGORITHMES DE FOUILLES DE DONNEES APPLIQUES A LA CARTOGRAPHIE NUMERIQUE DES SOLS : MISE EN PLACE ET TESTS DE STRATEGIES ROBUSTES D'ESTIMATIONS DES INCERTITUDES DE PREDICTION CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU ĐƯỢC ÁP DỤNG CHO LẬP BẢN ĐỒ ĐẤT KỸ THUẬT SỐ: CÀI ĐẶT VÀ KIỂM TRA CÁC CHIẾN LƯỢC ỔN ĐỊNH CHO VIỆC ƯỚC LƯỢNG TÍNH KHƠNG CHẮC CHẮN CỦA CÁC DỰ ĐỐN Spécialité: Systèmes intelligents et multimédia Code: Programme pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de: - Philippe LAGACHERIE, Ingénieur de recherche, LISAH INRA - Cécile GOMEZ, Chargée de recherche, LISAH IRD HANOI – 2018 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Các thơng tin trích dẫn Luận văn rõ nguồn gốc NKUBA KASANDA Lievin [i] RÉSUMÉ Réalisée en lien avec une activité de recherche au sein de l’unité mixte de recherche (UMR) du laboratoire d’études des interactions entre sols agrosystème et hydrosystème (LISAH), cette étude porte sur l’application des algorithmes de fouille de données dans la cartographie numérique des sols sur la mise en place et tests des stratégies robustes d’estimations des incertitudes de prédiction La cartographie numérique des sols (CNS) permet de prédire les classes ou les propriétés des sols, partir des modèles mathématiques ou géostatistiques, en prenant en compte des données disponibles du sol ou des formalisations numériques de l’expertise de pédologues L’utilisation des algorithmes de fouilles de données dans la CNS permet de pouvoir répondre ce besoin principal de la CNS, afin d’estimer les incertitudes de prédiction Nous présentons dans ce travail, une nouvelle approche des tests stratégiques d’estimations des incertitudes de prédiction, basée sur l’utilisation de trois types d’analyses : 1)l’analyse de sensibilité globale pour permettre d'analyser un modèle mathématique en étudiant l'impact et l’importance des paramètres d'entrée du modèle sur les sorties (indicateurs d’incertitudes), 2)l’analyse de sensibilité empirique, qui vient appuyer celle précédente dans l’objectif de fixer les valeurs des paramètres du modèle pour différents types de jeux de données de calibration et 3)l’analyse de la qualité de l’échantillonnage pour identifier les bons ensembles de sites de calibration qui donnent les meilleurs résultats en sortie du modèle (indicateurs d’incertitudes) Les résultats obtenus pour les trois analyses sont des recommandations pour estimer correctement les incertitudes de prédiction des sols pour différents types de jeux de données de calibration en CNS [ii] ABSTRACT Conducted in connection with a research activity within the Joint Research Unit (UMR) of the Agrosystem and Hydrosystem Soil Interactions Laboratory (LISAH), this study focuses on the application of data mining algorithms in digital mapping of soils on the implementation and testing of robust strategies for estimating prediction uncertainties Digital soil mapping (CNS) can be used to predict soil classes or properties, using mathematical or geostatistical models, taking into account available soil data or numerical formalizations of soil scientists' expertise The use of data mining algorithms in the CNS makes it possible to respond to this main need of the CNS, in order to estimate the prediction uncertainties We present in this work, a new approach of the strategic tests of estimates of the uncertainties of prediction, based on the use of three types of analyzes: 1) the analysis of global sensitivity to allow to analyze a mathematical model by studying the impact and importance of the input parameters of the model on the outputs (uncertainty indicators), 2) the empirical sensitivity analysis, which supports the previous one in order to set the values of the model parameters for different types of calibration datasets and 3) sampling quality analysis to identify the correct sets of calibration sites that give the best results at the output of the model (uncertainty indicators) The results obtained for the three analyzes are recommendations for correctly estimating the soil prediction uncertainties for different types of CNS calibration datasets [iii] « Si j'ai vu si loin, c'est que j'étais monté sur des épaules de géants » Isaac Newton [iv] TABLE DES MATIÈRES RÉSUMÉ i ABSTRACT ii TABLE DES MATIÈRES iv LISTE DES ABRÉVIATIONS, DES SIGLES ET DES ACRONYMES vi GLOSSAIRE vi REMERCIEMENTS vii LISTE DES FIGURES ix LISTE DES TABLEAUX x CHAPITRE - INTRODUCTION CHAPITRE - ÉTAT DE L’ART 2.1 Cartographie numérique des sols 2.1.1 La fonction de prédiction 2.1.2 Les données spatiales sur les sols (S) 2.1.3 Les covariables des sols 2.2 Les incertitudes de prédiction 2.3 Technique d’échantillonnage en CNS 2.4 Analyse de sensibilité de modèle 10 2.5 Objectifs spécifiques 13 CHAPITRE - MÉTHODOLOGIE DE CARTOGRAPHIE NUMÉRIQUE DE SOL 14 3.1 Forêts de régression quantile 15 3.2 Données disponibles 18 3.2.1 Données spatialisées sur les sols S 18 3.2.2 Covariables de relief R et données de localisation N 19 3.3 Constitution des bases de données de calibration et validation 19 3.3.1 Base de données initiale 20 3.3.2 Base de données de validation 22 3.3.3 Base de données de calibration 22 3.4 Évaluations des performances des modèles de cartographie numérique des sols 23 CHAPITRE - MÉTHODOLOGIE DE L’ANALYSE DE SENSIBILITÉ 26 4.1 Analyse de sensibilité globale 26 4.2 Recherche des valeurs optimales des paramètres mtry et nodesize 30 4.3 Analyse de l’échantillon de calibration 33 4.3.1 Les critères basés sur la distance 33 4.3.2 Mesure de discrépance 34 [v] 4.3.3 La variance 35 CHAPITRE - RÉSULTATS 36 5.1 Analyse de sensibilité globale 37 5.2 Recherche de valeurs optimales des paramètres mtry et nodesize 40 5.3 Analyse de l’échantillonnage de calibration 42 CONCLUSION 46 ANNEXES 48 RÉFÉRENCES 68 [vi] LISTE DES ABRÉVIATIONS, DES SIGLES ET DES ACRONYMES AS : Analyse de sensibilité CNS : Cartographie Numérique de Sol INRA : Institut National des Recherches Agronomiques IRD : Institut de Recherche pour le Développement MNT : Modèle Numérique de Terrain QRF : Quantile Regression Forest UMR LISAH : Unité Mixte de Recherche Laboratoire d’études des Interactions entre Sol Agrosystème et Hydrosystème RF : Random Forest SI : Indice de Sensibilité de premier ordre TSI : Indice de Sensibilité Total GLOSSAIRE Analyse de sensibilité – C’est une étude de l'influence et l’importance des paramètres d’entrée p sur une sortie de modèle Yi Indicateur d’incertitude – C’est une mesure de performance de modèle de CNS Modèle – C’est une fonction de prédiction des propriétés des sols Pédologie – C’est une science d’étude de la formation et de l’évolution des sols Site – C’est les données d’un échantillon Strate – C’est une cellule d’une zone d’étude Télédétection – C’est l’ensemble des procédés et techniques qui permettent d’acquérir distance des informations sur les objets terrestres, en utilisant les propriétés des ondes électromagnétiques émises ou réfléchies par ces objets [55] Valeurs optimales paramètres [mtry ;nodesize] pour 200 sites Nous avons valeurs optimales pour mtry et valeurs optimales pour nodesize, partir de paramètre R2, on a une valeur optimale pour mtry=4 et nodesize=10 [56] Valeurs optimales paramètres [mtry ;nodesize] pour 400 sites Pour 400 sites de données de calibration, on a valeurs optimales pour mtry et valeurs optimales pour nodesize En observant R2, on a une valeur optimale pour mtry=7 et nodesize=10 [57] Valeurs optimales paramètres [mtry ;nodesize] pour 800 sites Avec 800 sites de données de calibration, nous avons valeurs optimales pour mtry et valeurs optimales pour nodesize Nous fixons une valeur optimale pour mtry=3 et nodesize=5 partir de paramètre R2 [58] Valeurs optimales paramètres [mtry ;nodesize] pour 1000 sites Nous avons pour 1000 sites de données de calibration, valeurs optimales pour mtry et valeurs optimales pour nodesize En se référant aux valeurs de paramètre R2, on une valeur optimale pour mtry=3 et nodesize=5 [59] Valeurs optimales paramètres [mtry ;nodesize] pour 1500 sites Pour 1500 sites de données de calibration, nous avons valeurs optimales pour mtry et valeurs optimales pour nodesize En se référant aux valeurs de paramètre R2, on une valeur optimale pour mtry=3 et nodesize=1 [60] Valeurs optimales paramètres [mtry ;nodesize] pour 2000 sites Pour 2000 sites de données de calibration, nous avons valeurs optimales pour mtry et valeurs optimales pour nodesize En se référant aux valeurs de paramètre R2, on une valeur optimale pour mtry=5 et nodesize=1 [61] Valeurs optimales paramètres [mtry ;nodesize] pour 5000 sites A partir de plus de 5000 sites de calibration, nous obtenons valeurs optimales pour mtry et seule valeur optimale pour nodesize En se référant aux valeurs de paramètre R2, on une valeur optimale pour mtry=7 Et il en est de même pour le cas de 10 000 sites des données de calibration Valeurs optimales paramètres [mtry ;nodesize] pour 10 000 sites [62] ANNEXE C : Analyse de l’échantillonnage de calibration [63] Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche), picp et la variance de l’argile (milieu), et mse_model et la variance de l’argile (à droite) calculées pour 200 sites de calibration [64] Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche), picp et la variance de l’argile (milieu), et mse_model et la variance de l’argile (à droite) calculées pour 400 sites de calibration [65] Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche), picp et la variance de l’argile (milieu), et mse_model et la variance de l’argile (à droite) calculées pour 800 sites de calibration [66] Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche), picp et la variance de l’argile (milieu), et mse_model et la variance de l’argile (à droite) calculées pour 1000 sites de calibration [67] Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche), picp et la variance de l’argile (milieu), et mse_model et la variance de l’argile (à droite) calculées pour 2000 sites de calibration [68] RÉFÉRENCES Barnston, (1992), « Correspondance entre la corrélation [erreur quadratique moyenne] et les mesures de vérification de Heidke; Raffinement du score de Heidke » Notes et correspondance, Centre d'analyse du climat Breiman Leo (2001), « Random Forests, Machine Learning », 45, pp 5–32 M Coustaroux (2013), « Analyse de sensibilité et planification d’expériences », INSA Toulouse, MIAT INRA D Dupuy, C Helbert, J Franco (2015), « DiceDesign and DiceEval: Two R Packages for Design and Analysis of Computer Experiments », Journal of Statistical Software, Volume 65, Issue 11 R Faivre, B Iooss, S Mahévas, D Makowski, H Monod (2013), « Analyse de sensibilité et exploration de modèles : application aux sciences de la nature et de l'environnement », éditions Quae, Collection Savoir-faire, Versailles, pp 324 F Hickernell (1998), « A generalized discrepancy and quadrature error bound Mathematics of Computation », 67, pp.299–322 J Jacques (2011) « Pratique de l’analyse de sensibilité : comment évaluer l’impact des entrées aléatoires sur la sortie d’un modèle mathématique », PUB IRMA, LILLE Vol 71, N°III LM Johnson, PS Kayn, ES Kahn, M Grunstein (1990), « Genetic evidence for an interaction between SIR3 and histone H4 in the repression of the silent mating loci Saccharomyces cerevisiae », volume 87(16):6286-90 B Gandar, G Loosli, G Deffuant (2009), « Sélection de points en apprentissage actif Discrépance et dispersion : des critères optimaux », MajecSTIC 10 C Gomez, P Lagacherie, Guillaume Coulouma (2012), « Regional predictions of eight common soil properties and their spatial structures from hyperspectral Vis– NIR data », Geoderma 11 de Gruijter, D.J Brus, M.F.P Bierkens, M Knotters (2006), « Sampling for Natural Resource Monitoring Springer » 12 de Gruijter, A.B McBratney, B Minasny, I Wheeler, B.P Malone, U Stockmann (2015), « Farm-scale soil carbon auditing, Geoderma 120–130 » 13 C Gomez, R.A Viscarra Rossel, A.B McBratney (2008), « Soil organic carbon prediction by hyperspectral remote sensing and field vis–NIR spectroscopy: an Australian case study », Geoderma, pp 403–411 14 B Kempen, D.J Brus, J.J Stoorvogel (2011), « Cartographie tridimensionnelle de la teneur en matière organique du sol en utilisant des fonctions de profondeur spécifiques au type de sol » Geoderma, 107–123 15 P Lagacherie, D Arrouays, C Walter (2013), « étude et Gestion des Sols », Volume 20, 1, pp 83 98 [69] 16 A Liaw, M Wiener (2002), « Classification and regression by random Forest R News », pp 18–22 17 A.B McBratney, M.L Mendonc Santos, B Minasny (2003), « On digital soil mapping », Geoderma, pp.3–52 18 A.B McBratney, J.J de Gruijter (2015), « A continuum approach to soil classification by modified fuzzy k-means with extragrades J Soil Sci », 43 (1992), pp 159–175 19 N Meinshausen, L Schiesser, « Quantile Regression Forests R package » 20 N Meinshausen (2006), « Quantile Regression Forests, Machine Learning Research », pp 983–999 21 N Saint-Geours, C Lavergne, J S Bailly, F Grelot (2011), « Analyse de sensibilité globale d'un modèle spatialisé pour l'évaluation économique du risque d'inondation » Journal de la Sociộtộ Franỗaise de Statistique, 152(1), p-24 22 A Saltelli, M Ratto, T Andres , F Campolongo, J Cariboni , D Gatelli, M Saisana, S Tarantola (2008), « Global Sensitivity Analysis - The Primer Wiley » 23 A Saltelli, K Chan, E.M Scott (2000), « Sensitivity Analysis Wiley » 24 A Stevens, T Udelhoven, A Denis, B Tychon, R Lioy, L Hoffmann, B van Wesemael (2010), « Measuring soil organic carbon in croplands at regional scale using airborne imaging spectroscopy », Geoderma, pp 32–45 25 K Vaysse, P Lagacherie (2017), « Using quantile regression forest to estimate uncertainty of digital soil mapping products », Geoderma, pp.55–64 26 Y Velenik (2017), Probabilités et Statistique », Université de Genève 27 R A Viscarra Rossel, D J J Walvoort, A B McBratney, L J Janik, J O Skjemstad (2006), « Visible, near-infrared, mid-infrared or combined diffuse reflectance spectroscopy for simultaneous assessment of various soil properties », Geoderma, 131, pp 59–75 ... DE PREDICTION CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU ĐƯỢC ÁP DỤNG CHO LẬP BẢN ĐỒ ĐẤT KỸ THUẬT SỐ: CÀI ĐẶT VÀ KIỂM TRA CÁC CHIẾN LƯỢC ỔN ĐỊNH CHO VIỆC ƯỚC LƯỢNG TÍNH KHƠNG CHẮC CHẮN CỦA CÁC DỰ ĐOÁN MEMOIRE... DE PREDICTION CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU ĐƯỢC ÁP DỤNG CHO LẬP BẢN ĐỒ ĐẤT KỸ THUẬT SỐ: CÀI ĐẶT VÀ KIỂM TRA CÁC CHIẾN LƯỢC ỔN ĐỊNH CHO VIỆC ƯỚC LƯỢNG TÍNH KHƠNG CHẮC CHẮN CỦA CÁC DỰ ĐOÁN Spécialité:... précisée LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Các thơng tin trích dẫn Luận văn rõ nguồn gốc NKUBA KASANDA Lievin

Định dạng
Số trang	83
Dung lượng	26,7 MB