Phát triển các thuật toán nhận dạng hình dạng để xác định và mô tả đặc tính của đống đổ nát tái chế

UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL Saidi DAOUDA KADRI Développement d’algorithmes de reconnaissance de formes pour identifier et caractériser des gravats recyclés Phát triển thuật toán nhận dạng hình dạng để xác định mơ tả đặc tính đống đổ nát tái chế MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE HANOÏ - 2020 UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL Saidi DAOUDA KADRI Développement d’algorithmes de reconnaissance de formes pour identifier et caractériser des gravats recyclés Phát triển thuật tốn nhận dạng hình dạng để xác định mơ tả đặc tính đống đổ nát tái chế Spécialité : Systèmes Intelligents et Multimédia Code : Programme pilote MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Sous la direction de : Dr Nicolas SIDERE, Assistant Professeur Dr Jérome Lux, Maitre de Conférence HANOÏ - 2020 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Các thơng tin trích dẫn Luận văn rõ nguồn gốc Signature de l’étudiant Saidi DAOUDA KADRI Remerciements Je souhaite tout d’abord exprimer mes plus vifs remerciements mes encadrants Monsieur Nicolas Sidère, Assistant Professeur et Monsieur Jérome Lux Mtre de Conférence pour m’avoir accompagné et guidé tout au long de mon stage Leurs conseils, leur disponibilité m’ont permis de compléter ce mémoire et d’acquérir une expérience inestimable Je remercie également le Doctorant Jean David Lau Hiu Hoong qui, malgré son emploi du temps chargé toujours su se rendre disponible lorsque j’avais besoin des explications ou accède au machine de calcul Je tiens remercier Dr Muhammad Muzzamil LUQMAN et tout l’équipe du laboratoire L3i qui ont participé la réalisation et validation de ce projet Je voudrais aussi remercier notre responsable de Master Dr Ho Tuong Vinh ainsi que tous les personnels pédagogiques et administratifs de l’Institut Francophone International, Université National de Vietnam Hanoi Enfin, je tiens exprimer ma profonde gratitude mes parents, ma famille pour m’avoir apporté un soutien indéfectible et des encouragements constants tout au long de mes années de Master Je ne saurais oublier M Lionel Houssou et mes amis qui ont toujours été pour moi Votre soutien inconditionnel et vos encouragements ont été d’une grande aide Je vous remercie Saidi DAOUDA KADRI Résumé Chaque année la France produit des millions de tonne de déchets inertes et réutiliser une partie peu significatif.Dans ce projet il est question de trouver les moyens idoines pour la valorisation ces déchets au profit de l’utilisation des ressources naturelles Après l’étape de création de la base de données suivi de l’implémentation d’une modèle de classification.L’étape suivante que nous avons aborde dans ce manuscrits consiste implémenter une méthode de détection et segmentation d’objet Le système humaine est composé de plusieurs organes, mais celui qui s’occupe de l’oeil est très complexe et joue un rôle majeur Un seul coup d’oeil sur une image, l’homme arrive identifier et localiser les objets sur l’image La reproduction du fonctionnement des yeux sur l’ordinateur sont des tâches fastidieuses et laborieusement effectuées par les chercheurs.Mais depuis quelques années avec les méthodes basées sur l’apprentissage profond, ces tâches deviennent de plus en plus facile Pour atteindre les objectifs nous étudierons les travaux existant qui traite une partie ou totale de notre sujet afin d’avoir des connaissances sur les méthodes pour pouvoir proposer une solution et apporter des contribuions Mots clés : Reconnaissance de formes, Analyse d’image, Apprentissage profond, Segmentation sémantique, Segmentation d’instance, Agrégats recyclés Abstract Each year France produces millions of tonnes of inert waste and reusing some of it can be significant In this project it is a question of finding the appropriate means for the recovery of these waste for the benefit of the use of natural resources After the step of creation of the database following implementation of a classification model The next step that we will discuss in this manuscript consists in implementing a method of object detection and segmentation The human system is made up of several organs, but the one that takes care of the eye is very complex and plays a major role With a single glance at an image, man can identify and locate the objects on the image Reproducing the functioning of the eyes on the computer are tedious and laboriously carried out by researchers a few years with the methods based on deep learning, these tasks become more and more easy To reach the objectives we will study the existing work which treats part or total of our subject in order to have knowledge on the methods to be able to propose a solution and make contributions Keywords :Pattern recognition, Image analysis, Deep learning, semantic segmentation, instance segmentation, recycled aggregates ; Table des matières Liste des tableaux iv Table des figures v Introduction générale 1.1 Présentation de l’établissement d’accueil 1.1.1 L3i 1.1.1.1 Le laboratoire L3i, la structure de recherche en informatique de l’Université de La Rochelle 1.1.1.2 Une politique scientifique ancrée sur des enjeux socioéconomiques 1.1.1.3 Une politique de réseau consolidée 1.1.1.4 Une culture de la relation avec l’entreprise avec Valconum 1.2 Contexte et problématique 1.2.1 Contexte 1.2.1.1 Domaine d’étude 1.2.1.2 Objectifs 1.2.1.3 Problématiques 2 2 3 4 4 État de l’art 2.1 Introduction 2.1.1 Méthodes de détection 2.1.2 Méthodes de segmentation 2.1.3 Méthode détection et segmentation en temps réel 2.2 Détection automatique d’objet 2.2.1 Réseau de convolution basé sur les régions (R-CNN) 2.2.2 Réseau convolutionnel rapide basé sur la région(Fast R-CNN) 2.2.3 Réseau de convolution régional plus rapide (Faster R-CNN) 2.2.4 Réseau de convolution basé sur le masque de région(Mask R-CNN) 10 2.2.5 Le modèle You Only Look Once(Yolo) 11 2.2.6 Réseau complément convolutifs (FCNs) 12 i TABLE DES MATIÈRES 2.2.7 Unet 13 2.2.8 Réseau de de-convolution (Auto-encodeur) 14 2.3 Conclusion 19 Solutions proposées et contributions 3.1 Introduction 3.1.1 Description du Méthode 3.1.1.1 Resnet 3.1.1.2 Feature Pyramide Network(FPN) 3.1.1.3 Region Proposal Network(RPN) 3.1.1.4 RoIalign 3.1.1.5 Tête de Détection 3.1.1.6 Tête de Segmentation 3.2 Base de donnée 3.2.1 Création de la base de donnée 3.3 Conclusion 20 20 20 21 21 22 22 23 23 24 24 26 Expérimentations et résultats 27 Résultats et analyses 4.1 Introduction 4.2 Environnement de travail 4.2.1 Environnement matériel 4.2.2 Environnement logiciel 4.2.3 Autre Plate-forme 4.3 Pré-traitement 4.3.1 Redimensionnement 4.4 Dataset utilisé 4.5 Validation 4.6 Mask R-CNN Backbone 4.6.1 Analyse 4.7 Contribution 4.7.1 Tête box et masque 4.7.2 Backbone 4.7.3 Script Imagette 4.8 Conclusion 27 27 27 27 27 27 28 28 28 28 29 30 31 31 32 34 34 Conclusion et Perspectives 35 5.1 Conclusion générale 35 5.2 Perspectives 35 A Algorithmes 38 ii Table des figures 1.1 Logo L3i 1.2 Logo Univ-la Rochelle 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 principe de l’architecture R-CNN principe de l’architecture Fast R-CNN principe de l’architecture Faster R-CNN principe de l’architecture Mask R-CNN principe de l’architecture Yolo principe de l’architecture du réseau complément convolutifs principe de l’architecture du réseau complément convolutifs principe de l’architecture du réseau complément convolutifs 10 11 12 13 14 15 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 Resnet Méthode Architecture de FPN Architecture de Region Proposal Network Architecture de Region Proposal Network Architecture des têtes de sorties Architecture d’acquisition d’image RA Rb02 RA Rb01 20 21 22 22 23 24 25 26 26 26 26 4.1 4.2 4.3 4.4 4.5 4.6 4.7 Taille réelle 6000x4000 Taille réduite 1920x1280 Validation ResNet Existant Avec Resnet101 Architecture du modèle RA 28 28 29 30 30 31 31 iii CHAPITRE SOLUTIONS PROPOSÉES ET CONTRIBUTIONS F IGURE 3.7 – Architecture d’acquisition d’image Composant : un appareil photo Fujifilm X-T20 d’une résolution de 24 millions de pixels (6000 x 4000 pixels) avec deux objectifs, une macro Fujinon XF60mm F2.4 R (pour la fraction 4/10) et un Fujinon XF35mm F2 R WR (pour 10 / 31,5 fraction) Composant : un support sur lequel l’appareil photo est solidement fixé une distance réglable des gravats recycles(RA) Composant : deux lampes composées chacune de 256 LED fournissant des conditions d’éclairage contrôlées Ils diffusent la lumière uniformément et ont un bon rendu 25 CHAPITRE SOLUTIONS PROPOSÉES ET CONTRIBUTIONS des couleurs Les bras des lampes LED fixées sur le support sont inclinés 27 ° C vers l’extérieur par rapport l’axe vertical Ces bras sont également perpendiculaires au plan contenant les LED de chaque lampe Les lampes sont placées 45 cm au-dessus de la surface supérieure de la feuille de plastique transparente De plus, leurs côtés sont parallèles ceux de la base du support de copie La luminosité est réglée sur la valeur maximale et la température de couleur est de 5600 K Ces paramètres mettent en évidence les caractéristiques visuelles pertinentes Composant : une feuille de plastique transparente surélevée de 10 cm au-dessus de la base du support Lorsque les RA sont surélevés par rapport l’arrière-plan, ils projettent moins d’ombres dessus Composant : un arrière-plan d’une couleur différente pour améliorer la détection des grains Enfin, une pièce de cents d’euros est utilisée comme référence Il permet la conversion entre pixels et millimètres F IGURE 3.8 – RA F IGURE 3.9 – Rb02 F IGURE 3.10 – RA F IGURE 3.11 – Rb01 3.3 Conclusion Dans ce chapitre nous avons présenté la méthode Mask R-CNN pour la résolution de notre problème En détaillant les différents modules qui la compose suivie d’une description d’acquisition des images 26 Chapitre Expérimentations et résultats 4.1 Introduction Après l’étape de choix de méthode et d’explication sur la technique d’acquisition des images, Nous allons au cours de ce chapitre implémenté la méthode 4.2 Environnement de travail Dans cette section, nous décrivons l’environnement informatique utilisé pour la réalisation du projet au cours du stage.nous parlerons d’abord l’environnement matériel ensuite l’environnement logiciel et autre plate-forme 4.2.1 Environnement matériel Pour le développement et les expérimentations nous avons utilisé un ordinateur de bureau avec les caractéristiques ci-dessous : — Processeur Intel — Ram : 32G — OS : Ubuntu 4.2.2 Environnement logiciel L’implémentation du modèle a été faite avec le langage python 3.6, nous avons utilisé environnement anaconda avec l’éditeur Jupyter Notebook De plus d’autres bibliothèque ont été installée (Keras Using TensorFlow backend, OpenCV ) 4.2.3 Autre Plate-forme — Overleof : Pour la rédaction des différentes présentations et du rapport 27 CHAPITRE EXPÉRIMENTATIONS ET RÉSULTATS 4.3 Pré-traitement Dans cette partie, nous allons effectuer un pré-traitement sur des images avant leur utilisation au niveau du modèle Cette tâche consiste ré-dimensionner les tailles 4.3.1 Redimensionnement Après l’acquisition, nous avons les images de taille 6000x4000 pixels L’utilisation des images de telle taille peuvent entrner plus de consommation en temps lors de la formation du teste Du coup nous avons fixé les images une taille de 1920x1280 pixels F IGURE 4.2 – Taille réduite 1920x1280 F IGURE 4.1 – Taille réelle 6000x4000 4.4 Dataset utilisé Les expérimentations ont été effectuées en utilisant la base de donnée créer par le doctorant La base mise ma disposition est composée de : — 18 classes — 122(2/3) images pour train — 43(1/3) images pour Validation 4.5 Validation Pour valider notre modèle nous nous sommes basé sur les métriques décrit cidessous : — Précision P r éci si on = l e nombr e composant s cor r ec t ement at t r i bue l a cl ass i l e nombr e d e composant s at t r i buesa l a cl ass i — Rappel Rappel = l e nombr e composant s cor r ec t ement at t r i bue l a cl ass i l e nombr e d e composant s appar t enant a l a cl ass i 28 CHAPITRE EXPÉRIMENTATIONS ET RÉSULTATS — Intersection over union(IoU) I nt er sec t i on Uni on I oU = F IGURE 4.3 – Validation — Moyenne de l’AP(mAP) AP r 11 r ∈{0.0,1.0,2 1,0} (4.1) P i nt er p(r ) 11 r ∈{0.0,1.0,2 1,0} (4.2) AP = AP = m AP = N N AP i (4.3) n=1 Avec P i nt er p(r ) = max p(r¯) r¯ r 4.6 Mask R-CNN Backbone Le Mask R-CNN est basé sur un backbone composé de deux modèles (Resnet50 et Resnet101).Le choix est laissé l’utilisateur toute en tenant compte de la puissance de l’ordinateur Au cours de ce stage, nous avons testé les deux modèles avant d’apporter notre contribution Les résultats obtenus lors des tests ont été notés dans le tableau 4.2 29 CHAPITRE EXPÉRIMENTATIONS ET RÉSULTATS F IGURE 4.4 – ResNet 4.6.1 Analyse Pour mieux comprendre les forces de chacune des architectures nous avons testé toutes les deux afin de mener bien l’analyse sur les précisions et leurs rappelles Les figures ci-dessous illustres les sorties de chacune d’eux La figure 4.5 est celui du resnet101 et l’autre du resnet50 F IGURE 4.5 – Existant Avec Resnet101 30 CHAPITRE EXPÉRIMENTATIONS ET RÉSULTATS TABLE 4.1 – Tableau des Résultats Modèle Précision Rappel mAP@IoU Epoch ResNet50 100 ResNet101 100 4.7 Contribution Dans cette partie, après l’entrnement et test du modèle avec l’architecture (resnet50 et 101) Certains objectifs ont été définis par mes encadrants comment apports sur l’existant pour attendre le but de ce projet La majorité de nos contributions ont été effectuées au niveau du code du modèle, et un script pour créer des imagettes partir des coordonnées boites englobantes F IGURE 4.6 – Architecture du modèle 4.7.1 Tête box et masque Le Mask RCNN original est composé de trois branches (boite,classe et masque).Mais sur ce projet, nous avons simplement de deux têtes (boite et le masque des objets) Après des modifications, nous avons obtenu les résultats tant espérés F IGURE 4.7 – RA F IGURE 4.8 – Sans nom des classes et scores 31 CHAPITRE EXPÉRIMENTATIONS ET RÉSULTATS 4.7.2 Backbone Dans le modèle mask rcnn, au niveau de la partie backbone deux architecture resnet50 et 101 sont implémentés.L’utilisateur a le choix de faire tourner l’une d’elle en tenant compte des caractéristiques de la machine qui sera utilisé Ces deux architectures sont très gourmandes en ressources avec un nombre élevé de paramètre Pour pallier ces problèmes nous avons implémenté le resnet18 ; Mais le temps de formation serait un peu plus élevé que les deux autres architectures 32 CHAPITRE EXPÉRIMENTATIONS ET RÉSULTATS 33 F IGURE 4.9 – Architecture ResNet18 CHAPITRE EXPÉRIMENTATIONS ET RÉSULTATS 4.7.3 Script Imagette Après avoir entrné le modèle, il était question de créer des imagettes pour chaque sortie du réseau nous avons implémenté un script qui utiliser les coordonnées des boites englobantes de la base réduite 1920x1280 pour reconntre les mêmes objets sur les images de taille 6000x4000 pixels et enfin créer les imagettes Résultat F IGURE 4.10 – Imagette F IGURE 4.11 – Imagette F IGURE 4.12 – A Imagette TABLE 4.2 – Tableau des Résultats Modèle Précision Rappel mAP@IoU (IoU=0,5) Epoch ResNet18 1.0 0.919 0.675 500 4.8 Conclusion A travers ce chapitre nous avons présenté la base de donnée sur laquelle nous avons mené nos expérimentations ainsi que les apports demandés 34 Chapitre Conclusion et Perspectives 5.1 Conclusion générale Au cours de notre stage, nous avons travaillé sur un projet d’un thésard.Notre travail consiste mettre en place une méthode de détection et segmentation d’objet Vue la complexité du projet, nous avons subdivisé le travail en deux parties savoir la partie théorique et la partie pratique Au niveau de la partie théorique nous avons effectué l’analyse du sujet et l’étude bibliographique qui nous ont permis d’avoir une large vision et compréhension de notre sujet.Nous avons lu quelques travaux en rapport avec notre sujet ;Au de cette étude nous a permis d’identifier les méthodes bases sur les approches comme la recherche sélective, les réseaux de proposition de région et les grilles pour la détection en ce qui concernant la segmentation nous avons les réseaux entièrement convolutifs et d’autres variantes.Suite l’étude bibliographique nous avons proposé une solution pour résoudre le problème Dans la partie pratique, nous avons mis en place le pipeline composé de plusieurs modules.Chacun des modules est d’une importance capitale dans l’obtention des résultats De l’entrée de l’image la détection en affichage des boites englobantes en passant la segmentation.Après avoir teste le modèle, nous avons aussi apporté des contributions énumérées ci-dessus Enfin, les résultats obtenus sont satisfaisants et encourageants puisque nous avons intégré l’architecture du Resnet 18 au modèle existant 5.2 Perspectives Les perspectives pour ce travail consistent d’abord l’estimation des poids de chaque objet ensuite l’intégration du modèle dans une application mobile ou autre plate-forme 35 Bibliographie [1] inproceedings girshick2014rich, title = Hiérarchies de fonctionnalités riches pour une détection précise des objets et une segmentation sémantique, auteur = Girshick, Ross et Donahue, Jeff et Darrell, Trevor et Malik, Jitendra, booktitle = Actes de la conférence de l’IEEE sur la vision par ordinateur et la reconnaissance des formes, pages = 580–587, année = 2014 [2] inproceedingsgirshick2015fast, title=Fast r-cnn, author=Girshick, Ross, booktitle=Proceedings of the IEEE international conference on computer vision, pages=1440–1448, year=2015 [3] inproceedingsren2015faster, title=Faster r-cnn : Towards real-time object detection with region proposal networks, author=Ren, Shaoqing and He, Kaiming and Girshick, Ross and Sun, Jian, booktitle=Advances in neural information processing systems, pages=91–99, year=2015 [4] inproceedingshe2017mask, title=Mask r-cnn, author=He, Kaiming and Gkioxari, Georgia and Dollár, Piotr and Girshick, Ross, booktitle=Proceedings of the IEEE international conference on computer vision, pages=2961–2969, year=2017 [5] inproceedingsredmon2016you, title=You only look once : Unified, real-time object detection, author=Redmon, Joseph and Divvala, Santosh and Girshick, Ross and Farhadi, Ali, booktitle=Proceedings of the IEEE conference on computer vision and pattern recognition, pages=779–788, year=2016 [6] inproceedingslong2015fully, title=Fully convolutional networks for semantic segmentation, author=Long, Jonathan and Shelhamer, Evan and Darrell, Trevor, booktitle=Proceedings of the IEEE conference on computer vision and pattern recognition, pages=3431–3440, year=2015 [7] inproceedingsronneberger2015u, title=U-net : Convolutional networks for biomedical image segmentation, author=Ronneberger, Olaf and Fischer, Philipp and Brox, Thomas, booktitle=International Conference on Medical image computing and computer-assisted intervention, pages=234–241, year=2015, organization=Springer [8] inproceedingsnoh2015learning, title=Learning deconvolution network for semantic segmentation, author=Noh, Hyeonwoo and Hong, Seunghoon and Han, Bo36 BIBLIOGRAPHIE hyung, booktitle=Proceedings of the IEEE international conference on computer vision, pages=1520–1528, year=2015 [9] hoongquantification, title=Quantification of construction and demolition waste products that can be carbonated using a deep learning-based image analysis, author=Hoong, JD Lau Hiu and Lux, J and Mahieux, PY and Turcry, Ph and AïtMokhtar, A 37 Annexe A Algorithmes 38 ANNEXE A ALGORITHMES 39 ... pour identifier et caractériser des gravats recyclés Phát triển thuật toán nhận dạng hình dạng để xác định mơ tả đặc tính đống đổ nát tái chế Spécialité : Systèmes Intelligents et Multimédia... précisée LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Các thơng tin trích dẫn Luận văn rõ nguồn gốc Signature de l’étudiant

Định dạng
Số trang	52
Dung lượng	45,32 MB