1. Trang chủ
  2. » Luận Văn - Báo Cáo

Research and build model for detecting anomaly images, apply for business of lacking board station name and anomalies mov alarm of base station

60 30 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 60
Dung lượng 2,25 MB

Nội dung

UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL Thierno Mamoudou BARRY Research and build model for detecting anomaly images, apply for business of lacking board station name and anomalies MOV alarm of base station Nghiên cứu xây dựng mô hình để phát hình ảnh báo động MOV bất thường thiếu tên trạm gốc Spécialité : Systèmes Intelligents et Multimédia Code : 8480201.02 MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE HANOÏ - 2020 UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL Thierno Mamoudou BARRY Research and build model for detecting anomaly images, apply for business of lacking board station name and anomalies MOV alarm of base station Nghiên cứu xây dựng mơ hình để phát hình ảnh báo động MOV bất thường thiếu tên trạm gốc Spécialité : Systèmes Intelligents et Multimédia Code : 8480201.02 MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Sous la direction de : Dr NGUYEN Hong Quang, Responsable du marter - IFI M Lưu Đức Phong, MBA, Chef de l’équipe BPMS - Viettel Network HANOÏ - 2020 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Các thơng tin trích dẫn Luận văn rõ nguồn gốc Signature de l’étudiant Thierno Mamoudou BARRY Remerciements Ce travail est le résultat de plusieurs années d’études et le concours de plusieurs personnes qui ont décidé de m’accompagner résolument dans ce grand parcours Je voudrais profiter de cette occasion pour leur exprimer toute ma reconnaissance et ma gratitude Je souhaite tout d’abord remercier Dieu le TOUT PUISSANT de m’avoir doté d’une intelligence et maintenu en bonne santé pour réaliser mes rêves Je lui remercie également de m’avoir accordé des parents exceptionnels qui m’ont tout donné et montré le chemin de l’école Je voudrais par ces mots, remercier mes encadrants M LUU Duc Phong de l’équipe BPMS (Business Process Management Software) et Dr NGUYEN Hong Quang responsable du master (IFI), pour avoir accepté de diriger ce stage Vos disponibilités et vos conseils judicieux m’ont été très bénéfiques dans la réalisation de ce projet Mes remerciements vont particulièrement M NGUYEN Anh Tuan Directeur des ressources humaines de Viettel Networks pour son soutien constant et la confiance qu’il m’a porté Je remercie également tous les membres du département digital (BPMS) pour l’accueil chaleureux au sein entreprise, vos conseils et vos contributions essentielles ont conduit au succès de ce travail Je saisis cette occasion pour remercier l’administration de l’institut Francophone International (IFI) pour sa bonne collaboration et ses interventions pour la résolution des certaines difficultés rencontrées au cours de ma formation et plus particulièrement notre directeur d’études M HO Tuong Vinh qui nous a toujours apporté son aide travers des pertinentes remarques malgré son agenda très chargé Je tiens remercier également tout le corps enseignant de l’Institut Francophone International (IFI) pour la formation que nous avons reỗue durant ces deux annộes académiques Je ne saurais terminer sans adresser mes vives remerciements ma très chère Famille (frères, sœurs, oncles ), vos encouragements, votre soutient et surtout la confiance que vous me portez tous les jours m’ont permis de surmonter des obstacles incroyables pour persévérer Résumé La relation étroite de la détection d’objets et la compréhension d’images a attiré beaucoup d’attention de la recherche ces dernières années Les méthodes classiques (traditionnelles) de détection d’objets sont construites sur des fonctionnalités artisanales et des architectures peu formables Mais avec le développement rapide de l’apprentissage en profondeur, des outils plus puissants, capables d’apprendre des fonctionnalités sémantiques, de haut niveau et plus profondes, sont introduits pour résoudre les problèmes existant dans les architectures classiques Ces modèles se comportent différemment dans l’architecture de réseau, la stratégie de formation et la fonction d’optimisation, etc Dans ce document, nous proposons la mise en place d’un modèle de détection d’objets personnalisé spécialement pour la détection des composants MOV défectueux et des BSN (Base Station Name ou Nom de Station de Base) en se basant sur les nouvelles architectures des réseaux de neurones convolutifs CNN Ce projet a été proposé par l’entreprise Viettel Networks afin que les techniciens de terrains puissent avoir un outil d’assistance rapide et moderne lors des différentes opérations de maintenance D’abord, nous faisons une étude théorique dans laquelle nous développons les travaux connexes sur les différents modèles existants de détection d’objets savoir : Fast R-CNN, Faster R-CNN, YOLO et SSD puis effectuons une étude comparative entre ces modèles Ensuite, l’issue de cette étude, proposons une solution adéquate pouvant nous permettre d’atteindre les objectifs de ce projet Enfin, nous implémentons deux modèles : le Faster R-CNN et le SSD et présentons les résultats obtenus par chaque modèle, 94% et 72% de précision respectivement sur notre ensemble de données Mots clés : Contexte d’image, Reconnaissance d’objets, Détection d’objets, Apprentissage en profondeur, Apprentissage par transfert, Réseaux de neurones convolutifs, Proposition de régions, Détection des composants MOV défectueux et BSN (Base Station Name) Abstract The close relationship of object detection and image understanding has attracted a lot of research attention in recent years Classical (traditional) object detection methods are built on artisanal functionalities and poorly formable architectures But with the rapid development of deep learning, more powerful tools capable of learning semantic, high-level and deeper functionality are being introduced to solve the problems existing in classical architectures These models behave differently in network architecture, training strategy and optimization function, etc In this document, we propose the implementation of a personalized object detection model especially for the detection of MOV alarm components anomalies and BSN plates (Base Station Name) based on the new architectures of the CNN convolutional neural networks This project was proposed by Viettel Networks so that field technicians can have a quick and modern support tool during various maintenance operations First, we a theoretical study in which we develop the related work on the different existing models of object detection namely : Fast R-CNN, Faster R-CNN, YOLO and SSD then carry out a comparative study between these models Then, at the end of this study, propose an adequate solution that can allow us to achieve the objectives of this project Finally, we implement two models : the Faster R-CNN and the SSD and present the results obtained by each model, 94 % and 72 % precision respectively on our data set Keywords : Image Context, Image Classification, Object Detection, Deep Learning, Transfer Learning, Convolutional Neural Networks, Region Proposal, Detection of Defective MOV Components and BSN (Base Station Name) Table des matières Liste des tableaux iv Table des figures v Liste des tables v Introduction générale 1.1 Présentation de l’établissement d’accueil 1.1.1 Viettel 1.2 Contexte-objectifs-problématiques 1.2.1 Contexte 1.2.1.1 Description des composants MOV et BSN 1.2.2 Problématiques 1.2.3 Objectifs 1.2.3.1 Travaux réaliser : 1.2.4 Organisation du manuscrit : 3 4 5 État de l’art 2.1 Notions de base d’image 2.1.1 Définition 2.1.2 Les types de format d’image 2.1.3 Caractéristiques d’une image 2.2 Méthodes de détection d’objets basées sur les CNNs 2.2.1 Les réseaux de neurones convolutifs (CNNs ou ConvNets) 2.2.1.1 Architecture CNN 2.2.1.2 Fonctionnement d’un CNN 2.2.1.3 Conception des CNNs 2.2.1.4 Autres architectures CNNs 2.2.2 Quelques algorithmes de détection d’objets 2.2.2.1 Fast R-CNN 2.2.2.2 Faster R-CNN 7 8 10 10 10 11 13 15 17 17 17 i TABLE DES MATIÈRES 2.2.2.3 SSD (Single Shot Detector) 2.2.2.4 YOLO (You Only Look Once) 2.2.2.5 Comparaison des modèles de détection moderne 2.3 Détails des modèles utilisées 2.3.1 Faster R-CNN 2.3.1.1 Présentation et architecture 2.3.1.2 Extracteurs de caractéristiques 2.3.2 SSD(Single Shot Detector) 2.3.2.1 Présentation et architecture 2.3.2.2 Extracteurs de caractéristiques Solutions proposées & Contributions 3.1 Les algorithmes de Tensorflow object detection model zoo 3.2 Principaux points de notre solution 3.3 Apprentissage par transfert 3.4 Architecture générale de la solution 3.5 Contribution 3.6 Mise en œuvre de la solution 3.6.1 Environnement de travail 3.6.1.1 Environnement matériel 3.6.1.2 Environnement logiciel 3.6.2 Préparation du jeu de données (VTNSET) 3.6.3 Téléchargement des modèles préformé de Tensorflow 3.6.4 Création d’une carte d’étiquettes et configuration de la formation 3.6.4.1 Carte d’étiquettes (label map) : 3.6.4.2 Configuration du fichier de formation 3.6.5 Hyperparamètres Expérimentations & Résultats 4.1 Expérimentations 4.1.1 Apprentissage et exportation 4.1.2 Exportation du modèle final 4.1.3 Algorithme d’optimisation et fonction de perte 4.1.4 Mesure d’évaluation 4.2 Résultats 4.2.1 Résultats graphiques de l’apprentissage 4.2.2 Résultats comparatifs sur les nouvelles données 4.2.2.1 Analyses des résultats : 4.2.2.2 Quelques résultats du modèle Faster-RCNN 4.3 Problèmes rencontrés 18 19 20 21 21 21 22 22 22 23 24 24 25 25 26 27 28 28 28 28 30 32 33 33 33 34 35 35 35 36 37 37 39 39 40 41 41 43 Conclusion & Perspectives 44 5.1 Conclusion générale 44 5.2 Perspectives 45 ii Table des figures 1.1 Logo Viettel 1.2 Plaque BSN gauche et Composants MOV droite 2.1 Architecture CNN 2.2 Descente de gradient (source : https ://www.simplilearn.com/deep-learninginterview-questions-and-answers-article) 2.3 Rétro-propagation (source : https ://www.simplilearn.com/deep-learninginterview-questions-and-answers-article) 2.4 Couche de convolution avec un filtre de x 2.5 couche de regroupement (pooling) avec un filtre × 2.6 Fonction d’activation ReLU 2.7 Couche entièrement connectée (FC) 2.8 Architecture Faster-RCNN 2.9 Fonctionnement de YOLO 2.10 Tableau comparatif des modèle de détection 2.11 Architecture simplifiée Faster R-CNN 2.12 Architecture SSD 10 12 13 14 14 15 18 19 20 21 23 3.1 3.2 3.3 3.4 3.5 3.6 Apprentissage par transfert Architecture de la solution Tableau des technologies utilisées Annotation avec LabelImg Pipeline de préparation de données Carte d’étiquettes (labelmap) 26 27 29 31 32 33 4.1 4.2 4.3 4.4 4.5 4.6 Début d’entrnement sur le serveur et en local Graphe de précision et de perte global du modèle SSD Graphe de précision et de perte global du modèle Faster-RCNN Résultats comparatifs entre le Faster-RCNN et le SSD Image entrée gauche et sortie droite Image entrée gauche et sortie droite 36 39 39 40 41 42 iii 12 CHAPITRE SOLUTIONS PROPOSÉES & CONTRIBUTIONS 3.6.4 Création d’une carte d’étiquettes et configuration de la formation La dernière chose faire avant l’entrnement est de créer une carte d’étiquettes et de modifier le fichier de configuration du modèle pour l’entrnement 3.6.4.1 Carte d’étiquettes (label map) : La carte d’étiquettes indique au modèle lors de la formation ce qu’est chaque objet en définissant un mappage des noms de classe aux numéros d’identification de classe Alors nous utilisons notre éditeur de texte (PyCharm) pour la créer et l’enregistrer sous labelmap.pbtxt dans le répertoire du projet F IGURE 3.6 – Carte d’étiquettes (labelmap) 3.6.4.2 Configuration du fichier de formation Les modèles préformés que nous avons téléchargés dans Tensorflow Zoo model contient chacun son fichier de configuration (faster_rcnn_inception_v2_pets.config et ssd_mobilenet_v2_pets.config) Ces fichiers définissent quel modèle et quels paramètres seront utilisés pour la formation C’est la dernière étape avant de courir l’entrnement Ainsi, nous apportons les modifications suivantes dans chaque fichier : — Le nombre d’objets que le modèle doit détecter deux classes pour notre cas (num_classes : 2) ; — Le chemin du point de contrôle du modèle préformé (fine_tune_checkpoint : "model/faster_rcnn_inception_v2_vtnset/model.ckpt") ; — Le chemin des données d’apprentissage et de test (input_path : "vtnset/train.record" et input_path : "vtnset/test.record") ; — Le chemin des cartes d’étiquette (label_map_path : "model/labelmap.pbtxt") ; 33 CHAPITRE SOLUTIONS PROPOSÉES & CONTRIBUTIONS — Le nombre d’images du répertoire de test, donc 10% des 2000 images de notre jeu de données (num_examples : 200) ; — La taille de lot (batch_size : 3) ; — Le nombre d’étapes d’apprentissage (epoch : 50000) ; — La fonction d’activation ou de conversion du score de la couche de classification (score_converter : Softmax) ; — L’optimiseur utilisé par l’algorithme de descente de gradient pour déterminer le pas (optimizer : Adam) ; — Le taux d’apprentissage qui plus sa valeur est petit plus l’optimisation est bonne et plus le temps d’apprentissage est long (learning_rate : 0,001) ; — Le nombre maximal de détection (max_total_detections : 100) Une fois terminés les modifications, nous enregistrons le fichier et le travail de formation est configuré et prêt l’apprentissage 3.6.5 Hyperparamètres Les paramètres importants (voir Table 3.1) qui ont suffisamment impactés sur l’apprentissage de nos deux modèles sont : — Learning rate : Le pas d’apprentissage, dont sa valeur varie entre 0.0002 0.001 ; — Optimizeur : Nous avons utilisé l’optimiseur SGD (stochastic gradient descent) lors de l’apprentissage de nos deux modèles ; — Batch size : La taille de lot d’apprentissage, la valeur utilisé tourne autour de et par manque de ressource matérielle puissante ; — Epoch : Le nombre d’époque d’apprentissage compris entre 40000 et 50000 TABLE 3.1 – Importants paramètres Models SSD MobileNet Faster R-CNN Inception Learning rate 0.0002/0.001 0.001 34 Optimizer SGD SGD Batch size Epoch 50 000 50 000 Chapitre Expérimentations & Résultats Dans ce chapitre, nous présentons les différents résultats obtenus de nos modèles après leur mise en œuvre dans le chapitre précèdent Nous effectuons également des tests sur les nouvelles données réelles et effectuons une comparaison des résultats obtenus de chaque modèle 4.1 Expérimentations Sur la base de l’étude comparative faite dans l’état de l’art (2.2.2.5) , les architectures choisies pour ce projet sont Faster R-CNN et SSD Notre choix ce justifie du fait que tous les détecteurs d’objets mentionnés précédemment sont basés sur des hypothèses Faster R-CNN par exemple, et comme SSD d’ailleurs, génèrent des propositions (régions), son supposition est que ces régions sont très susceptibles de contenir un objet, puis effectue une étape supplémentaire en classant la classe que chaque région contient et enfin affiner la sortie La chose la plus importante dans Faster R-CNN est le réseau de propositions de régions, qui itère travers la couche de convolution finale dans une fenêtre coulissante, générant des propositions dans les différents rapports d’aspect 4.1.1 Apprentissage et exportation Après avoir terminé la préparation de l’environnement, les données ainsi que la configuration nộcessaire pour lentraợnement, nous commenỗons lapprentissage en exécutant notre fichier python (train.py) dans le répertoire de notre projet et Tensorflow initialise la formation L’initialisation peut prendre jusqu’à 20 secondes avant le début de l’entrnement réel 35 CHAPITRE EXPÉRIMENTATIONS & RÉSULTATS F IGURE 4.1 – Début d’entrnement sur le serveur et en local Nous pouvons constater dans (Fig : 4.1) que chaque étape de la formation rapporte la perte (loss) Il commence haut et diminue de plus en plus au fur et mesure que l’entrnement progresse La formation a commencé environ 3,0 et est rapidement tombé en dessous de 1,3 Mais ce qui est recommandé, est de permettre au modèle de s’entrner jusqu’à ce que sa perte tombe constamment en dessous de 0,05 et ce qui prendra plusieurs étapes et des heures d’apprentissage (selon la puissance de notre ordinateur CPU ou GPU) La routine d’entrnement enregistre périodiquement les fichiers des points de contrơle (ckpt) toutes les quatre minutes environ qui seront utilisé pour exporter notre modèle de détection final prêt l’emploi 4.1.2 Exportation du modèle final Maintenant que la formation est terminée, cette étape consiste générer le modèle final ou le graphe d’inférence figé (final_model.pb qui contient notre classificateur de détection d’objet) partir des fichiers de contrôle (ckpt) portant le numéro le plus élevé dans le dossier de formation Pour cela, nous utilisons le script (export_inference_grah.py) de Tensorflow qui reỗoit en entrée le plus grand fichier de point de contrôle et notre carte d’étiquettes (labelmap.pbtxt) puis nous renvoi en sortie notre modèle final prêt l’utilisation 36 CHAPITRE EXPÉRIMENTATIONS & RÉSULTATS 4.1.3 Algorithme d’optimisation et fonction de perte La descente de gradient stochastique avec momentum a été utilisée comme optimiseur lors de la formation v t +1 = ρ ∗ v t + x t +1 = x t − α ∗ v t +1 f (x t ) où ρ fait référence au «frottement», v fait référence la vitesse et x fait référence aux valeurs de poids En termes de fonction de perte, l’objectif de l’optimisation est de maximiser la précision de la prédiction sur l’ensemble de test avec une importance égale attribuée chaque classe, donc une fonction de perte inter-entropie pondérée [5] sera utilisée pour remédier la nature déséquilibrée de l’ensemble de données Loss(X ,C ) = W [C ] ∗ (−X [C ] + l og ( exp(X [ j ]))) j où X représente les images, C représente les classes et W est les pondérations appliquées chaque classe pour équilibrer les données 4.1.4 Mesure d’évaluation Pour comprendre le mAP, nous devons d’abord revoir la précision et le rappel qui sont deux métriques couramment utilisées pour évaluer les performances d’un modèle de classification La précision : C’est le nombre de documents correctement attribués la classe i sur le nombre de documents attribués la classe i Le rappel : C’est le nombre de documents correctement attribués la classe i sur le nombre de documents appartenant la classe i Multi-classes : Dans le cadre multi-classes (où le nombre n de classes de données est supérieur 1), les moyennes globales de la précision et du rappel sur l’ensemble des classes i peuvent être évaluées par la macro-moyenne qui calcule d’abord la précision et le rappel sur chaque classe i suivie d’un calcul de la moyenne des précisions et des rappels sur les n classes n pr éci si on = i =1 pr éci si on i n (4.1) n r appel = i =1 r appel i n Le mAP (mean Average Precision) : Est la mesure appliquée pour évaluer la performance de nos algorithmes C’est une métrique populaire pour mesurer la précision de https ://fr.wikipedia.org/wiki/Pr%C3%A9cisione t r appel 37 CHAPITRE EXPÉRIMENTATIONS & RÉSULTATS détecteurs d’objets comme Faster R-CNN, SSD, YOLO etc La mAP calcule la valeur de précision moyenne pour la valeur de rappel sur Q M AP = q=1 AveP (q) Q où Q est le nombre de requêtes dans l’ensemble et AveP(q) est la précision moyenne (AP) pour une requête donnée, q Ainsi, pour une requête donnée, q, on calculons son AP correspondant, puis la moyenne de tous ces scores AP nous donnerait un nombre unique, appelé mAP, qui quantifie la qualité de notre modèle pour effectuer une requête https ://en.wikipedia.org/wiki/Evaluationm easur es ( i n f or mat i on r et r i ev al ) 38 CHAPITRE EXPÉRIMENTATIONS & RÉSULTATS 4.2 Résultats 4.2.1 Résultats graphiques de l’apprentissage Après la formation de nos modèles (SSD et Faster-RCNN), nous montrons ci-dessous les graphes de perte et de précision qui montrent la progression du résultat de la formation F IGURE 4.2 – Graphe de précision et de perte global du modèle SSD F IGURE 4.3 – Graphe de précision et de perte global du modèle Faster-RCNN A l’étape 50 000, nous constatons que la précision (mAP) du modèle SSD (Fig : 4.2) est 72% et la perte globale 28% ce qui n’est pas très suffisant Mais la performance du modèle SSD dépend généralement de la taille des objets a détectés Mais par contre notre modèle Faster-RCNN (Fig : 4.3) donne des résultats très satisfaisants avec une précision (mAP) de 95% et une perte globale de 5% 39 CHAPITRE EXPÉRIMENTATIONS & RÉSULTATS 4.2.2 Résultats comparatifs sur les nouvelles données Les nouvelles données de test provient des techniciens de l’entreprise Ils ont collecté 700 images au total, dont 100 images MOV et 600 images BNS F IGURE 4.4 – Résultats comparatifs entre le Faster-RCNN et le SSD Nous pouvons constater dans la (Fig : 4.4) que le modèle SSD n’arrive pas détecter les composants MOV défectueux et les noms de station de base (BNS) sur toutes les nouvelles images Mais par contre, notre modèle Faster-RCNN parvient les détectés correctement, mais avec une vitesse sensiblement plus lente Pour réaliser une comparaison entre nos deux modèles de détection, nous regroupons tous les résultats obtenus dans le tableau ci-dessous (voir Table 4.1) TABLE 4.1 – Tableau comparatif des résultats Modèles SSD Faster-RCNN Images de test 700 700 Images bien détectées 401 663 40 Images mal détectées 299 37 Temps de test 0,2 s/img 0,9 s/img Précision 57% 94% CHAPITRE EXPÉRIMENTATIONS & RÉSULTATS 4.2.2.1 Analyses des résultats : D’après les résultats obtenus, nous constations que le modèle SSD ne donne pas de bon résultat sur les nouvelles données, mais après vérification des images mal détectées par le modèle, nous constatons que la quasi-totalité des objets dans ces images sont de très petites tailles et généralement, le modèle SSD ne donne pas de grande précision avec les objets de petite taille d’où la précision de 57% Mais par contre, notre modèle Faster-RCNN donne de très bon résultats avec 94% de précision sur les données de test Après vérification des images mal détectées par le Faster-RCNN, on constate qu’elles sont généralement de très mauvaise qualité Certaines ne contiennent même pas les objets détectés et dans d’autres les objets détecter (MOV et BNS) ne sont pas visibles car l’image est trop floue Ainsi, par comparaison, nous pouvons déduire que le modèle Faster-RCNN dépasse largement le modèle SSD en terme de précision mais par contre plus lent 4.2.2.2 Quelques résultats du modèle Faster-RCNN F IGURE 4.5 – Image entrée gauche et sortie droite 41 CHAPITRE EXPÉRIMENTATIONS & RÉSULTATS F IGURE 4.6 – Image entrée gauche et sortie droite Nous pouvons constater dans les figures ci-dessus (Fig : 4.5 et Fig : 4.6) que le modèle a pu détecter tous les composants MOV anormaux Dans la figure (Fig : 4.6), malgré l’orientation de l’image 90°, le modèle est parvenu quand-même détecter l’ensemble des objets MOV anormaux dans l’image avec un score de 99% F IGURE 4.7 – Image entrée gauche et sortie droite 42 CHAPITRE EXPÉRIMENTATIONS & RÉSULTATS F IGURE 4.8 – Image entrée gauche et sortie droite Nous pouvons également constater dans les figures ci-dessus (Fig : 4.7 et Fig : 4.8) que notre modèle Faster-RCNN a pu détecter l’étiquette de nom des stations de base (BNS) Dans la deuxième figure (Fig : 4.7), malgré la distance de la caméra, l’orientation de l’image et la présence de l’ombre sur une partie de l’étiquette BNS, elle a été bien détecter quand-même par le modèle avec également un score de 93% 4.3 Problèmes rencontrés Durant cette période stage, nous avions rencontré deux problèmes : — L’acquisition des données, la base les techniciens avaient collecté des images inutilisables pour former un modèle car les objets détecter étaient quasiment invisible dans environ 80% des images collectés Donc, il nous a fallu reprendre la collecte ce qui nous pris assez de temps ; — Le manque de ressources matérielles, le serveur disponible pour l’apprentissage n’avait pas de GPU en plus il était tout temps utilisé par d’autres équipes donc, il était difficile pour nous d’effectuer plusieurs tests d’apprentissage 43 Chapitre Conclusion & Perspectives 5.1 Conclusion générale Au cours de notre stage, nous avons travaillé sur un projet de Viettel Network qui est une Société Vietnamienne de type publique évoluant dans le domaine de la technologie en générale et la télécommunication en particulier Nous tenons préciser que ce projet fait partie de l’un des projets réels de l’entreprise, son but principal est d’assister les techniciens sur le terrain lors des différentes opérations de maintenance Notre travail a consisté mettre en place un modèle de détection d’objets spécialisé pour identifier les composants MOV anormaux et les étiquettes de Nom de Station Base (BNS) dans les images Pour ce faire, après l’étude théorique du sujet, nous avons subdivisé la partie pratique du travail en différentes étapes et ces étapes ont étés traitées selon leurs interdépendances Dans la partie théorique, nous avons d’abord abordé les notions d’images, détaillé et illustré les différentes techniques de détection d’objets basés sur les réseaux de neurones par une étude critique de quelques articles lu dans la littérature Ensuite, nous avons effectué une étude comparative des modèles de détection de l’état de l’art Suite cette étude théorique, nous avons proposé une solution adéquate pouvant nous permettre d’implémenter chaque étape de notre projet Dans la partie pratique, nous avons implémenté la solution proposée pour la réalisation du projet Cette solution allant de la préparation du jeu de données l’implémentation des modèles (Faster-RCNN et SSD) en passant par l’apprentissage, l’évaluation et le test sur les nouvelles données Les résultats présentés dans l’avant dernier chapitre nous montrent l’immensité et l’efficacité de notre contribution dans ce projet C’est pourquoi nous affirmons que nous avons largement atteint les objectifs fixés Toutefois ce travail nous a permis de mûrir nos compétences dans le domaine de la recherche en général et du domaine étudié 44 CHAPITRE CONCLUSION & PERSPECTIVES 5.2 Perspectives A propos des suites ce travail, nous avons principalement trois points en perspectives Nous signalons que nous avons atteint les objectifs de ce projet qui consistaient mettre en place un modèle de détection d’objets personnalisé, fonctionnel Il a subi plusieurs tests avant d’être validé l’unanimité par l’ensemble des membres de l’équipe BPMS-Computer Vision Le premier point, est qu’en faisant une étude plus poussée au niveau du modèle de base (inception) c’est-à-dire en le rendant plus profond ou en combinant deux modèles de base (inception + resnet par exemple) pour en constituer un seul extracteur des caractéristiques, on pourra obtenir avec le modèle Faster R-CNN des résultats plus acceptables Mais cela va nécessiter un GPU très puissant pour l’entrnement Le second point, serai de transformer notre modèle en un API cela va nous permettre de l’adapter dans d’autres problèmes de détection d’objets par exemple la détection des humains, des voitures, etc Il suffira juste de préparer l’ensemble de données sur lequel ré-entrner le modèle Le troisième et dernier point, serai de convertir ce modèle en le rendant moins lourd et l’adapter afin qu’il puisse être déployé sur les appareils mobiles 45 Bibliographie [1] Y Jia, E Shelhamer, J Donahue, S Karayev, J Long, R Girshick, S Guadarrama, and T Darrell, “Caffe : Convolutional architecture for fast feature embedding,” in Proceedings of the 22nd ACM international conference on Multimedia, pp 675– 678, 2014 [2] A Krizhevsky, I Sutskever, and G E Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in neural information processing systems, pp 1097–1105, 2012 [3] Z Yang and R Nevatia, “A multi-scale cascade fully convolutional network face detector,” in 2016 23rd International Conference on Pattern Recognition (ICPR), pp 633–638, IEEE, 2016 [4] C Chen, A Seff, A Kornhauser, and J Xiao, “Deepdriving : Learning affordance for direct perception in autonomous driving,” in Proceedings of the IEEE International Conference on Computer Vision, pp 2722–2730, 2015 [5] X Chen, H Ma, J Wan, B Li, and T Xia, “Multi-view 3d object detection network for autonomous driving,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 1907–1915, 2017 [6] R Girshick, J Donahue, T Darrell, and J Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 580–587, 2014 [7] R Girshick, “Fast r-cnn,” in Proceedings of the IEEE international conference on computer vision, pp 1440–1448, 2015 [8] S Ren, K He, R Girshick, and J Sun, “Faster r-cnn : Towards real-time object detection with region proposal networks,” in Advances in neural information processing systems, pp 91–99, 2015 [9] Z.-Q Zhao, P Zheng, S.-t Xu, and X Wu, “Object detection with deep learning : A review,” IEEE transactions on neural networks and learning systems, vol 30, no 11, pp 3212–3232, 2019 [10] H Naciri and N Chaoui, “Conception et réalisation d’un système automatique d’identification des empreintes digitales,” Mémoire de PFE, Université de Tlemcen, 2003 46 BIBLIOGRAPHIE [11] F Hadjila and R Bouabdellah, “Reconnaissance des visages par les réseaux de neurones,” Mémoire de PFE, Université de Tlemcen, 2003 [12] R C Gonzalez and R E Woods, “Digital image processing (preview),” 2002 [13] K Simonyan and A Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv preprint arXiv :1409.1556, 2014 [14] K He, X Zhang, S Ren, and J Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 770–778, 2016 [15] W Liu, D Anguelov, D Erhan, C Szegedy, S Reed, C.-Y Fu, and A C Berg, “Ssd : Single shot multibox detector,” in European conference on computer vision, pp 21– 37, Springer, 2016 [16] J Redmon, S Divvala, R Girshick, and A Farhadi, “You only look once : Unified, real-time object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 779–788, 2016 47 ... INTERNATIONAL Thierno Mamoudou BARRY Research and build model for detecting anomaly images, apply for business of lacking board station name and anomalies MOV alarm of base station Nghiên cứu xây dựng... personalized object detection model especially for the detection of MOV alarm components anomalies and BSN plates (Base Station Name) based on the new architectures of the CNN convolutional neural networks... (Base Name Station en anglais) sont des plaques de nom des stations de base De couleur rouge, elles sont accrochées l’entrée de chaque station F IGURE 1.2 – Plaque BSN gauche et Composants MOV

Ngày đăng: 01/04/2021, 15:55

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN