Classification de station de base pour viettel network

UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL ROC NAïL CLASSIFICATION DE STATION DE BASE POUR VIETTEL NETWORK Phân loại tự động trạm phát mạng truyền thông Viettel MÉMOIRE DE FIN D’ÉTUDES DE MASTER INFORMATIQUE HANOI – 2020 UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL ROC NAïL CLASSIFICATION DE STATION DE BASE POUR VIETTEL NETWORK Phân loại tự động trạm phát mạng truyền thông Viettel Spécialité : Systèmes Intelligents et Multimédia Code : Programme pilote MÉMOIRE DE FIN D’ÉTUDES DE MASTER INFORMATIQUE Sous la direction de: - Lưu Đức Phong, Trưởng Phòng Số hóa Doanh nghiệp – Trung tâm Phát triển Phần mềm VTNet, Thạc sỹ CNTT - Đại học Bách Khoa Hà Nội - Nguyễn Hồng Quang HANOI – 20 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Các thơng tin trích dẫn Luận văn rõ nguồn gốc Signature de l’étudiant ROC NAïL Remerciements Ce travail est l’aboutissement d’un dur labeur et de beaucoup de sacrifices; nos remerciements vont d’abord au Créateur de l’univers qui m’a doté d’intelligence, et m’a maintenu en santé pour mener bien ces deux années d’étude Nos remerciements vont aussi l’encontre de mon directeur d’études Mr Ho Tuong Vinh et l’un de mes deux encadrants, Nguyễn Hồng Quang, qui malgré leur temps difficile m’ont aidé travers leurs remarques pertinentes Je tiens également remercier l’administration de l’institut Francophone International et toutes les équipes de l’Université Nationale du Vietnam pour leur professionnalisme et leur disponibilité tout au long de ces deux ans de scolarité Je souhaite remercier tous les professionnels et amis travaillant dans le secteur de l’Intelligence Artificielle interrogés dans le cadre de cette étude, qui ont bien voulu répondre mes différentes questions sur le domaine dans le but de permettre la facilité de l’élaboration de ce travail Je ne peux passer outre ma reconnaissance envers ma conjointe, mes parents, ma courageuse mer, mon oncle et mes frères Leur présence, leur écoute, leur confiance en moi et leur soutien constant m’assurent des bases solides me permettant de persévérer et de me surpasser Enfin, À mes camarades de la promotion 22, spécialement mes frères Haïtiens que j’ai servis avec humilité et avec lesquelles j’ai passé une scolarité exceptionnelle, riche d’enseignements, et d’expériences de rencontres, je veux ici dire ma sincère amitié Merci beaucoup i Résumé Le travail présenté travers ce document met en évidence d’abord l’amélioration d’un modèle de classification pour porter des solutions adéquates aux différents problèmes que fait face la compagnie de Viettel en faisant des recherches sur les différentes stratégies pour y arriver Ensuite, le développement et la suggestion d’une preuve de concept utilisant le Deep Learning appliquée la télécommunication s’inscrivant dans le cadre du projet « Classification des station de Base pour Viettel Network » de VTNET un centre d’innovation technologique au sein de l’entreprise Viettel de Hanoi, Vietnam Je présente d’abord une étude de l’état de l’art de la Télécommunication en général, notamment celles qui sont les plus répandues et les plus utilisées aujourd’hui : les stations de base BTS Ensuite, je presente un état de l’art des projets pertinents existants sur le Deep Learning, plus précisément les modèles de classification ainsi que les approches et techniques adoptées pour les réaliser Mes recherches sur la classification, les différents modèles existants et des différents travaux ciblés m’ont donné la grande opportunité de fournir une meilleure alternative pour le développement de la preuve de concept du projet de VTNET À l’issue de cette étude, j’ai opté bien sûr pour le développement et l’amélioration de modèle de classification multi classe Inception V3 Le choix d’Inception V3 est justifié par le fait qu’il a été entrainé en utilisant la base de données ImageNet qui contient plus des millions d’images et formant 1000 catégories De plus le modèle offre un taux d’erreur très bas, ce qui joue aussi sur sa grande efficacité En effet, j’ai entrainé mon modèle avec les données de la compagnie et après de nombreuses expérimentations de ma preuve de concept, j’ai obtenu des résultats extraordinaires confirmant l’efficacité du modèle de classification d’images choisie et garantissant aussi une solution la problématique du sujet d’étude : réduction du temps d’entrainement, augmentation de précision, efficacité de manière être déployé immédiatement en temps réel afin d’aider les agents de terrain et d’avoir une meilleure base de données pour les diagnostics visant l’épanouissement de la compagnie ii Abstract The work presented in this document highlights first of all the improvement of a classification model to provide adequate solutions to the different problems faced by Viettel's company by researching different strategies to achieve this Secondly, the development and suggestion of a proof of concept using Deep Learning applied to telecommunications within the development of the project "Base Station Classification for Viettel Network" of VTNET, a technological innovation center within the Viettel Company in Hanoi, Vietnam I will first present a study of the state of art of Telecommunications in general, especially those that are the most widespread and most used today: BTS base stations Then, I present a state of art of existing relevant projects on Deep Learning, more precisely the classification models as well as the approaches and techniques adopted to achieve them My research on classification, the different existing models and various targeted works have given me the great opportunity to provide a better alternative for the development of the proof of concept of the VTNET project At the end of this study, I opted of course for the development and improvement of the Inception V3 multi-class classification model The choice of Inception V3 is justified by the fact that it was trained using the ImageNet database which contains more than millions of images and forms 1000 categories In addition, the model offers a very low error rate, which also plays on its high efficiency In fact, I trained my model with the company's data and after numerous proof-ofconcept experiments, I obtained extraordinary results confirming the efficiency of the chosen image classification model and also guaranteeing a solution to the problem of the study subject: reduction of training time, increase in accuracy, efficiency so that it can be deployed immediately in real time to help field agents and have a better database for diagnostics aimed at the company's development iii Table des matières Chapitre 1.1 Contexte et cadre d’étude 1.2 Présentation de Viettel 1.2.1 Missions de Viettel 1.2.2 Stratégies 1.2.3 Valeurs 1.3 Présentation de VTNet 1.4 Problématique 1.5 Objectif du stage 1.5.1 Méthodologie et contributions 1.5.2 Structure du mémoire 10 1.6 Conclusion 10 Chapitre 11 2.1 Introduction 11 2.2 La télécommunication et les Stations de base 11 2.2.1 Les différents types de BTS 12 2.2.2 Composition et rôles des éléments d’une BTS 13 2.2.3 Les entités de Télécommunication de ma base de données 21 2.3 La classification des images 35 2.4 Les objectifs et domaine d’études de la classification d’images 37 2.5 Méthode de classification et classifieurs 38 2.5.1 Les arbres de décision 38 2.5.2 Les SVMs (Support Vector Machines) 39 2.5.3 Les réseaux de neurones 40 2.6 Les travaux existants et quelques modèles de classification d’images 42 2.6.1 Le modèle VGG-16 et son architecture 42 2.6.2 Le modèle Inception V3 43 2.7 Conclusion 45 Chapitre 46 3.1 Introduction 46 iv 3.2 Conception de ma solution 46 3.2.1 Création d’une application pour l’acquisition des données 47 3.2.2 Nettoyage et présentation des données 48 3.2.3 Regroupement logiques des données et formation de sous classes 48 3.2.4 La phase d’entrainement d’Inception V3 54 3.3 Implémentation 57 3.3.1 Environnement matériels 57 3.3.2 Environnement logiciels 58 3.3.3 Langage de programmation et outils utilisés 58 3.4 Conclusion 58 Chapitre 59 4.1 Les résultats de l’apprentissage 60 Chapitre 66 5.1 Perspectives 66 v Table des figures Figure 1-1: Image floue prise par les agents de terrain Figure 1-2: Image trop éloignée Figure 1-3: Prise partielle d’une image Figure 1-4: Erreur dans le regroupement des images .8 Figure 2-1: Les antennes 14 Figure 2-2:Azimut avec angle négatif 15 Figure 2-3: Azimut avec angle positif 15 Figure 2-4: Site GSM mono sectorisé avec des antennes omni directionnelles 16 Figure 2-5: Plan d’un site bi sectorisé 17 Figure 2-6: Site bi sectorisé avec quatre antennes directionnelles 17 Figure 2-7: - Plan d’un site tri sectorisé 18 Figure 2-8: - Site tri sectorisé avec trois antennes directionnelles 18 Figure 2-9: Autre plan d’un site tri sectorisé 19 Figure 2-10: Site tri sectorisé avec six antennes panneaux directionnelles 19 Figure 2-11: Les câbles coaxiaux ou Feeders 20 Figure 2-12: Containers toitures plats 21 Figure 2-13: Containers toitures en deux plans 22 Figure 2-14: New House toiture en deux plans 23 Figure 2-15: New House toitures plats 23 Figure 2-16: New House fondation élevé 24 Figure 2-17: New House deux portes 24 Figure 2-18: Pylône haubané sur le toit d’une maison 25 Figure 2-19: Un autre pylône haubané sur un toit 26 Figure 2-20: Pylône Haubané en milieu rural 26 Figure 2-21: Pylône monopole 27 Figure 2-22: Pylône camouflage 28 Figure 2-23: Pylône palmier 29 Figure 2-24: Pylône en treillis de forme rectangulaire 30 Figure 2-25: Pylône en treillis de forme triangulaire 31 Figure 2-26: Pylône haubané fondation carrée élevé 32 Figure 2-27: Pylône haubané fondation légèrement au-dessus du sol 32 Figure 2-28: Racine d’un pylône monopole 33 Figure 2-29: Racine élevé d’un pylône palmier 33 Figure 2-30: Hauban et tendeur dans un espace élevé 34 Figure 2-31: Hauban et tendeur sur un le toit d’une maison 34 Figure 2-32: Fondation du hauban enfuie sous la terre 35 Figure 2-33: Tendeurs accroché une fondation élevée 35 Figure 2-34: Arbre de décision pour la météo 39 Figure 2-35: Séparation de données avec SVM 40 Figure 2-36: L’architecture d’un réseau de neurone 41 Figure 2-37: Fonctionnement d’un réseau de neurones convolutions 42 Figure 2-38: Architechture de VGG-16 43 vi Figure 2-39: l’architecture du modèle Inception V3 43 Figure 2-40: Déroulement d’une factorisation 44 Figure 3-1: Téléchargement des milliers d’images avec l’application créée 47 Figure 3-2: Mauvaise répartition des données après téléchargement 48 Figure 3-3: Sous-classe Pylône monopole 49 Figure 3-4: Sous-classe Pylône autoportant 49 Figure 3-5: Le Sous-classe Pylône haubané 50 Figure 3-6: Sous-classe des racines des pylônes monopoles 51 Figure 3-7: Sous-classe représentant la racine des Pylônes haubanés 51 Figure 3-8: Sous-Classe des haubans et tendeurs 52 Figure 3-9: Sous-classe des Containers 53 Figure 3-10: Sous-classe des New House 53 Figure 3-11: Création des bottlenecks 56 Figure 3-12: Déroulement et résultat de l’apprentissage l’étape 18360 56 Figure 4-1: Résultat du test final après la fin de l’entrainement 60 Figure 4-2: Image testée par le modèle 62 Figure 4-3: Score de l’image classifiée par le modèle 63 vii Dans le tableau ci-dessus, je mets les paramètres clés qui m’ont permis de faire la différence par rapport ceux de l’ancien modèle En effet, pour entrainer l’ancien modèle, mon prédécesseur avait réalisé l’apprentissage sur 4000 étapes qui est le paramètre par défaut pour Inception V3 Ensuite, il avait utilisé un taux d’apprentissage égal 0.001 ; pratiqué l’augmentation d’image en prenant 10% pour les paramètres de rotation, de zoom, d’éclairage et de l’échelle aléatoire Nombre d’étapes 20000 Taux d’apprentissage 0.01 Pourcentage du test 10 Pourcentage de la validation 10 Taille du lot d’apprentissage 100 Taille du lot de validation 100 Afficher les images mal classifiées Right Rotation gauche False Rotation droite False Échelle aléatoire éclairage aléatoire 0 Rotation aléatoire Zoom aléatoire Table 3-1 : Les paramètres clés du modèle Ensuite, le programme vérifie les exigences matérielles de la machine Si tout est correct, il vérifie mon jeu de données pour distinguer le nombre de labels pour repartir le jeu de données selon le pourcentage que j’ai fournis dans les paramètres Apres cette étape, le modèle commence créer les bottlenecks (cf FIGURE 3.1) et débute l’apprentissage jusqu’à ce qu’il attend le nombre d’étapes que j’avais fixé 55 Figure 3-11: Création des bottlenecks Sur l’image suivante, j’ai mis en évidence le déroulement d’un de nos entrainements qui se rapproche vers l’objectif visé avec le modèle d’Inception V3 En effet, atteignant l’étape 18360, la précision de de l’apprentissage pour ce lot de données est de 100 pour cent ; précision de la validation est de 90 pour cent avec un taux d’erreur de pour cent Le N ici représente le nombre d’image du lot Figure 3-12: Déroulement et résultat de l’apprentissage l’étape 18360 56 3.3 Implémentation Après avoir abordé les approches et les techniques retenues dans la section précédente, nous sommes arrivés la phase de l’implémentation de notre modèle Dans le cadre de la mise en œuvre de notre solution, nous avons utilisé différents types de ressources: Matérielles et logicielles En effet, ci-dessous nous exposons les différentes ressources qui nous ont permis de concrétiser notre projet Je parlerai aussi du langage utilisé 3.3.1.Environnement matériels Comme ressources matériels, j’ai eu ma disposition un ordinateur de marque LG qui possède les caractéristiques suivantes : Composants Caractéristiques Mémoire RAM GB Disque dur 500 MB Microprocesseur 2.3 GHz Carte Vidéo Table 3-2 : Tableau des composants de l’ordinateur LG Un server auquel je peux accéder distance ayant les caractéristiques suivantes Composants Caractéristiques Mémoire RAM 112 GB Disque dur TB Microprocesseur ? Carte Vidéo Table 3-3 : Tableau des composants du serveur 57 3.3.2.Environnement logiciels Windows 10, 64 bits est le système d’exploitation que j’ai utilisé durant tout le temps de ce travail au niveau de ma machine local et sur le serveur 3.3.3 Langage de programmation et outils utilisés Le langage de programmation que j’ai utilisé est Python 3.6 et 3.7 J’ai fait appel aussi au langage de la gestion de données SQL Certains outils étaient nécessaires pour la réalisions de ce travail tels que :  Anaconda 2019 qui m’a permis de créer nos environnements de travail  Tensorflow 1.14  Remote Desktop 3.4 Conclusion Dans ce chapitre, j’ai étayé la phase de conception de ma solution Ensuite, j’ai expliqué le déroulement de l’entrainement du modèle Inception V3 et j’ai aussi mis l’accent sur mon environnement de travail et les outils utilisés qui m’ont permis de réalisé ce travail Dans le chapitre suivant, je vais parler des tests effectués sur le modèle pendant et après la phase d’apprentissage Et je vais analyser et interpréter les différents résultats obtenus 58 Chapitre Tests et résultats obtenus Ce chapitre de mon mémoire a pour but d’illustrer et expliquer quelques expérimentations réalisées avec mon modèle et aussi les résultats obtenus Comme je l’ai précisé dans le chapitre précèdent, j’ai entrainé mon modèle avec sept diffèrent types d’images labellisées de Pour bien comprendre leur nom, j’ai fait un « mapping » qui fait correspondre le nom de chaque classe au numéro qui la représente Le tableau ci-dessous (cf TABLE 4.1) contient le mapping en Vietnamien des classes Pour bien comprendre, je vais ici donner une interprétation en Franỗais des classes : MatTruocNhaTramContainer MatTruocNhaTramNewHouse MongCoFoot Les containers Les New house Les Haubans et teneurs des pylônes Haubanés MongCotDayCoRoot1 MongCotTuDungRoot2 ThanCotTuDungRole2 ThanCotDayCoRole1 Les fondations des pylônes Haubanés La fondation des pylônes monopoles Les pylônes monopoles Les pylônes haubanés Table 4-1 : Mappings des noms vietnamirns et francais id Name MatTruocNhaTramContainer MatTruocNhaTramNewHouse MongCoFoot MongCotDayCoRoot1 MongCotTuDungRoot2 ThanCotTuDungRole2 ThanCotDayCoRole1 Table 4-2 : Mapping ou emplacemcement des noms par des chiffres 59 4.1 Les résultats de l’apprentissage On a pris pour chaque label 800 images et ont a encore élevé ce nombre en appliquant l’augmentation des images Apres les 20000 étapes, j’ai obtenu un taux d’erreur de seulement 2% et la précision du test final est de 98% comme on peut le voir sur l’image suivante Figure 4-1: Résultat du test final après la fin de l’entrainement Le modèle prend presque trois jours pour l’entrainement C’est plutôt juste parce que le server n’avais plus de GPU En effet, le GPU est l’un des éléments clé dans l’accélération de l’apprentissage en profondeur Sans le GPU, tout le travail était effectué par le CPU Pendant ce temps, le modèle créé et enregistré a été livré et déployé en temps réel par l’équipe de Vsmart Service Ils ont même reporté qu’après les tests que j’ai réalisés avec eux sur plus de 10000 images, le modèle a été testé sur les images réels et a donné des performances énormes avec une précision nettement supérieure (>85%) celle qu’ils voulaient atteindre (85%) Ils ont même écrit que mon modèle entrainé et la faỗon de faire est nettement mieux que les travaux précédents de classification Cependant, j’ai continué chercher comment jouer sur les paramốtres de faỗon ce que je puisse entrainer le modèle dans un temps record Après des jours de recherches et de tâtonnement, j’ai remarqué qu’en mettant zéro tous les paramètres d’augmentation d’images au sein du script, le modèle s’entrainait nettement plus rapide mais la précision diminuait un petit peu 60 Alors, j’ai décidé d’appliquer les techniques d’augmentation de données avant même de les insérer dans le modèle Ce fut un véritable succès car je contrôle complètement tout ce que je veux faire Par exemple, les containers sont toujours de couleur blanche, donc je n’ai pas insérer le changement de couleur dans cette catégorie Les « New house » sont 90% de couleur bleu Donc, je peux faire varie la couleur bleue de faỗon toujours garder les dérivés de celle très proche de la couleur initiale Ensuite, j’applique aussi la réorientation de l’image, la translation avec un pourcentage plus élevée sur toutes les classes en choisissant les types d’images les moins répétés au sein de chaque lot A ce moment-là, lorsque j’ai lancé de nouveau mon script d’apprentissage, le modèle crée en premier et une seule fois les bottlenecks pour chaque image et ensuite réalisé l’apprentissage Cette fois, le modèle ne prend que moins de heures pour terminer l’apprentissage sur un jeu de données total de 33080 images Le tableau suivant montre la comparaison entre les deux Techniques Augmentation durant Augmentation avant training training train batch size 64 100 nombre d'images 14000 33080 final test accuracy 98 98 temps 2-3 jours

Định dạng
Số trang	81
Dung lượng	4,13 MB