Analyse de données multi sources (réseaux sociaux, journaux, ) liées au thèmes « mobilité et transition énergétique »

1 _FEBUS _FEBUS INSTITUT FRANCOPHONE INTERNATIONAL,VNU-IFI Stage Master Informatique, LIUPPA – Equipe T2I Université de Pau et des Pays de l’Adour 2018-2019 Master : Systèmes Intelligents Multimédia - Promo 22 ANALYSE DE DONNÉES MULTI-SOURCES (RÉSEAUX SOCIAUX, JOURNAUX, )LIÉES AU THÈME « MOBILITÉ ET TRANSITION ÉNERGÉTIQUE» Présenter par : Hugues KANDA MADIMBA Encadrant(e) : Dr Marie-Noelle BESSAGNET Dr Christian SALLABERRY Edition Septembre 2019 Table des matières Introduction 1 Présentation de Structure d’accueil et Généralités sur le Twitter 1.1 LIUPPA le laboratoire de recherche en informatique de l’UPPA 1.1.1 Equipes de recherche Généralités 1.2.1 Twitter 1.2.2 Caractéristique d’un tweet 1.2.3 Analyse d’opinion Domaines d’applications de l’analyse des sentiments 1.3.1 La politique 1.3.2 Les entreprises 1.3.3 Les clients 1.3.4 Les collectivités locales Sources des Données 1.4.1 Sites d’avis 1.4.2 Blogs 1.4.3 Micro-blogs 1.5 Approches de la classification des sentiments 1.6 Contributions 10 1.6.1 11 1.2 1.3 1.4 Processus Gèneral État de l’art 2.1 12 Les diverses approches d’analyse de sentiment i 12 ii Table des matières 2.2 2.1.1 Approche basée sur les lexiques 14 2.1.2 Approche apprentissage de la machine 16 Une approche particulière basée sur le modèle BILSTM 18 Collecte de Données et Pré-traitement 3.1 3.2 Collecte de Données 21 21 3.1.1 Collecte 21 3.1.2 Corpus 24 Pré-traitement 25 Analyse des Sentiments : Cas Pratique 27 4.1 Lexique de sentiments 27 4.2 L’apprentissage machine 28 4.2.1 Description de l’approche 29 4.2.2 Données d’apprentissage et de test 30 4.2.3 Classification Tweet 30 Expérimentations et Résultats 5.1 5.2 5.3 Phase d’Apprentissage 31 5.1.1 Extraction et présentation des descripteurs 31 Expérimentation 32 5.2.1 Mesures d’évaluation 32 Phase de Test et Interprétation 33 5.3.1 33 Présentation des résultats et discussion 34 Visualisation 37 5.4.1 Pourcentage par rapport au nombre d’opinions (BHNS) 37 5.4.2 Pourcentage par rapport au nombre d’opinions (Funiculaire) 38 5.4.3 Pourcentage par rapport au nombre d’opinions (VELO) 38 5.4.4 Répartition en % de tweets d’opinion par catégorie 39 5.4.5 Répartition en fonction des polarités des opinions 40 5.4.6 Évaluation de la Répartition de tweets des opinions 40 5.3.2 5.4 31 Phase de Test et Présentation des résultats Table des matières iii 5.4.7 Représentation graphique par rapport au tweet avec opinions 41 5.4.8 Représentation de tweets des opinions sous forme d’une droite 41 5.4.9 Représentation graphique d’opinions(2017-2019) 42 5.4.10 Représentation graphique de polarités(2017-2019) 42 Une Application Web Pour le Workflow 44 5.5 5.5.1 Extraction des données 45 5.5.2 Résultat de la Prédiction de la Polarité 47 5.5.3 Résultat Graphique 48 Conclusion 49 Table des figures 1.1 scructure du laboratoire 1.2 Processus Gèneral 11 2.1 Approches d’analyse de sentiment 13 2.2 Exemples d’une base de données lexicales 14 2.3 Exemples de la polarité 15 3.1 Tweets BHNS_FEBUS 22 3.2 Tweets FUNICULAIRE 23 3.3 Tweets IDECYCLE 23 3.4 Tweets IDECYCLE 25 4.1 Exemples de données labélisées 28 4.2 Diagramme d’architecture du système proposé 29 5.1 Pourcentage par rapport au nombre d’opinions 37 5.2 Pourcentage par rapport au nombre d’opinion Funiculaire 38 5.3 Pourcentage par rapport au nombre d’opinion VELO 39 5.4 Répartition par rapport au tweet d’opinions par catégorie 39 5.5 Répartition par rapport la polarité des opinions 40 5.6 Répartition en % au tweet des opinions 40 5.7 Répartition cyclique en % au tweet des opinions 41 5.8 Représentation des classes 41 5.9 Représentation annuelle des opinions 42 5.10 Représentation de polarité en 2017 43 iv Table des figures v 5.11 Représentation de polarité en 2018 43 5.12 Représentation de polarité en 2019 44 5.13 Page d’accueil de notre application 45 5.14 Page d’extraction des données 46 5.15 Résultat d’extraction de données 46 5.16 Résultat d’extraction de données 47 5.17 Résultat graphique 48 Liste des sigles et acronymes LSTM Long Short-Term Memory BiLSTM Bidirectional Long Short-Term Memor NN Neural Network RNN Recurrent neural network vi 38 Chapitre Expérimentations et Résultats Il se dégage que la variable explicative contient les informations pertinentes groupées en quatre catégories : positif, négatif, neutre et mixposneg Le nombre d’opinions émises est majoritairement neutre avec 40,7% et minoritairement mixte avec 5,38% Les opinions positives ont un pourcentage 39,7% et les négatives 14.1% 5.4.2 Pourcentage par rapport au nombre d’opinions (Funiculaire) La figure 5.2 représente les informations pour la catégorie funiculaire dont 57,34% sont neutres, 29,37% sont positives, 8,39% sont négatives et 4, 89% sont mixtes Figure 5.2 – Pourcentage par rapport au nombre d’opinion Funiculaire 5.4.3 Pourcentage par rapport au nombre d’opinions (VELO) Dans cette figure 5.3, les opinions sont 44% positifs, 25% négatifs, 27% neutre et 4% mixte 5.4 Visualisation 39 Figure 5.3 – Pourcentage par rapport au nombre d’opinion VELO 5.4.4 Répartition en % de tweets d’opinion par catégorie Figure 5.4 – Répartition par rapport au tweet d’opinions par catégorie La figure 5.4 regroupe toutes les classes pour une représentation d’une manière générale en vue de détecter l’opinion majoritaire Nous constatons que les polarités neutre l’emportent dans la catégorie Funiculaire avec une polarité neutre de 57, 34% et la catégorie BHNS_FEBUS avec 40,74% Pour laecatégorie VELO_IDECYCLE, c’est l’opinion Positive (44%) qui l’emporte 40 5.4.5 Chapitre Expérimentations et Résultats Répartition en fonction des polarités des opinions Figure 5.5 – Répartition par rapport la polarité des opinions La figure 5.5 représente la répartition des opinions en groupe de polarisation On a les groupes positif, négatif, neutre, mixposneg en fonction des catégories Velo_idecycle, funiculaire et bhns_febus Dans le groupe de neutre, on a des opinions élevées dans la catégorie de bhns_febus 5.4.6 Évaluation de la Répartition de tweets des opinions Figure 5.6 – Répartition en % au tweet des opinions La figure 5.6 montre une liaison de différentes opinions envers leurs tweets Les opinions positives ont été sélectionnées pour en dégager une interprétation simpliste comme le montre la graphique telle que les tweet liés au vélo sont positif par rapport aux tweets liés au funiculaire 5.4 Visualisation 5.4.7 41 Représentation graphique par rapport au tweet avec opinions La figure 5.7 ci dessous illustre une répartition cyclique des opinions Les opinions sur la catégorie Velo sont majoritairement positives par rapport la catégorie funiculaire Figure 5.7 – Répartition cyclique en % au tweet des opinions 5.4.8 Représentation de tweets des opinions sous forme d’une droite Figure 5.8 – Représentation des classes La figure 5.8 représente les informations collectées de nos classes avec leurs polarités Pour un récapitulatif, le corpus est présenté ci dessous 42 Chapitre positive negatif neutre_mix POLARITE -1 BHNS_FEBUS 118 42 137 299 Expérimentations et Résultats FUNIC 42 12 89 143 VELO_IDECYC 44 25 31 102 Total 204 79 257 540 Table 5.12 – Corpus-Info 5.4.9 Représentation graphique d’opinions(2017-2019) La figure 5.9 représente les nombres de tweets émis durant la période de 2017 2019 avec leurs différentes tendances Figure 5.9 – Représentation annuelle des opinions 5.4.10 Représentation graphique de polarités(2017-2019) La figure 5.10 représente les nombres de tweets émis durant la période de 2017 avec les opinions dominantes représentés sous forme de polarités 5.4 Visualisation 43 Figure 5.10 – Représentation de polarité en 2017 Nous constatons que les opinions émises en 2017 vers le mois de septembre étaient majoritairement positives La figure 5.11 représente les polarités d’une seule classe bhns_febus durant la période de 2018 dont les opinions positives émises au mois de mars étaient supérieures aux opinions négatives Figure 5.11 – Représentation de polarité en 2018 44 Chapitre Expérimentations et Résultats La figure 5.12 représente les polarités durant la période de 2019 dont les opinions émises au mois de mars et avril étaient coincés au même niveau Figure 5.12 – Représentation de polarité en 2019 5.5 Une Application Web Pour le Workflow Après avoir terminé notre analyse, nous voulions créer une interface utilisateur permettant aux utilisateurs généraux d’extraire et d’analyser les données Nous avons donc choisi Flask comme outil pour créer l’interface utilisateur Le principal avantage de Flask est qu’il peut créer des applications Web qui peuvent interagir avec Python De nombreuses extensions fournies par la communauté facilitent l’ajout de nouvelles fonctionnalités 5.5 Une Application Web Pour le Workflow 45 Figure 5.13 – Page d’accueil de notre application Notre page d’accueil présente deux parties : la partie extraction et la partie test, graphique 5.5.1 Extraction des données La figure 5.14 illustre les information pour faire l’extraction de données sur Twitter Nous avons les mots clé accompagnés de la ville, suivi de la taille de données a extraire, de la date du début et de la date de la fin de processus 46 Chapitre Expérimentations et Résultats Figure 5.14 – Page d’extraction des données Convertissez ces données extraites en une structure de données, ce qui la rend plus lisible et plus facile utiliser Figure 5.15 – Résultat d’extraction de données 5.5 Une Application Web Pour le Workflow 5.5.2 47 Résultat de la Prédiction de la Polarité A l’entrée de la prediction on a un fichier CSV qui contient deux colonnes ID et le texte du TWEET, puis a la sortie on a l’ID suivie de la POLARITE Le resultat est illustré a la figure 5.16 Les resultats sont enregistrés au format CSV Figure 5.16 – Résultat d’extraction de données 48 Chapitre 5.5.3 Expérimentations et Résultats Résultat Graphique La figure 5.17 fournir les détails de la visualisation mis en oeuvre sur les tweets traités Nous avons mis en œuvre six groupes principaux de visualisation de données À des fins de visualisation, nous avons utilisé plusieurs paquets fournis par Python, tels que matplotlib, et wordcloud Cette tâche analytique est basée sur le calcul des tweets de l’agglomération de Pau Figure 5.17 – Résultat graphique Conclusion En guise de conclusion, l’étude des tweets est un axe fort de l’analyse des réseaux sociaux parce que Twitter est devenu un vecteur de communication important Cet exemple montre qu’il est aisé d’initier une première analyse partir de données extraites directement en ligne Lorsqu’il s’agit d’aller dans le détail, explorer en profondeur les informations que recèlent les messages, l’affaire est tout autre La phase de préparation des données prend une importance particulière De la rigueur dont nous faisons preuve dans cette étape dépendra la crédibilité des résultats que nous produirons Il sera donc nécessaire de mettre en place une méthode pour que ces termes apparaissent dans les motifs Enfin, dans le cas de la détection de polarité, nous avons obtenu des performances raisonnables bien que légèrement inférieures ceux de la littérature En adaptant les développeements de (D.Buscaldi et al,2018), reposant sur l’apprentissage automatique, nous avons obtenu des F-mesure au dessus de la moyenne globale pour chaque thématique Cela implique que le système est en réalité bon, car nous avons des résultats corrects Nous considérons très satisfaisants les résultats obtenus dans chacune de nos thématiques Les systèmes que nous avons présentés ont été implémentés par (D Buscaldi et al, 2018) Toutefois, l’un des faits les plus marquants de nos travaux est le faible impact des prétraitements sur ces résultats Au final, l’utilisation presque originale des tweets donne des résultats convaincants, sans trop d’effort Nous pensons par la suite étudier plus en détails ces résultats, commencer par l’analyse de l’impact des prétraitements 49 Bibliographie Amine Abdaoui, Mike Donald Tapi Nzali, et al ADVANSE : Analyse du sentiment, de l’opinion et de lộmotion sur des Tweets Franỗais 2015 22ốme Traitement Automatique des Langues Naturelles, Caen Aggarwal, C C., Zhai, C (2012) A survey of text classification algorithms In Mining text data (pp 163-222) Springer US Bütow, F., Schultze, F., Strauch, L Semantic Search : Sentiment Analysis with Machine Learning Algorithms on German News Britz, D (2015) Recurrent Neural Networks Tutorial, Part 1–Introduction to RNNs [WWW]http ://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1introduction-tornns/ Barbosa et J Feng Robust sentiment detection on Twitter from biased and noisy data Dans Proceedings of the 23rd International Conference on Computational Linguistics : Posters, pages 36–44 Association for Computational Linguistics, 2010 Chiavetta, F., Bosco, G L., Pilato, G (2016) A Lexicon-based Approach for Sentiment Classification of Amazon Books Reviews in Italian Language Chikersal, P., Poria, S., Cambria, E (2015, June) SeNTU : sentiment analysis of tweets by combining a rule-based classifier with supervised learning In Proceedings of the International Workshop on Semantic Evaluation, SemEval (pp 647-651) Dave, K., Lawrence, S., M Pennock, D (2003) Mining the peanut gallery : opinion extraction and semantic classification of product reviews In G Hencsey, B White, Y F Robin Chen, L Kovács, S Lawrence (Reds.), Proceedings of the 12th international conference on World Wide Web (pp 519-528) New York, New York : Association for Computing Machinery 50 Bibliographie 51 Davide Buscaldi, Joseph Le Roux, Gaël Lejeune Modèles en Caractères pour la Détection de Polarité dans les Tweets Atelier DEFT 2018, May 2018, Rennes, France ffhal-01988907 10 Gautam, G., Yadav, D (2014, August) Sentiment analysis of twitter data using machine learning approaches and semantic analysis In Contemporary computing (IC3), 2014 seventh international conference on (pp 437-442) IEEE 11 Hu, M., Liu, B (2004, August) Mining and summarizing customer reviews In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining (pp 168-177) ACM 12 Hatzivassiloglou, V., McKeown, K R (1997, July) Predicting the semantic orientation of adjectives In Proceedings of the eighth conference on European chapter of the Association for Computational Linguistics (pp 174-181) Association for Computational Linguistics 13 Hailong, Z., Wenyan, G., Bo, J (2014, September) Machine learning and lexicon based methods for sentiment classification : A survey In Web Information System and Application Conference (WISA), 2014 11th (pp 262-265) IEEE 14 Kim, Y (2014) Convolutional neural networks for sentence classification arXiv preprint arXiv :1408.5882 15 Kalchbrenner, N., Grefenstette, E., Blunsom, P (2014) A convolutional neural network for modelling sentences arXiv preprint arXiv :1404.2188 16 Liu, P., Qiu, X., Huang, X (2016) Recurrent neural network for text classification with multi-task learning arXiv preprint arXiv :1605.05101 17 Marta Severo et Robin Lamarche-Perrin L’analyse des opinions politiques sur Twitter Défis et opportunités d’une approche multi-échelle 2018 Dans Revue franỗaise de sociologie 2018/3 (Vol 59), pages 507 532 18 Nitika Nigam, Divakar Yadav Lexicon-Based Approach to Sentiment Analysis of Tweets Using R Language 2018 Second International Conference, ICACDS 2018, Dehradun, India, April 20-21, 2018, Revised Selected Papers, Part I 19 Salas-Zárate, M D P., Medina-Moreira, J., Lagos-Ortiz, K., Luna-Aveiga, H., RodríguezGarcía, M Á., Valencia-García, R (2017) Sentiment Analysis on Tweets about Diabetes : An Aspect-Level Approach Computational and mathematical methods in medicine, 2017 52 Bibliographie 20 Severyn, A., Moschitti, A (2015, August) Twitter sentiment analysis with deep convolutional neural networks In Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval (pp 959-962) ACM 21 Thierry Hamon et al Analyse des émotions, sentiments et opinions exprimés dans les tweets : présentation et résultats de l’édition 2015 du défi fouille de texte (DEFT) 2015 22ème Traitement Automatique des Langues Naturelles, Caen 22 Thakkar, H., Patel, D (2015) Approaches for sentiment analysis on twitter : A state-of-art study arXiv preprint arXiv :1512.01043 23 Tang, B., Kay, S., He, H (2016) Toward optimal feature selection in naive Bayes for text categorization IEEE Transactions on Knowledge and Data Engineering, 28(9), 2508-2521 22 Thierry Hamon, Amel Fraisse, Patrick Paroubek, Pierre Zweigenbaum, Cyril Grouin Analyse des émotions, sentiments et opinions exprimés dans les tweets : présentation et résultats de l’édition 2015 du défi fouille de texte (DEFT) Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN 2015), Jun 2015, Caen, France ffhal-01617180f 24 Patrick Paroubek, Cyril Grouin, Patrice Bellot, Vincent Claveau, Iris Eshkol-Taravella, et al DEFT2018 : recherche d’information et analyse de sentiments dans des tweets concernant les transports en Ỵle de France DEFT 2018 - 14ème atelier Défi Fouille de Texte, May 2018, Rennes, France pp.1-11 ffhal-01839407 25 Lire la suite sur : https ://www.actuia.com/vulgarisation/difference-entreapprentissage-supervise-apprentissage-non-supervise/ ... Université de Pau et des Pays de l’Adour 2018-2019 Master : Systèmes Intelligents Multimédia - Promo 22 ANALYSE DE DONNÉES MULTI- SOURCES (RÉSEAUX SOCIAUX, JOURNAUX, )LIÉES AU THÈME « MOBILITÉ ET TRANSITION. .. conjonction ? ?et? ? Cependant, la conjonction «mais» est utilisée pour relier des adjectifs de polarités opposées De plus, des conjonctions telles que «ou», «soit-ou», «ni l’un ni l’autre» sont utilisées... pour notre étude, savoir BHNS ( Bus Haut Niveau de Service), Funiculaire, Idecycle, et Vélo Nous avons réalisé des collectes de données pour thèmes de notre étude : Une collecte des tweets émis par

Định dạng
Số trang	62
Dung lượng	2,48 MB