Les diverses approches d’analyse de sentiment

Một phần của tài liệu (Luận văn thạc sĩ) phân tích dữ liệu đa nguồn (mạng xã hội, báo chí, ) liên quan đến « tính di động và quá độ năng lượng (Trang 22 - 28)

L’analyse des opinions n’est pas récente, elle a été étudiée depuis les années 90. Ce- pendant, dans des années 2000, l’analyse de sentiment suscité l’intérêt des scientifiques en raison de son importance dans différents domaines scientifiques.[Lui, B. et al. 2012]. De plus, la grande disponibilité des données textuelles pousse la recherche dans ce domaine sur de nouveaux développements.

Selon Bing Liu dans [Lui, B. 2012] : l’analyse des sentiments est une zone de développe- ment qui suscite l’intérêt de l’homme et en particulier des organisations parce que l’analyse des sentiments peut être utilisée pour le processus de prise de décision. Les individus ne sont plus limités à demander des opinions d’amis sur le produit ou un service, ils peuvent trouver librement l’information sur Internet. De plus, les organisations peuvent gagner du temps et de l’argent en évitant de mener des enquêtes, ils peuvent se concentrer sur le traitement des opinions qui peuvent être obtenues à partir du Web. Néanmoins, il est im- portant de noter que les sources qui contiennent des données textuelles sont bruyantes, il est parfois important d’extraire le sens essentiel de l’information utilisée. L’analyse des sen- timents utilise des techniques et des approches différentes pour traiter cette tâche difficile [Lui, B. 2012].

12

2.1. Les diverses approches d’analyse de sentiment 13 L’analyse des sentiments peut être effectuée aux niveaux suivants :

• Au niveau du document [Turney, et al 2002]. A ce niveau, la tâche principale est de définir l’avis du document entier (Avis devrait être exprimé sur un seul sujet).

• au niveau de la phrase [Bütow, F et al 2007]. Ici, chaque phrase est considérée comme un court document qui peut être subjectif ou objectif. La phrase Subjective exprime le sentiment.

Les techniques de classification d’analyse de sentiment sont principalement divisées en apprentissage machine et approches basées sur le lexique [Medhat et al 2014] (voir FIGURE 2.1).

Figure2.1 – Approches d’analyse de sentiment

Décrivons les approches fondées sur la lexique et celles basées sur l’apprentissage de la machine.

2.1.1 Approche basée sur les lexiques

La première technique qui peut être utilisée pour l’analyse des sentiments est la méthode basée sur le lexique. Elle utilise un lexique qui se compose des termes avec des scores de sentiment respectifs à chaque terme. Le terme peut être associé avec un seul mot, une phrase ou expression [Chiavetta, F et al, 2016]. Le sentiment est défini en fonction de la présence ou de l’absence des termes dans le lexique. L’approche fondée sur le lexique comprend l’approche à base de corpus et l’approche basée sur un dictionnaire.

(A) Approche basée sur un dictionnaire

L’idée principale derrière l’approche basée sur un dictionnaire est d’utiliser des bases de données lexicales pour extraire le sentiment du document. Sur la base de [Lui, B. 2012], [Hailong, Z et al, 2014], un ensemble de sentiment de semences mots[ mots croisés et mots Fléchés] (par exemple, bon, mauvais) avec leur polarité sont collectées à la main.

Figure2.2 – Exemples d’une base de données lexicales

L’étape suivante consiste à utiliser les mots polaires pour enrichir un ensemble en re- cherchant des synonymes et antonymes respectifs dans une base de données lexicale.

Nous pouvons citer des exemples de dictionnaire de données : FEEL, a French Expanded Emotion Lexicon [Amine Abdaoui et al. 2016, pp 1-23.] ou encore Polarimots[Gala and

2.1. Les diverses approches d’analyse de sentiment 15 Brun, 2012], Propagation de polarités dans des familles de mots ou encore Diko[Lafourcade et al., 2015a, 2015b]. La procédure de consultation est itérative. A chaque itération de l’algorithme, la mise à jour prend un ensemble de mots et recherche encore tant qu’il y aura de nouveaux mots à inclure.

Par exemple, si le marketing était sur un appareil photo, les auteurs récupèrent des caractéristiques telles que la qualité d’image et la taille de l’appareil photo. Grâce a l’uti- lisation de ces caractéristiques, la classification a été faite sur des avis positif et négatif.

Pour attribuer une étiquette positive ou négative pour une phrase, d’abord, les chercheurs ont récupéré les mots polaires de chaque examen.

Par exemple la phrase donne les résultats suivants "je suis à l’ arrêt de bus je stresse de fou mais ỗa sert à rien de stresser putain"

Figure2.3 – Exemples de la polarité

Dans ce cas, les adjectifs ont été utilisés. La prédiction était basée sur la polarité d’un adjectif qui avait la même polarité que ses synonymes et opposée à la polarité de ses antonymes. La méthode qui a été décrite dans [Hu, et al 2004] a montré de bons résultats, la précision moyenne est constituée de 84%. Par conséquent, la méthode actuelle peut être efficace pour la prédiction de polarité de la phrase.

(B) Approche basée sur le corpus

Dans [Lui, B. 2012], Bing Liu indique qu’une approche basée sur un corpus peut être appliquée dans deux cas. Le premier cas est une identification de mots d’opinion et de leurs polarités dans le corpus de domaine en utilisant un ensemble donné de mots d’opinion. Le deuxième cas concerne la construction d’un nouveau lexique dans un domaine particulier à partir d’un autre lexique à l’aide d’un corpus de domaine. Les résultats suggèrent que même si les mots d’opinion dépendent du domaine, il peut arriver que le même mot ait une orientation opposée selon le contexte.

Nous avons testé cette approche sur notre jeu de données.

Les recherches menées par [Hatzivassiloglou, et al, 1997] occupent une place importante dans la littérature sur les techniques à base de corpus. Les auteurs ont proposé une méthode qui extrait l’orientation sémantique d’adjectifs conjoints du corpus. La technique est basée sur l’utilisation de corpus textuels et de mots d’opinion initiaux (adjectifs). Des règles linguistiques spéciales sont appliquées aux corpus afin de détecter les mots d’opinion avec les polarités correspondantes. Les auteurs supposent que les adjectifs ont la même polarité s’ils sont joints par la conjonction ôetằ.

Cependant, la conjonction ômaisằ est utilisộe pour relier des adjectifs de polaritộs opposộes. De plus, des conjonctions telles que ôouằ, ôsoit-ouằ, ôni l’un ni l’autreằ sont utilisées. Parfois, ces règles ne s’appliquent pas.

2.1.2 Approche apprentissage de la machine

La deuxième technique qui peut être utilisée pour l’analyse de sentiment est l’appren- tissage machine (machine learning) qui comprend des méthodes d’apprentissage machine supervisée et non supervisée.

(A) La méthode d’apprentissage machine non supervisée

Dans le cas de l’apprentissage non supervisé, l’apprentissage par la machine se fait de faỗon totalement autonome. Des donnộes sont alors communiquộes à la machine sans lui fournir les exemples de résultats attendus en sortie.

Si cette solution semble idéale sur le papier car elle ne nécessite pas de grands jeux de données étiquetés (dont les résultats attendus sont connus et communiqués à l’algorithme), il est important de comprendre que ces deux types d’apprentissages ne sont par nature pas adaptés aux mêmes types de situation.

L’apprentissage non supervisé est principalement utilisé en matière de clusterisation, procédé destiné à regrouper un ensemble d’éléments hétérogènes sous forme de sous groupes homogènes ou liés par des caractéristiques communes. La machine fait alors elle même les rapprochements en fonction de ces caractéristiques qu’elle est en mesure de repérer sans nécessiter d’intervention externe. De cette capacité à effectuer de la clusterisation découle également la possibilité de mettre au point un système de recommandation ( le système peut par exemple recommander un livre ou un film à un utilisateur en fonction des gỏts d’utilisateurs partageant des caractéristiques communes) ainsi que la possibilité de mettre au point un système de détection d’anomalies.

(B) La méthode d’apprentissage machine supervisée

Les méthodes d’apprentissage automatique supervisé supposent la présence de données d’apprentissage étiquetées qui sont utilisées pour le processus d’apprentissage. Nous nous

2.1. Les diverses approches d’analyse de sentiment 17 référons au cas ó le classificateur définit l’étiquette à laquelle l’objet appartient. En tant que jeu de données d’apprentissage, les documents étiquetés doivent être utilisés. Habituel- lement, le modèle de sac de mots [Tang et al, 2016] est utilisé pour représenter un document sous forme de vecteur de caractéristiques d=w1, w2...wi, .., wN , ó N est défini pour tous les termes uniques du jeu de données d’apprentissage et wi est le poids du ième terme.

Pour convertir un jeu de données d’apprentissage en un vecteur de caractéristiques, il faut créer un vocabulaire comportant N mots uniques à partir des données d’apprentissage. En outre, n’importe lequel des modèles de caractéristiques peut être utilisé pour construire un vecteur de caractéristiques.

Une fois que le jeu de données est représenté sous forme de vecteur, il peut être utilisé par le classificateur pour l’apprentissage et l’estimation des étiquettes. Différents types de méthodes peuvent être utilisés pour former le classificateur. Parlons de certains d’entre elles. La méthode la plus courante et la plus simple utilisée pour la classification du texte est Nạve Bayes [Tang et al, 2016], [Go, A et al, 2009], [Gautam, G et al, 2014], [Pang, B et al, 2002]. Le modèle est basé sur le théorème de Bayes en supposant que les entités sont indépendantes. Le classifieur Nạve Bayes définit la probabilité que le document ap- partienne à une classe particulière. Les avantages du classifieur Bayes sont les suivants : simplicité de mise en œuvre, processus d’apprentissage assez rapide, résultats assez bons également [Bütow, F et al], [Gautam, G et al, 2014], [Pang, B et al, 2002]. Cependant, l’hypothốse ônạveằ peut poser problốme car, dans le monde rộel, les fonctionnalitộs sont dộpendantes. Selon [Go, A et al, 2009] ôl’idộe des modốles Maximum Entropy est qu’il faut prộfộrer les modốles les plus uniformes qui satisfont une contrainte donnộeằ. La probabilitộ que le document appartienne à une classe particulière [Go, A et al, 2009], [Gautam, G et al, 2014] est estimée comme suit :

P(c/d, λ) = expP

iλifi(c, d)/c0expP

iλifi(c, d) Où cest la classe, d est le document à classer,

λ :estunepondrationduimeindicateurdeclassif ication.

Une autre approche de la classification est basée sur des règles. L’idée derrière la mé- thode est d’appliquer un ensemble de règles générées par des experts sur la base de l’analyse du domaine spécifique. Cette méthode peut donner de bons résultats lorsqu’on utilise un large éventail de règles. Cependant, la création de telles règles prend beaucoup de temps.

L’approche basée sur des règles a été utilisée par [Chikersal et al, 2015]. Ils ont proposé des règles qui dépendent de la présence d’émoticônes et de mots de sentiments dans les tweets.

En outre, les auteurs [chikersal, P. et al 2015] ont appliqué le classificateur SVM (Sup- port Vector Machine) (les émoticônes de classificateur SVM ont été supprimées de l’en- semble de données de d’apprentissage). Ils ont utilisé un noyau linéaire et une régularisation L1 dans toutes les expériences. Les auteurs ont utilisé diverses fonctionnalités telles que le mot n-grammes, les balises POS(Part of Speech), les ngrammes de caractères ainsi que différents lexiques : lexique Bing Liu, le lexique Sentiment140, SentiWordNet, etc. L’idée

de leur approche est de combiner deux méthodes afin d’améliorer la précision et le rappel.

En résumant les résultats, on peut en conclure qu’une approche basée sur des règles peut améliorer la prédiction faite avec le classifieur SVM.

Le classifieur SVM a également été utilisé dans [Go, A et al, 2009], [Gautam, G et al, 2014], [Pang, B et al, 2002]. La méthode suppose une division de l’espace en sous-espaces correspondant à des classes particulières. En termes de classification binaire, l’idée de la phase d’apprentissage consiste à découvrir un hyperplan qui sépare au mieux un jeu de données en deux classes avec la marge maximale. La marge est la distance entre l’hyperplan et le point de données le plus proche de l’ensemble défini par l’hyperplan. Ces points de données proches de l’hyperplan sont appelés des vecteurs de support. Ces derniers sont des éléments critiques, car leur suppression modifierait la position du séparateur [Manning, C.

et al, 2008].

Donc,l’approche SVM peut parfois surpasser des algorithmes tels que Nạve Bayes, Maximum Entropy [Pang, B et al, 2002]. Cependant, SVM ne convient pas aux grands ensembles de données en raison de la complexité temporelle de SVM. Une autre solution pour la classification du texte est l’utilisation de réseaux de neurones (NN) [Pang, B et al, 2002].

Le réseau neuronal artificiel suit les principes du réseau neuronal biologique. Il est supposé que le réseau de neurones peut résoudre les problèmes de la même manière que les humains. Le NN est un ensemble de neurones interconnectés. En général, NN a plusieurs couches.

Một phần của tài liệu (Luận văn thạc sĩ) phân tích dữ liệu đa nguồn (mạng xã hội, báo chí, ) liên quan đến « tính di động và quá độ năng lượng (Trang 22 - 28)

Tải bản đầy đủ (PDF)

(62 trang)