Une approche particulière basée sur le modèle BILSTM

Một phần của tài liệu (Luận văn thạc sĩ) phân tích dữ liệu đa nguồn (mạng xã hội, báo chí, ) liên quan đến « tính di động và quá độ năng lượng (Trang 28 - 31)

L’analyse des sentiments est un objet d’étude intéressant pour les chercheurs en in- telligence artificielle, les linguistes informatiques, les chercheurs en sciences cognitives et les neurobiologistes. Comme indiqué précédemment, l’une des approches les plus efficaces pour l’analyse des sentiments est le traitement du langage naturel avec l’apprentissage automatique. Pour pouvoir résoudre les problèmes de classification et de régression, l’exi- gence fondamentale de l’utilisation de l’apprentissage automatique supervisé est la disponibilité des données.

Sur la base de cette approche,nous allons en particulier étudié l’apport de modèles d’attention. Ces modèles, très populaires, permettent dans le cas de données séquentielles comme le sont nos tweets, de fonder la décision du réseau sur la base de certains mots.

C’est-à-dire que le rộseau va ờtre entraợnộ à donner beaucoup de poids aux mots de l’entrộe pertinents pour prédire la classe attendue, et très peu de poids aux autres mots.

2.2. Une approche particulière basée sur le modèle BILSTM 19 En pratique, ces modèles d’attention sont implémentés sous la forme d’une couche de neurones supplémentaire avec une activation softmax et dont les poids sont ensuite mul- tipliés à la sortie de la couche BiLSTM . Nous avons deux branches avec la même archi- tecture (Embedding, Bi-LSTM, couche d’attention, et un neurone de sortie par branche).

Une branche apprend si le tweet est POSITIF ou non, et l’autre s’il est NEGATIF ou non.

La combinaison des deux sorties permet bien d’avoir les quatre classes possible (NEUTRE quand les deux branches renvoient 0, MIXPOSNEG quand les deux renvoient 1).

Le système que nous utilisons est celui mis en place par [Davide buscaldi et al Deft2018].

Ce système utilise les réseaux de neurones récurrents pour implanter un classifieur, plus spécifiquement les Bidirectional Long Short-Term Memory(BiLSTM) (Hochreiter Schmid- huber, 1997) qui sont largement utilisés en traitement automatique des langues. Selon les auteurs la classification se fait en trois temps :

1. Le texte est séparé aux espaces. Chaque segment est traité comme une séquence d’octets lue de gauche à droite et de droite à gauche par deux réseaux récurrents niveau caractère. Les vecteurs résultats des lectures sont additionnés et servent de représentation du segment, dite compositionnelle.

Pour une séquence de caractères s = c1...cm, on calcule pour chaque position hi = LST M o(hi1, e(ci)) et h0i = LST M o0(h0i+ 1, e(ci)) , ó e est la fonction de plon- gement des caractères vers les vecteurs denses, et LSTM est un raccourci pour une fonction implantant la cellule récurrente des LSTM. La représentation compositon- nelle du segment est c(s) = hm+h01

2. La séquence de segments est lue à nouveau de gauche à droite et de droite à gauche par de nouveaux réseaux récurrents niveau mot qui prennent en entrée pour chaque segment la représentation compositionnelle venant de l’étape précédente à laquelle on ajoute une représentation vectorielle du segment si celui-ci était présent plus de 10 fois dans le corpus d’entraợnement. Pour une sộquence de segments p = s1...sn, on calcule li =LST M m(li1, c(si) +e(si)), l0i =LST M m0(li+ 1, c(si) +e(si)), ó c est la représentation compositionnelle donnée ci-dessus et e la fonction de plon- gement que l’on ộtend aux segments vus dans l’ensemble d’entraợnement. Les ộtats finaux obtenues après lecture dans les deux directions sont sommés et servent de représentation de la phrase d’entrée, r(p) =ln+l01 .

3. La représentation obtenue sert d’entrée à un perceptron multi-niveaux qui effectue la classification finale, aussi bien que pour la classification de polarité :o(p) = σ(O× max(0,(W×r(p)+b)))ó σ est l0oprateur sof tmax, W, O des matrices et b unvecteur.

On interprète la sortie comme une distribution de probabilité sur les classes de tweets . Cette interprétation probabiliste nous permet de réduire l’apprentissage des paramètres du système (ie. les plongements de caractères et de segments fréquents, O, W, b, ainsi que les paramètres des 4 cellules LSTM) à la maximisation de la vraisemblance du corpus d’en- traợnement. On utilise l’algorithme AMSgrad [Reddi et al., 2018] pour calculer la taille du

pas lors de la descente de gradient. Pour éviter le sur-apprentissage, nous procédons aux deux ajustements suivants :

– On ộcarte alộatoirement du corpus d’entraợnement 10% des phrases qui sont utilisộes comme ensemble de validation, ce qui permet de décider quand les paramètres sont toujours utiles sur des données inconnues.

– On utilise la technique du dropout [Srivastava et al., 2014], sur tous les vecteurs à chaque étage du réseau

L’approche que nous avons adoptée pour la classification d’opinion de tweets est ca- ractérisée par une utilisation mixte d’une technologie symbolique fondée sur des règles et d’une technologie statistique reposant sur l’extraction de caractère, approche dans laquelle la méthode symbolique a un poids plus important (D. Buscaldi et al. 2018), La technologie symbolique fait d’abord une analyse du texte phrase par phrase et en extrait ensuite les relations qui véhiculent des sentiments.

Nous allons présenter dans les prochains chapitres le processus que nous avons suivi pour développer notre approche de la collecte de tweets (chapitre 3), suivie du choix de la méthode de classification (chapitre 4) et enfin d’une étape de visualisation de résultats (chapitre 5)

Chapitre 3

Collecte de Données et Pré-traitement

Một phần của tài liệu (Luận văn thạc sĩ) phân tích dữ liệu đa nguồn (mạng xã hội, báo chí, ) liên quan đến « tính di động và quá độ năng lượng (Trang 28 - 31)

Tải bản đầy đủ (PDF)

(62 trang)