Học sâu để phát hiện dị thường theo trình tự thời gian

UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL Mamadou Ben Hamidou CISSOKO Apprentissage profond pour la détection d’anomalies dans des séquences temporelles Học sâu để phát dị thường theo trình tự thời gian MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE HANOÏ - 2020 UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL Mamadou Ben Hamidou CISSOKO Apprentissage profond pour la détection d’anomalies dans des séquences temporelles Học sâu để phát dị thường theo trình tự thời gian Spécialité : Systèmes Intelligents et Multimédia Code : Programme pilote MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Sous la direction de : Pr.NICOLAS LACHICHE Responsable de l’ équipe SDC nicolas.lachiche@unistra.fr ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Các thơng tin trích dẫn Luận văn rõ nguồn gốc Signature de l’étudiant Mamadou Ben H Cissoko Remerciements Ce travail de mémoire de Master recherche est le résultat de l’engagement de plusieurs personnes qui ont décidé de m’accompagner résolument dans cet exaltant parcours Je remercie Dieu le tout Puissant, très Miséricordieux, qui m’a donné la force, le courage et la persévérance durant ces deux années C’est avec une certaine émotion et une grande reconnaissance que je remercie l’Université Nationale du Vietnam travers l’Institut Francophone International et toute son équipe pédagogique Je remercie les professeurs pour les valeurs et méthodes inculquées durant le cursus : la curiosité, le goût du travail, de l’effort, le sens de la persévérance, etc Autant de trésors qui me seront, sans nul doute, utiles Je tiens adresser mes profonds remerciements mon encadrant, M Nicolas Lachiche pour les conseils, les explications, la relecture de mon mémoire, les différentes pistes de réflexion et son coaching qui m’ont permis de cibler et de m’orienter tout au long de ce stage, Je voudrais remercier notre responsable de Master Dr Ho Tuong Vinh ainsi que tous les personnels pédagogiques et administratifs de l’Institut Francophone International, Université National de Vietnam Hanoi Je leur suis reconnaissant de tout cœur pour avoir assuré et amélioré la qualité de notre formation Un grand merci mes parents Hamidou CISSOKO et Hawa SOUMARE principalement ma tante Fatoumata Sidibé, mes frères et soeurs pour leur amour, leur conseil ainsi que pour leur soutien inconditionnel Je voudrais profiter de cet espace pour leur exprimer toute ma gratitude et ma reconnaissance Grâce vous, j’aborde une nouvelle étape de ma vie avec confiance et dynamisme Mamadou Ben Hamidou Cissoko Auteur: CISSOKO Mamadou Ben Hamidou Table des matières Table des figures v Introduction 1.1 Présentation générale du Laboratoire ICube 1.1.1 Organigramme du laboratoire 1.1.2 Présentation de l’équipe SDC 1.1.3 Ressources humaines 1.2 Motivation 1.3 Contexte et Problématiques 1.3.1 Contexte 1.3.2 Objectifs 1.3.3 Problématiques 1 3 4 4 Etat de l’art 2.1 Séries temporelles 2.1.1 Séries Temporelles (Time Series) 2.1.2 Différentes types des series chronologiques 2.2 Classification des séries temporelles 2.2.1 Travaux Connexes 2.2.2 Paramètres d’expérimentation et Résultats 15 2.2.3 Interprétabilité (Explicabilité) des décisions par les approches DNN 18 Théorie 3.1 Apprentissage supervisé et non supervisé 3.2 Réseaux de neurones artificiels (ANN) 3.2.1 Unité neurale de base 3.2.2 Un simple Réseau Feed-Forward 3.2.3 Formation d’un réseau de neurones 3.2.4 Fonction d’activation 3.2.5 Fonction de perte 3.2.6 Régularisation des réseaux de neurones i 22 22 23 23 24 25 28 31 32 TABLE DES MATIÈRES 3.3 Réseaux de neurones convolutifs (CNN) 3.3.1 Input Layer (Couche d’entrée) 3.3.2 L’opération de convolution 3.3.3 Couche de mise en commun (Pooling Layer) 3.3.4 Aplanissement (Flattening) 3.3.5 Couche entièrement connectée (Fully connected layer) 3.3.6 Architecture complète CNN pour les séquences temporelles 3.4 Réseaux de neurones récurrents (RNN) 3.4.1 Bidirectional Recurrent Networks (BiRNN) 3.4.2 La rétropropagation dans le temps (BPTT) 3.4.3 Vanishing and Exploding Gradient 3.4.4 Long Short-Term Memory Units (LSTMs) Solution Proposée 4.1 Données 4.1.1 Z-normalization des données 4.2 Architecture 4.3 Algorithme 4.3.1 Entrée réseau 4.3.2 Hyperparamètres et paramètres d’entrnement Résultats et Analyses 5.1 Mesures de performance 5.1.1 Matrice de confusion 5.2 Visualisation du vecteur de contexte 5.3 Validation du modèle 33 34 35 42 45 46 47 47 51 51 53 55 62 62 63 64 65 66 66 68 68 68 72 73 CONCLUSION & PERSPECTIVES 76 6.1 Conclusion générale 76 6.2 Perspectives 76 Bibliographie 78 A Algorithmes 83 A.1 Implémentation Attention cell 83 A.2 Implémentation Visualization context weight 83 A.3 Architectures 84 Auteur: CISSOKO Mamadou Ben Hamidou ii Table des figures 1.1 Organigramme 2.1 Différentes approches d’apprentissage en profondeur pour la classification des séries chronologiques 2.2 Calcul des poids 2.3 Calcul des poids 2.4 CAM 2.5 Exemples de CAM 2.6 formule shapelet extraction 2.7 Distance : Carte d’entités et Shapelet 3.1 Application Fonction d’activation sur une unité 3.2 Relu 3.3 Une illustration d’une unité neuronale unique, initialement proposée par [McCulloch and Pitts, 1943] Le neurone bleu de la figure a l’indice i, et la sortie du ième neurone est calculée en additionnant l’entrée pondérée w i j x j ensemble, en ajoutant le biais et en appliquant la fonction d’activation non linéaire f Le biais de biais est parfois appelé le seuil du neurone i 3.4 Un simple réseau réaction avec une seule couche cachée (MLP) 3.5 Algorithme d’optimisation 3.6 algorithme 3.7 algorithme 3.8 Exemple : Réseau neuronal profond 3.9 Fonction d’activation 3.10 Image d’illustration 3.11 Image d’illustration 3.12 MSE 3.13 Cross-Entropy Loss iii 11 19 19 19 20 21 21 23 24 24 25 26 27 28 29 29 30 31 32 32 TABLE DES FIGURES 3.14 Illustration d’un simple réseau de neurones convolutifs (CNN) traitant une seule image de l’ensemble de données MNIST d’images manuscrites [LeCun et al., 1998b] 3.15 Fonction de convolution 3.16 Formule de convolution 3.17 Formule de convolution 3.18 Formule de convolution 3.19 Formule de convolution 3.20 Carte d’entités (Feature map) 3.21 Application des filtres pour la génération des caractéristiques sur une image utilisant l’opération de convolution 3.22 Image et Filtre de convolution 3.23 Génération de la carte d’entités 3.24 Illustration de 1-D convolution pour une série univariée 3.25 Illustration de 1-D convolution pour une série multivariée 3.26 Les composants d’une couche de réseau neuronal convolutif 3.27 Regroupement maximal (max pooling) 3.28 Regroupement moyen (average pooling) 3.29 Aplanissement (Flattening) de la carte d’entités 3.30 Couche entièrement connectée (Fully connected layer) 3.31 Architecture complète d’un CNN pour les séquences temporelles 3.32 Un simple réseau neuronal récurrent (RNN) s’est déroulé dans le temps L’état actuel ht du réseau dépend la fois de l’entrée x t et de l’état au temps t − 1, h t −1 Pour pouvoir entrner le réseau récurrent l’aide de la rétropropagation, le réseau se déplie dans le temps 3.33 RNN standard 3.34 Un exemple simple de réseau récurrent bidirectionnel L’entrée x t est envoyée au neurone correspondant dans le RNN avant et arrière et affecte − et h← − L’état avant h→ − dépend également des informaainsi les états h→ t t t −→ et l’état arrière h← − dépend également des informations du passé h− t t −1 −− La sortie dépend donc de l’entrée du pas de temps tions futures h← t +1 courant, mais aussi des informations des états passés et futurs 3.35 La rétropropagation dans le temps(BPTT) 3.36 Architecture LSTMs 3.37 Cellule memory of lstm Cell 3.38 Symbole des opérations 3.39 La porte d’oubli 3.40 La porte d’entrée 3.41 La porte de sortie 3.42 Gated recurrent Unit GRU 34 35 35 36 36 36 37 38 38 39 40 41 42 44 45 45 46 47 49 50 51 52 56 57 57 58 59 60 61 4.1 ECG : Classe-1 63 4.2 ECG : Classe-2 63 Auteur: CISSOKO Mamadou Ben Hamidou iv TABLE DES FIGURES 4.3 4.4 4.5 4.6 Visualisations des observations de la base des données Formule de normalisation Z Architecture de la solution Implementation de l’attention mechanism 63 63 65 66 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 Matrice de confusion du modèle Visualisation de graphe : Précision - Perte Precision vs Rappel Courbe - ROC AUC Visualisation du vecteur de contexte Architecture de la solution Précision - Perte : Architecture Deuxième modèle : Matrice de confusion Courbe - ROC AUC 70 71 71 72 73 74 74 75 75 A.1 Architectures 84 Auteur: CISSOKO Mamadou Ben Hamidou v Liste des sigles et acronymes AD Anomaly Detection AE Autoencoder AI Artificial Intelligence ANN Artificial Neural Networks BPTT Backpropagation Through Time Bi-RNN Bi-Recurrent Neural Networks DBM Deep Boltzmann Machines DBN Deep Belief Networks DL Deep Learning DNN Deep Neural Networks DR Réduction de Dimensionnalité DTW Dynamic Time Warping GAN Generative Adversarial Network GMM Gaussian Mixture Model KPCA Kernel Principal Component Analysis LSTM Long Short Time Memory ML Machine Learning MLP Multi-Layer Perceptron NN Neural Networks RBM Restricted Boltzmann Machines RNN Recurrent Neural Networks ROC Receiver Operating Characteristic SAE Stacked Autoencoder Seq2Seq Sequence-to-Sequence CHAPITRE RÉSULTATS ET ANALYSES (b) Perte du modèle sur le nbre d’epochs (a) Précision du modèle sur le nbre d’epochs F IGURE 5.2: Visualisation de graphe : Précision - Perte F IGURE 5.3: Precision vs Rappel En tenant compte des graphes, il est nécessaire d’analyser la courbe des caractéristiques de fonctionnement du récepteur (ROC) qui est un autre outil couramment utilisé avec les classifieurs binaires Elle est très similaire la courbe précision / rappel 5.3, mais au lieu de tracer la précision par rapport au rappel, la courbe ROC trace le taux de vrais positifs (un autre nom pour le rappel) par rapport au taux de faux positifs Le taux de faux positifs (false positive rate) est le rapport des instances négatives qui sont incorrectement classées comme positives Il est égal un moins le vrai taux négatif, qui est le rapport des instances négatives correctement classées comme négatives Le vrai taux négatif (True negative rate) est également appelé spécificité Par conséquent, la courbe ROC trace la sensibilité (rappel) en fonction de - spécificité Auteur: CISSOKO Mamadou Ben Hamidou 71 CHAPITRE RÉSULTATS ET ANALYSES F IGURE 5.4: Courbe - ROC AUC 5.2 Visualisation du vecteur de contexte Comme expliqué précédemment le mécanisme d’attention est né pour aider mémoriser de longues phrases sources en traduction automatique neuronale Plutôt que de créer un vecteur de contexte unique partir du dernier état caché de l’encodeur, la sauce secrète inventée par l’attention est de créer des raccourcis entre le vecteur de contexte et l’entrée source entière Les poids de ces connexions de raccourci sont personnalisables pour chaque élément de sortie Les figures suivantes sont les vecteurs de contexte sur les échantillons d’entrnement et de test appris par le modèle Auteur: CISSOKO Mamadou Ben Hamidou 72 CHAPITRE RÉSULTATS ET ANALYSES (a) Training sample (b) Context vector training (c) Testing sample (d) Context vector testing F IGURE 5.5: Visualisation du vecteur de contexte 5.3 Validation du modèle Pour valider le modèle, savoir l’architecture et les résultats, nous avons implémenté un second modèle avec une architecture différente de l’architecture proposée, cette dernière est un Stacked LSTM 5.6 Nous formons un réseau LSTM avec des couches LSTM empilées, de sorte que des fonctionnalités plus profondes puissent être apprises de la série Pour ce faire, nous définissons le paramètre return-sequences dans la première couche LSTM sur vraie Cela fait que la couche affiche l’état masqué de chaque pas de temps, plutôt que juste le dernier pas de temps La deuxième couche LSTM peut ensuite utiliser les états masqués de la première couche comme données d’entrée En entrnant le modèle avec les mêmes paramètres voir ici 4.3.2 que l’architecture proposée nous sommes arrivé obtenir un résultat satisfaisant et ce résultat n’étant pas proche du premier peut être justifié par la longueur de nos observations qui est une séquence longue pour LSTM de les mémoriser tout en suivant la dépendance temporelle entre les differents pas de temps au niveau des observations Auteur: CISSOKO Mamadou Ben Hamidou 73 CHAPITRE RÉSULTATS ET ANALYSES F IGURE 5.6: Architecture de la solution En visualisant l’évolution des graphes de perte et de precision au cours des differentes périodes d’entrnements nous pouvons observer que le modèle est beaucoup instable sur les données d’entrnement et cela engendre un problème de généralisation sur les données de test (a) Précision du modèle sur le nbre d’epochs (b) Perte du modèle sur le nbre d’epochs F IGURE 5.7: Précision - Perte : Architecture En évaluant le modèle avec les differents paramètres d’évaluation voir 5.1 Nous pouvons voir sur la matrice de confusion que le modèle se trompe assez de la première classe par rapport la seconde classe Cela peut s’expliquer par le faite que nous avons assez des observations qui sont presque similaires part qu’une petite différence qui permet de les différencier voir la figure 5.5c pour observer deux observations de classes differentes en observant nous pouvons que elles se chevauchent l’une sur l’autre Cela Auteur: CISSOKO Mamadou Ben Hamidou 74 CHAPITRE RÉSULTATS ET ANALYSES est un exemple parmi tant d’autres La precision du modèle est de 92% La matrice de confusion et la courbe de AUC résument le résultat de notre modèle F IGURE 5.8: Deuxième modèle : Matrice de confusion Encore une fois, il y a un compromis : plus le rappel (TPR) est élevé, plus le classifieur produit de faux positifs (FPR) La ligne en orange représente la courbe ROC d’un classifieur purement ; un bon classifieur reste aussi loin que possible de cette ligne (vers le coin supộrieur gauche) Une faỗon de comparer les classifieurs est de mesurer l’aire sous la courbe (AUC) Notre classifieur est parfait car nous avons une AUC ROC égale 92% F IGURE 5.9: Courbe - ROC AUC Auteur: CISSOKO Mamadou Ben Hamidou 75 Chapitre CONCLUSION & PERSPECTIVES 6.1 Conclusion générale Ce chapitre traitera des conclusions basées sur l’ensemble du travail et aussi des résultats du chapitre 5, ainsi que des limites du cadre et des travaux futurs pouvant être réalisés Ce travail fait partie d’un premier objectif qui est de proposer une solution incluant un réseau LSTM pour résoudre un problème de détection d’anomalies dans des séquences temporelles mais aussi fournir une solution pour la visualisation des décisions du réseau sur les séquences Au terme de cet effort, nous avons d’abord effectué un état de l’art plus approfondi sur les méthodes d’algorithmes de classification, des plus anciennes aux plus récentes utilisant les réseaux de neurones Ensuite, nous avons effectué une étude comparative des méthodes les plus performantes de l’état de l’art Puis, sur la base de cette étude, nous avons choisi une démarche raisonnée qui nous a semblé adéquate par rapport ce qui existe pour résoudre notre problème Les limites de nos travaux sont principalement liées au manque de base des données que nous devrions utiliser pour mener notre étude mais au vu de la situation sanitaire nous n’avons pu avoir l’accès aux données et l’expertise du médecin pour pouvoir mener une étude approfondie en vue de cerner au mieux les problématiques que pourrait présenter la base 6.2 Perspectives Notre travail s’inscrit dans le cadre d’un projet de faisabilité afin de voir les possibilités de pouvoir l’appliquer dans le monde réel Comme perspective, nous allons continuer de travailler sur la problématique des séquences temporelles (sequences d’évènements) utilisant toujours le réseau LSTM pour 76 CHAPITRE CONCLUSION & PERSPECTIVES la détection des interactions médicamenteuses en temps réel partir des dossiers patients partir nous allons extraire les caractéristiques globales des signaux vitaux des patients travers les enregistrements électrocardiogrammes et combiner avec les actions du médecin sur le patient (Éjection, dossier patient ) pour alerter en cas du dysfonctionnement du processus normal cardiaque du patient et enfin comme but principal l’intégration de l’algorithme au système de l’hôpital Auteur: CISSOKO Mamadou Ben Hamidou 77 Bibliographie [Alfred, 2016] Alfred, R (2016) The rise of machine learning for big data analytics In 2016 2nd International Conference on Science in Information Technology (ICSITech), pages 1–1 IEEE [Bagnall and Janacek, 2014] Bagnall, A and Janacek, G (2014) A run length transformation for discriminating between auto regressive time series Journal of classification, 31(2) :154–178 [Bahdanau et al., 2014] Bahdanau, D., Cho, K., and Bengio, Y (2014) Neural machine translation by jointly learning to align and translate arXiv preprint arXiv :1409.0473 [Bianchi et al., 2017] Bianchi, F M., Maiorino, E., Kampffmeyer, M C., Rizzi, A., and Jenssen, R (2017) Properties and training in recurrent neural networks In Recurrent Neural Networks for Short-Term Load Forecasting, pages 9–21 Springer [Bostrom and Bagnall, 2017] Bostrom, A and Bagnall, A (2017) A shapelet transform for multivariate time series classification arXiv preprint arXiv :1712.06428 [Brownlee, 2018] Brownlee, J (2018) Better Deep Learning : Train Faster, Reduce Overfitting, and Make Better Predictions Machine Learning Mastery [César and Richard, 2006] César, E and Richard, B (2006) Les séries temporelles Mars [Charpentier, 2006] Charpentier, A (2006) Cours de séries temporelles : théorie et applications Université Paris Dauphine [Chen et al., 2013] Chen, H., Tang, F., Tino, P., and Yao, X (2013) Model-based kernel for efficient time series analysis In Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 392–400 [Cheng et al., 2018] Cheng, J., Wang, P.-s., Li, G., Hu, Q.-h., and Lu, H.-q (2018) Recent advances in efficient computation of deep convolutional neural networks Frontiers of Information Technology & Electronic Engineering, 19(1) :64–77 [Chorowski et al., 2015] Chorowski, J K., Bahdanau, D., Serdyuk, D., Cho, K., and Bengio, Y (2015) Attention-based models for speech recognition In Advances in neural information processing systems, pages 577–585 78 BIBLIOGRAPHIE [Chung et al., 2014] Chung, J., Gulcehre, C., Cho, K., and Bengio, Y (2014) Empirical evaluation of gated recurrent neural networks on sequence modeling arXiv preprint arXiv :1412.3555 [Cui et al., 2016] Cui, Z., Chen, W., and Chen, Y (2016) Multi-scale convolutional neural networks for time series classification arXiv preprint arXiv :1603.06995 [Fawaz et al., 2019] Fawaz, H I., Forestier, G., Weber, J., Idoumghar, L., and Muller, P.A (2019) Deep learning for time series classification : a review Data Mining and Knowledge Discovery, 33(4) :917–963 [Glorot and Bengio, 2010] Glorot, X and Bengio, Y (2010) Understanding the difficulty of training deep feedforward neural networks In Proceedings of the thirteenth international conference on artificial intelligence and statistics, pages 249–256 [Goldin and Kanellakis, 1995] Goldin, D Q and Kanellakis, P C (1995) On similarity queries for time-series data : constraint specification and implementation In International Conference on Principles and Practice of Constraint Programming, pages 137–153 Springer [Goodfellow et al., 2016] Goodfellow, I., Bengio, Y., and Courville, A (2016) Deep learning MIT press [Grabocka et al., 2014] Grabocka, J., Schilling, N., Wistuba, M., and Schmidt-Thieme, L (2014) Learning time-series shapelets In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 392–401 [Hastie et al., 2013] Hastie, T., Tibshirani, R., James, G., and Witten, D (2013) An introduction to statistical learning with applications in r [Hinton et al., 2012] Hinton, G., Deng, L., Yu, D., Dahl, G E., Mohamed, A.-r., Jaitly, N., Senior, A., Vanhoucke, V., Nguyen, P., Sainath, T N., et al (2012) Deep neural networks for acoustic modeling in speech recognition : The shared views of four research groups IEEE Signal processing magazine, 29(6) :82–97 [Hochreiter et al., 2001] Hochreiter, S., Bengio, Y., Frasconi, P., Schmidhuber, J., et al (2001) Gradient flow in recurrent nets : the difficulty of learning long-term dependencies [Hochreiter and Schmidhuber, 1997] Hochreiter, S and Schmidhuber, J (1997) Long short-term memory Neural computation, 9(8) :1735–1780 [Karim et al., 2017] Karim, F., Majumdar, S., Darabi, H., and Chen, S (2017) Lstm fully convolutional networks for time series classification IEEE access, :1662–1669 [Kotsifakos and Papapetrou, 2014] Kotsifakos, A and Papapetrou, P (2014) Modelbased time series classification In International Symposium on Intelligent Data Analysis, pages 179–191 Springer [Koutnik et al., 2014] Koutnik, J., Greff, K., Gomez, F., and Schmidhuber, J (2014) A clockwork rnn arXiv preprint arXiv :1402.3511 [Le Guennec et al., 2016] Le Guennec, A., Malinowski, S., and Tavenard, R (2016) Data augmentation for time series classification using convolutional neural networks Auteur: CISSOKO Mamadou Ben Hamidou 79 BIBLIOGRAPHIE [LeCun et al., 1995] LeCun, Y., Bengio, Y., et al (1995) Convolutional networks for images, speech, and time series The handbook of brain theory and neural networks, 3361(10) :1995 [LeCun et al., 1998a] LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P (1998a) Gradientbased learning applied to document recognition Proceedings of the IEEE, 86(11) :2278–2324 [LeCun et al., 1998b] LeCun, Y., Cortes, C., and Burges, C J (1998b) The mnist database of handwritten digits, 1998 URL http ://yann lecun com/exdb/mnist, 10(34) :14 [Lines et al., 2018] Lines, J., Taylor, S., and Bagnall, A (2018) Time series classification with hive-cote : The hierarchical vote collective of transformation-based ensembles ACM Transactions on Knowledge Discovery from Data (TKDD), 12(5) :52 [Ma et al., ] Ma, Q., Zhuang, W., Li, S., Huang, D., and Cottrell, G W Adversarial dynamic shapelet networks [Martinez et al., 2018] Martinez, C., Perrin, G., Ramasso, E., and Rombaut, M (2018) A deep reinforcement learning approach for early classification of time series In 2018 26th European Signal Processing Conference (EUSIPCO), pages 2030–2034 IEEE [McCulloch and Pitts, 1943] McCulloch, W S and Pitts, W (1943) A logical calculus of the ideas immanent in nervous activity The bulletin of mathematical biophysics, 5(4) :115–133 [Mehdiyev et al., 2017] Mehdiyev, N., Lahann, J., Emrich, A., Enke, D., Fettke, P., and Loos, P (2017) Time series classification using deep learning for process planning : a case from the process industry Procedia Computer Science, 114 :242–249 [Mehlig, 2019] Mehlig, B (2019) arXiv :1901.05639 Artificial neural networks arXiv preprint [Mikolov et al., 2013] Mikolov, T., Sutskever, I., Chen, K., Corrado, G S., and Dean, J (2013) Distributed representations of words and phrases and their compositionality In Advances in neural information processing systems, pages 3111–3119 [Olah, 2015] Olah, C (2015) Understanding lstm networks, 2015 URL http ://colah github io/posts/2015-08-Understanding-LSTMs [Pal and Prakash, 2017] Pal, A and Prakash, P (2017) Practical Time Series Analysis : Master Time Series Data Processing, Visualization, and Modeling using Python Packt Publishing Ltd [Pascanu et al., 2013a] Pascanu, R., Gulcehre, C., Cho, K., and Bengio, Y (2013a) How to construct deep recurrent neural networks arXiv preprint arXiv :1312.6026 [Pascanu et al., 2013b] Pascanu, R., Mikolov, T., and Bengio, Y (2013b) On the difficulty of training recurrent neural networks In International conference on machine learning, pages 1310–1318 [Pereira, 2018] Pereira, J (2018) Unsupervised Anomaly Detection in Time Series Data Using Deep Learning PhD thesis, Master’s Thesis, Instituto Superior Técnico, University of Lisbon Auteur: CISSOKO Mamadou Ben Hamidou 80 BIBLIOGRAPHIE [Prasad et al., 2009] Prasad, N R., Almanza-Garcia, S., and Lu, T T (2009) Anomaly detection CMC-COMPUTERS MATERIALS & CONTINUA, 14(1) :1–22 [Romeu et al., 2015] Romeu, P., Zamora-Martínez, F., Botella-Rocamora, P., and Pardo, J (2015) Stacked denoising auto-encoders for short-term time series forecasting In Artificial Neural Networks, pages 463–486 Springer [Serrà et al., 2018] Serrà, J., Pascual, S., and Karatzoglou, A (2018) Towards a universal neural network encoder for time series In CCIA, pages 120–129 [Sipes et al., 2014] Sipes, T., Jiang, S., Moore, K., Li, N., Karimabadi, H., and Barr, J R (2014) Anomaly detection in healthcare : Detecting erroneous treatment plans in time series radiotherapy data International Journal of Semantic Computing, 8(03) :257–278 [Sutskever, 2013] Sutskever, I (2013) Training recurrent neural networks University of Toronto Toronto, Ontario, Canada [Ulyanov et al., 2016] Ulyanov, D., Vedaldi, A., and Lempitsky, V (2016) Instance normalization : The missing ingredient for fast stylization arXiv preprint arXiv :1607.08022 [Wang et al., 2016] Wang, W., Chen, C., Wang, W., Rai, P., and Carin, L (2016) Earlinessaware deep convolutional networks for early time series classification arXiv preprint arXiv :1611.04578 [Wang et al., 2019] Wang, Y., Emonet, R., Fromont, E., Malinowski, S., Menager, E., Mosser, L., and Tavenard, R (2019) Learning interpretable shapelets for time series classification through adversarial regularization arXiv preprint arXiv :1906.00917 [Wang et al., 2017] Wang, Z., Yan, W., and Oates, T (2017) Time series classification from scratch with deep neural networks : A strong baseline In 2017 International joint conference on neural networks (IJCNN), pages 1578–1585 IEEE [Williams and Zipser, 1995] Williams, R J and Zipser, D (1995) Gradient-based learning algorithms for recurrent Backpropagation : Theory, architectures, and applications, 433 [Yamashita et al., 2018] Yamashita, R., Nishio, M., Do, R K G., and Togashi, K (2018) Convolutional neural networks : an overview and application in radiology Insights into imaging, 9(4) :611–629 [Yang et al., 2017] Yang, Z., Chen, W., Wang, F., and Xu, B (2017) Improving neural machine translation with conditional sequence generative adversarial nets arXiv preprint arXiv :1703.04887 [Yao et al., 2015] Yao, K., Cohn, T., Vylomova, K., Duh, K., and Dyer, C (2015) Depthgated lstm arXiv preprint arXiv :1508.03790 [Yao et al., ] Yao, P., Wang, Y., and Zhang, Z An image classification service based on convolutional neural network [Ye and Keogh, 2009] Ye, L and Keogh, E (2009) Time series shapelets : a new primitive for data mining In Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 947–956 Auteur: CISSOKO Mamadou Ben Hamidou 81 BIBLIOGRAPHIE [Zhao et al., 2017] Zhao, B., Lu, H., Chen, S., Liu, J., and Wu, D (2017) Convolutional neural networks for time series classification Journal of Systems Engineering and Electronics, 28(1) :162–169 [Zheng et al., 2014] Zheng, Y., Liu, Q., Chen, E., Ge, Y., and Zhao, J L (2014) Time series classification using multi-channels deep convolutional neural networks In International Conference on Web-Age Information Management, pages 298–310 Springer [Zheng et al., 2016] Zheng, Y., Liu, Q., Chen, E., Ge, Y., and Zhao, J L (2016) Exploiting multi-channels deep convolutional neural networks for multivariate time series classification Frontiers of Computer Science, 10(1) :96–112 [Zhou et al., 2016] Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., and Torralba, A (2016) Learning deep features for discriminative localization In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2921–2929 Auteur: CISSOKO Mamadou Ben Hamidou 82 Annexe A Algorithmes A.1 Implémentation Attention cell Listing A.1: Attention cell def AttentionLSTM ( inputs ) : attenti on = Dense ( , a c t i v a t i o n = ’ ’ ) ( inputs ) attenti on = F l a t t e n ( ) ( attentio n ) attenti on = A c t i v a t i o n ( ’ softmax ’ ) ( attentio n ) attenti on = RepeatVector ( ) ( atte nti on ) attenti on = Permute ( [ , ] ) ( atte nti on ) context_vector = multiply ( [ inputs , attentio n ] , name= ’ context_vector ’ ) context_vector = Lambda(lambda xin : K sum( xin , a x i s =1) , output_shape = ( , ) ) ( context_vector ) return context_vector A.2 Implémentation Visualization context weight Listing A.2: Context vector def g e t _ a c t i v a t i o n s ( model , layer_name , inputs ) : l a y e r =[ l for l in model l a y e r s i f l name==layer_name ] [ ] func=K function ( [ model input ] , [ l a y e r output ] ) return func ( [ inputs ] ) [ ] 83 ANNEXE A ALGORITHMES A.3 Architectures (b) Architecture sans Attention (a) Attention architecture F IGURE A.1: Architectures Auteur: CISSOKO Mamadou Ben Hamidou 84 ANNEXE A ALGORITHMES Auteur: CISSOKO Mamadou Ben Hamidou 85 ... Apprentissage profond pour la détection d’anomalies dans des séquences temporelles Học sâu để phát dị thường theo trình tự thời gian Spécialité : Systèmes Intelligents et Multimédia Code : Programme pilote... mémoire a été bien précisée LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Các thơng tin trích dẫn Luận văn rõ nguồn gốc

Định dạng
Số trang	96
Dung lượng	4,23 MB