1. Trang chủ
  2. » Giáo Dục - Đào Tạo

FOUILLE DE GRAPHES DYNAMIQUES ATTRIBUES DECOUVERTE DE PHENOMENES PERIODIQUES ET EXCEPTIONNELS

40 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 852,28 KB

Nội dung

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL DUONG Minh Duc FOUILLE DE GRAPHES DYNAMIQUES ATTRIBUES DECOUVERTE DE PHENOMENES PERIODIQUES ET EXCEPTIONNELS KHAI PHÁ ĐỒ THỊ THUỘC TÍNH LINH HOẠT PHÁT HIỆN HIỆN TƯỢNG TUẦN HOÀN VÀ ĐỘT BIẾN MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2015 UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL DUONG Minh Duc FOUILLE DE GRAPHES DYNAMIQUES ATTRIBUES DECOUVERTE DE PHENOMENES PERIODIQUES ET EXCEPTIONNELS KHAI PHÁ ĐỒ THỊ THUỘC TÍNH LINH HOẠT PHÁT HIỆN HIỆN TƯỢNG TUẦN HOÀN VÀ ĐỘT BIẾN Spécialité: Réseaux et Systèmes Communicants Code: Programme pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de: Marc PLANTEVIT, Mtre de conférences au LIRIS, équipe DM2L Céline ROBARDET, professeur au LIRIS, équipe DM2L HANOI – 2015 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Các thơng tin trích dẫn Luận văn rõ nguồn gốc Signature de l’étudiant DUONG Minh Duc Table des matieres Remerciements Resum Abstract Introduction 1.1 Contexte general et problematique 1.2 Motivation et objectifs 1.3 Approche proposee 1.4 Contributions 1.5 Organisation du memoire Etat de l’art 2.1 Revue de la bibliographie 2.2 2.1.1 Chromatic 2.1.2 Exception 2.1.3 Discussio Serie temporelle et mesures de distance 2.2.1 Introductio 2.2.2 Dynamic T 2.2.3 Symbolic Methodes et solutions proposees 3.1 Graphe ar^etes attribuees et modelisation du probleme 3.2 Formulation du probleme 3.3 3.2.1 De nitions 3.2.2 3.2.3 Evaluation Contexte 3.2.4 Formulatio Algorithme FastRabbit Experimentation et resultats 4.1 Resultats quantitatives i 4.2 Resultats qualitatives et Comparaison avec EMM 23 4.2.1 Resultats qualitatives 23 4.2.2 Comparaison avec EMM 27 Conclusion 29 References 30 ii Remerciements Tout d’abord, j’adresse mes remerciements au Laboratoire d’InfoRmatique en Image et Systemes d’information (LIRIS) d’avoir nance ce travail Je tiens a remercier tout particulierement mes encadrants Marc Plantevit et Celine Robardet Ils m’ont guide et supporte dans tous les etapes de ce stage La duree mois de travail avec eux n’est pas beaucoup mais il m’a su t d’avoir ance a continuer des etudes dans l’avenir Je remercie egalement Albrecht Zimmermann ainsi que tous les membres de l’equipe DM2L pour des discussions et suggestions Finalement, je remercie sincerement mes parents et mes camarades pour leurs soutiens pendant cette periode iii Resum Les graphes sont une abstraction mathematique qui permet de representer naturellement de nombreux phenomenes reels La fouille de graphes est un domaine majeur de la fouille de donnees De nombreux travaux se sont interesses a fournir des methodes pour analyser des grands graphes en se focalisant sur sa structure Recemment, face a l’heterogeneit des sources de donnees continues comme par exemple des donnees temporelles provenant de di erents types de capteurs (e.g., temperature, humidite, vent, position), des propositions visant a travailler sur des structures de graphes plus sophistiquees telles que les graphes ar^etes-attribuees sont apparues, apportant des eclairages nouveaux sur de telles donnees L’objectif de ce stage de master est de concevoir une methode originale d’extraction de connaissances pertinentes dans des donnees temporelles et heterogenes que nous modeliserons sous forme de graphes ar^etes-attribuees Il s’agit donc de de nir une methode generique permettant d’extraire des comporte-ments periodiques dans des graphes ar^etes-attribuees Le modele global ainsi construit pourra ^etre ensuite utilise pour decouvrir et expliquer des comportements anormaux/exceptionnels dans les donnees Ce sujet de master qui s’inscrit dans le domaine de l’extraction de connaissances dans des grandes bases de donnees s’appuiera donc sur une modelisation sous forme de graphes ar^ete-attribues L’approche developpee devra faire avancer l’etat de l’art sur la fouille de donnees sous contraintes, les methodes d’extraction de motifs, la fouille de donnees interactive Des experimentations sur des donnees issues de centrales photovolta ques seront menees Mots-cles : graphe ar^etes-attribuees, series temporelles, FastRabbit, fouille des motifs locaux iv Abstract Graph is a mathematical abstraction that can naturally represent many real phenomena The graph mining is a major eld of data mining Many studies have focused on providing methods to analyze large graphs by focusing on its structure Recently, the heterogeneity of continuous sources of data such as temporal data from di erent types of sensors (eg, temperature, humidity, wind, position), proposals to work on more sophisticated graph structures such as edge-attributed graphs The aim of this master intership is to design an original method of extraction knowledge in temporal and heterogeneous data that we will model as edge-attributed graphs It is therefore to de ne a generic method for extracting periodic behavior in the edge-attributed graphs The global model thus constructed can then be used to explore and explain abnormal/exceptional behavior in the data This topic master who is in the eld of knowledge discovery in large databases will rely on modeling as edge-attributed graphs The developed approach will advance the state of the art data mining with constraints, the methods of motif extraction, interactive data mining Experiments on data from photovoltaic central will be conducted Keywords : edge-attributed graphs, time series, FastRabbit, local pattern mining v Table des gures 1.1 Structure des capteurs photovolta ques [1] 1.2 Des arbres devant la facade et sur l’horizon [1] 2.1 Un exemple de Chromatic correlation clustering [2] 2.2 Un exemple de reseau social [3] 2.3 Une partition de Chromatic Correlation Clustering [3] 2.4 Co^ut de Chromatic Correlation Clustering [3] 2.5 Un exemple de graphe ar^etes-etiquettes [2] 2.6 Un exemple de clustering par Chromatic pivot [3] 2.7 Un exemple de clustering par Lazy Chromatic pivot [3] 2.8 Exemple d’un reseau bayesien [4] 2.9 Exemple d’une serie temporelle 11 2.10 La di erence entre distance Euclidienne et distance DTW [5] 12 2.11 Un grid DTW [6] 12 2.12 Condition monotone [5] 13 2.13 Condition de continuite [5] 13 2.14 Condition de frontiere [5] 13 2.15 Condition de Warping Window [5] 14 2.16 Condition d’angle [5] 14 2.17 Une sequence de la taille 128 est reduite en dimensions [7] 15 2.18 Le tableau statistique pour diviser la courbe Gaussienne [7] 16 2.19 Discretisation avec le nombre de symbol a = [7] 16 2.20 Distance mesuree sur la representation symbolique [7] 16 2.21 Le tableau utilise par la fonction MINDIST [7] 17 4.1 Performance de l’algorithme FastRabbit 22 4.2 Nombre de motifs avant et apres post-traitement 23 4.3 Visualisation des positions de capteurs 24 4.4 Graphe ar^etes-attribuees avec contexte generale ? 24 4.5 Un motif detect par l’algorithme FastRabbit 25 4.6 Un motif detect par l’algorithme FastRabbit 25 4.7 Un graphe qui a seulement sommets 26 4.8 Un motif avec le jour type "Ensoleillee" 26 vi 4.9 Un motif avec le jour type "non Ventee" 26 4.10 Reseau bayesien du jeu de donnees Juillet 2012 27 4.11 Un groupe exceptionnel detect par EMM 27 4.12 Un autre resultat exceptionnel 27 4.13 Conditions pour determiner un groupe 28 Figure 2.21 { Le tableau utilise par la fonction MINDIST [7] Ce tableau est utilise pour un alphabet de cardinalite 4, i.e., a = Par exemple, dist(a,b) = et dist(a,d) = 1.34 Une cellule(r,c) quelconque du tableau est calculee d’apres cette expression : Une remarque ici, deux symboles consecutives ont la distance Dans [7], l’auteur a prouve que cette distance symbolique est correlee avec distance Euclidienne sur des series temporelles originales Autrement dit, SAX fournit une mesure de distance avec lower-bound de distance Euclidienne 17 Chapitre Methodes et solutions proposees Dans ce chapitre, nous presentons le probleme sous forme graphe ar^etes-attribuees, i.e., nous de nissons des attributs et des conditions sur une ar^ete Ensuite, des notions mathematiques et quelques mesures de qualite d’un motif sont introduites A la n de ce chapitre, l’algorithme FastRabbit est present pour detecter des motifs exceptionnels 3.1 Graphe ar^etes attribuees et modelisation du probleme Pour modeliser le probleme sous forme graphe ar^etes-attribuees, nous considerons chaque capteur est un sommet du graphe Une ar^ete presente la relation entre capteurs pendant un jour Les attributs d’une ar^ete sont : Distance DTW et SAX entre capteurs, ces distances sont presentees dans le chapitre precedent Correlation Pearson entre capteurs, l’evolution de reseau de capteurs (i.e., la correlation entre des capteur) est focalisee a n de detecter des phenomenes anormaux Dans ce stage, nous avons test la correlation avec types de correlation di erents : Pearson et Kendall, le resultat est similaire Donc, nous utilisons seulement la correlation Pearson Jour type, il est aussi pertinent de faire des analyses di erentielles, notamment en fonction des jours types (ensoleille, ventee, chaude) Ces "jours types" sont de nis a l’aide d’une requ^ete d’apres des eclaircissements suivants : En n, pour determiner des ar^etes d’un graphe, nous avons un terme : contexte Un contexte est un tuple des conditions sur des attributs pour ltrer les ar^etes qui satisfont ces conditions Par exemple, sur une ar^ete, on a attributs : distance DTW, SAX, correlation et jour type, un contexte C = ( [0 ;5], [1 ;12], [0.6 ;1], 1, 0, ) ltre des ar^etes qui satisfont : distanceDT W 5, distanceSAX 12, 0:6 correlation 1, ensoleille, non ventee, chaude 18 Nous voyons que chaque contexte identi e un graphe, le travail de detection des graphes speciaux est equivalent avec la detection des contextes speciaux En enumerant des contextes, on va veri er la qualite des graphes correspondants L’espace de recherche (le nombre de candidat de contexte) est un probleme de cette approche, des upper-bounds de qualite seront introduit pour eliminer des contextes non prometteurs 3.2 Formulation du probleme 3.2.1 De nitions prealables Chaque ligne dans le jeu de donnees est de nit de la maniere suivante [M id; V1; V2; A1; : : : ; A k], ou Mid est l’ensemble d’identi cations de transaction, V V est le sommet de depart, V V denote le sommet d’arrivee et A = fA1; : : : ; Akg est l’ensemble d’attributs d’ar^ete 0 De nition (Contexte) Un contexte est un tuple C = (A 1; : : : ; A k), ou A i dom(Ai) Le contexte le plus general ? = (dom(A1); : : : ; dom(Ak)) couvre tous les transactions 0 De nition (Filtre d’un contexte) Avec un contexte C = (A 1; : : : ; A k), la fonction ltree TC calcule les transactions qui satisfont le contexte : TC = f(mid; vi; vj; a1; : : : ; ak) T j Ai; 8i [1; k]g TC (e) est les transactions qui traversent l’ar^ete e V y)) = V et satisfont le contexte C : TC (e = (x; f(mid; x; y; a1; : : : ; ak) TC g 0 De nition Avec un contexte C = (A 1; : : : ; A k), et la fonction ltree T, le graphe qui respecte le contexte C est GC = (VC ; EC ; WC ) ou : | VC = fv j 9(mid; v; vj; a1; : : : ; ak) TC ou; 9(mid; vi; v; a1; : : : ; ak) TC g | EC est l’ensemble d’ar^etes pour laquelle au moins W transactions satisfont le contexte C, i.e., EC = fe E j jTe(C)j W g | WC est une fonction de EC a R WC (e) est egal a le nombre de transactions associee a e qui satisfait C, i.e WC (e) = jTe(C)j 3.2.2 Evaluation statistique d’une ar^ete Pour evaluer la specialit d’une contexte C avec une ar^ete e, nous considerons la proportion de nombre de transactions sur l’ar^ete e qui satisfait le contexte et nous proposons de estimer statistiquement cette valeur par le teste d’independance Ce teste determine l’ar^ete e a une valeur plus signi cative (interessante) dans le contexte C que dans le graphe entier (contexte ?) La distribution nulle est approchee par la distribution valeur critique est avec le degr de libert et le risque d’erreur 5%, la (0:05) = 3:84 Pour rejeter l’hypothese nulle, nous considerons seulement des ar^ete qui ont (e; C) > 3:84 et concluons les ar^etes ont une valeur signi cative avec la ance 95% 19 3.2.3 Contexte particuliere Avec un contexte trop speci que, nous obtenons facilement des ar^etes hautes signi catives (tres speciales) en comparant avec le graphe entier Pour eviter ce probleme, nous introduisons un facteur normalise qui penalise des contextes trop speci ques : q(e; C) = Pour un contexte C, nous considerons qu’une ar^ete a une valeur signi cative si et seulement si q(e; C) > 3.2.4 Formulation la t^ache de fouille des motifs Denotons G = (V; E ) est le sous-graphe de GC , E = fe EC j X (e; C) C C C 3:84 et q(e; C) 0g Les motifs2qu’on va chercher sont des composantes connexes de GC L’ensemble de ces motifs est denot CC = f(X; Y ) j X V; Y E g C C Nous denotons M est l’ensemble des mesures de qualite d’un motif dans CC C Chaque mesure donne une valeur reelle pour chaque motif, les motifs sont donc comparables Nous chercherons seulement des mo-tifs qui maximisent ces mesures de qualite Donner l’ensemble de mesures de qualite M = fm1; : : : ; mkg, les motifs interessants appartient la frontiere Pareto, appel skyline Dans cet ensemble, chaque motifs ne domine pas les autres De nition (Dominance) Donner l’ensemble de mesures de qualite M = fm 1; : : : ; mkg, un motif Qd domine autre motif Qs, denoter Qd >M Qs, si et seulement si 8i = : : : k; mi(Qd) mi(Qs) and 9j = : : : k; mj(Qd) > mj(Qs) La t^ache de fouille des motifs est formuler comme suivante : Donner un graphe ar^etes-attribuees, l’ensemble des mesure de qualite M, le probleme de fouille des motifs est de calculer les motifs de skyline qui sont de nit par : 0 f(C; (X; Y )) j (X; Y ) CC et @(C ; (X ; Y )) CC C 0 ; telle que (C ; (X ; Y )) >M (C; (X; Y ))g C Nous voyons le probleme, si on veut chercher des meilleurs motifs au seins d’optimum Pareto, nous devons considerer tous les contextes et les composantes connexes correspondantes L’espace de recherche est grande et le temps travers est le de majeur Pour identi er l’inter^et d’un motif, un end-user peut de nir ses mesures de qualite Dans ce travail, nous proposons quelques mesures de qualite speci ques : | le nombre de sommets mv = jXj | le nombre d’ar^etes me = jY j | q (C; (X; Y )) = | q(C; (X; Y )) = 3.3 e2Y q(e; C) q (C;(X;Y )) jY j Algorithme FastRabbit L’algorithme enumere des contextes d’apres le profondeur d’abord L’enumeration de tous les contextes possibles n’est pas faisable La calcul des upper-bounds sur les mesures de qualite est e ectu pour 20 eliminer des contexte non prometteur En enumerant un contexte, si des conditions de upper-bounds ne sont pas satisfait, nous n’enumerons plus des nouveaux contextes d’apres cette branche L’enumeration peut ^etre representee comme un arbre, chaque n ud est un contexte C Denotons Cand est l’ensemble des extensions possibles pour C, i.e., l’ensemble de restrictions qui peut ajouter dans C L’algorithme FastRabbit est presente suivante : Algorithme : FastRabbit Input : C : the current context, Cand : the elements restrictions of C, S : the skyline - current set of patterns, M : the quality measures Output : The current skyline begin Compute the graph GC Y Y n fe EC j (e; C) < 3:84 or q(e; C) < 0g for (X ; Y ) connected components(GC = (X; Y ) for m M Calculate m(C; (X ; Y )) 0 if @s S j s >M (C; (X ; Y )) then 0 0 0 S S [ (C; (X ; Y )) n fs S j (C; (X ; Y )) >M s g Compute upper bounds qub(C); qub0 (C) and qub(C) 10 if 9s S such that jEC j me(s) and jVC j mv(s) and qub(C) q (s) and 11 qub0 (C) q (s) and qub(C) q(s) then 12 13 14 return S else for l Cand 15 C C [ flg 17 FastRabbit(C,Cand,S,M ) 18 C C n flg 19 return S Considerons le contexte C qui est en train d’explorer, l’algorithme calcule des motifs d’optimum Pareto dans le graphe correspondant de ce contexte L’algorithme calcule d’abord le graphe G C (ligne 2), et puis calcule E en basant des calculs de C (e; C) et q(e; C) pour chaque ar^ete e Ensuite, les composantes 0 connexes de G sont identi ees (ligne 4) pour creer des candidats de skyline (C; (X ; Y )) C 0 Avec le skyline S courant, si (C; (X ; Y )) n’est pas domine dans S (ligne 7), on ajoute des 0 candidats (C; (X ; Y )) a S et mise a jour S en supprimant des motifs qui sont domines par le nouveau motif (ligne 8) Et puis, les upper-bounds sont calcules (ligne 9), si le contexte courant n’est pas prometteur, nous arr^etons d’explorer d’apres cet branche de l’arbre de recherche (ligne 10) Si non, nous continuons a preciser le contexte C et l’algorithme FastRabbit est appel recursivement 21 Chapitre Experimentation et resultats Dans ce chapitre, nous presentons des experimentations et resultats pour montrer l’inter^et de l’ap-proche proposee Tous les experimentations sont e ectuees sur un ordinateur avec le processeur Dual Core 2.6 GHz, GB de RAM et sous systeme d’exploitation Linux L’algorithme FastRabbit est implement par langage C++ 4.1 Resultats quantitatives Nous avons realis des experimentations avec plusieurs seuils de correlation pour evaluer la performance de l’algorithme en terme de temps d’execution et nombre de motifs detectes Figure 5.1 montre le resultat : Figure 4.1 { Performance de l’algorithme FastRabbit Le temps le plus grand pour executer l’algorithme est heures 42 minutes, le temps d’execution moyen est heures 48 minutes Avec un seuil de correlation est grand, le graphe ar^etes-attribuees contient seulement des ar^etes qui sont bien correlees, il est moins dense que les graphes avec des correlations faibles, le temps d’execution est donc diminue Nous en concluons que plus petit le seuil de correlation, plus temps d’execution demande, autrement dit, le temps d’execution diminue lineairement avec la correlation 22 Maintenant, observons le nombre de motifs de skyline, il est varie de 74 a 89 motifs Nous n’avons pas une relation monotone entre le nombre de motifs avec le temps d’execution ou la correlation Apres avoir calcule le resultat, nous avons regroup des motifs similaires Le changement de nombre de motifs est present dans le gure suivante : Figure 4.2 { Nombre de motifs avant et apres post-traitement Nous voyons que le nombre de motifs a fortement diminue apres une t^ache de post-traitement Ob-servons une exemple, avec le seuil de correlation 0.6, nous avons au debut 79 motifs mais apres la post-traitement, il reste 29 motifs qui sont vraiment di erents Comme dans l’etape d’enumeration des contextes pour explorer des motifs, nous avons des contextes similaires et ils donnent des m^emes motifs C’est la raisons pour laquelle nous obtenons des resultats redondants 4.2 4.2.1 Resultats qualitatives et Comparaison avec EMM Resultats qualitatives Nous explorons et analysons des motifs speciaux sur le jeu de donnees du projet RESSOURCES-HBS Tout d’abord, nous essayons de visualiser la positions des capteurs ( gure 4.3) d’apres la structure reelle, des capteurs en m^emes types ont la m^eme couleur Nous avons deux facades : l’exterieur et l’interieur Les capteurs qui commencent le nom par lettre "T" mesure la temperature, lettre "V" mesure le vente On n’a pas la position de certains capteurs speciaux qui mesurent l’humidite, le soleil 23 Figure 4.3 { Visualisation des positions de capteurs Ensuite, nous executons l’algorithme avec le seuil de correlation 0.6 Au debut, avec le contexte general ?, le graphe est tres dense ( gure 4.4) Figure 4.4 { Graphe ar^etes-attribuees avec contexte generale ? Apres avoir nit l’algorithme, nous obtenons 29 motifs di erents Dans le gure 4.5, un motif exceptionnel presente des interactions entre les capteurs Le contexte correspondant est : C = nonEnsoleillee; V entee; (Chaude ou pasChaude); correlation P earson [0:6; 1]; distanceSAX [0; 5]; distanceDT W [0; 15] Les qualites de ce motif sont : qualite totale d’ar^etes q( e2C (q(e; C)) = 78:38, qualite moyenne q = 0:13, le nombre de sommet jV j = 95, le nombre d’ar^etes jV j = 572 Les jours correspondants avec le phenomene sont aussi ltres A la facade de l’exterieur, nous proposons beaucoup de phenomenes entre les types de capteur di erents Concernant des capteurs speciaux (le point noir en 24 bas), nous n’avons pas beaucoup de phenomenes interessants dans ce contexte Parmi les capteurs en m^eme type et proches, nous avons pas des ar^etes entre eux Comme des ar^etes entre m^eme type de capteur sont toujours tres bien correles et independants avec le contexte, l’hypothese null de teste du (e; C) est donc accepte, on refuse ces ar^etes Autrement dit, des ar^etes entre des capteurs en m^eme type ont la valeur (e; C) < 3:84 et ils sont rejetes Figure 4.5 { Un motif detect par l’algorithme FastRabbit Observons un autre motif dans le gure 4.6, on voit beaucoup de interactions entre des capteurs (en bas) qui mesurent l’humidite, le soleil avec des autres Les physiciens du CETHIL peuvent creer des hypotheses et considerer le resultat de ces capteurs Figure 4.6 { Un motif detect par l’algorithme FastRabbit L’algorithme explore des autres types de motifs Figure 4.7 presente un motif qui contient seulement capteurs Considerons les jours "Ensoleillee", nous detectons un motif comme dans le gure 4.8 Autre exemple, avec le jour type "non ventee", le motif comme dans le gure 4.9 est detect 25 Figure 4.7 { Un graphe qui a seulement sommets Figure 4.8 { Un motif avec le jour type "Ensoleillee" Figure 4.9 { Un motif avec le jour type "non Ventee" 26 4.2.2 Comparaison avec EMM Maintenant, nous comparons notre resultat avec le resultat e ectu par l’approche Exceptional Model Mining Avec EMM, il calcule d’abord le reseau bayesien du jeu de donnees et puis detecte des sous-groupes qui ont le reseau bayesien anormal Par exemple, avec l’entree est distance SAX (EMM accepte seulement une attribut de l’entree), le reseau bayesien global est : Figure 4.10 { Reseau bayesien du jeu de donnees Juillet 2012 L’interdependence de ce modele est : V entee ! Ensoleillee ! Chaude Des groupes exceptionnel ont le modele di erent, par exemple : Figure 4.11 { Un groupe exceptionnel detect par EMM En comparant avec le modele global, nous n’avons aucune relation entre des attributs cibles Une autre type de groupe exceptionnel detect par EMM : Figure 4.12 { Un autre resultat exceptionnel Nous voyons que ce groupe presente des jours ou l’interdependence est : Chaude ! V entee, vraiment 27 di erent avec le modele du jeu de donnees Chaque groupe est decrit par condition de l’attribut entree, par exemple, avec le groupe dans gure 4.12, sa condition est : distance de capteurs "II-Vd5" et "II-Vg2" est inferieure que 4.196467 Figure 4.13 { Conditions pour determiner un groupe En conclusion, notre algorithme FastRabbit et l’approche EMM font le m^eme t^ache : detection des sous-groups anormaux dans un jeu de donnees Chaque sous-groupe est determin par des conditions sur l’attribut entr et l’inter^et d’un motif est identi par des mesures de qualite Le point di erent entre deux approches, EMM n’accepte qu’un attribut de l’entr alors que FastRabbit peut travailler avec un ensemble d’attributs comme l’entree En plus, EMM montre seulement le modele general d’un groupe exceptionnel, il ne presente pas des interactions entre des elements du groupe Par contre, en utilisant des technique du graphe, FastRabbit montre clairement le structure du motif exceptionnel, les interactions entre des elements ansi que le changement, l’evolution des sous-groupes dans les conditions di erents 28 Chapitre Conclusion Dans ce memoire, nous avons present une methode pour extraire des motifs d’optimum Pareto (sky-line) dans le graphe ar^etes-attribuees Notre objectif est de trouver des composantes connexes extr^emes signi catives en donnant certains contraintes Ce probleme a beaucoup d’applications dans des domaines di erents, particulierement dans des systeme de recommandation [13, 14, 15, 16] Pour obtenir le resultat dans ce projet, nous avons calcule les distances DTW et SAX entre des capteurs a n de de nir des attributs d’une ar^ete dans le graphe ar^etes-attribuees En e ectuant le teste statistique , nous veri ons une valeur signi cative d’un motif Et puis, nous introduisons mesures pour evaluer la qualite d’un motifs Ensuite, l’algorithme FastRabbit est present pour explorer des motifs sous contraintes L’espace de recherche est reduit en utilisant des upper-bounds Des experimentations, qui sont e ectuees sur le jeu de donnees du laboratoire thermique CETHIL, montrent l’e cacit de l’algorithme au niveau quantitatif et qualitatif Gr^ace des motifs detectes, nous pourrions eliciter des nouvelles hypotheses qu’on ne peut pas faire avec des approches existantes En perspective pour la suite des travaux, nous voudrions faire une analyse interactive a plus grand echelle, non seulement dans le mois Juillet 2012 mais aussi dans tout une annee Autre c^ote, des explorations dans une periode plus court, e.g heures, peut ^etre considerer Une direction importante pour le futur travail est d’ameliorer la performance de l’algorithme FastRabbit L’identi cation des contextes di erents qui donnent m^eme motif peut ^etre une bonne idee pour reduire le temps d’execution 29 References [1] H.Pabiou L Gaillard, S Giroux-Julien Presentation du projet ressources : evaluation experimental de composants PV integres au batiment en guration double peau, 2014 [2] Francesco Bonchi, Aristides Gionis, Francesco Gullo, and Antti Ukkonen Chromatic correlation clustering In KDD, pages 1321{1329, 2012 [3] Edo Liberty Francesco Bonchi, David Garcia-Soriano Correlation clustering : from theory to practice In ACM SIGKDD, 2014 [4] W Duivesteijn, A Knobbe, A Feelders, and M van Leeuwen Subgroup discovery meets bayesian networks { an exceptional model mining approach In Data Mining (ICDM), 2010 IEEE 10th International Conference on, pages 158{167, Dec 2010 [5] Elena Tsiporkova Dynamic time warping algorithm In SIGKDD, 2012 [6] Steve Cassidy Tutorial matching patterns in time [7] Li Wei Jessica Lin, Eamonn Keogh and Stefano Lonardi Experiencing sax : a novel symbolic representation of time series In DMKD Journal, 2007 [8] Dennis Leman, Ad Feelders, and Arno Knobbe Exceptional model mining In Machine Learning and Knowledge Discovery in Databases, volume 5212, pages 1{16 Springer Berlin Heidelberg, 2008 [9] David Heckerman, Dan Geiger, and DavidM Chickering Learning bayesian networks : The combi-nation of knowledge and statistical data Machine Learning, 20(3) :197{243, 1995 [10] Guo-Jun Qi, Charu Aggarwal, Qi Tian, Heng Ji, and Thomas Huang Exploring context and content links in social media : A latent space method IEEE Trans Pattern Anal Mach Intell., 34(5) :850{ 862, May 2012 [11] Eamonn Keogh A Tutorial on Indexing and Mining Time Series Data In The 2001 IEEE International Conference on Data Mining University of California - Riverside, 2001 [12] Chotirat Ann Ratanamahatana and Eamonn Keogh Everything you know about dynamic time warping is wrong In SIAM International Conference on Data Mining, 2004 [13] W Lee, S Stolfo, and P Chan Learning patterns from unix execution traces for intrusion detection In AAAI workshop on AI methods in Fraud and Risk Management, 1997 30 [14] W Lee, S Stolfo, and K Mok Data mining framework for building intrusion detection models In IEEE Symposium on Security and Privacy, 1999 [15] S Ma and J Hellerstein Mining partially periodic event patterns with unknown periods In IEEE International Conference on Data Engineering, 2001 [16] H Mannila, H Toivonen, and A I Verkamo scovering frequent episodes in sequences In ACM KDD Conference, 1995 31 ... permet de representer naturellement de nombreux phenomenes reels La fouille de graphes est un domaine majeur de la fouille de donnees De nombreux travaux se sont interesses a fournir des methodes... connaissances dans des grandes bases de donnees s’appuiera donc sur une modelisation sous forme de graphes ar^ete -attribues L’approche developpee devra faire avancer l’etat de l’art sur la fouille de donnees... de detecter des anomalies ou des comportements speciaux En plus, avec la croissance des arbres devant la facade et sur l’horizon, des impacts de cette evenement sur des capteurs seront consideres

Ngày đăng: 30/10/2020, 21:19

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w