Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 40 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
40
Dung lượng
5,18 MB
Nội dung
UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL DUONG Minh Duc FOUILLE DE GRAPHES DYNAMIQUES ATTRIBUES DECOUVERTE DE PHENOMENES PERIODIQUES ET EXCEPTIONNELS KHAI PHÁ ĐỒ THỊ THUỘC TÍNH LINH HOẠT PHÁT HIỆN HIỆN TƯỢNG TUẦN HOÀN VÀ ĐỘT BIẾN MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2015 UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL DUONG Minh Duc FOUILLE DE GRAPHES DYNAMIQUES ATTRIBUES DECOUVERTE DE PHENOMENES PERIODIQUES ET EXCEPTIONNELS KHAI PHÁ ĐỒ THỊ THUỘC TÍNH LINH HOẠT PHÁT HIỆN HIỆN TƯỢNG TUẦN HOÀN VÀ ĐỘT BIẾN Spécialité: Réseaux et Systèmes Communicants Code: Programme pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de: Marc PLANTEVIT, Maître de conférences au LIRIS, équipe DM2L Céline ROBARDET, professeur au LIRIS, équipe DM2L HANOI – 2015 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Các thông tin trích dẫn Luận văn rõ nguồn gốc Signature de l’étudiant DUONG Minh Duc Table des mati` eres Remerciements iii R´ esum´ e iv Abstract v Introduction 1.1 Contexte g´en´eral et probl´ematique 1.2 Motivation et objectifs 1.3 Approche propos´ee 1.4 Contributions 1.5 Organisation du m´emoire ´ Etat de l’art 2.1 2.2 Revue de la bibliographie 2.1.1 Chromatic correlation clustering 2.1.2 Exceptional Model Mining 2.1.3 Discussions 10 S´erie temporelle et mesures de distance 11 2.2.1 Introduction de s´erie temporelle 11 2.2.2 Dynamic Time Warping 11 2.2.3 Symbolic Aggregate approXimation 14 M´ ethodes et solutions propos´ ees 18 3.1 Graphe arˆetes attribu´ees et mod´elisation du probl`eme 18 3.2 Formulation du probl`eme 19 3.2.1 D´efinitions pr´ealables 19 3.2.2 ´ Evaluation statistique d’une arˆete 19 3.2.3 Contexte particuli`ere 20 3.2.4 Formulation la tˆ ache de fouille des motifs 20 Algorithme FastRabbit 20 3.3 Exp´ erimentation et r´ esultats 4.1 22 R´esultats quantitatives i 22 4.2 R´esultats qualitatives et Comparaison avec EMM 23 4.2.1 R´esultats qualitatives 23 4.2.2 Comparaison avec EMM 27 Conclusion 29 R´ ef´ erences 30 ii Remerciements Tout d’abord, j’adresse mes remerciements au Laboratoire d’InfoRmatique en Image et Syst`emes d’information (LIRIS) d’avoir financ´e ce travail Je tiens ` a remercier tout particuli`erement mes encadrants Marc Plantevit et C´eline Robardet Ils m’ont guid´e et support´e dans tous les ´etapes de ce stage La dur´ee mois de travail avec eux n’est pas beaucoup mais il m’a suffit d’avoir confiance `a continuer des ´etudes dans l’avenir Je remercie ´egalement Albrecht Zimmermann ainsi que tous les membres de l’´equipe DM2L pour des discussions et suggestions Finalement, je remercie sinc`erement mes parents et mes camarades pour leurs soutiens pendant cette p´eriode iii R´ esum´ e Les graphes sont une abstraction math´ematique qui permet de repr´esenter naturellement de nombreux ph´enom`enes r´eels La fouille de graphes est un domaine majeur de la fouille de donn´ees De nombreux travaux se sont int´eress´es ` a fournir des m´ethodes pour analyser des grands graphes en se focalisant sur sa structure R´ecemment, face ` a l’h´et´erog´en´eit´e des sources de donn´ees continues comme par exemple des donn´ees temporelles provenant de diff´erents types de capteurs (e.g., temp´erature, humidit´e, vent, position), des propositions visant ` a travailler sur des structures de graphes plus sophistiqu´ees telles que les graphes arˆetes-attribu´ees sont apparues, apportant des ´eclairages nouveaux sur de telles donn´ees L’objectif de ce stage de master est de concevoir une m´ethode originale d’extraction de connaissances pertinentes dans des donn´ees temporelles et h´et´erog`enes que nous mod´eliserons sous forme de graphes arˆetes-attribu´ees Il s’agit donc de d´efinir une m´ethode g´en´erique permettant d’extraire des comportements p´eriodiques dans des graphes arˆetes-attribu´ees Le mod`ele global ainsi construit pourra ˆetre ensuite utilis´e pour d´ecouvrir et expliquer des comportements anormaux/exceptionnels dans les donn´ees Ce sujet de master qui s’inscrit dans le domaine de l’extraction de connaissances dans des grandes bases de donn´ees s’appuiera donc sur une mod´elisation sous forme de graphes arˆete-attribu´es L’approche d´evelopp´ee devra faire avancer l’´etat de l’art sur la fouille de donn´ees sous contraintes, les m´ethodes d’extraction de motifs, la fouille de donn´ees interactive Des exp´erimentations sur des donn´ees issues de centrales photovolta¨ıques seront men´ees Mots-cl´es : graphe arˆetes-attribu´ees, s´eries temporelles, FastRabbit, fouille des motifs locaux iv Abstract Graph is a mathematical abstraction that can naturally represent many real phenomena The graph mining is a major field of data mining Many studies have focused on providing methods to analyze large graphs by focusing on its structure Recently, the heterogeneity of continuous sources of data such as temporal data from different types of sensors (eg, temperature, humidity, wind, position), proposals to work on more sophisticated graph structures such as edge-attributed graphs The aim of this master intership is to design an original method of extraction knowledge in temporal and heterogeneous data that we will model as edge-attributed graphs It is therefore to define a generic method for extracting periodic behavior in the edge-attributed graphs The global model thus constructed can then be used to explore and explain abnormal/exceptional behavior in the data This topic master who is in the field of knowledge discovery in large databases will rely on modeling as edge-attributed graphs The developed approach will advance the state of the art data mining with constraints, the methods of motif extraction, interactive data mining Experiments on data from photovoltaic central will be conducted Keywords : edge-attributed graphs, time series, FastRabbit, local pattern mining v Table des figures 1.1 Structure des capteurs photovolta¨ıques [1] 1.2 Des arbres devant la fa¸cade et sur l’horizon [1] 2.1 Un exemple de Chromatic correlation clustering [2] 2.2 Un exemple de r´eseau social [3] 2.3 Une partition de Chromatic Correlation Clustering [3] 2.4 Coˆ ut de Chromatic Correlation Clustering [3] 2.5 Un exemple de graphe arˆetes-´etiquett´es [2] 2.6 Un exemple de clustering par Chromatic pivot [3] 2.7 Un exemple de clustering par Lazy Chromatic pivot [3] 2.8 Exemple d’un r´eseau bay´esien [4] 2.9 Exemple d’une s´erie temporelle 11 2.10 La diff´erence entre distance Euclidienne et distance DTW [5] 12 2.11 Un grid DTW [6] 12 2.12 Condition monotone [5] 13 2.13 Condition de continuit´e [5] 13 2.14 Condition de fronti`ere [5] 13 2.15 Condition de Warping Window [5] 14 2.16 Condition d’angle [5] 14 2.17 Une s´equence de la taille 128 est r´eduite en dimensions [7] 15 2.18 Le tableau statistique pour diviser la courbe Gaussienne [7] 16 2.19 Discretisation avec le nombre de symbol a = [7] 16 2.20 Distance mesur´ee sur la repr´esentation symbolique [7] 16 2.21 Le tableau utilis´e par la fonction MINDIST [7] 17 4.1 Performance de l’algorithme FastRabbit 22 4.2 Nombre de motifs avant et apr`es post-traitement 23 4.3 Visualisation des positions de capteurs 24 4.4 Graphe arˆetes-attribu´ees avec contexte g´en´erale 24 4.5 Un motif d´etect´e par l’algorithme FastRabbit 25 4.6 Un motif d´etect´e par l’algorithme FastRabbit 25 4.7 Un graphe qui a seulement sommets 26 4.8 Un motif avec le jour type ”Ensoleill´ee” 26 vi 4.9 Un motif avec le jour type ”non Vent´ee” 26 4.10 R´eseau bay´esien du jeu de donn´ees Juillet 2012 27 4.11 Un groupe exceptionnel d´etect´e par EMM 27 4.12 Un autre r´esultat exceptionnel 27 4.13 Conditions pour d´eterminer un groupe 28 Figure 2.21 – Le tableau utilis´e par la fonction MINDIST [7] Ce tableau est utilis´e pour un alphabet de cardinalit´e 4, i.e., a = Par exemple, dist(a,b) = et dist(a,d) = 1.34 Une cellule(r,c) quelconque du tableau est calcul´ee d’apr`es cette expression : Une remarque ici, deux symboles cons´ecutives ont la distance Dans [7], l’auteur a prouv´e que cette distance symbolique est corr´el´ee avec distance Euclidienne sur des s´eries temporelles originales Autrement dit, SAX fournit une mesure de distance avec lower-bound de distance Euclidienne 17 Chapitre M´ ethodes et solutions propos´ ees Dans ce chapitre, nous pr´esentons le probl`eme sous forme graphe arˆetes-attribu´ees, i.e., nous d´efinissons des attributs et des conditions sur une arˆete Ensuite, des notions math´ematiques et quelques mesures ` la fin de ce chapitre, l’algorithme FastRabbit est pr´esent´e pour de qualit´e d’un motif sont introduites A d´etecter des motifs exceptionnels 3.1 Graphe arˆ etes attribu´ ees et mod´ elisation du probl` eme Pour mod´eliser le probl`eme sous forme graphe arˆetes-attribu´ees, nous consid´erons chaque capteur est un sommet du graphe Une arˆete pr´esente la relation entre capteurs pendant un jour Les attributs d’une arˆete sont : Distance DTW et SAX entre capteurs, ces distances sont pr´esent´ees dans le chapitre pr´ec´edent Corr´ elation Pearson entre capteurs, l’´evolution de r´eseau de capteurs (i.e., la corr´elation entre des capteur) est focalis´ee afin de d´etecter des ph´enom`enes anormaux Dans ce stage, nous avons test´e la corr´elation avec types de corr´elation diff´erents : Pearson et Kendall, le r´esultat est similaire Donc, nous utilisons seulement la corr´elation Pearson Jour type, il est aussi pertinent de faire des analyses diff´erentielles, notamment en fonction des jours types (ensoleill´e, vent´ee, chaude) Ces ”jours types” sont d´efinis `a l’aide d’une requˆete d’apr`es des ´eclaircissements suivants : Enfin, pour d´eterminer des arˆetes d’un graphe, nous avons un terme : contexte Un contexte est un tuple des conditions sur des attributs pour filtrer les arˆetes qui satisfont ces conditions Par exemple, sur une arˆete, on a attributs : distance DTW, SAX, corr´elation et jour type, un contexte C = ( [0 ;5], [1 ;12], [0.6 ;1], 1, 0, ) filtre des arˆetes qui satisfont : ≤ distanceDT W ≤ 5, ≤ distanceSAX ≤ 12, 0.6 ≤ correlation ≤ 1, ensoleille, non vent´ee, chaude 18 Nous voyons que chaque contexte identifie un graphe, le travail de d´etection des graphes sp´eciaux est ´equivalent avec la d´etection des contextes sp´eciaux En ´enum´erant des contextes, on va v´erifier la qualit´e des graphes correspondants L’espace de recherche (le nombre de candidat de contexte) est un probl`eme de cette approche, des upper-bounds de qualit´e seront introduit pour ´eliminer des contextes non prometteurs 3.2 3.2.1 Formulation du probl` eme D´ efinitions pr´ ealables Chaque ligne dans le jeu de donn´ees est d´efinit de la mani`ere suivante [Mid , V1 , V2 , A1 , , Ak ], o` u Mid est l’ensemble d’identifications de transaction, V1 ⊂ V est le sommet de d´epart, V2 ⊂ V d´enote le sommet d’arriv´ee et A = {A1 , , Ak } est l’ensemble d’attributs d’arˆete D´ efinition (Contexte) Un contexte est un tuple C = (A1 , , Ak ), o` u Ai ⊆ dom(Ai ) Le contexte le plus g´en´eral = (dom(A1 ), , dom(Ak )) couvre tous les transactions D´ efinition (Filtre d’un contexte) Avec un contexte C = (A1 , , Ak ), la fonction filtr´ee TC calcule les transactions qui satisfont le contexte : TC = {(mi d, vi , vj , a1 , , ak ) ∈ T | ∈ Ai , ∀i ∈ [1, k]} TC (e) est les transactions qui traversent l’arˆete e ∈ V × V et satisfont le contexte C : TC (e = (x, y)) = {(mi d, x, y, a1 , , ak ) ∈ TC } D´ efinition Avec un contexte C = (A1 , , Ak ), et la fonction filtr´ee T, le graphe qui respecte le contexte C est GC = (VC , EC , WC ) o` u: — VC = {v | ∃(mi d, v, vj , a1 , , ak ) ∈ TC ou, ∃(mi d, vi , v, a1 , , ak ) ∈ TC } — EC est l’ensemble d’arˆetes pour laquelle au moins θW transactions satisfont le contexte C, i.e., EC = {e ∈ E | |Te (C)| ≥ θW } — WC est une fonction de EC ` a R WC (e) est ´egal ` a le nombre de transactions associ´ee ` a e qui satisfait C, i.e WC (e) = |Te (C)| 3.2.2 ´ Evaluation statistique d’une arˆ ete Pour ´evaluer la sp´ecialit´e d’une contexte C avec une arˆete e, nous consid´erons la proportion de nombre de transactions sur l’arˆete e qui satisfait le contexte et nous proposons de estimer statistiquement cette valeur par le teste d’ind´ependance χ2 Ce teste d´etermine l’arˆete e a une valeur plus significative (int´eressante) dans le contexte C que dans le graphe entier (contexte ) La distribution nulle est approch´ee par la distribution χ2 avec le degr´e de libert´e et le risque d’erreur 5%, la valeur critique est χ1 (0.05) = 3.84 Pour rejeter l’hypoth`ese nulle, nous consid´erons seulement des arˆete qui ont χ2 (e, C) > 3.84 et concluons les arˆetes ont une valeur significative avec la confiance 95% 19 3.2.3 Contexte particuli` ere Avec un contexte trop sp´ecifique, nous obtenons facilement des arˆetes hautes significatives (tr`es sp´eciales) en comparant avec le graphe entier Pour ´eviter ce probl`eme, nous introduisons un facteur normalis´e qui p´enalise des contextes trop sp´ecifiques : q(e, C) = maxx∈EC WC (x) WC (e) W∗ (e) × − maxx∈EC W∗ (x) maxx∈EC WC (x) maxx∈EC W∗ (x) Pour un contexte C, nous consid´erons qu’une arˆete a une valeur significative si et seulement si q(e, C) > 3.2.4 Formulation la tˆ ache de fouille des motifs 2 χ χ D´enotons GχC = (V, EC ) est le sous-graphe de GC , EC = {e ∈ EC | X (e, C) ≥ 3.84 et q(e, C) ≥ 0} Les motifs qu’on va chercher sont des composantes connexes de GχC L’ensemble de ces motifs est d´enot´e 2 χ χ CCC = {(X, Y ) | X ⊆ V, Y ⊆ EC } χ Nous d´enotons M est l’ensemble des mesures de qualit´e d’un motif dans CCC Chaque mesure donne une valeur r´eelle pour chaque motif, les motifs sont donc comparables Nous chercherons seulement des motifs qui maximisent ces mesures de qualit´e Donner l’ensemble de mesures de qualit´e M = {m1 , , mk }, les motifs int´eressants appartient la fronti`ere Pareto, appel´e skyline Dans cet ensemble, chaque motifs ne domine pas les autres D´ efinition (Dominance) Donner l’ensemble de mesures de qualit´e M = {m1 , , mk }, un motif Qd domine autre motif Qs , d´enoter Qd >M Qs , si et seulement si ∀i = k, mi (Qd ) ≥ mi (Qs ) and ∃j = k, mj (Qd ) > mj (Qs ) La tˆ ache de fouille des motifs est formuler comme suivante : Donner un graphe arˆetes-attribu´ees, l’ensemble des mesure de qualit´e M , le probl`eme de fouille des motifs est de calculer les motifs de skyline qui sont d´efinit par : 2 χ {(C, (X, Y )) | (X, Y ) ∈ CCC et (C , (X , Y )) ∈ CCCχ , telle que (C , (X , Y )) >M (C, (X, Y ))} Nous voyons le probl`eme, si on veut chercher des meilleurs motifs au seins d’optimum Pareto, nous devons consid´erer tous les contextes et les composantes connexes correspondantes L’espace de recherche est grande et le temps travers´e est le d´efi majeur Pour identifier l’int´erˆet d’un motif, un end-user peut d´efinir ses mesures de qualit´e Dans ce travail, nous proposons quelques mesures de qualit´e sp´ecifiques : — le nombre de sommets mv = |X| — le nombre d’arˆetes me = |Y | — q Σ (C, (X, Y )) = Σe∈Y q(e, C) — q¯(C, (X, Y )) = 3.3 q Σ (C,(X,Y )) |Y | Algorithme FastRabbit L’algorithme ´enum`ere des contextes d’apr`es le profondeur d’abord L’´enum´eration de tous les contextes possibles n’est pas faisable La calcul des upper-bounds sur les mesures de qualit´e est effectu´e pour 20 ´eliminer des contexte non prometteur En ´enum´erant un contexte, si des conditions de upper-bounds ne sont pas satisfait, nous n’´enum´erons plus des nouveaux contextes d’apr`es cette branche L’´enum´eration peut ˆetre repr´esent´ee comme un arbre, chaque nœud est un contexte C D´enotons Cand est l’ensemble des extensions possibles pour C, i.e., l’ensemble de restrictions qui peut ajouter dans C L’algorithme FastRabbit est pr´esente suivante : Algorithme : FastRabbit Input : C : the current context, Cand : the elements restrictions of C, S : the skyline - current set of patterns, M : the quality measures Output : The current skyline begin Compute the graph GC Y ← Y \ {e ∈ EC | χ2 (e, C) < 3.84 or q(e, C) < 0} for (X , Y ) ∈ connected components(GC = (X, Y ) for m ∈ M Calculate m(C, (X , Y )) if s ∈ S | s >M (C, (X , Y )) then S ← S ∪ (C, (X , Y )) \ {s ∈ S | (C, (X , Y )) >M s } Σ Σ Compute upper bounds qub (C), qub (C) and q¯ub (C) 10 Σ if ∃s ∈ S such that |EC | ≤ me (s) and |VC | ≤ mv (s) and qub (C) ≤ q Σ (s) and 11 Σ (C) ≤ q Σ (s) and q¯ub (C) ≤ q¯(s) then qub 12 13 return S else 14 for l ∈ Cand 15 C ← C ∪ {l} 16 Cand ← Cand \ {l} 17 FastRabbit(C,Cand,S,M ) 18 C ← C \ {l} 19 return S Consid´erons le contexte C qui est en train d’explorer, l’algorithme calcule des motifs d’optimum Pareto dans le graphe correspondant de ce contexte L’algorithme calcule d’abord le graphe GC (ligne 2), et puis χ calcule EC en basant des calculs de χ2 (e, C) et q(e, C) pour chaque arˆete e Ensuite, les composantes connexes de GχC sont identifi´ees (ligne 4) pour cr´eer des candidats de skyline (C, (X , Y )) Avec le skyline S courant, si (C, (X , Y )) n’est pas domin´e dans S (ligne 7), on ajoute des candidats (C, (X , Y )) ` a S et mise ` a jour S en supprimant des motifs qui sont domin´es par le nouveau motif (ligne 8) Et puis, les upper-bounds sont calcul´es (ligne 9), si le contexte courant n’est pas prometteur, nous arrˆetons d’explorer d’apr`es cet branche de l’arbre de recherche (ligne 10) Si non, nous continuons ` a pr´eciser le contexte C et l’algorithme FastRabbit est appel´e r´ecursivement 21 Chapitre Exp´ erimentation et r´ esultats Dans ce chapitre, nous pr´esentons des exp´erimentations et r´esultats pour montrer l’int´erˆet de l’approche propos´ee Tous les exp´erimentations sont effectu´ees sur un ordinateur avec le processeur Dual Core 2×2.6 GHz, GB de RAM et sous syst`eme d’exploitation Linux L’algorithme FastRabbit est impl´ement´e par langage C++ 4.1 R´ esultats quantitatives Nous avons r´ealis´e des exp´erimentations avec plusieurs seuils de corr´elation pour ´evaluer la performance de l’algorithme en terme de temps d’ex´ecution et nombre de motifs d´etect´es Figure 5.1 montre le r´esultat : Figure 4.1 – Performance de l’algorithme FastRabbit Le temps le plus grand pour ex´ecuter l’algorithme est heures 42 minutes, le temps d’ex´ecution moyen est heures 48 minutes Avec un seuil de corr´elation est grand, le graphe arˆetes-attribu´ees contient seulement des arˆetes qui sont bien corr´el´ees, il est moins dense que les graphes avec des corr´elations faibles, le temps d’ex´ecution est donc diminu´e Nous en concluons que plus petit le seuil de corr´elation, plus temps d’ex´ecution demand´e, autrement dit, le temps d’ex´ecution diminue lin´eairement avec la corr´elation 22 Maintenant, observons le nombre de motifs de skyline, il est vari´e de 74 `a 89 motifs Nous n’avons pas une relation monotone entre le nombre de motifs avec le temps d’ex´ecution ou la corr´elation Apr`es avoir calcul´e le r´esultat, nous avons regroup´e des motifs similaires Le changement de nombre de motifs est pr´esent´e dans le figure suivante : Figure 4.2 – Nombre de motifs avant et apr`es post-traitement Nous voyons que le nombre de motifs a fortement diminu´e apr`es une tˆache de post-traitement Observons une exemple, avec le seuil de corr´elation 0.6, nous avons au d´ebut 79 motifs mais apr`es la post-traitement, il reste 29 motifs qui sont vraiment diff´erents Comme dans l’´etape d’´enum´eration des contextes pour explorer des motifs, nous avons des contextes similaires et ils donnent des mˆemes motifs C’est la raisons pour laquelle nous obtenons des r´esultats redondants 4.2 4.2.1 R´ esultats qualitatives et Comparaison avec EMM R´ esultats qualitatives Nous explorons et analysons des motifs sp´eciaux sur le jeu de donn´ees du projet RESSOURCES-HBS Tout d’abord, nous essayons de visualiser la positions des capteurs (figure 4.3) d’apr`es la structure r´eelle, des capteurs en mˆemes types ont la mˆeme couleur Nous avons deux fa¸cades : l’ext´erieur et l’int´erieur Les capteurs qui commencent le nom par lettre ”T” mesure la temp´erature, lettre ”V” mesure le vente On n’a pas la position de certains capteurs sp´eciaux qui mesurent l’humidit´e, le soleil 23 Figure 4.3 – Visualisation des positions de capteurs Ensuite, nous ex´ecutons l’algorithme avec le seuil de corr´elation 0.6 Au d´ebut, avec le contexte g´en´eral , le graphe est tr`es dense (figure 4.4) Figure 4.4 – Graphe arˆetes-attribu´ees avec contexte g´en´erale Apr`es avoir finit l’algorithme, nous obtenons 29 motifs diff´erents Dans le figure 4.5, un motif exceptionnel pr´esente des interactions entre les capteurs Le contexte correspondant est : C = nonEnsoleillee, V entee, ∗ (Chaude ou pasChaude), correlation P earson ∈ [0.6; 1], distanceSAX ∈ [0; 5], distanceDT W ∈ [0; 15] Les qualit´es de ce motif sont : qualit´e totale d’arˆetes q Σ (Σe∈C (q(e, C)) = 78.38, qualit´e moyenne q¯ = 0.13, le nombre de sommet |V | = 95, le nombre d’arˆetes |V | = 572 Les jours ` la fa¸cade de l’ext´erieur, nous proposons beaucoup correspondants avec le ph´enom`ene sont aussi filtr´es A de ph´enom`enes entre les types de capteur diff´erents Concernant des capteurs sp´eciaux (le point noir en 24 bas), nous n’avons pas beaucoup de ph´enom`enes int´eressants dans ce contexte Parmi les capteurs en mˆeme type et proches, nous avons pas des arˆetes entre eux Comme des arˆetes entre mˆeme type de capteur sont toujours tr`es bien corr´el´es et ind´ependants avec le contexte, l’hypoth`ese null de teste du χ2 (e, C) est donc accept´e, on refuse ces arˆetes Autrement dit, des arˆetes entre des capteurs en mˆeme type ont la valeur χ2 (e, C) < 3.84 et ils sont rejet´es Figure 4.5 – Un motif d´etect´e par l’algorithme FastRabbit Observons un autre motif dans le figure 4.6, on voit beaucoup de interactions entre des capteurs (en bas) qui mesurent l’humidit´e, le soleil avec des autres Les physiciens du CETHIL peuvent cr´eer des hypoth`eses et consid´erer le r´esultat de ces capteurs Figure 4.6 – Un motif d´etect´e par l’algorithme FastRabbit L’algorithme explore des autres types de motifs Figure 4.7 pr´esente un motif qui contient seulement capteurs Consid´erons les jours ”Ensoleill´ee”, nous d´etectons un motif comme dans le figure 4.8 Autre exemple, avec le jour type ”non vent´ee”, le motif comme dans le figure 4.9 est d´etect´e 25 Figure 4.7 – Un graphe qui a seulement sommets Figure 4.8 – Un motif avec le jour type ”Ensoleill´ee” Figure 4.9 – Un motif avec le jour type ”non Vent´ee” 26 4.2.2 Comparaison avec EMM Maintenant, nous comparons notre r´esultat avec le r´esultat effectu´e par l’approche Exceptional Model Mining Avec EMM, il calcule d’abord le r´eseau bay´esien du jeu de donn´ees et puis d´etecte des sousgroupes qui ont le r´eseau bay´esien anormal Par exemple, avec l’entr´ee est distance SAX (EMM accepte seulement une attribut de l’entr´ee), le r´eseau bay´esien global est : Figure 4.10 – R´eseau bay´esien du jeu de donn´ees Juillet 2012 L’interd´ependence de ce mod`ele est : V entee → Ensoleillee → Chaude Des groupes exceptionnel ont le mod`ele diff´erent, par exemple : Figure 4.11 – Un groupe exceptionnel d´etect´e par EMM En comparant avec le mod`ele global, nous n’avons aucune relation entre des attributs cibl´es Une autre type de groupe exceptionnel d´etect´e par EMM : Figure 4.12 – Un autre r´esultat exceptionnel Nous voyons que ce groupe pr´esente des jours o` u l’interd´ependence est : Chaude → V entee, vraiment 27 diff´erent avec le mod`ele du jeu de donn´ees Chaque groupe est d´ecrit par condition de l’attribut entr´ee, par exemple, avec le groupe dans figure 4.12, sa condition est : distance de capteurs ”II-Vd5” et ”II-Vg2” est inf´erieure que 4.196467 Figure 4.13 – Conditions pour d´eterminer un groupe En conclusion, notre algorithme FastRabbit et l’approche EMM font le mˆeme tˆache : d´etection des sous-groups anormaux dans un jeu de donn´ees Chaque sous-groupe est d´etermin´e par des conditions sur l’attribut entr´e et l’int´erˆet d’un motif est identifi´e par des mesures de qualit´e Le point diff´erent entre deux approches, EMM n’accepte qu’un attribut de l’entr´e alors que FastRabbit peut travailler avec un ensemble d’attributs comme l’entr´ee En plus, EMM montre seulement le mod`ele g´en´eral d’un groupe exceptionnel, il ne pr´esente pas des interactions entre des ´el´ements du groupe Par contre, en utilisant des technique du graphe, FastRabbit montre clairement le structure du motif exceptionnel, les interactions entre des ´el´ements ansi que le changement, l’´evolution des sous-groupes dans les conditions diff´erents 28 Chapitre Conclusion Dans ce m´emoire, nous avons pr´esent´e une m´ethode pour extraire des motifs d’optimum Pareto (skyline) dans le graphe arˆetes-attribu´ees Notre objectif est de trouver des composantes connexes extrˆemes significatives en donnant certains contraintes Ce probl`eme a beaucoup d’applications dans des domaines diff´erents, particuli`erement dans des syst`eme de recommandation [13, 14, 15, 16] Pour obtenir le r´esultat dans ce projet, nous avons calcul´e les distances DTW et SAX entre des capteurs afin de d´efinir des attributs d’une arˆete dans le graphe arˆetes-attribu´ees En effectuant le teste statistique χ2 , nous v´erifions une valeur significative d’un motif Et puis, nous introduisons mesures pour ´evaluer la qualit´e d’un motifs Ensuite, l’algorithme FastRabbit est pr´esent´e pour explorer des motifs sous contraintes L’espace de recherche est r´eduit en utilisant des upper-bounds Des exp´erimentations, qui sont effectu´ees sur le jeu de donn´ees du laboratoire thermique CETHIL, montrent l’efficacit´e de l’algorithme au niveau quantitatif et qualitatif Grˆace des motifs d´etect´es, nous pourrions ´eliciter des nouvelles hypoth`eses qu’on ne peut pas faire avec des approches existantes En perspective pour la suite des travaux, nous voudrions faire une analyse interactive `a plus grand ´echelle, non seulement dans le mois Juillet 2012 mais aussi dans tout une ann´ee Autre cˆot´e, des explorations dans une p´eriode plus court, e.g heures, peut ˆetre consid´erer Une direction importante pour le futur travail est d’am´eliorer la performance de l’algorithme FastRabbit L’identification des contextes diff´erents qui donnent mˆeme motif peut ˆetre une bonne id´ee pour r´eduire le temps d’ex´ecution 29 R´ ef´ erences [1] H.Pabiou L Gaillard, S Giroux-Julien Pr´esentation du projet ressources : ´evaluation exp´erimental de composants PV int´egr´es au batiment en configuration double peau, 2014 [2] Francesco Bonchi, Aristides Gionis, Francesco Gullo, and Antti Ukkonen Chromatic correlation clustering In KDD, pages 1321–1329, 2012 [3] Edo Liberty Francesco Bonchi, David Garcia-Soriano Correlation clustering : from theory to practice In ACM SIGKDD, 2014 [4] W Duivesteijn, A Knobbe, A Feelders, and M van Leeuwen Subgroup discovery meets bayesian networks – an exceptional model mining approach In Data Mining (ICDM), 2010 IEEE 10th International Conference on, pages 158–167, Dec 2010 [5] Elena Tsiporkova Dynamic time warping algorithm In SIGKDD, 2012 [6] Steve Cassidy Tutorial matching patterns in time [7] Li Wei Jessica Lin, Eamonn Keogh and Stefano Lonardi Experiencing sax : a novel symbolic representation of time series In DMKD Journal, 2007 [8] Dennis Leman, Ad Feelders, and Arno Knobbe Exceptional model mining In Machine Learning and Knowledge Discovery in Databases, volume 5212, pages 1–16 Springer Berlin Heidelberg, 2008 [9] David Heckerman, Dan Geiger, and DavidM Chickering Learning bayesian networks : The combination of knowledge and statistical data Machine Learning, 20(3) :197–243, 1995 [10] Guo-Jun Qi, Charu Aggarwal, Qi Tian, Heng Ji, and Thomas Huang Exploring context and content links in social media : A latent space method IEEE Trans Pattern Anal Mach Intell., 34(5) :850– 862, May 2012 [11] Eamonn Keogh A Tutorial on Indexing and Mining Time Series Data In The 2001 IEEE International Conference on Data Mining University of California - Riverside, 2001 [12] Chotirat Ann Ratanamahatana and Eamonn Keogh Everything you know about dynamic time warping is wrong In SIAM International Conference on Data Mining, 2004 [13] W Lee, S Stolfo, and P Chan Learning patterns from unix execution traces for intrusion detection In AAAI workshop on AI methods in Fraud and Risk Management, 1997 30 [14] W Lee, S Stolfo, and K Mok Data mining framework for building intrusion detection models In IEEE Symposium on Security and Privacy, 1999 [15] S Ma and J Hellerstein Mining partially periodic event patterns with unknown periods In IEEE International Conference on Data Engineering, 2001 [16] H Mannila, H Toivonen, and A I Verkamo scovering frequent episodes in sequences In ACM KDD Conference, 1995 31 [...]... observer des sous parties et des comportements anormaux sur un graphe Dans le cadre de ce stage, nous proposons une m´ethode d’extraction des connaissances dans des donn´ees de capteurs que nous mod´eliserons sous forme de graphes arˆetes-attribu´ees L’approche d´evelopp´ee va faire avancer l’´etat de l’art sur la fouille de donn´ees sous contraintes et la fouille de motifs locaux L’objectif principal de. .. la fa¸cade et sur l’horizon, des impacts de cette ´ev´enement sur des capteurs seront consid´er´es car le ph´enom`ene d’ombrage est une contrainte obligatoire avec des ´etudes de temp´erature et solaire dans des villes modernes Figure 1.2 – Des arbres devant la fa¸cade et sur l’horizon [1] 1.2 Motivation et objectifs Avec le d´ev´elopement des technoligies, les volumes de donn´ees collect´ees par les... pr´esent´ee par une ´etiquette l `a partir d’un ensemble fini des ´etiquettes possibles L Si 2 objets x et y n’ont aucune relation, nous d´enotons par l’´etiquette l0 ∈ / L L’entr´ee de ce probl`eme est un graphe arˆetes-attribu´ees G = (V, E, L, l) o` u V est l’ensemble des sommets, E = {(x, y) ∈ V × V | l(x, y) = l0 }, chaque arˆetes a une ´etiquette dans L (on peut consid´erer 5 une ´etiquette comme une... d’extraction des sous -graphes similaires dans graphe arˆetesattribu´ees Ce probl`eme peut ˆetre consid´er´e comme un clustering des sommets d’un graphe dont des arˆetes ont des ´etiquettes (couleuars) diff´erents Figure 2.1 – Un exemple de Chromatic correlation clustering [2] La similarit´e d’objets x et y est pr´esent´ee par la fonction sim(x, y) Dans cet article [2], la relation entre des objets est pr´esent´ee... de toiles d’araign´ees (gˆenant pour la circulation d’air), certains des sondes d´econnect´ees ou partiellement d´ecoll´ees des surfaces Figure 1.1 – Structure des capteurs photovolta¨ıques [1] 2 L’objectif de cette installation est d’observer l’´evolution de r´eseau de capteurs afin de d´etecter des anomalies ou des comportements sp´eciaux En plus, avec la croissance des arbres devant la fa¸cade et. .. le domaine de ce travail Dans ce chapitre, nous pr´esentons aussi deux techniques DTW et SAX pour mesurer la distance entre des capteurs parce que des mesures de distance sont la cl´e des m´ethodes de d´etection des diff´erences ou des anomalies Dans le chapitre 3, nous repr´esentons le probl`eme sous forme graphe arˆetes-attribu´ees Ensuite, nous introduisons des d´efinitions formelles et l’algorithme... une base de donn´ees La premi`ere approche [2] et quelque travail comme [10] utilisent des informations d’arˆete (´etiquette, attribut ou poids) pour chercher des arˆetes similaires et puis, utilisent ces arˆetes pour regrouper des sommets, extraire sous -graphes dans graphe arˆetes-attribu´ees Contrairement, notre approche (sera pr´esenter dans le chapitre 3) ´evalue l’int´er et d’une arˆete en calculant... calculant le poids relatif d’une arˆete dans sous-graphe et dans graphe entier, sans regardant des arˆetes de voisins La deuxi`eme approche Exceptional Model Mining (EMM) [8, 4] d´etecte des sous-groupes significatifs et arnormaux dans une base de donn´ees Cette approche calcule d’abord le r´eseau bay´esien d’ensemble attributs cibl´ees dans le jeu de donn´ees et puis d´etecte des sous-groupes qui ont le r´eseau... pivot Retournons l’exemple au dessus, maintenant nous cherchons un sommet qui a le degr´e d’un couleur le plus grand Le sommet X ou Y ont mˆeme degr´e 5 de couleur verte Nous choisissons le sommet X Et puis, pour construire le pivot, nous cherchons un deuxi`eme sommet adjacent avec X et son degr´e est le plus grand Le sommet Y est donc choisit, le pivot maintenant est (X, Y ) Ensuite, les sommets {U,... d´eveloppement de l’algorithme FastRabbit qui extrait des motifs exceptionnels sous contraintes La sortie de cet algorithme est des motifs au sens d’optimum de Pareto, i.e., ce sont des meilleurs motifs d’apr`es des mesures de qualit´e et les uns ne dominent pas les autres 1.5 Organisation du m´ emoire La suite de ce m´emoire est organis´ee de la mani`ere suivante Le chapitre 2 effectue un tour d’horizon des