1. Trang chủ
  2. » Ngoại Ngữ

INTERNET MONITORING VIA ACTIVE PROBES ON PLANETLAB

49 64 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 49
Dung lượng 2,71 MB

Nội dung

I NSTITUT DE LA F RANCOPHONIE POUR U NIVERSIT E´ C LAUDE L’I NFORMATIQUE , B ERNARD DE LYON I, F RANCE V IETNAM INRIA S OPHIA A NTIPOLIS M E´ DITERRAN E´ E , F RANCE M E´ MOIRE DE FIN D ’ E´ TUDES I NTERNET M ONITORING VIA ACTIVE PROBES ON P LANETLAB R´ealis´e par: Ngo Cao Cuong Superviseurs: Dr Chadi B ARAKAT M Mohamad J ABER l’´equipe Plan`ete INRIA Sophia Antipolis M´editerran´ee France P R E´ SENT E´ POUR OBTENIR LE GRADE DE M ASTER I NFORMATIQUE S P E´ CIALIT E´ S YST E` MES ET R E´ SEAUX Hanoi Septembre, 2009 Remerciements Je voudrais particuli`erement remercier Dr Chadi BARAKAT, mon responsable de stage, pour l’encadrement, l’aide, les id´ees qu’il m’a donn´e pendant toute la dur´ee du stage Je tiens e´ galement a` remercier Mohamad JABER pour ses aides, ses commentaires et ses discussions qui ont fait progresser mon travail Je voudrais remercier tous les membres de l’´equipe Plan`ete a` l’INRIA Sophia Antipolis pour leur accueil chaleureux J’adresse mes sinc`eres remerciements a` tous les professeurs de l’IFI pour m’avoir enseign´e et m’inspirer pendant mes e´ tudes au master I R´esum´e Les syst`emes Internet a` base de coordonn´ees permettent un positionnement pratique des nœuds dans le r´eseau Dans ce type de syst`emes, l’id´ee principale est que si les distances r´eseau entre diff´erents nœuds Internet peuvent eˆ tre plong´ees dans un espace appropri´e, alors les distances non mesur´ees peuvent eˆ tre estim´ees en utilisant une simple op´eration de calcul de distance g´eom´etrique dans cet espace R´ecemment, on a pu prouver que ces syst`emes a` base de coordonn´ees e´ taient pr´ecis, avec une faible erreur de pr´ediction Cependant, des travaux ont prouv´e que ces coordonn´ees d´erivent et ne sont pas stables Dans ce travail, nous avons identifi´e cette oscillation et essay´e de caract´eriser des coordonn´ees par Vivaldi, un syst`eme de positionnement d´ecentralis´e Nous avons montr´e en premier lieu que la dynamique d’un nœud, dans un syst`eme de coordonn´ees, peut eˆ tre mod´elis´ee par un mod`ele de regroupement Nous essayons des algorithmes de regroupement pour caract´eriser les nœuds par leur changement de distance Par des exp´eriences sur Planetlab, un r´eseau d’ordinateurs utilis´e pour la recherche orient´ee r´eseaux, cette m´ethode nous permet d’observer quels nœuds qui se d´eplacent ensemble Puis, nous utilisons ce mod`ele pour traquer les probl`emes sur le r´eseau Par des simulations avec la topologie extraite du projet Iplane, nous avons exp´eriment´e plusieurs sc´enarios des anomalies, qui sont d´efinies comme des augmentations inattendues de d´elais La contribution majeure est donc un mod`ele de regroupement pour la d´etection des anomalies sur le r´eseau a` base des coordonn´ees II Abstract Internet coordinate-based systems allow easy network positioning In such systems, the basic idea is that if network distances between Internet nodes can be embedded in an appropriate space, unmeasured distances can be estimated using a simple distance computation in that space Recently, these coordinates-based systems have been shown to be accurate, with low distance prediction error However, recent works proved that these coordinates and its centroid drift away from their origin as long as the system runs In this work, we first identify such drift and then we try to characterize them on the recently proposed distributed positioning systems, namely Vivaldi We first show that the dynamic of a node, in a coordinate system, can be modeled by a method of hierarchical clustering We try several different algorithms of clustering to characterize nodes by their drift Through experiments conducted over PlanetLab, a network for distributed system research, this model allow us to observe clusters of nodes who move together Then we show, that the obtained model can be used to track problems on the large network Through simulations with real network topologies driven from the Iplane project, we experimented with different scenarios of anomalies, carried out by anomalous nodes that provide biased coordinates information and delay measurement probes The major contribution is therefore a model for network problem detection during coordinates embedding III Table de mati`eres Remerciements I R´esum´e II Abstract III Liste de figures Introduction 1.1 Motivations, probl´ematiques et contributions 1.2 La structure du m´emoire 1.3 Le contexte du stage Une vue d’ensemble des syst`emes de positionnement Internet 2.1 Services d’estimation de proximit´e par mesures directes 2.1.1 Les approches g´eographiques 2.1.2 IDMaps 2.1.3 Les approches bas´ees sur Traceroute 2.1.4 L’approche M´eridien 2.1.5 Des d´esavantages Syst`emes de coordonn´ees a` base de Balises Fixes 2.2.1 GNP: R´eseau de positionnement global 2.2.2 Lighthouse 2.2.3 Le syst`eme NPS Les syst`emes de coordonn´ees d´ecentralis´es 10 2.3.1 PIC Practical Internet Coordinate 11 2.3.2 Vivaldi 11 Discussion 12 2.2 2.3 2.4 VII Vue sur les coordonn´ees par l’exp´erimentation 13 3.1 Introduction de Planetlab 13 3.2 Pyxida, une impl´ementation de Vivaldi 13 3.3 R´esultats des coordonn´ees 14 IV 3.4 Temps de convergence 14 3.3.2 L’erreur relative 14 3.3.3 L’oscillation des coordonn´ees 15 3.3.4 Centre des nœuds 16 Discussion 16 Mod´elisation des coordonn´ees par le regroupement 18 4.1 DBSCAN 18 4.1.1 Analyse de DBSCAN 20 4.1.2 M´etrique de l’algorithme 20 4.1.3 Discussion 22 Regroupement hi´erarchique 22 4.2.1 D´efinitions 23 4.2.2 L’algorithme 23 4.2.3 Complexit´e de l’algorithme 24 4.2.4 Discussion sur les param`etres 24 4.2.5 R´esultats et analyses 25 Conclusion de regroupement 29 4.2 4.3 3.3.1 D´etection des anomalies par des coordonn´ees 30 5.1 G´en´eration des anomalies par la simulation 30 5.1.1 La topologie de la simulation 30 5.1.2 G´en´eration des anomalies 31 5.1.3 Description de la simulation utilis´ee 32 5.2 Proc´edures de la d´etection 32 5.3 Des sc´enarios des anomalies 33 5.3.1 Le cas normal 33 5.3.2 Anomalie sur un seul nœud 34 5.3.3 Deux anomalies sur deux nœuds 34 5.3.4 Anomalies sur deux nœuds qui ont le mˆeme pr´efixe d’IP 35 5.3.5 Vue g´en´erale sur plusieurs anomalies 36 Conclusion sur la d´etection des anomalies 37 5.4 V Conclusions et Perspectives 38 Annexes 39 R´ef´erences 40 VI Liste de figures Un mod`ele d’espace g´eom´etrique de l’Internet (source [12]) Positionnement via l’espace Euclidien 2-D (source [12]) Architecture de positionnement hi´erachique de NPS 10 Les coordsonn´ees sont converg´ees apr`es 2500 secondes 15 L’erreur relative du syst`eme 15 Les coordsonn´ees des nœuds apr`es 850000 secondes de l’exp´erimentation 16 Les coordonn´ees du centre de tous les nœuds 17 Distance du nœud ent1.cs.nccu.edu.tw vers le centre 17 Distance du nœud lsirextpc01.epfl.ch vers le centre avec une grande variation 18 10 Nombre de groupes avec la m´etrique g´eographique 21 11 Nombre de groupes avec la m´etrique de changement sur Planetlab 22 12 Nombre de groupes 26 13 Distance euclidienne aux quatre groupes les plus grands 26 14 Distribution des nœuds dans les groupes les plus grands 27 15 Nombre des noueds dans le plus grand groupe 28 16 Mouvements des nœuds, les nombres sur la ligne rouge signifient le niveau de confiance C du syst`eme 28 17 Le cas normal, les nœuds restent dans le noyau (ID 0) 33 18 Cas normal, la distance vers le plus grand groupe reste stable 34 19 Le changement de groupe dans le cas d’anomalie 35 20 Le changement de la distance vers le plus grand groupe en cas d’anomalie 35 21 Le changement de groupes de deux anomalies 35 22 La distance au plus grand groupe de deux anomalies 36 23 Deux anomalies dans la mˆeme zone g´eographique sont dans la mˆeme groupe 36 24 Relation entre la dur´ee d’anomalie et le nombre d’anomalies trouv´e 37 25 Les informations d´etaill´ees sont affich´ees sur chaque nœud 39 26 Le serveur de stockage contient des coordonn´ees des nœuds sur Planetlab 39 VII Introduction Ces derni`eres ann´ees ont vu la croissance rapide d’applications Internet bas´ees et b´en´eficiant des r´eseaux de recouverement (overlay) tenant compte de la topologie Internet En particulier, la plupart des ces applications et leur r´eseaux de recouvrement, se basent sur la notion de proximit´e r´eseau, d´efinie en termes de d´elais Aller-retour (RTT), pour l’optimisation de la s´election des voisins Cependant, les mesures de proximit´e, peuvent s’av´erer extrˆemement ˆ couteuses en termes de consommation en bande passante En effet, l’existence de plusieurs ˆ de communications e´ lev´e, duˆ aux mesures de r´eseaux de couvertures, peut cr´eer un surcout proximit´e individuelles men´ees par chaque nœud du r´eseau de couverture De plus, traquer la proximit´e au sein d’un groupe dynamique, n´ecessite une fr´equence de mesure tr`es grande ˆ de mesures Cela induit encore plus de surcouts Afin de pallier ce probl`eme, les syst`emes de positionnement Internet, comme [4] [5] [6] [7] [8] [9], ont e´ t´e introduits Dans ces syst`emes, l’id´ee principale, est que si chaque nœud peut eˆ tre associ´e a` une coordonn´ee virtuelle dans un espace appropri´e, la distance entre les nœuds est trivialement calcul´ee sans pour autant avoir recours aux mesures directes En d’autres termes, ces syst`emes plongent les mesures des temps de latences entre une population de nœuds dans un espace g´eom´etrique et associent un vecteur de coordonn´ees dans cet espace a` chaque nœud, dans le but de permettre des pr´edictions de distance pr´ecise et peu on´ereuses parmi n’importe quelle paire de nœud dans le r´eseau L’avantage premier de ces syst`emes, est que si les distances r´eseaux sont plong´ees dans un espace de coordonn´ees, ou` ˆ de mesures une position raisonnablement pr´ecise pour chaque nœud est e´ tablie, le surcout produit par le positionnement, est ainsi amorti sur plusieurs pr´edictions de distance Ceci ˆ en termes de mesures de distances du syst`eme entier r´eduit e´ norm´ement le cout 1.1 Motivations, probl´ematiques et contributions Du fait de l’utilisation de plus en plus r´epandue des r´eseaux se basant sur les syst`emes a` base de coordonn´ees, on peut ais´ement imaginer une surveillance des r´eseaux dont le but est de trouver rapidement les anomalies dans ces syst`emes En particulier, il est int´eressant de noter qu’un syst`eme fournissant un service a` large e´ chelle, serait aussi une avantage pour l’impl´ementation des proc´edures de d´etection et r´esolution des anomalies Dans les syst`emes a` base de coordonn´ees, le fait que les coordonn´ees oscillent a e´ t´e in- troduit dans [20][21] D`es qu’il y a une dur´ee assez long d’exp´erimentation, les coordonn´ees changent, causent des difficult´es pour capturer des anomalies Dans le travail de Wang[21], l’auteur a pr´esent´e un algorithme qui permet d’´eliminer cette oscillation Il utilise une m´ethode pour d´etecter le moment de stabilisation du syst`eme et arrˆeter des mises a` jour de coordonn´ees a` partir de ce moment Par contre, si le syst`eme s’arrˆete de mettre a` jour, nous ne pouvons plus d´etecter des changements anormaux grˆace aux coordonn´ees Cette m´ethode est donc irr´ealisable dans un syst`eme qui permet de la d´etection des anomalies Ma premi`ere contribution a e´ t´e donc d’´etudier cette oscillion dans les syst`emes a` base de coordonn´ees sur le r´eseau de Planetlab et sur la simulation La simulation est e´ tablie sur une topologie r´eelle qui est extraite a` partir des donn´ees du projet Iplane [14] Le travail de Kaafar [12] a introduit une m´ethode de d´etection des nœuds malicieux dans le syst`eme a` base de coordonn´ees Il applique le filtre de Kalman [22] sur l’erreur relative des coordonn´ees pour trouver des anomalies Par contre, cette m´ethode, qui permet d’une d´etection sur chaque nœud, ne peut pas donnner une caract´erisation globale du syst`eme Dans le but de donner une vue rapide sur les anomalies, nous proposons un mod`ele de regroupement des nœuds se basant sur leur changements des coordonn´ees Nous essayons quelques algorithmes de regroupement comme DBSCAN [17] ou le regroupement hi´erarchique [19] qui nous permettent d’observer les nœuds comme des groupes qui se d´eplacent aux plusieurs directions Les m´etriques du mod`ele, comme le noyau du syst`eme, la distance vers le centre de noyau ou les petits groupes, sont utilis´ees pour d´etecter des anomalies Ma contribution majeure a e´ t´e donc de proposer une m´ethode de caract´eriser des coordonn´ees et un protocole de d´etection des anomalies se basant sur cette m´ethode 1.2 La structure du m´emoire Nous commenc¸ons ce m´emoire en faisant, dans la section 2, un tour des syst`emes de positionnement de l’Internet existants Dans cette partie, nous pr´esentons des services d’estimation de proximit´e par mesures directes comme l’approche g´eographique, les m´ethodes IDMaps, Traceroute, M´eridien Nous nous concentrons par la suite sur les syst`emes a` base de coordonn´ees, que nous classifions en deux classes principales: Les syst`emes bas´es sur les balises comme GNP, NPS, et les syst`emes distribu´es tels que PIC, Vivaldi Dans la section 3, nous pr´esentons une vue g´en´erale sur les coordonn´ees Tout d’abord, nous pr´esentons Planetlab, un r´eseau d’ordinateurs utilis´e pour la recherche orient´ee r´eseaux Distribution des groupes Avec la distribution des nœuds dans les groupes (figure 14 ,15), nous avons une confirmation sur le noyau solide du syst`eme Les petits groupes repr´esentent des nœuds qui ont beaucoup d’in´egalit´es triangulaires Ces nœuds essaient de positionner, mais apr`es chaque mise a` jour leur coordonn´ees changent un peu pour le but de minimiser l’erreur du syst`eme Ces groupes satellites sont utilis´es pour observer les groupes anormaux % de totalite de noeuds 1er groupe 2eme groupe 3eme groupe 4eme groupe 5eme groupe 64 48 32 16 epsilon Figure 14: Distribution des nœuds dans les groupes les plus grands En r´ealit´e, avec les grands r´eseaux comme l’Internet il existe probablement plusieurs grands groupes car les nœuds bougent aux plusieurs directions diff´erents Dans le domaine de ce m´emoire on ne tient compte que le r´eseau sur Planetlab et la simulation, le noyau du syst`eme n’est que le plus grand groupe Mouvement des nœuds Pendant le temps de simulation, les nœuds qui changent leur groupe sont class´es comme ”les nœuds instables” Par contre, les nœuds qui sont toujours dans le mˆeme groupe sont class´es comme ”les nœuds stables” Ces param`etres sont influenc´es par le niveau de confiance C du syst`emes (figure 16) Le but est de minimiser les nœuds instables et maximiser les nœuds stables Les petites valeurs de C peuvent satisfaire les deux mais on ne d´etecte que des grandes anomalies avec elles Parce que si C est petit, on permet beaucoup d’intervalles viol´es, par cons´equence les anomalies avec une dur´ee courte sont ignor´ees Nous allons continuer a` discuter ce probl`eme dans la section de la d´etection des anomalies 27 Proportion des noeuds 0.8 0.6 0.4 0.2 0 10 20 30 40 50 60 70 Epsilon Figure 15: Nombre des noueds dans le plus grand groupe 4.3 Conclusion de regroupement L’algorithme de regroupement DBSCAN peut aider le syst`eme de trouver des groupes g´eographique Cependant, pour observer et caract´eriser les changements dans le syst`eme, nous proposons la m´ethode de regroupement hi´erarchique qui est li´ee sur plusieurs param`etres Cette m´ethode utilise une m´etrique sp´eciale, le changement des coordonn´ees, par rapport a` la distance euclidienne comme la m´ethode classique Selon cette m´ethode, les groupes les plus grands du syst`eme particuli`erement le plus grand peuvent eˆ tre consid´er´es comme les ˆ points de r´ef´erence pour les nœuds Dans le r´eseau Internet avec des millions de hotes, il y a peut eˆ tre plusieurs groupes qui sont solides Les m´ethodes de d´etection dans la partie suivante sont bas´ees sur ce noyau solide du syst`eme Par contre, le choix des param`etres peut influencer les r´esultats de regroupements Chaque type d’anomalie peut eˆ tre d´etect´e par un certain param`etre 28 0.3 98 Proportion des noeuds instables 0.25 100 0.2 96 0.15 94 92 0.1 90 88 0.05 86 84 82 80 78 76 72 74 70 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Proportion des noeuds stables Figure 16: Mouvements des nœuds, les nombres sur la ligne rouge signifient le niveau de confiance C du syst`eme D´etection des anomalies par des coordonn´ees On ne peut pas g´en´erer des anomalies sur le r´eseau de Planetlab Au lieu de Planetlab, nous utilisons des simulations pour cr´eer des anomalies 5.1 5.1.1 G´en´eration des anomalies par la simulation La topologie de la simulation Pour cr´eer la topologie de la simulation, on peut utiliser le Network Simulator (NS-2) Avec NS-2, on peut g´en´erer facilement des topologies avec topology generator ITM [10] Cependant, il y a des d´esavantages de NS-2 : D`es qu’une connexion est e´ tablie entre deux nœuds pour g´en´erer les pings dans la topologie, nous ne pouvons plus changer cette connexion vers un autre nœud Dans l’algorithme de Vivaldi il y a besoin de changer la connexion chaque 10 secondes Cette connexion est choisie au hasard par le nœud ver un des ses voisins De plus, c’est difficile de cr´eer des in´egalit´es triangulaires comme dans les r´eseaux r´eels Les in´egalit´es sont les triples (i, j, n) qui ne satisfont pas une des conditions suivantes: 29 d(n, i) = d(n, j) − d (i, j) d(n, i) >= d(i, j) − d (n, j) Au lieu de NS-2, on essaye de trouver une topologie r´eelle de Planetlab pour faciliter la simulation Il existe plusieurs projets sur Internet qui permettent d’extraire une topologie raisonable Topologie CAIDA : CAIDA (The Cooperative Association for Internet Data Analysis) collecte plusieurs types des donn´ees par plusieurs infrastructures incluant des liens commerciaux, e´ ducatifs, de la recherche ou du gouvernement Il utilise l’outil scamper et l’infrastructure Archipelago (30 nœuds) pour les mesures actives entre Archipelago et les nœuds de destinations pour construire la base de donn´ees de routes d’Internet Topologie d’Iplane : Iplane construit un mod`ele structur´e de l’Internet Il r´ealise des traceroutes a` partir des sources (des nœuds de Planetlab) et les serveurs de traceroutes, pour construire un atlas au niveau des routeurs d’Internet Le fichier des aliases des routeurs (plusieurs IPs, interface sur le mˆeme routeur) est mis a` jour chaque jour CAIDA et IPlane utilisent la mˆeme principe: en utilisant une infrastructure (Ark et Planetlab) pour r´ealiser des mesures actives et construire la carte d’Internet C’est pourquoi il y a des routes entre les nœuds de sources (dans l’infrastructure) et les destinations mais il n’y a pas des routes directes entres les destinations Iplane est donc choisi au lieu de CAIDA avec environ 200 sources de Planetlab(compar´e avec 30 nœuds Ark de CAIDA) L’Iplane fournit les donn´ees de chaque jour concernant: • Les routes entre les sources et les destinations (chaque source connecte aux environ 200 destinations) • Liste des routeurs sur les routes • Les d´elais entre les routeurs des routes Tous les liens int´ermediaires entre les routeurs sont relev´es • Les aliases des routeurs Chaque routeur peut avoir plusieurs adresses d’IP diff´erentes avec plusieurs interfaces A partir de ces donn´ees, la topologie de Planetlab est extraite avec les proc´edures: 30 • Lister des adresses d’IP des nœuds de Planetlab Ces adresses d’IP sont fournies par Iplane Chaque jour la liste est mise a` jour Le but est d’obtenir seulement des routes avec les destinations de Planetlab • Remplacer les adresses IP avec ses aliases Chaque routeur a ses aliases, pour faciliter la proc´edure d’extraire la topologie, on essaye de remplacer tous les aliases vers une seule adresse • Appliquer un filtrage sur les destinations, on obtient seulement les destinations avec les IPs de Planetlab • Num´eroter les nœuds et les routeurs Les adresses d’IP sont difficiles a` utiliser pour les algorithmes La num´erotation est r´ealis´ee pour but de faciliter les proc´edures prochaines A la fin, on a la topologie de Planetlab qui contient les routes d´etaill´es de Planetlab incluant tous les routeurs interm´ediaires 5.1.2 G´en´eration des anomalies A partir de la topologie obtenue dans la phrase pr´ec´edente, les donn´ees d’un syst`eme virtuel de coordonn´ees peuvent eˆ tre g´en´er´ees Chaque 10 secondes, un nœud choisit un des nœuds dans Planetlab pour pinger, le ping est choisi dans la matrice de d´elais de la topologie plus une variation (pour varier la matrice de d´elais) Les pings sont apr`es tri´es pour calculer les coordonn´ees Pour g´en´erer les anomalies, il faut choisir des liens directs entre les routeurs A partir de la table de nombre de pr´esence de liens directes, le nombre de nœuds anormaux peut eˆ tre choisi Par l’augmentation le d´elai du lien choisi, tous les routes dans la topologie qui le contient vont augmenter de d´elais et cr´eer des anomalies Les donn´ees de pings sont apr`es utilis´ees par le simulateur de Vivaldi pour g´en´erer les coordonn´ees des nœuds 5.1.3 Description de la simulation utilis´ee • La topologie est extraite par les donn´ees d’Iplane le 21 Juillet 2009 qui contient 201 nœuds de Planetlab 31 • Chaque simulation a une dur´ee de 30000 secondes Parce que les coordonn´ees dans la simulation convergent vite • G´en´eration d’une variation 5% de pings chaque mise a` jour Cette variation est pour but de cr´eer une matrice de d´elai moins fix´ee 5.2 Proc´edures de la d´etection Dans la section pr´ec´edente qu’on a pr´esent´e sur le mod`ele de regroupement, il y a deux m´etriques qui peuvent aider l’observation de changements des nœuds : le changement de groupes des nœuds et les distances des nœuds vers le plus grand groupe La premi`ere peut nous donner une vue rapide sur les anomalies Par contre, comme la figure 16 qu’on a discut´e, cette m´etrique est influenc´ee par le niveau de confiance C De plus, il peut donner des ”false positive”, c’est-`a-dire il trouve des anomalies qui ne sont que les nœuds oscill´es dans le syst`eme La m´etrique peut aider de filtrer ces nœuds, trouver des vraies anomalies • M´etrique : Le changement du groupe Si un nœud change son groupe, du groupe le plus grand vers dehors (un petit groupe) ou vice versa, ce nœud est une anomalie Le plus grand groupe est marqu´e zero (0), si un nœud change son groupe de vers un autre (2 ou par exemple), il est consid´er´e comme une anomalie Par contre, si un nœud se d´eplace entre les groupes diff´erents que (de groupe vers groupe par exemple), il n’est pas consid´er´e comme une anomalie Parce que les nœuds dans les groupes satellites oscillent et changent r´eguli`erement leur groupe • M´etrique : Le changement de distance vers le plus grand groupe Comme il y a une variation de 20% de coordonn´ees, nous appliquons un filtre qui permet d’une variation de 20% des distances vers le plus grand groupe Si cette m´etrique est viol´ee, le nœud est consid´er´e comme une anomalie Cette m´etrique est suppl´ementaire pour la m´etrique 1, elle a pour but d’´eliminer des fausses anomalies avec le changement du groupe Cependant, avec cette m´etrique on doit appliquer le filtre sur tous les nœuds, ˆ une proc´edure couteux et lente 32 5.3 5.3.1 Des sc´enarios des anomalies Le cas normal Dans le cas normal sans anomalie, avec la m´etrique 1, les nœuds du syst`eme restent toujours dans le plus grand groupe avec l’ID (figure 17) Ses distances euclidiennes ne changent non plus (figure 18) Figure 17: Le cas normal, les nœuds restent dans le noyau (ID 0) Figure 18: Cas normal, la distance vers le plus grand groupe reste stable 33 5.3.2 Anomalie sur un seul nœud Nous causons l’anomalie entre les deux routeurs 131.247.254.45 et 131.247.254.81 qui influencent un seul nœud planetlab1.csee.usf.edu Augmenter le d´elai de ce lien par 500ms dans p´eriode [15000s:17000s] Avec la m´etrique de la proc´edure de d´etection, dans la figure [19] le nœud sort du plus grand groupe a` partir de 16000`eme secondes (1000 secondes de d´elais) Il y a un d´elais de 1000 secondes car le syst`eme prend de temps pour changer les coordonn´ees La figure 20 montre le changement de distance de ce nœud vers le plus grand groupe dans la p´eriode d’anomalie avec la m´etrique Figure 19: Le changement de groupe dans le cas d’anomalie Figure 20: Le changement de la distance vers le plus grand groupe en cas d’anomalie 34 5.3.3 Deux anomalies sur deux nœuds Nous cr´eons deux anomalies sur deux nœuds qui n’ont pas de relation g´eographique Tous les deux m´etriques et peuvent d´etecter ces deux anomalies dans ce cas (figure 21, 22) De plus, ils se d´eplacent vers deux directions diff´erentes Comme dans la figure 21, les changements de groupes de deux nœuds sont diff´erents dans la p´eriode d’anomalie C’est pr´evu car il n’y a pas de relation entre ces deux anomalies Figure 21: Le changement de groupes de deux anomalies Figure 22: La distance au plus grand groupe de deux anomalies 5.3.4 Anomalies sur deux nœuds qui ont le mˆeme pr´efixe d’IP Cr´eer une augmentation de d´elais entre deux routeurs 144.92.128.194 et 146.151.167.62 qui cause des anomalies sur deux nœuds planetlab1.cs.wisc.edu (IP 198.133.224.145) et planetlab3.wail.wisc.edu (198.133.224.147) Ces deux nœuds sont dans la mˆeme zone g´eographique Lors qu’il y a de changement de groupe, ces deux nœuds vont changer ensemble et entrent dans le mˆeme groupe (figure 23) D`es que les anomalies sont cr´ees, un nouveau, petit groupe 35 est form´e avec ces deux nœuds car leur coordonn´ees sont ressembl´ees Cette caract´eristique est importante pour trouver des zones d’anomalies qui contient plusieurs nœuds Figure 23: Deux anomalies dans la mˆeme zone g´eographique sont dans la mˆeme groupe 1.2 Nombre d’anomalies trouvees eps 16 0.8 eps 32 eps 48 0.6 0.4 0.2 0 1000 2000 3000 4000 5000 6000 7000 Duree d’anomalie Figure 24: Relation entre la dur´ee d’anomalie et le nombre d’anomalies trouv´e 5.3.5 Vue g´en´erale sur plusieurs anomalies Cr´eer des anomalies sur plusieurs liens D`es que la dur´ee d’anomalies est assez grande, les proc´edures avec la m´etrique et peuvent d´etecter presque toutes les anomalies Par contre, si la dur´ee est petite, il y a des anomalies qui ne peuvent pas eˆ tre d´etect´ees C’est a` 36 cause de temps de convergence du syst`eme Comme on a discut´e sur Vivaldi, le temps de convergence est plus de 2000 secondes Les anomalies qui ont une dur´ee plus de 2000ms sont tout d´etect´ees (figure 24) 5.4 Conclusion sur la d´etection des anomalies Avec les simulations, nous avons montr´es que les deux m´etriques : le changement de groupe et la distance vers le noyau peuvent aider le syst`eme de trouver des anomalies De plus, par des petits groupes cr´ee´ s, on peut tracer des anomalies d’un ensemble des machines qui sont dans une zone g´eographique Par contre, les proc´edures de d´etection ne d´etectent que des anomalies de grande dur´ee C’est une limite de Vivaldi qui a le temps de convergence assez long Pour r´esoudre ce ph´enom`ene on a besoin d’une am´elioration de Vivaldi 37 Conclusions et Perspectives Dans ce m´emoire, nous avons e´ tudi´e les syst`emes a` base de coordonn´ees incluant les syst`emes a` base de balises fixes ainsi que les syst`emes d´ecentralis´es Pour permettre d’une surveillance sans infrastructure, nous avons utilis´e Vivaldi, un syst`eme d´ecentralis´e et l´eger Nous avons montr´e que les mouvements des coordonn´ees dans le syst`eme d´ecentralis´e Vivaldi sont impr´evisibles Nous construisons une m´ethode de regroupement qui permet d’une observation des nœuds par leur groupe Ce regroupement a donn´e des m´etriques valables pour caract´eriser le syst`eme Le noyau de syst`eme est un point r´ef´erence pour les nœuds Le changement de groupes refl`ete les changements sur le r´eseau La distance entre les groupes et les nœuds peuvent aider l’observation des augmentations de d´elai des nœuds Se basant sur le regroupement, nous avons propos´e des proc´edures de d´etection des anomalies sur le r´eseau de coordonn´ees En utilisant le plus grand groupe comme le point r´ef´erence du syst`eme, les anomalies sont d´etect´es Les anomalies qui sont dans un mˆeme groupe satellite forment une zone d’anomalies Cette zone est un ensemble des machines avec les mˆemes coordonn´ees g´eographiques Ces satellites groupes sont importantes pour d´ecouvrir la cause originelle d’anomalies Cependant, il y a des d´esavantages de la m´ethode du regroupement et les proc´edures de d´etection Le mod`ele doit collecter toutes les coordonn´ees pour eˆ tre capable de calculer des groupes Cela influence la performance et r´eduire la capacit´e d´ecentralis´ee de l’algorithme Vivaldi Un mod`ele de regroupement locale qui tient compte seulement des voisins d’un nœud peut r´esoudre ce probl`eme sauf qu’on ne peut pas avoir une vue g´en´erale et rapide de tous les nœuds De plus, il y a des difficult´es dans le choix des param`etres de l’algorithme de regroupement Une approche pour r´esoudre ce probl`eme est de tracer les param`etres en temps r´eel lors que le syst`eme est lanc´e Les param`etres sont apr`es choisis se basant sur les caract´eristiques uniques de syst`eme qui leur aborde 38 Annexe Un site web pour afficher les coordonn´ees en temps r´eel d`es que les nœuds soitent lanc´es Pyxida sur Planetlab Travail futur Int´egrer les algorithmes de regroupement dans Vivaldi pour afficher les r´esultats ainsi que les figures en temp r´eel sur le site web Figure 25: Les informations d´etaill´ees sont affich´ees sur chaque nœud Figure 26: Le serveur de stockage contient des coordonn´ees des nœuds sur Planetlab 39 R´ef´erences [1] B Wong, A Slivkins and E G Sirer,A Lightweight Approach to Network Positioning without VirtualCoordinates, In Proceedings of ACM SIGCOMM, Philadelphia August 2005 [2] J Stribling,PlanetLab All Pairs Pings, data available from http://www.pdos.lcs mit.edu/˜strib/pl_app/ [3] J A Nelder and R Mead, A simplex method for function minimization Computer Journal, pages 308-313, 1965 [4] T E Ng, and H Zhang, Predicting internet network distance with coordinates-based approaches, In Proceedings of the IEEE INFOCOM, New York, June 2002 [5] M Pias, J Crowcroft, S Wilbur, S Bhatti, and T Harris, Lighthouses for Scalable Distributed Location, In Proceedings of International Workshop on Peer-to-Peer Systems (IPTPS), Berkeley, February 2003 [6] M Costa, M Castro, A Rowstron, and P Key, Practical Internet coordinates for distance estimation, In Proceedings of the IEEE International Conference on Distributed Computing Systems (ICDCS), Tokyo, March 2004 [7] T E Ng and H Zhang, A Network Positioning System for the Internet, In Proceedings of the USENIX annual technical conference, Boston, June 2004 [8] F Dabek, R Cox, F Kaashoek and R Morris, Vivaldi: A decentralized network coordinate system, In Proceedings of the ACM SIGCOMM, Portland, Oregon, August 2004 [9] Y Shavitt and T Tankel, Big-bang simulation for embedding network distances in euclidean space, In Proceedings of the IEEE INFOCOM, San Francisco, April 2003 [10] K L Calvert, M B Doar, and E W Zegura Modeling Internet topology IEEE Communications, 35(6) : 160163, June 1997 [11] M.A Kaafar, L Mathy, C Barakat, K Salamatian, T Turletti, and W Dabbous Securing internet coordinate embedding systems In Proceeding of SIGCOMM’07, August 2007 40 [12] M A Kaafar: Securing Internet Coordinate Systems 2007 PhD Thesis in PLANETE project, INRIA Sophia Antipolis [13] CAIDA, The Cooperative Association for Internet Data Analysis, http://www caida.org [14] Iplane, An Information Plane for Distributed Services, http://iplane.cs washington.edu [15] Planetlab Europe http://www.planet-lab.org/ [16] Pyxida: An Open Source Network Coordinate Library and Application http:// pyxida.sourceforge.net/ [17] Martin Ester, Hans-Peter Kriegel, Jorg Sander, Xiaowei Xu (1996) A density-based algorithm for discovering clusters in large spatial databases with noise in Evangelos Simoudis, Jiawei Han, Usama M Fayyad Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96) AAAI Press pp 226-231 [18] Mahalanobis, P C (1936) On the generalised distance in statistics” Proceedings of the National Institute of Sciences of India http://ir.isical.ac.in/dspace/ handle/1/1268 Retrieved 2008-11-05 [19] Ward, Joe H (1963) Hierarchical Grouping to Optimize an Objective Function Journal of the American Statistical Association 236-244 [20] J Ledlie, P Gardner, and M Seltzer, Network Coordinates in the Wild, In Proceedings of NSDI, Cambridge, April 2007 Available as Harvard University Computer Science Technical Report TR-20-06, October 2006 [21] Guohui Wang, On the Design Principles of Network Coordinates Systems, In Proceedings of the 8th ACM SIGCOMM conference on Internet measurement, 2008 Pages 131144 [22] R.E Kalman, and R.S Bucy, New Results in Linear Filtering and Prediction Theory, In Transactions of the ASME - Journal of Basic Engineering Vol 83: pp 95-107, 1961 41 [...]... une impl´ementation d’un syst`eme a` base de coordonn´ees distribu´e En utilisant Pyxida, nous montrons l’oscillation des coordonn´ees par des exp´eriences sur Planetlab Nous d´ecouvrons e´ galement des m´etriques primaires de syst`emes de coordonn´ees incluant: l’erreur relative, le temps de convergence ainsi que le centre du syst`eme Dans la section 4, nous pr´esentons une mod´elisation de syst`eme... jour de leur coordonn´ees Apr`es une dur´ee de temps, tous les nœuds trouvent leur bonne position dans l’espace et restent stables On appelle cette dur´ee le temps de convergence Dans le travail de Ledlie[20], l’auteur a calcul´e que le temps de convergence est environ 250 pas de la mise a` jour L’exp´erimentation r´ev`ele aussi que les coordonn´ees convergent apr`es environs 2500 secondes, c’est-`a-dire... de 2 param`etres qui sont insensibles a` l’arrangement des nœuds dans la base de donn´ees Complexit´e Une d´etection des voisins est r´ealis´ee dans la fonction prendreVoisin(P, Epsilon) Toutes les distances entre les nœuds sont calcul´ees, ceci fait une complexit´e de O((n2 −n)/2) La base de donn´ees peut eˆ tre index´ee pour une meilleure performance de la fonction de d´etection des voisins Car chaque... positionnement a` base de coordonn´ees sont une proposition attractive s’ils sont d´eploy´es comme un service : chaque nœud pourra alors faire tourner un syst`eme de coordonn´ees au d´emarrage du syst`eme d’exploitation Cela pourra ainsi permettre au nœud de fournir des services de d´etection automatiquement des anomalies sur les r´eseaux 12 3 Vue sur les coordonn´ees par l’exp´erimentation Pour avoir une vue... et ENS (http://wiki.grenouille.com/index.php/ CMON) 3 2 Une vue d’ensemble des syst`emes de positionnement Internet Dans cette partie, nous pr´esentons une vue d’ensemble des diff´erentes propositions dans le domaine des syst`emes de positionnement Internet Nous commenc¸ons par d´ecrire quelques travaux destin´es a` fournir une estimation de la localisation et de la proximit´e dans le r´eseau Ces syst`emes... comme nous avons montr´e, on essaye de trouver une m´etrique pour avoir une vue globale de syst`eme des coordonn´ees Car les coordonn´ees sont des informations relatives, le centre des nœuds est une bonne m´etrique dans ce cas D`es que les coordonn´ees d´erivent, le centre de tous les nœuds d´erivent aussi (figure 7) 3.4 Discussion Dans les exp´eriences sur Planetlab, les coordonn´ees d´erivent, oscillent... groupe Par cons´equent, tous les points dans le -voisin sont ajout´es, ainsi que leur -voisin La proc´edure continue jusqu’`a le groupe est trouv´e compl`etement Ensuite, un nouveau point non-visit´e est r´ecup´er´e et trait´e, continuer a` former des nouveaux groupes Pseudocode DBSCAN La fonction DBSCAN commence avec un nœud non-visit´e, cr´ee un nouveau groupe avec ce nœud et appeller la fonction trouverGroupe... est que les coordonn´ees sont tr`es efficace de r´esumer un grand nombre des informations de distance Par exemple, les distances de tous les chemins de K nœuds sont stock´es par K coordonn´ees de D dimensions (O(KD) de donn´ees) par rapport a` K(K-1)/2 distances dans le cas normal 7 • Repr´esentation structur´ee : Les coordonn´ees g´eom´etrique des nœuds d´ecrient une repr´esentation simple et structur´ee... epsilons, on essaye d’avoir une id´ee sur ce param`etre par le nombre de groupes trouv´e par l’algorithme (figure 12) Les petits epsilons donnent un e´ norme nombre de groupes, particuli`erement dans le cas = 2 la plupart de groupes ont un seul nœud Avec ces petits epsilons, une toute petite variation de coordonn´ees causent des violations, qui forment des nouveaux groupes Cela n’est pas raisonable... Cela n’est pas raisonable parce qu’il y a toujours d’erreurs dans la calculation de coordonn´ees, qui causent Le r´esultat montre que les epsilons qui sont inf´erieurs que 16 ne sont pas utiles pour caract´eriser le syst`eme Dans le cas de -adapt´e que nous avons calcul´e dans la section au-dessus (environ 32ms), il y a environ 7-8 groupes s´epar´es Distances euclidiennes vers les groupes les plus grands

Ngày đăng: 27/10/2016, 22:56

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] J Stribling,PlanetLab All Pairs Pings, data available from http://www.pdos.lcs.mit.edu/˜strib/pl_app/ Link
[13] CAIDA, The Cooperative Association for Internet Data Analysis, http://www.caida.org Link
[14] Iplane, An Information Plane for Distributed Services, http://iplane.cs.washington.edu Link
[16] Pyxida: An Open Source Network Coordinate Library and Application http://pyxida.sourceforge.net/ Link
[1] B. Wong, A. Slivkins and E. G. Sirer,A Lightweight Approach to Network Positioning without VirtualCoordinates, In Proceedings of ACM SIGCOMM, Philadelphia August 2005 Khác
[3] J. A. Nelder and R. Mead, A simplex method for function minimization Computer Jour- nal, pages 308-313, 1965 Khác
[4] T. E. Ng, and H. Zhang, Predicting internet network distance with coordinates-based approaches, In Proceedings of the IEEE INFOCOM, New York, June 2002 Khác
[5] M. Pias, J. Crowcroft, S. Wilbur, S. Bhatti, and T. Harris, Lighthouses for Scalable Dis- tributed Location, In Proceedings of International Workshop on Peer-to-Peer Systems (IPTPS), Berkeley, February 2003 Khác
[6] M. Costa, M. Castro, A. Rowstron, and P Key, Practical Internet coordinates for dis- tance estimation, In Proceedings of the IEEE International Conference on Distributed Computing Systems (ICDCS), Tokyo, March 2004 Khác
[7] T. E. Ng and H. Zhang, A Network Positioning System for the Internet, In Proceedings of the USENIX annual technical conference, Boston, June 2004 Khác
[8] F. Dabek, R. Cox, F. Kaashoek and R. Morris, Vivaldi: A decentralized network coordi- nate system, In Proceedings of the ACM SIGCOMM, Portland, Oregon, August 2004 Khác
[9] Y. Shavitt and T. Tankel, Big-bang simulation for embedding network distances in eu- clidean space, In Proceedings of the IEEE INFOCOM, San Francisco, April 2003 Khác
[10] K. L. Calvert, M. B. Doar, and E. W. Zegura. Modeling Internet topology. IEEE Commu- nications, 35(6) : 160163, June 1997 Khác
[11] M.A. Kaafar, L. Mathy, C. Barakat, K. Salamatian, T. Turletti, and W. Dabbous. Securing internet coordinate embedding systems. In Proceeding of SIGCOMM’07, August 2007 Khác
[12] M. A. Kaafar: Securing Internet Coordinate Systems. 2007. PhD Thesis in PLANETE project, INRIA Sophia Antipolis Khác
[19] Ward, Joe H. (1963). Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association 236-244 Khác
[20] J. Ledlie, P Gardner, and M. Seltzer, Network Coordinates in the Wild, In Proceedings of NSDI, Cambridge, April 2007. Available as Harvard University Computer Science Technical Report TR-20-06, October 2006 Khác
[21] Guohui Wang, On the Design Principles of Network Coordinates Systems, In Proceed- ings of the 8th ACM SIGCOMM conference on Internet measurement, 2008 Pages 131- 144 Khác
[22] R.E. Kalman, and R.S. Bucy, New Results in Linear Filtering and Prediction Theory, In Transactions of the ASME - Journal of Basic Engineering Vol. 83: pp. 95-107, 1961 Khác

TỪ KHÓA LIÊN QUAN