(LUẬN VĂN THẠC SĨ) REDUCTION DE BASE DE DONNEES PAR LA CLASSIFICATION AUTOMATIQUE

INSTITUT DE LA FRANCOPHONIE POUR L’INFORMATIQUE RAPPORT DU STAGE REDUCTION DE BASE DE DONNEES PAR LA CLASSIFICATION AUTOMATIQUE Sous la direction de Pr Georges HEBRAIL, ENST Paris Réalisé par LE Anh Tuan, IFI Hanoi Décembre 2004 TIEU LUAN MOI download : skknchat@gmail.com Remerciements Je tiens remercier mon encadrant du stage, Monsieur Georges Hébrail, le professeur du département Informatique et Réseaux (INFRES), ENST Paris, pour sa disponibilité, son soutient et son aide précieuse pendant toute la durée du stage Je voudrais également remercier chaleureusement Madame Sophie Bizart, le secrétaire du département INFRES de m’avoir accueilli et son aide pendant le stage Un grand merci l’IFI d’avoir bien préparé mon stage J’ai le plaisir de remercier tous les stagiaires au département INFRES, ENST qui m’ont porté leur amitié J’exprime mon entière reconnaissance ma famille et mes amis pour leurs soutiens, leurs aides et leurs encouragements TIEU LUAN MOI download : skknchat@gmail.com Table de matières Résumé Abstract Chapitre Introduction Chapitre Etat de l’art Classification de données Types de données et les mesures 1) Classification basée sur la taille de domaine : 2) Classification basée sur l’échelle de mesure : Méthodes de classification 11 1) Méthodes hiérarchiques (hierarchical clustering) .11 i CURE 13 2) Méthodes de partitionnement (partitional clustering): 14 i K-medoids 14 ii K-means 15 3) Méthodes basées sur la densité 18 i DBSCAN 19 ii DENCLUE 20 4) Méthodes basées sur la grille 21 i STING 21 ii WaveCluster 22 iii CLIQUE .22 5) Algorithmes pour des données de haute dimension 23 i Sélection d’attributs 23 ii Réduction de dimensionnalité 23 iii Classification dans sous-espaces 24 iv Co-classification 25 6) Algorithmes pour les données qualitatives (catégorie) .25 i ROCK 26 ii STIRR 26 iii CACTUS 27 Chapitre Classification sur le flux de données .29 Classification sur le flux de données .29 i STREAM-LOCALSEARCH .30 ii GenIc 31 Algorithmes BIRCH et CLUSTREAM 32 1) BIRCH 32 i Arbre des CFs .32 ii Algorithme 33 iii Cluster Feature et la distance dans BIRCH 38 2) CLUSTREAM 42 i Maintenance en ligne des micros classes .43 ii Création des macros classes 44 iii Analyse d’évolution des classes 45 Chapitre Implémentation et expérimentation .46 Implémentation du BIRCH 46 Expérimentation du BIRCH 51 Chapitre Conclusion et perspectives .52 Annexe Sommaire des algorithmes de classification .53 TIEU LUAN MOI download : skknchat@gmail.com Annexe Liste des figures .55 Références 56 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE Résumé Aujourd’hui, il y a plus en plus des applications dont la base de données est très grosse et les données apparaissent sous la forme d’un flux de données infini comme des enregistrements de coup de téléphone, la surveillance de réseaux Pour ce type de données, les systèmes de gestion de base de données (SGBDs) traditionnels semblent ne pas convenables parce que ils ne traitent que des données taille limitée Pour exploiter efficacement des données massives en utilisant un espace de stockage limité, il faut trouver un traitement spécial qui réduit les données afin d’obtenir des informations nécessaires appelées des résumés partir de ces données Il y a certaines méthodes pour ce fait : échantillonnage, compression et classification Parmi eux, la classification est la solution la plus convenable Dans ce rapport, nous parlons des algorithmes de classification en général et particulièrement de ceux qui sont pour le flux de données Après avoir découvert plusieurs algorithmes de classification, nous avons trouvé que l’algorithme BIRCH est une solution de réduction de données très bonnes et le modèle CLUSTREAM permet de traiter efficacement les données sur un flux de données Nous avons également implémenté l’algorithme BIRCH pour tester sa performance Abstract Today, there is more and more applications whose database is very large and the data appear in the form of an infinite data stream like records of telephone call, the monitoring of networks For this type of data, the traditional database management systems (DBMS) seem not suitable because they treat only data with limited size To exploit effectively massive data by using a space of limited storage, it is necessary to find a special processing which reduces the data in order to obtain necessary information called the summaries from these data There are certain methods for this: sampling, compression and clustering Among them, clustering is the most suitable solution In this report, we talk about the general clustering algorithms and particularly about those which are for the data flow After having studied several clustering algorithms, we found that BIRCH algorithm is a very good data reduction solution and the CLUSTREAM is a model which allows to effectively treating the data stream We also implemented algorithm BIRCH to test its performance TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE Chapitre Introduction Aujourd’hui, il y a plusieurs applications qui ont besoin d’un autre modèle de stockage des données que le modèle des SGBD (Système de Gestion de Base de Données) traditionnel Un modèle de SGBD traditionnel stocke des jeux de données finis et persistants, donc il n’est approprié qu’aux applications dont le volume de données n’est pas gigantesque, dont des parties significatives de données sont souvent requises et dont les mises jour sont relativement peu fréquentes On peut trouver de telles nouvelles applications dans les télécommunications, la surveillance des réseaux, les affaires, les marchés financiers, les flux de clics sur les pages web…Dans ces applications, les données arrivent sous la forme d’un flux de données, i.e un gros volume de données qui arrive continuellement Les données ne sont accessibles que par ordre d’arrivée, les accès aléatoires ne sont pas permis La mémoire réservée aux données est relativement plus petite que le volume total du flux de données, donc il n’y a qu’une petite quantité de données qui peut être gardée Dans les télécommunications, par exemple, les enregistrements d’appel sont continuellement générés Typiquement, la plupart de traitements sont faits en examinant un enregistrement une seule fois Après, il ne sera plus examiné Il existe des méthodes pour réaliser un compromis entre un gros volume de données qui arrivent et un espace de stockage et petit On peut échantillonner les données qui arrivent et utiliser les échantillons obtenus dans les opérations de l’application Cette méthode perd beaucoup d’informations concernant le jeu entier de données Une autre méthode est de compresser les données et d’utiliser les données compressées au lieu des données originales Dans ce cas, les données compressées ne peuvent pas être efficacement interprétées et directement utilisées sans être décompressées La classification automatique est aussi une technique de compression (réduction) de données mais les données sont bien compressées en sens que le jeu de données peut être bien interprété en n’utilisant que les données compressées La classification automatique des données consiste diviser un jeu de données en sous-ensembles de données appelés classes pour que tous les individus dans même une classe soient similaires et les individus de classes distinctes soient dissimilaires Typiquement, chaque classe est représentée par un individu qui s’appelle le centre de la classe ou par certaines informations dérivées de tous les individus de la classe qui sont suffisantes de décrire la classe Il y a plusieurs algorithmes de classification des données Ils diffèrent par la nature de données qu’ils traitent (données numériques ou données de catégorie, petit jeu de données ou gros jeu de données, données de dimension élevée ou moins élevée, sur un flux de données ou pas…), par les méthodes de distribution des données en classes, par la représentation des classes… Ce stage de fin d’étude a eu lieu l’Ecole Nationale Supérieure des Télécommunications de Paris, France J’ai travaillé sous la direction du professeur Georges HEBRAIL Mon travail dans ce stage est de découvrir tout d’abord le domaine de classification de données en général Ce travail consiste faire TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE connaissance le concept de classification des données, les problèmes concernant du domaine, une classification des algorithmes de classification différents afin de trouver que l’algorithme BIRCH et le modèle CLUSTREAM est une bonne solution pour le problème de classification sur le flux de données Nous avons également implémenté l’algorithme BIRCH et fait des expérimentations pour évaluer sa performance Une simulation simple de classification sur un flux de données est également réalisée en se basant sur cet algorithme Ce rapport est organisé comme suivant : Le chapitre décrit le problème de classification de données en général et de différents algorithmes de classification Le chapitre parle de l’algorithme BIRCH et CLUSTREAM Le chapitre décrit notre implémentation et expérimentation de l’algorithme BIRCH Le chapitre est une conclusion avec quelques perspectives TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE Classe CCFVector C’est une classe vide qui supporte les opérations de calculer la distance, la compacité, l’addition et la soustraction d’une entrée décrite ci-dessus CCFNumVector est une classe qui hérite la classe CCFVector Elle se compose du nombre des points, de la somme linéaire des points et de la somme des carrées des points dans une sous classe Nous avons utilisé cette classe pour la classification des données purement numériques Expérimentation du BIRCH Nous avons testé l’algorithme BIRCH sur des jeux de données synthétiques, sur une machine Sun Solaris avec un processeur Sparcv9 vitesse 440 MHz, 256 Mo de RAM et le système d’exploitation SunOS Les relations Nombre de dimensions-Temps, Taille du jeu de données-Temps sont représentées par les schémas ci-dessous Dimension/Temps 40 35 30 25 20 15 10 10 12 14 16 Nombre de dimensions 18 Dimension/Temps 70 20000 points 65 60 55 50 45 40 35 30 25 20 10 15 20 25 30 35 40 45 50 55 Nombre de dimensions Temps de classification Temps de classification 10000 points 20000 points 20 Figure : Relation du nombre de dimensions et le temps de classification Les schémas ci-dessus indiquent que le temps de classification augmente plus vite dans les espaces de haute dimension (un exemple pour le problème de malédiction de dimensionnalité) Temps de classification Taille/Temps 60 55 50 45 40 35 30 25 20 15 10 10 10 dimensions 15 20 25 30 35 40 45 Nombre de points (mille points) 50 55 Figure : Relation du nombre de points et le temps de classification Les tests avec des aberrants indiquent que l’algorithme peut les bien distinguer 51 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE Chapitre Conclusion et perspectives La classification sur le flux de données est très importante dans divers domaines d’application dont les données arrivent sous forme d’un flux Elle permet d’analyser le comportement des utilisateurs d’un site web, d’un réseau téléphonique, … en donnant un regroupement des utilisateurs selon leur similarité de comportement Ces connaissances sont vraiment utiles Plusieurs algorithmes sont proposés pour le problème général de classification Ils diffèrent par les méthodes de classification, les mesures de proximité qu’ils utilisent, la nature des données qu’ils traitent Le choix d’un algorithme approprié dépend fortement de l’application, la nature des données et les ressources disponibles Une analyse attentive des données aide bien choisir le meilleur algorithme Il n’existe pas un algorithme qui peut répondre toutes les demandes BIRCH est incrémental et il utilise des résumés compacts de données au lieu des données initiales C’est pourquoi il est très efficace dans le traitement des gros jeux de données avec un espace limité Le concept des vecteurs de CF aide fournir des classes significatives : une classe est représentée par des informations compactes mais suffisantes pour bien la décrire CLUSTREAM est un cadre pour la classification des flux de données évolutives en considérant un flux de données comme un processus qui change dans le temps L’utilisation du modèle fenêtre pyramidale de temps (pyramidal time window) assure que les statistiques essentielles des flux de données évolutives peuvent être capturées sans perdre en efficacité sur l’espace et le temps requis pour le processus de classification BIRCH et CLUSTREAM laissent encore des problèmes résoudre Ces deux algorithmes et leurs extensions peuvent traiter efficacement des données numériques et de type catégorie Pour un attribut dont le domaine de valeurs est extrêmement grand, la transformation en tableau disjonctif n’est pas réaliste, parce que le nombre d’attributs devient très grand Par conséquent, on rencontre le problème de malédiction de dimensionnalité De plus, le choix d’une bonne augmentation du seuil d’absorption et une définition explicite des aberrants est encore un défi 52 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE Annexe Sommaire des algorithmes de classification Type Paramètres d’algorithme d’entrée Partition Nombre de classes Forme des classes Sphérique Caractéristiqu es de données Petits jeux de données PAM Partition Sphérique CLARA Partition Nombre de classes Nombre de classes CLARANS Partition Nombre de classes, Maximum nombre de voisins Sphérique Petits jeux de données Jeux de données relativement gros Données spatiales CURE Hiérarchique Arbitraire BIRCH Hybride : partition pour résumer des données et n’importe quelle méthode pour la classification des résumés Basé sur densité Nombre de classes, Nombre de représentatifs Nombre d’embranchement, Seuil de compacité Rayon d’une classe, Nombre minimum de points dans une classe Rayon d’une classe, Nombre minimum d’objets Rayon minimum, maximum d’une classe, Nombre minimum d’objets Nombre de Arbitraire Gros jeux de données Traite les aberrants Complexité : O (n log n) Approche hybride : basé sur densité et grille Arbitraire Gros jeux de données Arbitraire Gros jeux de données Traite les aberrants Complexité O (n log n) Avoir une fondation mathématique forte Traite les aberrants Complexité : O (n log n) Frontière Gros jeux de Traite les aberrants Nom k-means DBSCAN DENCLUE Basé sur densité OPTICS Basé sur densité STING Basé sur Sphérique Sphérique Jeux de données relativement gros Gros jeux de données Caractéristiques de l’algorithme Ne traite pas les aberrants Complexité : O (Ikn) Il existe certaines versions qui diffèrent par la mise jour des centroids Ne traite pas les aberrants Complexité: O (Ik (n-k) 2) Ne traite pas les aberrants Complexité : O (ks2+k (nk)) Ne traite pas les aberrants Complexité : O (kn2) Combinaison entre PAM et CLARA donc donner une meilleure qualité de classes Traite les aberrants Complexité : O (n2 log n) Utiliser le résumé de données Traite les aberrants Complexité : O (n) Utiliser le résumé de données Trois versions pour données numériques, mélangées et flux de données 53 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE grille WaveClust er Basé sur grille CLIQUE Basé sur grille MAFIA Basé sur grille kprototypes Partition, données de catégorie k-modes Partition, données de catégorie Hiérarchique, données de catégorie Partition, données de catégorie ROCK STIRR CACTUS Partition, données de catégorie cellules au niveau le plus bas, Nombre d’objets dans une cellule Nombre de cellules pour chaque dimension, Wavelet, Nombre d’applications de transformation Taille de la grille, Nombre minimum de points dans une cellule Facteur de dominance de classes, Nombre minimum de points dans une cellule Nombre de classes verticale et données horizontale spatiales Complexité O (n) Arbitraire Gros jeux de données Traite les aberrants Complexité O (n) Arbitraire Gros jeux de données de haute dimension Traite les aberrants Complexité O (ck+kn) Classification faite dans sous-espaces Arbitraire Gros jeux de données de haute de dimension Sphérique Nombre de classes Sphérique Données mélangées (qualitatives, quantitatives) Données qualitatives Traite les aberrants Complexité O (ck+kn) Classification faite dans sous-espaces Meilleur que CLIQUE en terme de qualité et performance Ne traite pas les aberrants Complexité O (Ikn) Type de partition Nombre de classe Configuration initiale, Opérateur de combinaison, Critère de terminaison Seuil de support, Seuil de validation Petits jeux de données avec bruit Gros jeux de données avec bruit Gros jeux de données, petite dimensionnalit é, Petite taille du domaine d’attributs Ne traite pas les aberrants Complexité O (Ikn) Type de partition Traite les aberrants Complexité : O (n2+nmmma+n2log n) Traite les aberrants Complexité O (n) Traite les aberrants Complexité O (n) 54 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE Annexe Liste des figures Figure 1: Classification de lien simple (gauche) et complet (droite) d’objets contenant classes et avec le brut * Figure 2: La fonction d’influence gaussienne, un jeu de points et la fonction de densité globale Figure 3: Grille de taille uniforme (a) et Grille de taille adaptative (b) Figure 4: Une base de données et sa représentation de graphe Figure 5: Illustration d’un arbre de CFs Figure 6: Reconstruire l’arbre de CFs Figure 7: Relation du nombre de dimensions et le temps de classification Figure 8: Insertion des individus dans l’arbre de CFs Figure 9: Relation du nombre de points et le temps de classification 55 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE Références [1] P Berkshire: Survey of Clustering Data Mining Techniques, 2002 [2] P Andritsos: Data Clustering Techniques, 2002 [3] A K Jain, M N Murty, P J Flynn: Data Clustering: A Review, ACM Computing Serveys, Vol 31, No.3, September 1999 [4] Steinbach, Karypis, Kumar: A comparison of document clustering techniques, ACM SIGKDD, 6th World Text Mining Conference, 2000 [5] Z Huang: Extension to the k-means algorithm for clustering large data sets with categorical values, 1998 [6] P Bradley, U Fayyad, and C Reina: Scaling clustering algorithms to large databases Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining, 1998 [7] C Elkan: Using the Triangle Inequality to Accelerate k-means, Proceedings of the 12th International Conference on Machine Learning, 2003 [8] G Karypis, E.H Han, V Kumar: CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling, 1999 [9] T Zhang, R Ramakrishnan, M Livny: BIRCH: A New Data Clustering Algorithm and Its Applications, 1996 [10] http://db.cs.sfu.ca/GeoMiner/survey/html/node9.html [11] C.M Fei, F.C Wing, O.S.K Yan, T.T Shing : Funny thing in clustering, 1997 [12] R.T Ng, J Han: Efficient and Effective Clusterig Methods for Spatial Data Mining, Proceedings of 1994 Int Conference on Very Large Databases, 1994 [14] http://www.isys.ucl.ac.be/etudes/cours/linf2275/09cours.pdf [15] V Faber : Clustering and Continuous K-means, Los Alamos Science, 1994 [16] M Ankerst, M Breunig, H.P Kriegel, S Sander: Ordering Points to Identify the Clustering Structure, SIGMOD 1999 [17] G Sheikholeslami, S Chatterjee, A Zhang: WaveCluster: A Wavelet-based clustering approach for spatial data in very large databases [18] R Agrawal, J Gehrke, D Gunopulos, P Raghavan: Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications, SIGMOD, 1998 [19] M Ester, H.P Kriegel, J Sander, M Wimmer, X Xu: Incremental Clustering for Mining in a Data Warehousing Environment, Proceedings of 24th VLDB Conference, 1998 [20] S Guha, R Rastogi, K Sim : CURE : An Efficient Clustering Algorithm for Large Databases, SIGMOD, 1998 [21] V Castelli: Multidimensional Indexing Structures for Content-based Retrieval, IBM Research Report, 2001 [22] A McCallum, K Nigam, L Ungar: Efficient Clustering of High Dimensional Data Sets with Application to Reference Matching [23] S Goil, H Nagesh, A Choudhary: MAFIA: Efficient and Scalable Subspace for Very Large Data Sets, Technical Report [24] M Steinbach, L Ertöz, V Kumar: The Challenges of Clustering High Dimensional Data [25] S Guha, A Mayerson, N Mishra, R Motwani: Clustering Data Streams: Theory and Practice, 2003 [26] S Guha, N Mishra, R Motwani, L O’Callaghan: Clustering Data Streams 56 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE [27] S Guha, R Rastogi, K Shim: ROCK: A robust clustering algorithm for categorical attributes, Proceedings of the IEEE International Conference on Data Engineering, 1999 [28] D Gibson, J Kleinberg, P Raghavan.: Clustering categorical data: An approach based on dynamical systems Proceeding of the 24th VLDV Conference, 1998 [29] V Ganti, J Gehrke, R Ramakrishnan: CACTUS: Clustering Categorical Data Using Summaries Proceeding of the 5th International Conference on Knowledge Discovery and Data Mining, (KDD), 1999 [30] L O’Callaghan, N Mishra, A Meyerson, S Guha, R Motwani: Streaming-Data Algorithms For High-Quality Clustering, 2001 [31] C Aggarwal, J Han, J Wang, P Wu: A Framework for Clustering Evolving Data Streams, Proceeding of 29th VLDB Conference, 2003 [32] R Webber, J Schek, S Blott: A quantitative analysis and performance study for similarity-search methods in highdimensional space Proceeding of the International Conference on VLDB, 1998 [33] X Zhou, G.Wang, J.X Yu, G.Yu: M+-tree: A New Dynamical Multidimensional Index for Metric Spaces, Paper of 14th ADC (Australian Database Conference), 2003 [34] P Ciaccia, M Patella, P Zezula: M-tree: An Efficient Access Method for Similarity Search in Metric Space, Proceedings of 23rd VLDB Conference, 1997 [35] A Guttman: R-trees: A Dynamic Index Structure for Spatial Searching, ACM 1984 [36] G Rozenberg: Curves That Fill Space [37] D.E.Knuth: The Art of Computer Programming, Addison Wesley, 1973 [38] J Kuan, P Lewis: A Study on Data Point Search for HG-trees [39] J K Lawder, P J H King: Querying Multi-dimensional Data Indexed Using the Hilbert Space-Filling Curve, SIGMOD Record, 2001 [40] J L Bently: Multidimensional Binary Search Trees Used for Associative Searching, ACM, 1975 [41] S Berchtold, B Ertl, D A Keim, H P Kriegel, T Seidl: Fast Nearest Neighbor Search in High-dimensional Space, 14th ICDE, 1998 [42] F Aurenhammer: Voronoi Diagrams- A survey of a Fundamental Geometric Data Structure, ACM Computing Survey, 1991 [43] S Berchtold, D A Keim, H P Kriegei: The X-tree: An Index Structure for High-Dimensional Data, Proceedings of the 22nd VLDB Conference, 1996 [44] N Beckmann, H P Kriegel, R Schneider, B Seeger: The R*-tree: An Efficient and Robust Access Method for Points and Rectangles, ACM, 1990 [45] T Sellis, N Roussopoulos, C Faloutsos : The R+-tree : A Dynamic Index for Multi-Dimensional Objects, In Proceedings of 13th Int Conf on VLDB, 1987 [46] N Katayama, S I Satoh: The SR-tree: An Index Structure for High Dimensional Nearest Neighbor Queries, ACM, 1997 [47] C Böhm, S Berchtold, D A Keim: Searching in High-Dimensional Spaces— Index Structures for Improving the Performance of Multimedia Databases, ACM Computing Surveys, 2001 [48] L Wu, T Bretschneider: Comparative Analysis of the Efficiency of R-tree Based Indexing Strategies for Information Retrieval [49] G H Cha, X Zhu, D Petkovic, C W Chung: An Efficient Indexing Method for Nearest Neighbor Searches in High Dimensional Image Databases, IEEE Transactions on Multimedia, 2002 57 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE (LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE(LUAN.VAN.THAC.SI).REDUCTION.DE.BASE.DE.DONNEES.PAR.LA.CLASSIFICATION.AUTOMATIQUE