KTPM sujet ANALYSE SÉMANTIQUE LATENTE PROBABILISTE POUR LA RECHERCHE D’IMAGE PAR LE CONTENU

FACULTÉ DES TECHNOLOGIES DE L’IMFORMATION ET DE LA COMMUNICATON UNIVERSITÉ DE CANTHO MÉMOIRE DE FIN D’ÉTUDES Sujet : ANALYSE SÉMANTIQUE LATENTE PROBABILISTE POUR LA RECHERCHE D’IMAGE PAR LE CONTENU Étudiant : Nom : PHAM Nguyen Hoang Code d’étudiant : 1071674 Mémoire présenté pour l’obtention du diplôme d’ingénieur en informatique Semestre 2, année 2010 – 2011 PHAM NGUYEN HOANG, 2011 Résumé : Le problème de l’indexation et de la recherche de texte existe depuis longtemps Il est connu des bibliothécaires et des documentalistes qui doivent gérer leur ouvrage Il existe des catalogues et des systèmes de classification qui permettent de résoudre le problème Cependant, compte-tenu de l’explosion du nombre de documents, les catalogues doivent être mis jour et la recherche efficace d’information devient de plus en plus difficile Depuis quelques années, on a développé des méthodes automatiques d’indexation de bases de données textuelles et de recherche d’information Avec le développement du numérique, le nombre d’images stockées dans les bases de données a beaucoup augmenté L’indexation des images et la recherche d’information dans les bases d’images sont plus compliquées que dans le cas de document textuels Quand il s’agit d’organiser des images, l’homme fait souvent mieux que les machines tant que la taille de la base n’est pas trop grande Des méthodes d’indexation déjà utilisées en ADT ont été comme le PLSA et le LDA Ces méthodes nécessitent d’utilisation de nouvelles caractéristiques : les mots visuels qui permettent de répondre cette demande Dans ce mémoire, je vais faire les recherches sur le PLSA et le appliquer sur le RIC dans une grande base de données des images Le contenu visuel des images de la base est extrait et décrit par ce qu’on appelle des signatures d’images L’utilisateur fournit une image exemple (appelé la requête) Le système va calculer et comparer les mesures de similarités/dissimilarités entre la signature de la requête et celle de toutes les images de la base Le résultat est le plus souvent présenté sous forme une liste des images de similarité descendante Abstract : The problem of indexing and text searching has been existing for a long time Librarians and archivists who must manage their work know it There are catalogs and classification systems that solve this problem However, giving the explosion in the number of documents, catalogs must be updated and efficient search of information becomes increasingly difficult In recent years, there has had a developed automatic method for indexing text databases and information retrieval With the development of digital, the number of images stored in databases has been increasing significantly The image of indexing and information retrieval in image databases is more complicated than in the case of paper records When it comes to organizing pictures, man is often better than the machines as the size of the database is not too large Indexing methods being used in ADT are as PLSA and LDA These methods require the use of new features: visual words that can meet this demand This essay will the research on the PLSA and apply to the RIC in a large database of images The content of visual images in the database is extracted and described by so-called image signatures The user provides a sample image (called the query) The system will calculate and compare the measures of similarity/dissimilarity between the signing of the petition and that of all the images in the database The result is usually presented as a list of images of descending similarity Les mots clés : ADT : Analyse de Données Textuelles AFC : Analyse Factorielle des Correspondances LDA : Latent Dirichlet Allocation LSA : Analyse Sémantique Latente (Latent Semantic Analysis) PLSA : Analyse Sémantique Latente Probabiliste (Probabilistic Latent Semantic Analysis) RIC : Recherche Image par le Contenu SVD : Décomposition en valeurs singulières (Singular Value Decomposition) Table des matières : Table des matières Table des figures Liste des tableaux Remerciements Chapitre : Introduction générale 1.1 Introduction 1.2 Objectif 1.3 Solution Chapitre : PLSA pour l’indexation et la recherche d’images par le contenu 2.1 Introduction 2.2 Méthodes inspirées de l’analyse de données textuelles 2.2.1 LSA 2.2.2 PLSA 10 2.3 Indexation et recherche d’image par le PLSA 12 2.3.1 PLSA original 12 2.3.2 PLSA amélioré 19 2.3.3 Algorithme de recherche 23 2.3.4 Mesures de similarité/dissimilarité 25 2.4 Construction du tableau de contingence 25 Chapitre : Résultats expérimentaux 27 3.1 Implémentation du PLSA 27 3.2 Expérimentation 28 3.2.1 Bases d’images 28 3.2.2 Métriques d’évaluation 31 3.2.3 Mesures d’évaluation 33 3.2.4 Discussion 38 3.3 Démonstration 39 3.3.1 Présentation les résultats 39 3.3.2 Visualisation 42 Chapitre : Conclusion 44 Documents de références : 45 Table des figures : FIGURE 1.1 – Diagramme pour un système de recherche image par le contenu FIGURE 1.2 – Modèle du PLSA 11 FIGURE 2.1 – Processus pour construire le tableau de contingence 26 FIGURE 3.1 – Images extraites de la base Caltech-4 28 FIGURE 3.2 – Images extraites de la base Caltech-101 29 FIGURE 3.3 – Images extraites de la base Unbench 30 FIGURE 3.4 – Courbes de précision-rappel des bases Caltech-4, Caltech-101 et Unbench 37 FIGURE 3.5 –Système RIC démonstration sur la base Caltech-4 39 FIGURE 3.6 – Système RIC démonstration sur la base Caltech-101 40 FIGURE 3.7 – Le système RIC démonstration sur la base Unbench 41 FIGURE 3.8 – Exemple sur la Visualisation 42 FIGURE 3.9 – Exemple sur la Visualisation 43 FIGURE 3.10 – Exemple sur la Visualisation 43 Liste des tableaux : TABLEAU 3.1 – Mesures d’évaluation de la base Caltech-4 34 TABLEAU 3.2 – Mesures d’évaluation de la base Caltech-4 35 TABLEAU 3.3 – Mesures d’évaluation de la base Unbench 36 Remerciements : Je remercie sincèrement les enseignants de la Faculté des technologies de l'information et de la communication de l’université de Can Tho qui m’a fourni des précieuses connaissances au cours d’étude de l’université Je voudrais remercier tout particulièrement monsieur Pham Nguyen Khang – mon directeur de mémoire qui m’a donné des nouvelles connaissances, mobilisé et aidé résoudre des difficultés que j’ai rencontrées au cours de la réalisation de ce mémoire Je souhaiterais remercier monsieur Tran Cao De – responsable de filière francophone de la faculté d’informatique de l’Université de Cantho qui m’a beaucoup aidé pendant ma recherche Je voudrais exprimer mes remerciements mes parents de m’avoir éduqué et créé toutes les meilleures conditions pour que je puisse poursuivre mes études Je tiens remercier aussi mes amis de m’avoir beaucoup aidé pendant mon processus d’études Chapitre Introduction générale 1.1 Introduction De nos jours, avec le développement des données numériques et les réseaux communications, les grandes bases de données textuelles deviennent disponibles dans le large public C’est un grand défi dans le domaine des sciences de l’informations pour développer les interfaces intelligentes entre homme – machine pour que l’utilisateur doit avoir la facilité dans la recherche d’information Une grande problème a été posée : il existe la contradiction et le vague dans la communication entre l’utilisateur et l’ordinateur Un scénario typique de l'interaction homme-machine dans la recherche d'information est de requêtes en langage naturel: l'utilisateur formule une demande, par exemple, en fournissant un certain nombre de mots clés ou un texte de forme libre, et s'attend ce que le système pour retourner les données pertinentes, dans certains justiciables la représentation, par exemple, sous forme d'une liste de classement des documents pertinents Plusieurs méthodes d'extraction sont basées sur simple mot correspondant des stratégies visant déterminer le rang de la pertinence d'un document par rapport une requête Pourtant, il est bien connu que les termes littéraux ont des graves inconvénients, principalement en raison de l'ambivalence des mots et leur absence inévitable de précision ainsi que de raison un style personnel et les différences individuelles dans l'usage des mots LSA (Latent Semantic Analysis) est une approche de l'indexation automatique et de recherche documentaire qui tente de surmonter ces problèmes par des documents de cartographie ainsi que les modalités d'une représentation dans l’espace latent que l'on appelle l'espace sémantique LSA prend généralement la représentation en espace vectoriel (de grande dimension) de documents basées sur les fréquences terme comme point de départ et applique une réduction de la dimension de projection linéaire La forme spécifique de cette cartographie est déterminée par une collection de documents donnée et est basé sur une décomposition en valeurs singulières (SVD) de correspondante l'expression / document matrice La demande générale est que les similitudes entre les documents ou entre les documents et les requêtes peuvent être 3.2.2 Métriques d’évaluation La recherche d’images par le contenu est essentiellement un problème de recherche d’information Les métriques d’évaluation adoptées naturellement sont celles qui sont utilisées en recherche d’information Deux des mesures d’évaluation les plus populaires sont la précision et le rappel :  Précision : Cette mesure se réfère au pourcentage des images retournées qui sont pertinentes par rapport la requête  Rappel (Le rappel ou la sensibilité) : correspond au pourcentage de toutes les images pertinentes de la base d’images qui sont retournées Notons que quand la requête est une image, la pertinence des images retournées est extrêmement subjective C’est pour cela, qu’au lieu de retourner un ensemble d’images pertinentes la requête, la plupart des systèmes de recherche d’images retournent une liste d’images classées par pertinence décroissante par rapport la requête La précision et le rappel sont souvent calculés sur un certain ensemble de k premières images retournées k est appelé le scope On a montré que la précision et le rappel suivent une relation inverse en fonction du scope, c’est-à-dire la précision diminue tandis que le rappel augmente quand le scope augmente Notons cependant qu’avec un scope k donné, la précision avec les k premières images retournées (dénotée par P@k) est proportionnelle au rappel (R@k) au même scope Traditionnellement, les résultats d’un système de recherche d’information sont résumés par des courbes de précision-rappel ou courbes de précision-scope Pour obtenir une courbe de précision-rappel, on calcule la précision chaque image pertinente retournée et on interpole la précision 21 points standard du rappel Ce sont les points où le rappel est égale 0, 0.05, 0.1, 0.15, 0.2,…….et L’interpolation se fait par la règle suivante : p(r) = max {p(r' )} r ' r où p(r) est la précision au point où le rappel est égale r Une courbe de précision-rappel idéale est parallèle l’axe rappel et constant égale (c’est-à-dire la précision est toujours égale quelque soit la rappel) 31 Pour mesurer la manière dont le système ordonne des images pertinentes dans le résultat retourné l’utilisateur, j’utilise la mesure numérique très populaire dans la communauté de RIC C’est la précision moyenne (Average Precision) La précision moyenne pour une requête est calculée comme l’aire sous la courbe de précision-rappel en moyennant les précisions chaque image pertinente retournée La moyenne arithmétique de la précision moyenne calculée sur un nombre de différentes requêtes est appelée le MAP (Mean Average Precision) Je calcule la précision aux 10, 20, 50, 100 et 200 premières images retournées pour les bases Caltech-4 et Caltech-101 Dans la case de la base Unbench, je calcule la précision aux premières images puisqu’il n’y a que images pertinentes pour une requête 32 3.2.3 Mesures d’évaluation J’applique la validation crossé k-fold en calculant les mesures des base d’images La validation crossé k-fold contient les étapes suivantes :  Diviser la base d’images en k partition  Pour chaque k :  Assurer T l'ensemble de données qui contient toutes les données sur la formation de points, sauf ceux dans le groupe numéro k  Former l'algorithme en utilisant T comme l'ensemble de la formation  Tester l'algorithme formé et utiliser l'ensemble numéro k comme l'ensemble de test Record du nombre d'erreurs  Faire le rapport des erreurs en moyenne sur tous les ensembles de test k Exemple : Appliquer la validation crossé k-fold sur la base Caltech-4 : On choisit k = On obtient les étapes suivantes :  Diviser occasionnellement cette base en partition et les appellent partie 1, partie et partie  Utiliser les parties et pour faire la fonction PLSA_ LEARN  Effectuer la fonction PLSA_CHERCHE avec la partie  Calculer les mesures d’évaluation  Utiliser les parties et pour faire la fonction PLSA_ LEARN  Effectuer la fonction PLSA_CHERCHE avec la partie  Calculer les mesures d’évaluation  Utiliser les parties et pour faire la fonction PLSA_ LEARN  Effectuer la fonction PLSA_CHERCHE avec la partie  Calculer les mesures d’évaluation  À partir des mesures d’évaluation des fois calculés, on calcule les mesures d’évaluation en moyenne Après avoir calculé les mesures d’évaluations des bases d’images, on obtient les tableaux suivants : 33 Fold-1-2 P@10 P@20 P@50 P@100 P@200 MAP Z=3 0.456346 0.452091 0.445429 0.430227 0.405224 0.360444 Z=5 0.592443 0.583162 0.56606 0.543712 0.51471 0.453118 Z=6 0.634336 0.617718 0.590888 0.56099 0.525092 0.447596 Z=7 0.632649 0.62058 0.587865 0.555106 0.514259 0.430396 Z = 10 0.700073 0.675605 0.63482 0.590389 0.538782 0.433478 Z = 12 0.755393 0.733382 0.692942 0.653052 0.59719 0.476852 Fold-1-3 P@10 P@20 P@50 P@100 P@200 MAP Z=3 0.473734 0.471753 0.459076 0.439993 0.411838 0.364493 Z=5 0.630888 0.620873 0.601335 0.580242 0.552583 0.490154 Z=6 0.670433 0.653338 0.623404 0.588445 0.540488 0.440568 Z=7 0.659061 0.643837 0.612179 0.579149 0.540484 0.452163 Z = 10 0.706383 0.685913 0.647733 0.609523 0.560979 0.450893 Z = 12 0.793984 0.774541 0.735363 0.694446 0.635092 0.510188 Fold-2-3 P@10 P@20 P@50 P@100 P@200 MAP Z=3 0.494424 0.49292 0.482289 0.466933 0.445073 0.385283 Z=5 0.610198 0.598056 0.567351 0.539164 0.501471 0.425707 Z=6 0.624285 0.611739 0.580044 0.547821 0.504729 0.413394 Z=7 0.661922 0.645378 0.6038 0.566669 0.524384 0.438824 Z = 10 0.77799 0.756823 0.709817 0.663147 0.605701 0.488582 Z = 12 0.781438 0.759098 0.710624 0.660389 0.60066 0.482356 Moyens P@10 P@20 P@50 P@100 P@200 MAP Z=3 0.474835 0.472255 0.462265 0.445718 0.420712 0.370073 Z=5 0.611176 0.600697 0.578249 0.554373 0.522921 0.456326 Z=6 0.643018 0.627598 0.598112 0.565752 0.523436 0.433853 Z=7 0.651211 0.636598 0.601281 0.566975 0.526376 0.440461 Z = 10 0.728149 0.706114 0.664123 0.62102 0.568487 0.457651 Z = 12 0.776938 0.755674 0.712976 0.669296 0.610981 0.489799 Tableau 3.1 – Mesures d’évaluation de la base Caltech-4 34 Fold-1-2 P@10 P@20 P@50 P@100 P@200 MAP Z = 50 0.397397 0.37199 0.335998 0.301594 0.25811 0.215552 Z = 55 0.401681 0.375081 0.340135 0.305287 0.261952 0.221748 Z = 70 0.401518 0.377332 0.339935 0.306226 0.262501 0.222628 Z = 100 0.397017 0.371882 0.333319 0.298037 0.252744 0.213009 Z = 150 0.389805 0.363368 0.323601 0.286893 0.240683 0.203952 Z = 200 0.386876 0.359463 0.319978 0.285321 0.239639 0.204614 Fold-1-3 P@10 P@20 P@50 P@100 P@200 MAP Z = 50 0.408894 0.385277 0.349479 0.31622 0.274138 0.232798 Z = 55 0.396143 0.370136 0.338425 0.301262 0.258712 0.216346 Z = 70 0.397635 0.367826 0.328746 0.298462 0.257481 0.217423 Z = 100 0.389746 0.369742 0.321034 0.289364 0.246824 0.209574 Z = 150 0.376953 0.354682 0.313441 0.271649 0.230274 0.198361 Z = 200 0.370168 0.347161 0.301253 0.270131 0.227461 0.189313 Fold-2-3 P@10 P@20 P@50 P@100 P@200 MAP Z = 50 0.410371 0.394617 0.354718 0.320461 0.284615 0.243154 Z = 55 0.405163 0.380153 0.341385 0.310876 0.266472 0.228474 Z = 70 0.392654 0.364163 0.317164 0.296153 0.251823 0.212011 Z = 100 0.390161 0.360122 0.31684 0.290826 0.243938 0.209713 Z = 150 0.370509 0.359048 0.308925 0.267543 0.229857 0.189257 Z = 200 0.383615 0.356382 0.318471 0.279482 0.231643 0.190371 Moyens P@10 P@20 P@50 P@100 P@200 MAP Z = 50 0.405554 0.383961 0.346732 0.312758 0.272288 0.230501 Z = 55 0.400996 0.375123 0.339982 0.305808 0.262379 0.222189 Z = 70 0.397269 0.369774 0.328615 0.30028 0.257268 0.217354 Z = 100 0.392308 0.367249 0.323731 0.292742 0.247835 0.210765 Z = 150 0.379089 0.359033 0.315322 0.275362 0.233605 0.19719 Z = 200 0.38022 0.354335 0.313234 0.278311 0.232914 0.194766 Tableau 3.2 – Mesures d’évaluation de la base Caltech-101 35 Fold-1-2 P@3 MAP Z = 100 0.601275 0.652175 Z = 200 0.611347 0.634678 Z = 300 0.581296 0.623685 Z = 400 0.562943 0.612286 Z = 500 0.543612 0.591276 Z = 600 0.514359 0.561542 Fold-1-3 P@3 MAP Z = 100 0.609467 0.645612 Z = 200 0.601245 0.647613 Z = 300 0.574369 0.614541 Z = 400 0.557693 0.602878 Z = 500 0.535141 0.589754 Z = 600 0.504612 0.570721 Fold-2-3 P@3 MAP Z = 100 0.614595 0.654318 Z = 200 0.623417 0.661287 Z = 300 0.580313 0.625615 Z = 400 0.558957 0.609687 Z = 500 0.548963 0.596458 Z = 600 0.517362 0.519462 Moyens P@3 MAP Z = 100 0.608446 0.650702 Z = 200 0.612003 0.647859 Z = 300 0.578659 0.62128 Z = 400 0.559864 0.608284 Z = 500 0.542572 0.592496 Z = 600 0.512111 0.550575 Tableau 3.3 – Mesures d’évaluation de la base Unbench 36 0.9 0.8 PLSA - Z = 0.7 Précision PLSA - Z = 10 0.6 0.5 0.4 0.3 0.2 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Rappel 0.6 0.5 PLSA - Z = 55 PLSA - Z = 150 Précision 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Rappel 0.9 0.8 PLSA - Z = 200 Précision 0.7 PLSA - Z = 400 0.6 0.5 0.4 0.3 0.1 0.2 0.3 0.4 0.5 Rappel 0.6 0.7 0.8 0.9 FIGURE 3.4 – Courbes de précision-rappel des bases Caltech-4 (en haut), Caltech-101 (au milieu) et Unbench (en bas) 37 3.2.4 Discussion Les tableaux 3.1 et 3.2 présentent les résultats expérimentaux sur les deux bases d’images : Caltech-4 et Caltech-101 avec différentes mesures d’évaluation : la précision des méthodes aux 10, 20, 50 et 200 premières images retournées (les colonnes P@10, P@20, P@50, P@100, P@200) et la précision moyenne (MAP) Pour la base Unbench, je fournis la précision aux premières images retournées (P@3) et la précision moyenne dans le tableau 3.3 À partir de ces tableaux, on peut noter que la base d’images Caltech-101 est la base qui a la complexité la plus grande car ces valeurs MAP sont petites (environ 0.21) La base d’images Caltech-4 n’est pas trop compliquée parce que ces valeurs MAP sont en moyenne (environ 0.44) Malgré que la base Unbench soit la base la plus grande avec 10200 images, sa précision est très favorable (les valeurs du MAP sont environ 0.61) La figure 3.4 présente les courbes de précision-rappel de la méthode PLSA calculées pour les base Caltech-4, Caltech-101 et Unbench respectivement Une courbe de précision-rappel idéale est parallèle l’axe rappel et constant égale (c’est-à-dire la précision est toujours égale quelque soit la rappel) La complexité des bases d’images est exprimée dans les courbes de précision-rappel Dans les bases Caltech-4 et Caltech-101, les images sont catégorisées La variance intra classe est assez élevée Une petite valeur de Z (par exemple et 55 respectivement) donne de meilleurs résultats Tandis que les images dans un groupe de la base Unbench sont très ressemblantes Les meilleurs résultats sont obtenus avec un grand Z (par exemple 500) Bien que les résultats du PLSA n’aient pas de précisions absolues, ces précisions sont acceptables Pourtant, la vitesse du système RIC utilisant le PLSA est très bonne On conclut que le nombre de thèmes pour le PLSA ne peut pas être très grand en général Sinon, les probabilités sont trop petites et ne sont pas significatives En plus, l’algorithme d’EM ne donne pas toujours une solution globale mais plutôt une solution locale 38 3.3 Démonstration 3.3.1 Présentation les résultats Je présente quelques résultats en appliquant le PLSA dans un système RIC démonstration sur les bases d’images : L’image requête 60 premières images les plus pertinentes la requête FIGURE 3.5 –Système RIC démonstration sur la base Caltech-4 39 Dans le cas de la figure 3.5, l’image requête est une moto, on fait la recherche sur la base Caltech-4 Le système RIC retourne 60 premières images et tous ces résultats sont les motos parce que la complexité de cette base n’est pas trop grande L’image requête 60 premières images les plus pertinentes la requête FIGURE 3.6 – Système RIC démonstration sur la base Caltech-101 Dans ce deuxième cas, l’image requête est une montre On voit que dans les 60 premières images retournées par le système RIC, environ 1/3 des résultats sont justes parce que la base Caltech-101 est la base la plus compliquée dans les bases données 40 Les premières images retournées sont l’image requête et les autres images appartiennent dans le groupe de la requête L’image requête FIGURE 3.7 – Le système RIC démonstration sur la base Unbench Dans ce dernier cas, l’image requête est le signe d’une pharmacie Il existe dans la base Unbench seulement d’autres images pertinences la requête Le système RIC les a retournées dans les premières images 41 3.3.2 Visualisation La présentation des résultats de recherche d’images est peut être un des facteurs importants dans l’acceptation et la popularité d’un système de recherche d’images Je construis quelques visualisations suivantes : Visualisation : Présenter sous forme les cercles de même centre mais de différent rayon Les images sont de mêmes tailles FIGURE 3.8 – Exemple sur la Visualisation 42 Visualisation : Présenter sous forme les cercles de même centre mais de différent rayon Les tailles des images sont diminuées par rapport la pertinence des images avec la requête FIGURE 3.9 – Exemple sur la Visualisation Visualisation : Présenter sous forme spirale, les tailles des images sont diminuées par rapport au pertinence des images avec la requête FIGURE 3.10 – Exemple sur la Visualisation 43 Chapitre Conclusion Dans ce mémoire, j’ai présenté une méthode utilisée dans la recherche d’images par le contenu : le PLSA J’ai analysé l’algorithme d’EM dans le PLSA original et donné des exemples pour illustrer le calcul des probabilités Ensuite, je vous exposé sur le PLSA amélioré – une bonne méthode appliquée dans un système RIC Puis, j’ai illustré les résultats en appliquant le PLSA dans un système de RIC démonstration Enfin, j’ai exprimé les mesures d’évaluations du système RIC sur différentes bases d’images En résumé, j’ai conclu que le PLSA est une bonne méthode pour les applications de recherche d’information Bien qu’il existe beaucoup de différentes méthodes appliquer dans un système RIC comme LSA, AFC, LDA… mais je travaille seulement sur le PLSA dans mon mémoire Dans la future, si j’aurai les bonnes conditions, je vais faire les recherches sur les autres méthodes que le PLSA  Le développement :  Développer un système parfaire de recherche d’images par le contenu  Appliquer le PLSA dans les systèmes RIC sur l'Internet On peut obtenir une différente méthode dans la recherche images : recherche images par le contenue au lieu des recherches par le texte (comme Google)  Développer le PLSA dans un module intégrer dans les autres applications 44 Documents de références : [1] Hofmann, T ,Probabilistic Latent Semantic Indexing, In Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99),1999 [2] R Lienhart and M Slaney, pLSA on large scale image databases, IEEE International Conference on Acoustics, Speech and Signal Processing 2007 (ICASSP 2007), Vol IV: 1217-1220, 2007 [3] J J Verbeek, INIRA Rhone-Alpes, 2006-2007 [4] Ismail El Sayad, Jean Martinet, Thierry Urruty and Chabane Dejraba, A semantic Higher-level Visual Representation For Object Recognisation, Lecture Notes in Computer Science, Vol 6532/2011, 2011 [5] Sabrina Tollari, Annotation, Indexation et recherche d’images par le texte et le contenu visuel, 2009 [6] Nguyen Khang Pham, Analyse factorielle des correspondances pour l’indexation et la recherche d’information dans une grande base de donné d’images, 2009 [7] S Kullback and R.Leiber, Annals of Mathematical Statistics, On information and sufficiency, 1951 45 ... avec les vecteurs de la base d’images Les valeurs de similarités sont des nombres décimaux Les images qui ont les valeurs de similarités les plus petites sont les images les plus similaires la. .. donne les valeurs similaires aux valeurs du PLSA original mais le travail pour les calculer est plus facile et plus vite que le PLSA original C’est pourquoi j’ai choisi le PLSA amélioré pour appliquer... Algorithme de recherche Soit X le tableau de contingence de la base d’images et R le tableau de contingence de la requête Le travail pour créer les tableaux de contingence sera présenter dans la section

Định dạng
Số trang	50
Dung lượng	1,96 MB