THIẾT KẾ MỘT HỆ THỐNG PHÂN CẤP NGỮ NGHĨA VÀ KHÔNG GIAN CỦA CÁC CHỈ SỐ MÔ TẢ TRỰC QUAN ĐỊA PHƯƠNG MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – luận văn

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	62
Dung lượng	2,21 MB

Nội dung

DT7 là tài liệu chia sẽ nếu có vi phạm bản quyền tác giả hãy liên hệ dangtinn306@gmail.com ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Signature de l’étudiant Remerciement J’adresse mes remerciements aux personnes qui m’ont aide´ dans la reálisation de ce me´moire. En premier lieu, je tiens a` exprimer toute ma reconnaissance a` mes deux encadrants : Madame Muriel VISANI et Monsieur Thierry URRUTY. Je les remercie de m’avoir encadre´, orienteé, aideé et conseilleé. Je les remercie aussi d’avoir e´te´ tre`s patients pour m’encourager a` comple´ter le me´moire quand j’e´tais dans les moments difficiles. J’adresse mes since`res remerciements a` mes professeurs a` l’IFI : Monsieur HO Tuong Vinh, Monsieur NGUYEN Hong Quang, et Madame NGUYEN Thi Van Tu pour leur encouragement. Je tiens a` remercier mes chers parents, et mon cher mari VU Viet Minh qui ont toujours e´te´ la` pour moi. Finalement, je remercie tre`s spećialement mes amis : Chanthala SENTHAVONG et Damien PHILLIPON pour leur since`re amitie´ et confiance, leur soutien inconditionnel et leur encouragement. A` tous ces intervenants, je pre´sente mes remerciements, mon respect et ma grati- tude. i Table des matie`res Re´sume´ iii Abstract iv Liste des Figures v Liste des Tableaux vi 1 Introduction 1 1.1 Contexte et motivation . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Proble´matique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Objectifs du travail et principales contributions . . . . . . . . . . . 7 2 E´tat de l’art des me´thodes de phrases visuelles 9 2.1 Phrases visuelles construites par feneˆtres coulissantes . . . . . . . . 9 2.2 Groupes de plus proches voisins . . . . . . . . . . . . . . . . . . . . 15 2.3 Chaˆınes des mots visuels . . . . . . . . . . . . . . . . . . . . . . . . 21 2.4 Phrases visuelles construites par re´gions . . . . . . . . . . . . . . . 25 3 Mise en œuvre de quelques me´thodes 30 3.1 Protocole expe´rimental . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2 Me´thode de sacs de phrases visuelles descriptives . . . . . . . . . . 31 3.3 Sacs de sacs de mots visuels . . . . . . . . . . . . . . . . . . . . . . 33 4 Expe´rimentation et discussion 37 4.1 Me´thode d’e´valuation . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2 Les base d’images utiliseés . . . . . . . . . . . . . . . . . . . . . . . 38 4.3 Analyse des re´sultats . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5 Conclusion 46 A Re´sultats de´taille´s 48 Bibliographie 50 ii Re´sume´ Ces dernie`res anneés, l’analyse des images par le contenu est devenue un sujet d’e´tude populaire. Parmi de nombreuses me´thodes proposeés, le mode`le de sacs de mots visuels semble prometteur. Il a retenu l’attention des scientifiques avec plusieurs ideés d’ame´lioration. Parmi ces ideés, les me´thodes de sac de phrases visuelles sont tre`s bien e´tudieés mais il n’y a pas a` notre connaissance de document qui reálise une synthe`se de celles-ci, formellement et expe´rimentalement. Ce travail est donc une e´tude syste´matique avec un regroupement des approches de sacs de phrases visuelles selon la me´thode de construction d’une phrase. De plus, les performances de certaines me´thodes sont aussi e´tudieés. Parmi les me´thodes de sacs des phrases visuelles, deux me´thodes sont choisies et re-imple´menteés. Elles sont ensuite analyseés sur les aspects de performance et de complexite´ (temps d’exećution) avec des expe´riences de recherche d’images par le contenu. iii Abstract In recent years, content based image analysis hqs been extensively studied. Among the nu,erous proposed methods, the bag of visual words model seems promising with interesting experimental results. It

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL ĐÀO THỦY NGÂN CONCEPTION D'UNE HIÉRARCHIE SÉMANTIQUE ET SPATIALE DE DESCRIPTEURS LOCAUX VISUELS THIẾT KẾ MỘT HỆ THỐNG PHÂN CẤP NGỮ NGHĨA VÀ KHÔNG GIAN CỦA CÁC CHỈ SỐ MÔ TẢ TRỰC QUAN ĐỊA PHƯƠNG MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2016 �� ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Các thông tin trích dẫn Luận văn rõ nguồn gốc Signature de l’étudiant Remerciement J’adresse mes remerciements aux personnes qui m’ont aidé dans la réalisation de ce mémoire En premier lieu, je tiens à exprimer toute ma reconnaissance a` mes deux encadrants : Madame Muriel VISANI et Monsieur Thierry URRUTY Je les remercie de m’avoir encadré, orientée, aidée et conseillée Je les remercie aussi d’avoir été très patients pour m’encourager a` compléter le mémoire quand j’étais dans les moments difficiles J’adresse mes sincères remerciements a` mes professeurs à l’IFI : Monsieur HO Tuong Vinh, Monsieur NGUYEN Hong Quang, et Madame NGUYEN Thi Van Tu pour leur encouragement Je tiens a` remercier mes chers parents, et mon cher mari VU Viet Minh qui ont toujours été là pour moi Finalement, je remercie très spécialement mes amis : Chanthala SENTHAVONG et Damien PHILLIPON pour leur sincère amitié et confiance, leur soutien inconditionnel et leur encouragement ` tous ces intervenants, je présente mes remerciements, mon respect et ma gratiA tude i Table des mati` eres R´ esum´ e iii Abstract iv Liste des Figures v Liste des Tableaux vi Introduction 1.1 Contexte et motivation 1.2 Problématique 1.3 Objectifs du travail et principales contributions ´ Etat de l’art des m´ ethodes de phrases visuelles 2.1 Phrases visuelles construites par fenêtres coulissantes 2.2 Groupes de plus proches voisins 2.3 Chaˆınes des mots visuels 2.4 Phrases visuelles construites par régions 1 9 15 21 25 Mise en œuvre de quelques m´ ethodes 30 3.1 Protocole expérimental 30 3.2 Méthode de sacs de phrases visuelles descriptives 31 3.3 Sacs de sacs de mots visuels 33 Exp´ erimentation et discussion 4.1 Méthode d’évaluation 4.2 Les base d’images utilisées 4.3 Analyse des résultats 37 37 38 42 Conclusion 46 A R´ esultats d´ etaill´ es 48 Bibliographie 50 ii R´ esum´ e Ces dernières années, l’analyse des images par le contenu est devenue un sujet d’étude populaire Parmi de nombreuses méthodes proposées, le modèle de sacs de mots visuels semble prometteur Il a retenu l’attention des scientifiques avec plusieurs idées d’amélioration Parmi ces idées, les méthodes de sac de phrases visuelles sont très bien étudiées mais il n’y a pas à notre connaissance de document qui réalise une synthèse de celles-ci, formellement et expérimentalement Ce travail est donc une étude systématique avec un regroupement des approches de sacs de phrases visuelles selon la méthode de construction d’une phrase De plus, les performances de certaines méthodes sont aussi étudiées Parmi les méthodes de sacs des phrases visuelles, deux méthodes sont choisies et re-implémentées Elles sont ensuite analysées sur les aspects de performance et de complexité (temps d’exécution) avec des expériences de recherche d’images par le contenu iii Abstract In recent years, content based image analysis hqs been extensively studied Among the nu,erous proposed methods, the bag of visual words model seems promising with interesting experimental results It raised the attention of several scientists with many ideas for improvement Among these ideas, bag of visual phrases methods are very well studied but there is, to the best of our knowledge, no document which provides a formal and experimental synthesis This work is therefore a systematic study with a categorization of bag of visual phrases approaches according to the method of construction of a phrase In addition, the performance of some methods is also reviewed Among the bag of visual phrases methods, two methods are selected and re-implemented They are then compared on performance and complexity (runtime) with some experiments on content based image retrieval iv Liste des Figures 1.1 Illustration de l’étape d’indexation des mots visuels 2.1 Exemple de la fenêtre coulissante 10 3.1 L’histogramme spatial pour générer les phrases visuelles candidates 32 4.1 Exemples de la base d’image MIRFLICKF-25000 4.2 Exemples des bases d’images utilisées 40 4.3 Temps d’exécution de la méthode BBW sur les bases d’images 38 différentes 45 A.1 Résultats détaillés sur la base ImageNet 48 A.2 Résultats détaillés sur la base Caltech 49 v Liste des Tableaux 2.1 Méthodes de phrases visuelles construites par fenêtres coulissantes 13 2.2 Méthodes de plus proches voisins 18 2.3 Méthodes de chaˆınes de mots visuels 23 2.4 Méthodes de phrases visuelles construites par région 28 4.1 Le nombre d’images dans les bases d’images 41 4.2 mAP des méthodes sur les bases d’images différentes 42 4.3 Temps d’exécution des méthodes sur les bases d’images différentes 44 vi Chapitre Introduction 1.1 Contexte et motivation Ces dernières années, le volume de données multimédia a augmenté de manière exponentielle, en parallèle avec le développement des appareils multimédia et aussi des techniques de stockage La disponibilité d’une vaste quantité de données multimédia, notamment des images et vidéos, fournit de grandes ressources pour beaucoup de domaines d’application : journalisme, médecine, robotique En revanche, l’explosion de données fait émerger de nouvelles questions sur les techniques de gestion automatique des images telles que : la classification des images, la recherche d’image à partir du contenu ou la reconnaissance des objets dans des images Ce contexte conduit au développement des études sur l’analyse et sur la description du contenu des images L’analyse des images par le contenu est donc un sujet de recherche très étudié récemment Appartenant au domaine de la vision artificielle, une branche de l’intelligence artificielle, il s’agit d’un domaine séduisant, pratique et dynamique avec des possibilités d’applications multiples Dans l’ordinateur, les images sont représentées simplement par des chiffres Cependant, au niveau des objets, les images peuvent avoir plusieurs caractéristiques spéciales Par exemple, les documents textuels sont constitués des mots définis par une langue qui va alors en limiter leur sens, alors que pour les images, le contenu visuel peut être très varié (une plage, une montagne ou bien même de l’abstrait) La variété du contenu des images reflète la variété dans le monde réel Dans le monde visuel, un objet peut Expérimentation et discussion 39 Cette base d’images est utilisée pour la construction du dictionnaire La figure 4.1 montre un exemple des images de MIRFLICKR-25000 La base d’images contient 250000 images, fournie par le LIACS Medialab a` l’université de Leiden en 2008 Elle est introduite la première fois en 2008 par la commission de ACM MIR, pour évaluer les méthodes de recherche d’images par le contenu Flickr est une plate-forme qui permet a` l’utilisateur de chercher et de partager ses images, avec des étiquettes pour chaque image Avec une grande base d’utilisateurs, le contenu des images dans la base d’images MIRFLICKR-25000 est très varié Donc en utilisant cette base d’images pour la construction du dictionnaire, les mots visuels formés peuvent être assez représentatifs pour représenter différents détails dans les images Base d’images Holiday La figure 4.2a présente des exemples des images dans la base d’images Holiday [27] Elle se compose d’un ensemble d’images de haute résolution qui contient une grande variété de types de scènes : la nature, l’humain, des monuments, des effets de l’eau et du feu, etc Elle est introduite pour l’évaluation de la performance des méthodes de recherche d’images par le contenu Il y a 1491 images dans 500 catégories En général, une catégorie contient 2, ou images représentant une scène distincte ou un objet différent En utilisant cette base d’images, on ne prend pas en compte la variété visuelle des objets d’un même type La différence des images dans une catégorie nous permet de tester la robustesse des méthodes de recherche aux changements de rotation, d’illumination, de point de vue ou au flou Pour faire les expériences, la base d’images est divisée en deux parties La première partie contenant 500 images est l’ensemble des requêtes Les images sont choisies au hasard, une image par catégorie La deuxième partie est l’ensemble des images restantes qui forme un pool pour la recherche Pour une requête, une image retournée est considérée comme correcte (un bon résultat) si elle est dans la même catégorie que la requête http://press.liacs.nl/mirflickr/ http://lear.inrialpes.fr/people/jegou/data.php http://www.robots.ox.ac.uk:5000/~vgg/research/caltech/index.html http://image-net.org/index Expérimentation et discussion (a) Holiday 40 (b) Caltech-101 (c) ImageNet Figure 4.2: Exemples des bases d’images utilisées Base d’images Caltech-101 Caltech-101 (Fei-Fei et al [28]) est une base d’images numérisées qui contient un total de 9146 images collectées, classées en 101 types d’objets (par exemple visages, pianos, moto, ordinateur portable, etc) Quelques exemples de ses catégories sont donnés dans la figure 4.2b Elle est adaptée a` l’évaluation de techniques de reconnaissance et de classification Les images sont très uniformes dans leur présentation, alignées à gauche ou à droite En effet, la plupart des images dans chaque catégorie ont une taille similaire d’environ 300x200 pixels Les objets d’intérêt ont tendance a` être centrés dans les images et se présentent dans une pose stéréotypée Les arrières-plans des images sont très hétérogènes, mais pas aussi complexe que dans les autres bases d’images utilisées dans ce travail Le nombre d’images dans les catégories est différent, de 31 à 800 images En fait, plusieurs catégories ne contiennent que peu d’images, c’est insuffisant pour construire Expérimentation et discussion 41 le pool de recherche Donc, seulement les 26 catégories (listée dans l’annexe A.2) ` partir de chaque qui ont les plus d’images sont utilisées pour faire les tests A catégorie, 10 images sont choisies pour un total de 260 images comme requêtes Le pool de recherche contient 1820 images (70 images par catégorie) Toutes les images sont choisies aléatoirement Base d’images ImageNet ImageNet [29] est une base d’images grande et complexe qui est construite en se basant sur la hiérarchie de WordNet Chaque concept du WordNet est éventuellement décrit par plusieurs mots ou groupes de mots, appelés ”synset” (”synonym set”), et est représenté par des centaines ou des milliers d’images Les images dans cette base sont de qualité contrôlée, elles sont 2t2 annotées sous la supervision d’humains Parmi plus de cent mille synsets disponibles, on a choisi a` la main 15 synsets familiers comme chien, poisson, aéroplane, vélo, maison, etc (voir l’exemple des images utilisées dans nos expériences dans la figure et la liste de synsets complète dans l’annexe A.1) Chaque synset forme une catégorie de plus de 800 images Pour les tests, 100 images sont choisies aléatoirement par catégorie comme requêtes, les 700 autres images sont sélectionnées pour former le pool de recherche Table 4.1: Le nombre d’images dans les bases d’images Holiday Caltech-101 ImageNet Le nombre d’images indexées 991 1820 10500 Le nombre de requêtes 500 260 1500 Le tableau 4.1 résume le nombre total d’images utilisées comme requêtes et le nombre total d’images indexées dans le pool de recherche pour chaque base d’images Pour les bases Caltech-101 et ImageNet, le nombre d’images dans les catégories est le même Excepté pour la base Holiday, une requête est choisie dans chaque catégorie, et le pool de recherche contient toutes les images restantes La raison est que le nombre d’images de chaque catégorie est trop bas pour cette base d’images Expérimentation et discussion 4.3 42 Analyse des r´ esultats Les méthodes choisies sont évaluées en terme de performance qui est mesurée par la mAP et de temps d’exécution Les résultats sont résumés dans les tableaux 4.2 et 4.3, o` u la colonne Classique présente les résultats obtenus pour la méthode de base : le modèle des sacs de mots visuels classique [1] Les colonnes BBW-2lv, BBW-3lv, BBW-4lv présentent les résultats de la méthode des sacs de sacs de mots visuels (BBW) [3], avec le nombre de couches correspondantes : 2, et couches La colonne DVP affiche les résultats de la méthode de phrases visuelles descriptives [4] Les chiffres dans le tableau 4.2 montrent la différence de performance entre les méthodes La méthode des sacs de sacs de mots visuels (BBW) prouve sa performance sur les bases d’image Holiday et Caltech-101 Par contre, la méthode de phrases visuelles descriptives (DVP) ne peut pas prouver son amélioration Parmi les approches, la méthode DVP donne les moins bonnes mAPs dans tous les cas La différence entre ses résultats et ceux des autres méthodes est assez grande Pour la base d’images ImageNet, la méthode de base donne le meilleur résultat et la méthode DVP donne le plus mauvais résultat Table 4.2: mAP des méthodes sur les bases d’images différentes Holiday Caltech-101 ImageNet Classique 0.524 0.210 0.164 BBW-2lv 0.564 0.251 0.158 BBW-3lv 0.554 0.271 0.145 BBW-4lv 0.51 0.321 0.147 DVP 0.388 0.173 0.078 Les mAPs sont aussi très différentes entre les bases d’images Cette disparité est causé par la différence entre les caractéristiques des bases d’images Dans la base Holiday, les images dans une catégorie capturent seulement une scène ou un objet unique Donc les images ne sont pas très différentes les unes des autres Même s’il y a une rotation, transition, ou changement de luminance, les images se chevauchent souvent en partie Ce chevauchement facilite la recherche des phrases visuelles communes Pour cette raison, on obtient les mAPs les plus élevées sur la base Holiday Pour la base d’images ImageNet, les objets dans une catégorie peuvent être variés en taille, forme, couleur, etc D’ailleurs, les images peuvent contenir plusieurs objets de même type ou de différentes type En outre, l’arrière-plan dans les images est parfois texturé ou l’arrière-plan d’une image peut être l’objet des autres images dans une autre catégorie Donc, on peut facilement comprendre que Expérimentation et discussion 43 les mAPs soient en baisse sur la base ImageNet Avec la base d’images Caltech101, les mAPs obtenues sont aussi moins bonnes que sur la base d’images Holiday Peut-être que la variété visuelle des objets dans une catégorie provoque des difficultés qui diminuent la performance des méthodes En comparaison avec la base ImageNet, les images dans la base Caltech-101 ne contiennent souvent qu’un seul objet L’arrière-plan dans une image est souvent simple et l’objet est souvent au centre de l’image Grâce a` ces caractéristiques, les mAPs sur cette base d’images sont meilleures que celles sur la base ImageNet ` partir des résultats dans le tableau 4.2, on peut non seulement comparer les A méthodes, mais aussi vérifier l’influence de la structure hiérarchique sur la performance de la méthode des sacs de sacs de mots visuels Dans [3], cette méthode est testée avec la base d’image Caltech-101 Les résultats ont montré que la structure hiérarchique du morcellement des images influence la performance de la méthode : plus on met de couches, plus haute est la performance Ce phénomène apparaˆıt aussi dans le tableau 4.2 avec la base d’image Caltech-101 (la même base d’images que les auteurs ont utilisé) Cependant, il n’existe pas dans le cas des bases Holiday et ImageNet Tandis que les mAPs sur la base Caltech-101 augmentent progressivement et le cas BBW-4lv (4 couches de partition) donne le meilleur mAP (0.321), sur la base Holiday, le cas BBW-2lv nous donne le meilleur mAP (0.564), puis les mAPs diminuent Pour la base d’images ImageNet, le cas de couche (la méthode de base) donne le meilleur mAP (0.164) et l’ajout de plus de morcellements diminue légèrement ce résultat Pour conclure, la structure hiérarchique proposée dans la méthode BBW semble appropriée seulement pour les images simples qui ne contiennent pas beaucoup d’objets ou d’arrière-plan texturé Le deuxième aspect pour évaluer les méthodes est le temps d’exécution Le tableau 4.3 affiche la complexité théorique et les mesures pratiques (en minute) de toutes les méthodes sur les trois bases d’images La complexité de la recherche avec la méthode classique et celle de DVP sont O(n), o` u n est la taille du vecteur qui représente l’image Pour la méthode BBW, une image est représentée par un vecteur des vecteurs de phrases visuelles Pour la recherche, on doit ajouter une étape pour mettre en correspondance les régions correspondantes qui utilise l’algorithme Hongrois (Hungarian Algorithm) La complexité de cette étape est O(m3 ) o` u m est le nombre de morceaux dans l’image Les deux images sont ensuite comparées en comparant les paires de vecteurs correspondants La complexité de la comparaison est O(m∗n), o` u n est la taille d’un vecteur de mots visuels (c’est aussi Expérimentation et discussion 44 la taille du dictionnaire des mots visuels) La complexité globale de la recherche est donc O(m3 ) + O(mn) pour BBW En ce qui concerne les mesures pratiques, la méthode DVP consomme presque le même temps, parfois même moins de temps que la méthode de base La raison est l’utilisation du dictionnaire dans lequel les phrases visuelles sont représentées par les indexes des paires de mots visuels La complexité de la recherche est donc O(n) o` u n est la taille du dictionnaire des phrases visuelles Table 4.3: Temps d’exécution des méthodes sur les bases d’images différentes Classique Complexité théorique Holiday Caltech-101 ImageNet BBW-2lv BBW-4lv O(m3 ) + O(mn) O(n) 3m34.18s 0m34.95s 20m49.14s BBW-3lv 4m49.14s 1m42.23s 56m37.98s 13m49.26s 9m31.88s 306m11.76s 127m2.45s 103m7.62s 3563m39.53s DVP O(n) 3m45.71s 1m0.52s 10m50.15s ` partir de ce tableau et de la figure 4.3, la méthode BBW a exprimé sa complexité A ` la différence de la méthode DVP, la méthode BBW consomme plus du temps A Dans le cas le plus simple avec couches, le temps d’exécution de cette méthode est toujours plus haut que ceux des autres méthodes En utilisant couches pour exécuter progressivement les tests de rechercher de 1500 images sur le pool de 10500 images indexées de la base ImageNet, cette méthode a pris environ jours et demi (plus de 3500 minutes) La figure 4.3 démontre l’augmentation du temps d’exécution de la méthode BBW selon l’augmentation du nombre de couches dans la structure hiérarchique Dans cette figure, le temps d’exécution sur la base Holiday et la base Caltech est affiché sous le format ‘minute : seconde’ et le temps pour la base ImageNet est affiché sous le format ‘heure : minute : seconde’ La forme des courbes est similaire pour tous les tests sur les bases d’images différentes Quand le nombre de couches augmente, le temps d’exécution augmente de manière exponentielle C’est à cause de l’utilisation de l’algorithme Hongrois (Hungarian Algorithm) duquel la complexité est O(n3 ) pour mettre en correspondance les partitions de deux images On doit refaire la mise en correspondance plusieurs fois dans toutes les recherches pour comparer la similarité entre la requête et chaque image dans le pool Pour un niveau plus haut dans la structure hiérarchique (plus de couches), le temps d’exécution augmente très vite car plus haute est la couche, plus on a de partitions, donc plus de temps consommé Par ailleurs, on doit faire la mise en correspondance séparément pour chaque couche Par exemple, dans le cas de couches, on doit utiliser l’algorithme Expérimentation et discussion 45 Figure 4.3: Temps d’exécution de la méthode BBW sur les bases d’images différentes Hongrois fois pour la couche de partition, la couche de partitions, la couche de 16 partitions et la couche de 64 partitions En résumé, quand le nombre de couches utilisées dans la méthode BBW augmente, le temps d’exécution augmente de manière exponentielle dans tous les cas, mais la performance (mAP) de la méthode change de manière instable, dans certain cas la performance n’augmente pas mais diminue Chapitre Conclusion Ce mémoire est une bibliographie sur les méthodes existantes de sacs des phrases visuelles, qui sont les améliorations du modèle de sacs des mots visuels Les méthodes sont recensées et groupées en catégories : phrases visuelles construites par fenêtres coulissantes, groupes de plus proches voisins, chaˆınes des mots visuels et phrases visuelles construites par régions Cette bibliographie est espérée comme une référence pour avoir une vue générale sur la représentation des images par le sac des phrases visuelles En outre dans ce travail, deux méthodes de sacs des phrases visuelles sont reexaminées : la méthode de sacs des sacs des mots visuels (BBW) et la méthode des phrases visuelles descriptives (DVP) Elles sont choisies à partir de deux groupes : le groupe des phrases visuelles construites par régions (BBW) et le groupe des phrases visuelles construites par fenêtres coulissantes (DVP) Les expériences de recherche des images par le contenu sont effectuées en utilisant un dictionnaire commun qui est généré a` partir de la base d’image MIRFLICKR-25000 Ces méthodes sont testées séparément sur trois bases d’images différentes : Holiday, ImageNet et Caltech-101 Selon les résultats expérimentaux, la méthode BBW donne une assez bonne performance sur la base Holiday et Caltech-101 Parmi les méthodes, la méthode DVP est rapide mais ses performances ne sont pas à la hauteur des autres méthodes Pour la base d’images ImageNet, les deux méthodes de sacs des phrases visuelles ne peuvent pas prouver leur amélioration, la méthode de base ` partir des résultats expérimentaux, donne la meilleure performance dans ce cas A l’influence de la structure hiérarchique de la méthode BBW est aussi vérifiée 46 47 Les chiffres montrent que l’augmentation du nombre de couches dans la structure hiérarchique n’améliore pas toujours la performance, mais augmente le temps d’exécution de manière exponentielle En utilisant les bases d’images différentes, nos tests montrent aussi que la performance des méthodes dépend fortement des caractéristiques de la base d’images Dans le futur, pour avoir une comparaison plus complète, l’implémentation d’autres méthodes, au moins deux appartenant aux deux autres groupes, sera nécessaire Avoir une évaluation complète des méthodes des sacs des phrases visuelles permettrait de choisir efficacement la méthode la plus adaptée a` l’application souhaitée Cela nous permettra dans le même temps de mieux comprendre le fonctionnement des méthodes étudiées et d’en proposer une amélioration pertinente Annexe A R´ esultats d´ etaill´ es Base ImageNet Figure A.1: Résultats détaillés sur la base ImageNet Il y a une analogie entre la méthode classique et BBW quand on regarde la visualisation des résultats de 15 catégories : les catégories book, sky, flower et tree sont bien retrouvés en comparant avec les autres La méthode DVP donne les résultats très faibles, mois de 5% pour la plupart des catégories 48 49 Base Caltech Figure A.2: Résultats détaillés sur la base Caltech Les valeurs dans chaque cellule sont donnés pour montrer les relations entre les résultats des différentes méthodes Par exemple, la méthode classique et BBW marchent très bien pour les catégories car side, Faces, 20 Motobikes et 25 trilobite Par contre, avec la méthode DVP, on ne trouve pas de résultat prépondérant pour une catégorie quelconque Bibliographie [1] Josef Sivic and Andrew Zisserman Video google : A text retrieval approach to object matching in videos In Computer Vision, 2003 Proceedings Ninth IEEE International Conference on, pages 1470–1477 IEEE, 2003 [2] David G Lowe Object recognition from local scale-invariant features In Computer vision, 1999 The proceedings of the seventh IEEE international conference on, volume 2, pages 1150–1157 Ieee, 1999 [3] Yi Ren, Aurélie Bugeau, and Jenny Benois-Pineau Bag-of-bags of words irregular graph pyramids vs spatial pyramid matching for image retrieval In Image Processing Theory, Tools and Applications (IPTA), 2014 4th International Conference on, pages 1–6 IEEE, 2014 [4] Shiliang Zhang, Qi Tian, Gang Hua, Qingming Huang, and Shipeng Li Descriptive visual words and visual phrases for image applications In Proceedings of the 17th ACM international conference on Multimedia, pages 75–84 ACM, 2009 [5] Naeem A Bhatti and Allan Hanbury Co-occurrence bag of words for object recognition In Proceedings of the 15th Computer Vision Winter Workshop, pages 21–28 Citeseer, 2010 [6] Tao Chen, Kim-Hui Yap, and Dajiang Zhang Discriminative soft bag-ofvisual phrase for mobile landmark recognition Multimedia, IEEE Transactions on, 16(3) :612–622, 2014 [7] Qing-Fang Zheng, Wei-Qiang Wang, and Wen Gao Effective and efficient object-based image retrieval using visual phrases In Proceedings of the 14th annual ACM international conference on Multimedia, pages 77–80 ACM, 2006 50 51 [8] Yi Yang and Shawn Newsam Spatial pyramid co-occurrence for image classification In Computer Vision (ICCV), 2011 IEEE International Conference on, pages 1465–1472 IEEE, 2011 [9] Josef Sivic, Bryan C Russell, Alexei Efros, Andrew Zisserman, William T Freeman, et al Discovering objects and their location in images In Computer Vision, 2005 ICCV 2005 Tenth IEEE International Conference on, volume 1, pages 370–377 IEEE, 2005 [10] Junsong Yuan, Ying Wu, and Ming Yang Discovery of collocation patterns : from visual words to visual phrases In Computer Vision and Pattern Recognition, 2007 CVPR’07 IEEE Conference on, pages 1–8 IEEE, 2007 [11] Shiliang Zhang, Qi Tian, Qingming Huang, and Yong Rui Embedding multiorder spatial clues for scalable visual matching and retrieval Emerging and Selected Topics in Circuits and Systems, IEEE Journal on, 4(1) :130–141, 2014 [12] Shiliang Zhang, Qi Tian, Qingming Huang, Wen Gao, and Yong Rui Multiorder visual phrase for scalable image search In Proceedings of the Fifth International Conference on Internet Multimedia Computing and Service, pages 145–149 ACM, 2013 [13] Glauco Vitor Pedrosa and Agma JM Traina From bag-of-visual-words to bag-of-visual-phrases using n-grams In Graphics, Patterns and Images (SIBGRAPI), 2013 26th SIBGRAPI-Conference on, pages 304–311 IEEE, 2013 [14] Svebor Karaman, Jenny Benois-Pineau, Rémi Mégret, and Aurélie Bugeau Multi-layer Local Graph Words for Object Recognition Springer Berlin Heidelberg, Berlin, Heidelberg, 2012 ISBN 978-3-642-27355-1 doi : 10.1007/978-3-642-27355-1 [15] Josef Sivic and Andrew Zisserman Video data mining using configurations of viewpoint invariant regions In Computer Vision and Pattern Recognition, 2004 CVPR 2004 Proceedings of the 2004 IEEE Computer Society Conference on, volume 1, pages I–488 IEEE, 2004 [16] Yan-Tao Zheng, Ming Zhao, Shi-Yong Neo, Tat-Seng Chua, and Qi Tian Visual synset : towards a higher-level visual representation In Computer Vision and Pattern Recognition, 2008 CVPR 2008 IEEE Conference on, pages 1–8 IEEE, 2008 52 [17] Julien Ros, Christophe Laurent, and Jean-Michel Jolion A bag of strings representation for image categorization Journal of Mathematical Imaging and Vision, 35(1) :51–67, 2009 [18] Hong-Thinh Nguyen, Cécile Barat, and Christophe Ducottet Approximate image matching using strings of bag-of-visual words representation In International Conference on Computer Vision Theory and Applications (VISAPP 2014), pages 345–353, 2014 [19] Pierre Tirilly, Vincent Claveau, and Patrick Gros Language modeling for bagof-visual words image categorization In Proceedings of the 2008 international conference on Content-based image and video retrieval, pages 249–258 ACM, 2008 [20] Rami Albatal, Philippe Mulhem, and Yves Chiaramella Visual phrases for automatic images annotation In Content-Based Multimedia Indexing (CBMI), 2010 International Workshop on, pages 1–6 IEEE, 2010 [21] Yimeng Zhang, Zhaoyin Jia, and Tsuhan Chen Image retrieval with geometry-preserving visual phrases In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 809–816 IEEE, 2011 [22] Yuning Jiang, Jingjing Meng, and Junsong Yuan Randomized visual phrases for object search In Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on, pages 3100–3107 IEEE, 2012 [23] Yi Ren, Aurélie Bugeau, and Jenny Benois-Pineau Visual object retrieval by graph features Feb 2013 URL https://hal.archives-ouvertes.fr/ hal-00977125 [24] Svetlana Lazebnik, Cordelia Schmid, and Jean Ponce Beyond bags of features : Spatial pyramid matching for recognizing natural scene categories In Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on, volume 2, pages 2169–2178 IEEE, 2006 [25] Sandra Avila, Nicolas Thome, Matthieu Cord, Eduardo Valle, and Arnaldo De A Ara´ uJo Pooling in image representation : The visual codeword point of view Computer Vision and Image Understanding, 117(5) :453–465, 2013 [26] David Liu, Gang Hua, Paul Viola, and Tsuhan Chen Integrated feature selection and higher-order spatial feature extraction for object categorization In 53 Computer Vision and Pattern Recognition, 2008 CVPR 2008 IEEE Conference on, pages 1–8 IEEE, 2008 [27] Herve Jegou, Matthijs Douze, and Cordelia Schmid Hamming embedding and weak geometric consistency for large scale image search In European conference on computer vision, pages 304–317 Springer, 2008 [28] Li Fei-Fei, Rob Fergus, and Pietro Perona Learning generative visual models from few training examples : An incremental bayesian approach tested on 101 object categories Computer Vision and Image Understanding, 106(1) :59–70, 2007 [29] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C Berg, and Li Fei-Fei ImageNet Large Scale Visual Recognition Challenge International Journal of Computer Vision (IJCV), 115 (3) :211–252, 2015 doi : 10.1007/s11263-015-0816-y [...]... performance de certaines méthodes de sacs de phrases visuelles est aussi examinée Le modèle de sac des mots visuels original [1] est considéré comme la méthode de base Parmi les méthodes de sacs des phrases visuelles, deux méthodes appartenant a` des types différents sont choisies et re-implémentées, puis elles sont comparées l’une avec l’autre ainsi qu’avec la méthode de base Les contributions de. .. par la méthode de Yuan nimal” pour valider les groupes de mots visuels Les groupes fréquents et significatifs sont choisis comme phrases visuelles Remarques variée et al [10] - La méthode est sensible a` la valeur de k ´ Etat de l’art des méthodes de phrases visuelles Méthode de plus proches voisins (continue) 20 ´ Etat de l’art des méthodes de phrases visuelles 2.3 21 Chaˆınes des mots visuels... voisin de point 4 La raison est que la distance spatiale entre ces deux points est inférieure au rayon de la fenêtre du point 7, mais elle est supérieure au rayon de la fenêtre du point 4 Appliquant la fenêtre coulissante, la méthode de Bhatti and Hanbury [5] est une simple amélioration de la méthode de base Le rayon de la fenêtre coulissante dans cette méthode est défini en fonction des longueurs... est une étude sur les différentes méthodes des sacs de phrases visuelles Introduction 1.3 7 Objectifs du travail et principales contributions L’objectif principal de ce travail est d’étudier les différentes méthodes existantes de sacs de phrases visuelles Il s’agit d’une étude systématique avec un regroupement (typologie) des approches de sacs de phrases visuelles selon la méthode de construction... la méthode des sacs de sacs de mots visuels [3] et la méthode des phrases visuelles descriptives [4] Ces méthodes sont présentées en détails Les paramètres et les conditions de l’implémentation sont aussi donnés — Chapitre 4 : Comparaison des méthodes implémentées Les résultats sur plusieurs bases d’images sont présentés et analysés Chapitre 2 ´ Etat de l’art des m´ ethodes de phrases... d’étude, plusieurs méthodes ont été proposées pour l’analyse des images par le contenu visuel Parmi celles-ci, la méthode utilisant les sacs de mots visuels semble être particulièrement populaire et étudiée ces dernières années Ce modèle est appliqué dans des systèmes de recherche et des systèmes de classification d’images par le contenu La méthode des sacs de mots visuels est introduite... au lieu de décrire une image comme un sac des mots visuels, on la décrit comme un sac des phrases visuelles Similaire au modèle de sacs des mots visuels, l’idée de construire les phrases visuelles est inspirée par la notion de phrases dans le domaine d’analyse des documents textuels Le modèle de sacs de phrases visuelles est une amélioration du modèle de sacs des mots visuels qui séduit fortement... voisin du point A Cette méthode est une des premières méthodes de phrases visuelles Elle améliore la méthode de sacs de mots visuels classique sur l’efficacité (le temps d’exécution) et la performance (la qualité des résultats) Cependant, cette méthode ne fonctionne pas bien si les images ont peu de texture Si les objets principaux dans les images ont peu de détails, le nombre de descripteurs... des comparaisons objectives, ces méthodes sont expérimentées avec trois bases d’images différentes Le contenu du mémoire est découpé en trois chapitres : Introduction 8 ´ — Chapitre 2 : Etat de l’art Les méthodes des sacs des phrases visuelles sont recensées et nous en établissons une typologie — Chapitre 3 : Implémentation de quelques méthodes de sacs des phrases visuelles Deux méthodes... images ayant des contours bien définis mais coˆ uteux en termes de calculs de des Morceler l’image en sous-régions selon deux axes principaux, puis enchaˆıner les histogrammes des mots visuels des sousrégions selon l’axe majeur - Robuste aux variations de transfixe lation et aux variations d’échelle des objets dans l’image - La représentation est compacte ´ Etat de l’art des méthodes de phrases

Ngày đăng: 14/01/2017, 08:11

Xem thêm