THIẾT KẾ MỘT HỆ THỐNG PHÂN CẤP NGỮ NGHĨA VÀ KHÔNG GIAN CỦA CÁC CHỈ SỐ MÔ TẢ TRỰC QUAN ĐỊA PHƯƠNG MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – luận văn

62 743 0
THIẾT KẾ MỘT HỆ THỐNG PHÂN CẤP NGỮ NGHĨA VÀ KHÔNG GIAN CỦA CÁC CHỈ SỐ MÔ TẢ TRỰC QUAN ĐỊA PHƯƠNG MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – luận văn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

DT7 là tài liệu chia sẽ nếu có vi phạm bản quyền tác giả hãy liên hệ dangtinn306@gmail.com ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Signature de l’étudiant Remerciement J’adresse mes remerciements aux personnes qui m’ont aide´ dans la re´alisation de ce me´moire. En premier lieu, je tiens a` exprimer toute ma reconnaissance a` mes deux encadrants : Madame Muriel VISANI et Monsieur Thierry URRUTY. Je les remercie de m’avoir encadre´, oriente´e, aide´e et conseille´e. Je les remercie aussi d’avoir e´te´ tre`s patients pour m’encourager a` comple´ter le me´moire quand j’e´tais dans les moments difficiles. J’adresse mes since`res remerciements a` mes professeurs a` l’IFI : Monsieur HO Tuong Vinh, Monsieur NGUYEN Hong Quang, et Madame NGUYEN Thi Van Tu pour leur encouragement. Je tiens a` remercier mes chers parents, et mon cher mari VU Viet Minh qui ont toujours e´te´ la` pour moi. Finalement, je remercie tre`s spe´cialement mes amis : Chanthala SENTHAVONG et Damien PHILLIPON pour leur since`re amitie´ et confiance, leur soutien incon- ditionnel et leur encouragement. A` tous ces intervenants, je pre´sente mes remerciements, mon respect et ma grati- tude. i Table des matie`res Re´sume´ iii Abstract iv Liste des Figures v Liste des Tableaux vi 1 Introduction 1 1.1 Contexte et motivation . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Proble´matique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Objectifs du travail et principales contributions . . . . . . . . . . . 7 2 E´tat de l’art des me´thodes de phrases visuelles 9 2.1 Phrases visuelles construites par feneˆtres coulissantes . . . . . . . . 9 2.2 Groupes de plus proches voisins . . . . . . . . . . . . . . . . . . . . 15 2.3 Chaˆınes des mots visuels . . . . . . . . . . . . . . . . . . . . . . . . 21 2.4 Phrases visuelles construites par re´gions . . . . . . . . . . . . . . . 25 3 Mise en œuvre de quelques me´thodes 30 3.1 Protocole expe´rimental . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2 Me´thode de sacs de phrases visuelles descriptives . . . . . . . . . . 31 3.3 Sacs de sacs de mots visuels . . . . . . . . . . . . . . . . . . . . . . 33 4 Expe´rimentation et discussion 37 4.1 Me´thode d’e´valuation . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2 Les base d’images utilise´es . . . . . . . . . . . . . . . . . . . . . . . 38 4.3 Analyse des re´sultats . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5 Conclusion 46 A Re´sultats de´taille´s 48 Bibliographie 50 ii Re´sume´ Ces dernie`res anne´es, l’analyse des images par le contenu est devenue un sujet d’e´tude populaire. Parmi de nombreuses me´thodes propose´es, le mode`le de sacs de mots visuels semble prometteur. Il a retenu l’attention des scientifiques avec plusieurs ide´es d’ame´lioration. Parmi ces ide´es, les me´thodes de sac de phrases visuelles sont tre`s bien e´tudie´es mais il n’y a pas a` notre connaissance de document qui re´alise une synthe`se de celles-ci, formellement et expe´rimentalement. Ce travail est donc une e´tude syste´matique avec un regroupement des approches de sacs de phrases visuelles selon la me´thode de construction d’une phrase. De plus, les performances de certaines me´thodes sont aussi e´tudie´es. Parmi les me´thodes de sacs des phrases visuelles, deux me´thodes sont choisies et re-imple´mente´es. Elles sont ensuite analyse´es sur les aspects de performance et de complexite´ (temps d’exe´cution) avec des expe´riences de recherche d’images par le contenu. iii Abstract In recent years, content based image analysis hqs been extensively studied. Among the nu,erous proposed methods, the bag of visual words model seems promising with interesting experimental results. It

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL ĐÀO THỦY NGÂN CONCEPTION D'UNE HIÉRARCHIE SÉMANTIQUE ET SPATIALE DE DESCRIPTEURS LOCAUX VISUELS THIẾT KẾ MỘT HỆ THỐNG PHÂN CẤP NGỮ NGHĨA VÀ KHÔNG GIAN CỦA CÁC CHỈ SỐ MÔ TẢ TRỰC QUAN ĐỊA PHƯƠNG MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2016 ����������������������������� ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Các thông tin trích dẫn Luận văn rõ nguồn gốc Signature de l’étudiant Remerciement J’adresse mes remerciements aux personnes qui m’ont aid´e dans la r´ealisation de ce m´emoire En premier lieu, je tiens `a exprimer toute ma reconnaissance a` mes deux encadrants : Madame Muriel VISANI et Monsieur Thierry URRUTY Je les remercie de m’avoir encadr´e, orient´ee, aid´ee et conseill´ee Je les remercie aussi d’avoir ´et´e tr`es patients pour m’encourager a` compl´eter le m´emoire quand j’´etais dans les moments difficiles J’adresse mes sinc`eres remerciements a` mes professeurs `a l’IFI : Monsieur HO Tuong Vinh, Monsieur NGUYEN Hong Quang, et Madame NGUYEN Thi Van Tu pour leur encouragement Je tiens a` remercier mes chers parents, et mon cher mari VU Viet Minh qui ont toujours ´et´e l`a pour moi Finalement, je remercie tr`es sp´ecialement mes amis : Chanthala SENTHAVONG et Damien PHILLIPON pour leur sinc`ere amiti´e et confiance, leur soutien inconditionnel et leur encouragement ` tous ces intervenants, je pr´esente mes remerciements, mon respect et ma gratiA tude i Table des mati` eres R´ esum´ e iii Abstract iv Liste des Figures v Liste des Tableaux vi Introduction 1.1 Contexte et motivation 1.2 Probl´ematique 1.3 Objectifs du travail et principales contributions ´ Etat de l’art des m´ ethodes de phrases visuelles 2.1 Phrases visuelles construites par fenˆetres coulissantes 2.2 Groupes de plus proches voisins 2.3 Chaˆınes des mots visuels 2.4 Phrases visuelles construites par r´egions 1 9 15 21 25 Mise en œuvre de quelques m´ ethodes 30 3.1 Protocole exp´erimental 30 3.2 M´ethode de sacs de phrases visuelles descriptives 31 3.3 Sacs de sacs de mots visuels 33 Exp´ erimentation et discussion 4.1 M´ethode d’´evaluation 4.2 Les base d’images utilis´ees 4.3 Analyse des r´esultats 37 37 38 42 Conclusion 46 A R´ esultats d´ etaill´ es 48 Bibliographie 50 ii R´ esum´ e Ces derni`eres ann´ees, l’analyse des images par le contenu est devenue un sujet d’´etude populaire Parmi de nombreuses m´ethodes propos´ees, le mod`ele de sacs de mots visuels semble prometteur Il a retenu l’attention des scientifiques avec plusieurs id´ees d’am´elioration Parmi ces id´ees, les m´ethodes de sac de phrases visuelles sont tr`es bien ´etudi´ees mais il n’y a pas `a notre connaissance de document qui r´ealise une synth`ese de celles-ci, formellement et exp´erimentalement Ce travail est donc une ´etude syst´ematique avec un regroupement des approches de sacs de phrases visuelles selon la m´ethode de construction d’une phrase De plus, les performances de certaines m´ethodes sont aussi ´etudi´ees Parmi les m´ethodes de sacs des phrases visuelles, deux m´ethodes sont choisies et re-impl´ement´ees Elles sont ensuite analys´ees sur les aspects de performance et de complexit´e (temps d’ex´ecution) avec des exp´eriences de recherche d’images par le contenu iii Abstract In recent years, content based image analysis hqs been extensively studied Among the nu,erous proposed methods, the bag of visual words model seems promising with interesting experimental results It raised the attention of several scientists with many ideas for improvement Among these ideas, bag of visual phrases methods are very well studied but there is, to the best of our knowledge, no document which provides a formal and experimental synthesis This work is therefore a systematic study with a categorization of bag of visual phrases approaches according to the method of construction of a phrase In addition, the performance of some methods is also reviewed Among the bag of visual phrases methods, two methods are selected and re-implemented They are then compared on performance and complexity (runtime) with some experiments on content based image retrieval iv Liste des Figures 1.1 Illustration de l’´etape d’indexation des mots visuels 2.1 Exemple de la fenˆetre coulissante 10 3.1 L’histogramme spatial pour g´en´erer les phrases visuelles candidates 32 4.1 Exemples de la base d’image MIRFLICKF-25000 4.2 Exemples des bases d’images utilis´ees 40 4.3 Temps d’ex´ecution de la m´ethode BBW sur les bases d’images 38 diff´erentes 45 A.1 R´esultats d´etaill´es sur la base ImageNet 48 A.2 R´esultats d´etaill´es sur la base Caltech 49 v Liste des Tableaux 2.1 M´ethodes de phrases visuelles construites par fenˆetres coulissantes 13 2.2 M´ethodes de plus proches voisins 18 2.3 M´ethodes de chaˆınes de mots visuels 23 2.4 M´ethodes de phrases visuelles construites par r´egion 28 4.1 Le nombre d’images dans les bases d’images 41 4.2 mAP des m´ethodes sur les bases d’images diff´erentes 42 4.3 Temps d’ex´ecution des m´ethodes sur les bases d’images diff´erentes 44 vi Chapitre Introduction 1.1 Contexte et motivation Ces derni`eres ann´ees, le volume de donn´ees multim´edia a augment´e de mani`ere exponentielle, en parall`ele avec le d´eveloppement des appareils multim´edia et aussi des techniques de stockage La disponibilit´e d’une vaste quantit´e de donn´ees multim´edia, notamment des images et vid´eos, fournit de grandes ressources pour beaucoup de domaines d’application : journalisme, m´edecine, robotique En revanche, l’explosion de donn´ees fait ´emerger de nouvelles questions sur les techniques de gestion automatique des images telles que : la classification des images, la recherche d’image `a partir du contenu ou la reconnaissance des objets dans des images Ce contexte conduit au d´eveloppement des ´etudes sur l’analyse et sur la description du contenu des images L’analyse des images par le contenu est donc un sujet de recherche tr`es ´etudi´e r´ecemment Appartenant au domaine de la vision artificielle, une branche de l’intelligence artificielle, il s’agit d’un domaine s´eduisant, pratique et dynamique avec des possibilit´es d’applications multiples Dans l’ordinateur, les images sont repr´esent´ees simplement par des chiffres Cependant, au niveau des objets, les images peuvent avoir plusieurs caract´eristiques sp´eciales Par exemple, les documents textuels sont constitu´es des mots d´efinis par une langue qui va alors en limiter leur sens, alors que pour les images, le contenu visuel peut ˆetre tr`es vari´e (une plage, une montagne ou bien mˆeme de l’abstrait) La vari´et´e du contenu des images refl`ete la vari´et´e dans le monde r´eel Dans le monde visuel, un objet peut Exp´erimentation et discussion 39 Cette base d’images est utilis´ee pour la construction du dictionnaire La figure 4.1 montre un exemple des images de MIRFLICKR-25000 La base d’images contient 250000 images, fournie par le LIACS Medialab a` l’universit´e de Leiden en 2008 Elle est introduite la premi`ere fois en 2008 par la commission de ACM MIR, pour ´evaluer les m´ethodes de recherche d’images par le contenu Flickr est une plate-forme qui permet a` l’utilisateur de chercher et de partager ses images, avec des ´etiquettes pour chaque image Avec une grande base d’utilisateurs, le contenu des images dans la base d’images MIRFLICKR-25000 est tr`es vari´e Donc en utilisant cette base d’images pour la construction du dictionnaire, les mots visuels form´es peuvent ˆetre assez repr´esentatifs pour repr´esenter diff´erents d´etails dans les images Base d’images Holiday La figure 4.2a pr´esente des exemples des images dans la base d’images Holiday [27] Elle se compose d’un ensemble d’images de haute r´esolution qui contient une grande vari´et´e de types de sc`enes : la nature, l’humain, des monuments, des effets de l’eau et du feu, etc Elle est introduite pour l’´evaluation de la performance des m´ethodes de recherche d’images par le contenu Il y a 1491 images dans 500 cat´egories En g´en´eral, une cat´egorie contient 2, ou images repr´esentant une sc`ene distincte ou un objet diff´erent En utilisant cette base d’images, on ne prend pas en compte la vari´et´e visuelle des objets d’un mˆeme type La diff´erence des images dans une cat´egorie nous permet de tester la robustesse des m´ethodes de recherche aux changements de rotation, d’illumination, de point de vue ou au flou Pour faire les exp´eriences, la base d’images est divis´ee en deux parties La premi`ere partie contenant 500 images est l’ensemble des requˆetes Les images sont choisies au hasard, une image par cat´egorie La deuxi`eme partie est l’ensemble des images restantes qui forme un pool pour la recherche Pour une requˆete, une image retourn´ee est consid´er´ee comme correcte (un bon r´esultat) si elle est dans la mˆeme cat´egorie que la requˆete http://press.liacs.nl/mirflickr/ http://lear.inrialpes.fr/people/jegou/data.php http://www.robots.ox.ac.uk:5000/~vgg/research/caltech/index.html http://image-net.org/index Exp´erimentation et discussion (a) Holiday 40 (b) Caltech-101 (c) ImageNet Figure 4.2: Exemples des bases d’images utilis´ees Base d’images Caltech-101 Caltech-101 (Fei-Fei et al [28]) est une base d’images num´eris´ees qui contient un total de 9146 images collect´ees, class´ees en 101 types d’objets (par exemple visages, pianos, moto, ordinateur portable, etc) Quelques exemples de ses cat´egories sont donn´es dans la figure 4.2b Elle est adapt´ee a` l’´evaluation de techniques de reconnaissance et de classification Les images sont tr`es uniformes dans leur pr´esentation, align´ees `a gauche ou `a droite En effet, la plupart des images dans chaque cat´egorie ont une taille similaire d’environ 300x200 pixels Les objets d’int´erˆet ont tendance a` ˆetre centr´es dans les images et se pr´esentent dans une pose st´er´eotyp´ee Les arri`eres-plans des images sont tr`es h´et´erog`enes, mais pas aussi complexe que dans les autres bases d’images utilis´ees dans ce travail Le nombre d’images dans les cat´egories est diff´erent, de 31 `a 800 images En fait, plusieurs cat´egories ne contiennent que peu d’images, c’est insuffisant pour construire Exp´erimentation et discussion 41 le pool de recherche Donc, seulement les 26 cat´egories (list´ee dans l’annexe A.2) ` partir de chaque qui ont les plus d’images sont utilis´ees pour faire les tests A cat´egorie, 10 images sont choisies pour un total de 260 images comme requˆetes Le pool de recherche contient 1820 images (70 images par cat´egorie) Toutes les images sont choisies al´eatoirement Base d’images ImageNet ImageNet [29] est une base d’images grande et complexe qui est construite en se basant sur la hi´erarchie de WordNet Chaque concept du WordNet est ´eventuellement d´ecrit par plusieurs mots ou groupes de mots, appel´es ”synset” (”synonym set”), et est repr´esent´e par des centaines ou des milliers d’images Les images dans cette base sont de qualit´e contrˆol´ee, elles sont 2t2 annot´ees sous la supervision d’humains Parmi plus de cent mille synsets disponibles, on a choisi a` la main 15 synsets familiers comme chien, poisson, a´eroplane, v´elo, maison, etc (voir l’exemple des images utilis´ees dans nos exp´eriences dans la figure et la liste de synsets compl`ete dans l’annexe A.1) Chaque synset forme une cat´egorie de plus de 800 images Pour les tests, 100 images sont choisies al´eatoirement par cat´egorie comme requˆetes, les 700 autres images sont s´electionn´ees pour former le pool de recherche Table 4.1: Le nombre d’images dans les bases d’images Holiday Caltech-101 ImageNet Le nombre d’images index´ees 991 1820 10500 Le nombre de requˆetes 500 260 1500 Le tableau 4.1 r´esume le nombre total d’images utilis´ees comme requˆetes et le nombre total d’images index´ees dans le pool de recherche pour chaque base d’images Pour les bases Caltech-101 et ImageNet, le nombre d’images dans les cat´egories est le mˆeme Except´e pour la base Holiday, une requˆete est choisie dans chaque cat´egorie, et le pool de recherche contient toutes les images restantes La raison est que le nombre d’images de chaque cat´egorie est trop bas pour cette base d’images Exp´erimentation et discussion 4.3 42 Analyse des r´ esultats Les m´ethodes choisies sont ´evalu´ees en terme de performance qui est mesur´ee par la mAP et de temps d’ex´ecution Les r´esultats sont r´esum´es dans les tableaux 4.2 et 4.3, o` u la colonne Classique pr´esente les r´esultats obtenus pour la m´ethode de base : le mod`ele des sacs de mots visuels classique [1] Les colonnes BBW-2lv, BBW-3lv, BBW-4lv pr´esentent les r´esultats de la m´ethode des sacs de sacs de mots visuels (BBW) [3], avec le nombre de couches correspondantes : 2, et couches La colonne DVP affiche les r´esultats de la m´ethode de phrases visuelles descriptives [4] Les chiffres dans le tableau 4.2 montrent la diff´erence de performance entre les m´ethodes La m´ethode des sacs de sacs de mots visuels (BBW) prouve sa performance sur les bases d’image Holiday et Caltech-101 Par contre, la m´ethode de phrases visuelles descriptives (DVP) ne peut pas prouver son am´elioration Parmi les approches, la m´ethode DVP donne les moins bonnes mAPs dans tous les cas La diff´erence entre ses r´esultats et ceux des autres m´ethodes est assez grande Pour la base d’images ImageNet, la m´ethode de base donne le meilleur r´esultat et la m´ethode DVP donne le plus mauvais r´esultat Table 4.2: mAP des m´ethodes sur les bases d’images diff´erentes Holiday Caltech-101 ImageNet Classique 0.524 0.210 0.164 BBW-2lv 0.564 0.251 0.158 BBW-3lv 0.554 0.271 0.145 BBW-4lv 0.51 0.321 0.147 DVP 0.388 0.173 0.078 Les mAPs sont aussi tr`es diff´erentes entre les bases d’images Cette disparit´e est caus´e par la diff´erence entre les caract´eristiques des bases d’images Dans la base Holiday, les images dans une cat´egorie capturent seulement une sc`ene ou un objet unique Donc les images ne sont pas tr`es diff´erentes les unes des autres Mˆeme s’il y a une rotation, transition, ou changement de luminance, les images se chevauchent souvent en partie Ce chevauchement facilite la recherche des phrases visuelles communes Pour cette raison, on obtient les mAPs les plus ´elev´ees sur la base Holiday Pour la base d’images ImageNet, les objets dans une cat´egorie peuvent ˆetre vari´es en taille, forme, couleur, etc D’ailleurs, les images peuvent contenir plusieurs objets de mˆeme type ou de diff´erentes type En outre, l’arri`ere-plan dans les images est parfois textur´e ou l’arri`ere-plan d’une image peut ˆetre l’objet des autres images dans une autre cat´egorie Donc, on peut facilement comprendre que Exp´erimentation et discussion 43 les mAPs soient en baisse sur la base ImageNet Avec la base d’images Caltech101, les mAPs obtenues sont aussi moins bonnes que sur la base d’images Holiday Peut-ˆetre que la vari´et´e visuelle des objets dans une cat´egorie provoque des difficult´es qui diminuent la performance des m´ethodes En comparaison avec la base ImageNet, les images dans la base Caltech-101 ne contiennent souvent qu’un seul objet L’arri`ere-plan dans une image est souvent simple et l’objet est souvent au centre de l’image Grˆace a` ces caract´eristiques, les mAPs sur cette base d’images sont meilleures que celles sur la base ImageNet ` partir des r´esultats dans le tableau 4.2, on peut non seulement comparer les A m´ethodes, mais aussi v´erifier l’influence de la structure hi´erarchique sur la performance de la m´ethode des sacs de sacs de mots visuels Dans [3], cette m´ethode est test´ee avec la base d’image Caltech-101 Les r´esultats ont montr´e que la structure hi´erarchique du morcellement des images influence la performance de la m´ethode : plus on met de couches, plus haute est la performance Ce ph´enom`ene apparaˆıt aussi dans le tableau 4.2 avec la base d’image Caltech-101 (la mˆeme base d’images que les auteurs ont utilis´e) Cependant, il n’existe pas dans le cas des bases Holiday et ImageNet Tandis que les mAPs sur la base Caltech-101 augmentent progressivement et le cas BBW-4lv (4 couches de partition) donne le meilleur mAP (0.321), sur la base Holiday, le cas BBW-2lv nous donne le meilleur mAP (0.564), puis les mAPs diminuent Pour la base d’images ImageNet, le cas de couche (la m´ethode de base) donne le meilleur mAP (0.164) et l’ajout de plus de morcellements diminue l´eg`erement ce r´esultat Pour conclure, la structure hi´erarchique propos´ee dans la m´ethode BBW semble appropri´ee seulement pour les images simples qui ne contiennent pas beaucoup d’objets ou d’arri`ere-plan textur´e Le deuxi`eme aspect pour ´evaluer les m´ethodes est le temps d’ex´ecution Le tableau 4.3 affiche la complexit´e th´eorique et les mesures pratiques (en minute) de toutes les m´ethodes sur les trois bases d’images La complexit´e de la recherche avec la m´ethode classique et celle de DVP sont O(n), o` u n est la taille du vecteur qui repr´esente l’image Pour la m´ethode BBW, une image est repr´esent´ee par un vecteur des vecteurs de phrases visuelles Pour la recherche, on doit ajouter une ´etape pour mettre en correspondance les r´egions correspondantes qui utilise l’algorithme Hongrois (Hungarian Algorithm) La complexit´e de cette ´etape est O(m3 ) o` u m est le nombre de morceaux dans l’image Les deux images sont ensuite compar´ees en comparant les paires de vecteurs correspondants La complexit´e de la comparaison est O(m∗n), o` u n est la taille d’un vecteur de mots visuels (c’est aussi Exp´erimentation et discussion 44 la taille du dictionnaire des mots visuels) La complexit´e globale de la recherche est donc O(m3 ) + O(mn) pour BBW En ce qui concerne les mesures pratiques, la m´ethode DVP consomme presque le mˆeme temps, parfois mˆeme moins de temps que la m´ethode de base La raison est l’utilisation du dictionnaire dans lequel les phrases visuelles sont repr´esent´ees par les indexes des paires de mots visuels La complexit´e de la recherche est donc O(n) o` u n est la taille du dictionnaire des phrases visuelles Table 4.3: Temps d’ex´ecution des m´ethodes sur les bases d’images diff´erentes Classique Complexit´e th´eorique Holiday Caltech-101 ImageNet BBW-2lv BBW-4lv O(m3 ) + O(mn) O(n) 3m34.18s 0m34.95s 20m49.14s BBW-3lv 4m49.14s 1m42.23s 56m37.98s 13m49.26s 9m31.88s 306m11.76s 127m2.45s 103m7.62s 3563m39.53s DVP O(n) 3m45.71s 1m0.52s 10m50.15s ` partir de ce tableau et de la figure 4.3, la m´ethode BBW a exprim´e sa complexit´e A ` la diff´erence de la m´ethode DVP, la m´ethode BBW consomme plus du temps A Dans le cas le plus simple avec couches, le temps d’ex´ecution de cette m´ethode est toujours plus haut que ceux des autres m´ethodes En utilisant couches pour ex´ecuter progressivement les tests de rechercher de 1500 images sur le pool de 10500 images index´ees de la base ImageNet, cette m´ethode a pris environ jours et demi (plus de 3500 minutes) La figure 4.3 d´emontre l’augmentation du temps d’ex´ecution de la m´ethode BBW selon l’augmentation du nombre de couches dans la structure hi´erarchique Dans cette figure, le temps d’ex´ecution sur la base Holiday et la base Caltech est affich´e sous le format ‘minute : seconde’ et le temps pour la base ImageNet est affich´e sous le format ‘heure : minute : seconde’ La forme des courbes est similaire pour tous les tests sur les bases d’images diff´erentes Quand le nombre de couches augmente, le temps d’ex´ecution augmente de mani`ere exponentielle C’est `a cause de l’utilisation de l’algorithme Hongrois (Hungarian Algorithm) duquel la complexit´e est O(n3 ) pour mettre en correspondance les partitions de deux images On doit refaire la mise en correspondance plusieurs fois dans toutes les recherches pour comparer la similarit´e entre la requˆete et chaque image dans le pool Pour un niveau plus haut dans la structure hi´erarchique (plus de couches), le temps d’ex´ecution augmente tr`es vite car plus haute est la couche, plus on a de partitions, donc plus de temps consomm´e Par ailleurs, on doit faire la mise en correspondance s´epar´ement pour chaque couche Par exemple, dans le cas de couches, on doit utiliser l’algorithme Exp´erimentation et discussion 45 Figure 4.3: Temps d’ex´ecution de la m´ethode BBW sur les bases d’images diff´erentes Hongrois fois pour la couche de partition, la couche de partitions, la couche de 16 partitions et la couche de 64 partitions En r´esum´e, quand le nombre de couches utilis´ees dans la m´ethode BBW augmente, le temps d’ex´ecution augmente de mani`ere exponentielle dans tous les cas, mais la performance (mAP) de la m´ethode change de mani`ere instable, dans certain cas la performance n’augmente pas mais diminue Chapitre Conclusion Ce m´emoire est une bibliographie sur les m´ethodes existantes de sacs des phrases visuelles, qui sont les am´eliorations du mod`ele de sacs des mots visuels Les m´ethodes sont recens´ees et group´ees en cat´egories : phrases visuelles construites par fenˆetres coulissantes, groupes de plus proches voisins, chaˆınes des mots visuels et phrases visuelles construites par r´egions Cette bibliographie est esp´er´ee comme une r´ef´erence pour avoir une vue g´en´erale sur la repr´esentation des images par le sac des phrases visuelles En outre dans ce travail, deux m´ethodes de sacs des phrases visuelles sont reexamin´ees : la m´ethode de sacs des sacs des mots visuels (BBW) et la m´ethode des phrases visuelles descriptives (DVP) Elles sont choisies `a partir de deux groupes : le groupe des phrases visuelles construites par r´egions (BBW) et le groupe des phrases visuelles construites par fenˆetres coulissantes (DVP) Les exp´eriences de recherche des images par le contenu sont effectu´ees en utilisant un dictionnaire commun qui est g´en´er´e a` partir de la base d’image MIRFLICKR-25000 Ces m´ethodes sont test´ees s´epar´ement sur trois bases d’images diff´erentes : Holiday, ImageNet et Caltech-101 Selon les r´esultats exp´erimentaux, la m´ethode BBW donne une assez bonne performance sur la base Holiday et Caltech-101 Parmi les m´ethodes, la m´ethode DVP est rapide mais ses performances ne sont pas `a la hauteur des autres m´ethodes Pour la base d’images ImageNet, les deux m´ethodes de sacs des phrases visuelles ne peuvent pas prouver leur am´elioration, la m´ethode de base ` partir des r´esultats exp´erimentaux, donne la meilleure performance dans ce cas A l’influence de la structure hi´erarchique de la m´ethode BBW est aussi v´erifi´ee 46 47 Les chiffres montrent que l’augmentation du nombre de couches dans la structure hi´erarchique n’am´eliore pas toujours la performance, mais augmente le temps d’ex´ecution de mani`ere exponentielle En utilisant les bases d’images diff´erentes, nos tests montrent aussi que la performance des m´ethodes d´epend fortement des caract´eristiques de la base d’images Dans le futur, pour avoir une comparaison plus compl`ete, l’impl´ementation d’autres m´ethodes, au moins deux appartenant aux deux autres groupes, sera n´ecessaire Avoir une ´evaluation compl`ete des m´ethodes des sacs des phrases visuelles permettrait de choisir efficacement la m´ethode la plus adapt´ee a` l’application souhait´ee Cela nous permettra dans le mˆeme temps de mieux comprendre le fonctionnement des m´ethodes ´etudi´ees et d’en proposer une am´elioration pertinente Annexe A R´ esultats d´ etaill´ es Base ImageNet Figure A.1: R´esultats d´etaill´es sur la base ImageNet Il y a une analogie entre la m´ethode classique et BBW quand on regarde la visualisation des r´esultats de 15 cat´egories : les cat´egories book, sky, flower et tree sont bien retrouv´es en comparant avec les autres La m´ethode DVP donne les r´esultats tr`es faibles, mois de 5% pour la plupart des cat´egories 48 49 Base Caltech Figure A.2: R´esultats d´etaill´es sur la base Caltech Les valeurs dans chaque cellule sont donn´es pour montrer les relations entre les r´esultats des diff´erentes m´ethodes Par exemple, la m´ethode classique et BBW marchent tr`es bien pour les cat´egories car side, Faces, 20 Motobikes et 25 trilobite Par contre, avec la m´ethode DVP, on ne trouve pas de r´esultat pr´epond´erant pour une cat´egorie quelconque Bibliographie [1] Josef Sivic and Andrew Zisserman Video google : A text retrieval approach to object matching in videos In Computer Vision, 2003 Proceedings Ninth IEEE International Conference on, pages 1470–1477 IEEE, 2003 [2] David G Lowe Object recognition from local scale-invariant features In Computer vision, 1999 The proceedings of the seventh IEEE international conference on, volume 2, pages 1150–1157 Ieee, 1999 [3] Yi Ren, Aur´elie Bugeau, and Jenny Benois-Pineau Bag-of-bags of words irregular graph pyramids vs spatial pyramid matching for image retrieval In Image Processing Theory, Tools and Applications (IPTA), 2014 4th International Conference on, pages 1–6 IEEE, 2014 [4] Shiliang Zhang, Qi Tian, Gang Hua, Qingming Huang, and Shipeng Li Descriptive visual words and visual phrases for image applications In Proceedings of the 17th ACM international conference on Multimedia, pages 75–84 ACM, 2009 [5] Naeem A Bhatti and Allan Hanbury Co-occurrence bag of words for object recognition In Proceedings of the 15th Computer Vision Winter Workshop, pages 21–28 Citeseer, 2010 [6] Tao Chen, Kim-Hui Yap, and Dajiang Zhang Discriminative soft bag-ofvisual phrase for mobile landmark recognition Multimedia, IEEE Transactions on, 16(3) :612–622, 2014 [7] Qing-Fang Zheng, Wei-Qiang Wang, and Wen Gao Effective and efficient object-based image retrieval using visual phrases In Proceedings of the 14th annual ACM international conference on Multimedia, pages 77–80 ACM, 2006 50 51 [8] Yi Yang and Shawn Newsam Spatial pyramid co-occurrence for image classification In Computer Vision (ICCV), 2011 IEEE International Conference on, pages 1465–1472 IEEE, 2011 [9] Josef Sivic, Bryan C Russell, Alexei Efros, Andrew Zisserman, William T Freeman, et al Discovering objects and their location in images In Computer Vision, 2005 ICCV 2005 Tenth IEEE International Conference on, volume 1, pages 370–377 IEEE, 2005 [10] Junsong Yuan, Ying Wu, and Ming Yang Discovery of collocation patterns : from visual words to visual phrases In Computer Vision and Pattern Recognition, 2007 CVPR’07 IEEE Conference on, pages 1–8 IEEE, 2007 [11] Shiliang Zhang, Qi Tian, Qingming Huang, and Yong Rui Embedding multiorder spatial clues for scalable visual matching and retrieval Emerging and Selected Topics in Circuits and Systems, IEEE Journal on, 4(1) :130–141, 2014 [12] Shiliang Zhang, Qi Tian, Qingming Huang, Wen Gao, and Yong Rui Multiorder visual phrase for scalable image search In Proceedings of the Fifth International Conference on Internet Multimedia Computing and Service, pages 145–149 ACM, 2013 [13] Glauco Vitor Pedrosa and Agma JM Traina From bag-of-visual-words to bag-of-visual-phrases using n-grams In Graphics, Patterns and Images (SIBGRAPI), 2013 26th SIBGRAPI-Conference on, pages 304–311 IEEE, 2013 [14] Svebor Karaman, Jenny Benois-Pineau, R´emi M´egret, and Aur´elie Bugeau Multi-layer Local Graph Words for Object Recognition Springer Berlin Heidelberg, Berlin, Heidelberg, 2012 ISBN 978-3-642-27355-1 doi : 10.1007/978-3-642-27355-1 [15] Josef Sivic and Andrew Zisserman Video data mining using configurations of viewpoint invariant regions In Computer Vision and Pattern Recognition, 2004 CVPR 2004 Proceedings of the 2004 IEEE Computer Society Conference on, volume 1, pages I–488 IEEE, 2004 [16] Yan-Tao Zheng, Ming Zhao, Shi-Yong Neo, Tat-Seng Chua, and Qi Tian Visual synset : towards a higher-level visual representation In Computer Vision and Pattern Recognition, 2008 CVPR 2008 IEEE Conference on, pages 1–8 IEEE, 2008 52 [17] Julien Ros, Christophe Laurent, and Jean-Michel Jolion A bag of strings representation for image categorization Journal of Mathematical Imaging and Vision, 35(1) :51–67, 2009 [18] Hong-Thinh Nguyen, C´ecile Barat, and Christophe Ducottet Approximate image matching using strings of bag-of-visual words representation In International Conference on Computer Vision Theory and Applications (VISAPP 2014), pages 345–353, 2014 [19] Pierre Tirilly, Vincent Claveau, and Patrick Gros Language modeling for bagof-visual words image categorization In Proceedings of the 2008 international conference on Content-based image and video retrieval, pages 249–258 ACM, 2008 [20] Rami Albatal, Philippe Mulhem, and Yves Chiaramella Visual phrases for automatic images annotation In Content-Based Multimedia Indexing (CBMI), 2010 International Workshop on, pages 1–6 IEEE, 2010 [21] Yimeng Zhang, Zhaoyin Jia, and Tsuhan Chen Image retrieval with geometry-preserving visual phrases In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 809–816 IEEE, 2011 [22] Yuning Jiang, Jingjing Meng, and Junsong Yuan Randomized visual phrases for object search In Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on, pages 3100–3107 IEEE, 2012 [23] Yi Ren, Aur´elie Bugeau, and Jenny Benois-Pineau Visual object retrieval by graph features Feb 2013 URL https://hal.archives-ouvertes.fr/ hal-00977125 [24] Svetlana Lazebnik, Cordelia Schmid, and Jean Ponce Beyond bags of features : Spatial pyramid matching for recognizing natural scene categories In Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on, volume 2, pages 2169–2178 IEEE, 2006 [25] Sandra Avila, Nicolas Thome, Matthieu Cord, Eduardo Valle, and Arnaldo De A Ara´ uJo Pooling in image representation : The visual codeword point of view Computer Vision and Image Understanding, 117(5) :453–465, 2013 [26] David Liu, Gang Hua, Paul Viola, and Tsuhan Chen Integrated feature selection and higher-order spatial feature extraction for object categorization In 53 Computer Vision and Pattern Recognition, 2008 CVPR 2008 IEEE Conference on, pages 1–8 IEEE, 2008 [27] Herve Jegou, Matthijs Douze, and Cordelia Schmid Hamming embedding and weak geometric consistency for large scale image search In European conference on computer vision, pages 304–317 Springer, 2008 [28] Li Fei-Fei, Rob Fergus, and Pietro Perona Learning generative visual models from few training examples : An incremental bayesian approach tested on 101 object categories Computer Vision and Image Understanding, 106(1) :59–70, 2007 [29] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C Berg, and Li Fei-Fei ImageNet Large Scale Visual Recognition Challenge International Journal of Computer Vision (IJCV), 115 (3) :211–252, 2015 doi : 10.1007/s11263-015-0816-y [...]... performance de certaines m´ethodes de sacs de phrases visuelles est aussi examin´ee Le mod`ele de sac des mots visuels original [1] est consid´er´e comme la m´ethode de base Parmi les m´ethodes de sacs des phrases visuelles, deux m´ethodes appartenant a` des types diff´erents sont choisies et re-impl´ement´ees, puis elles sont compar´ees l’une avec l’autre ainsi qu’avec la m´ethode de base Les contributions de. .. par la m´ethode de Yuan nimal” pour valider les groupes de mots visuels Les groupes fr´equents et significatifs sont choisis comme phrases visuelles Remarques vari´ee et al [10] - La m´ethode est sensible a` la valeur de k ´ Etat de l’art des m´ethodes de phrases visuelles M´ethode de plus proches voisins (continue) 20 ´ Etat de l’art des m´ethodes de phrases visuelles 2.3 21 Chaˆınes des mots visuels... voisin de point 4 La raison est que la distance spatiale entre ces deux points est inf´erieure au rayon de la fenˆetre du point 7, mais elle est sup´erieure au rayon de la fenˆetre du point 4 Appliquant la fenˆetre coulissante, la m´ethode de Bhatti and Hanbury [5] est une simple am´elioration de la m´ethode de base Le rayon de la fenˆetre coulissante dans cette m´ethode est d´efini en fonction des longueurs... est une ´etude sur les diff´erentes m´ethodes des sacs de phrases visuelles Introduction 1.3 7 Objectifs du travail et principales contributions L’objectif principal de ce travail est d’´etudier les diff´erentes m´ethodes existantes de sacs de phrases visuelles Il s’agit d’une ´etude syst´ematique avec un regroupement (typologie) des approches de sacs de phrases visuelles selon la m´ethode de construction... la m´ethode des sacs de sacs de mots visuels [3] et la m´ethode des phrases visuelles descriptives [4] Ces m´ethodes sont pr´esent´ees en d´etails Les param`etres et les conditions de l’impl´ementation sont aussi donn´es — Chapitre 4 : Comparaison des m´ethodes impl´ement´ees Les r´esultats sur plusieurs bases d’images sont pr´esent´es et analys´es Chapitre 2 ´ Etat de l’art des m´ ethodes de phrases... d’´etude, plusieurs m´ethodes ont ´et´e propos´ees pour l’analyse des images par le contenu visuel Parmi celles-ci, la m´ethode utilisant les sacs de mots visuels semble ˆetre particuli`erement populaire et ´etudi´ee ces derni`eres ann´ees Ce mod`ele est appliqu´e dans des syst`emes de recherche et des syst`emes de classification d’images par le contenu La m´ethode des sacs de mots visuels est introduite... au lieu de d´ecrire une image comme un sac des mots visuels, on la d´ecrit comme un sac des phrases visuelles Similaire au mod`ele de sacs des mots visuels, l’id´ee de construire les phrases visuelles est inspir´ee par la notion de phrases dans le domaine d’analyse des documents textuels Le mod`ele de sacs de phrases visuelles est une am´elioration du mod`ele de sacs des mots visuels qui s´eduit fortement... voisin du point A Cette m´ethode est une des premi`eres m´ethodes de phrases visuelles Elle am´eliore la m´ethode de sacs de mots visuels classique sur l’efficacit´e (le temps d’ex´ecution) et la performance (la qualit´e des r´esultats) Cependant, cette m´ethode ne fonctionne pas bien si les images ont peu de texture Si les objets principaux dans les images ont peu de d´etails, le nombre de descripteurs... des comparaisons objectives, ces m´ethodes sont exp´eriment´ees avec trois bases d’images diff´erentes Le contenu du m´emoire est d´ecoup´e en trois chapitres : Introduction 8 ´ — Chapitre 2 : Etat de l’art Les m´ethodes des sacs des phrases visuelles sont recens´ees et nous en ´etablissons une typologie — Chapitre 3 : Impl´ementation de quelques m´ethodes de sacs des phrases visuelles Deux m´ethodes... images ayant des contours bien d´efinis mais coˆ uteux en termes de calculs de des Morceler l’image en sous-r´egions selon deux axes principaux, puis enchaˆıner les histogrammes des mots visuels des sousr´egions selon l’axe majeur - Robuste aux variations de transfixe lation et aux variations d’´echelle des objets dans l’image - La repr´esentation est compacte ´ Etat de l’art des m´ethodes de phrases

Ngày đăng: 14/01/2017, 08:11

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan