Une nouvelle approche dévaluation pour les algorithmes dinterprétation automatique de vidéos

Une nouvelle approche d'évaluation pour les algorithmes d'interprétation automatique de vidéos Mémoire de n d'études Master d'Informatique Etudiant : NGHIEM Anh-Tuan Sous la direction de : Monique THONNAT et François BREMOND Institute de la francophonie pour l'informatique Octobre 2006 Résumé Dans cette mémoire, nous présentons une nouvelle approche pour mieux évaluer la performance de systèmes d'interprétation de vidéos Les méthodes d'évaluation courantes dépendent fortement d'une base de vidéos Le résultat d'évaluation peut être diérent si nous changeons la base de vidéos La diérence est principalement due au contenu de séquences de vidéos qui contient en même temps plusieurs problèmes de traitement de vidéos (le changement de l'illumination, le contraste faible etc) diérents niveaux de diculté Par conséquent, c'est dicile d'extrapoler le résultat d'évaluation sur des nouveaux séquences Dans cette mémoire nous proposons une méthodologie d'évaluation qui aide réutiliser le résultat d'évaluation Nous essayons d'isoler chaque problème et de dénir des mesures quantitatives pour calculer le niveau de diculté relativement au problème donné Le niveau maximum de diculté auquel la performance d'un algorithme est assez bon est déni comme la borne supérieure de la capacité de cet algorithme pour résoudre le problème donné Pour illustrer cette méthodologie, nous présentons les mesures qui évaluent la performance d'algorithmes en résoudre le problème de contraste faible et le problème des ombres Table des matières Introduction 1.1 1.2 Système d'interprétation de vidéos 1.1.1 Détection d'objets mobiles 1.1.2 Classication d'objets mobiles 1.1.3 Suivi d'objets 1.1.4 Reconnaissance des événements Motivation Etat de l'art 2.1 2.2 Travaux individuels Workshops et Projets d'évaluation 1 2 5 ETISEO : un programme d'évaluation de système d'interprétation de vidéos 3.1 3.2 3.3 3.4 3.5 Objectifs Méthodologie Base de données Limitations Contribution ETISEO Approche proposée 4.1 4.2 4.3 Méthodologie Détection des objets faiblement contrastés 4.2.1 Description de problème 4.2.2 Mesure d'un niveau de contraste d'un pixel 4.2.3 Mesure d'un niveau de contraste d'une bande 4.2.4 Mesure des niveaux de contraste d'un blob 4.2.5 Mesure de la capacité des algorithme pour résoudre le problème de détecter des objets faiblement contrastés Manipulation des objets mélangés aux ombres 4.3.1 Problème de manipulation des ombres i 10 11 11 12 12 13 13 15 16 18 18 4.3.2 4.3.3 Mesure de niveaux de contraste des ombres 18 Capacité des algorithmes en détectant des ombres 19 Expérimentation 5.1 5.2 Détection des objets faiblement contrastés 5.1.1 Sélection des séquences de vidéos 5.1.2 Résultat d'évaluation Manipulation des objets mélangés aux ombres 5.2.1 Sélection des vidéos 5.2.2 Résultat d'évaluation Conclusion 20 20 20 21 28 28 28 30 ii Chapitre Introduction 1.1 Système d'interprétation de vidéos Aujourd'hui, les systèmes de vidéo surveillance deviennent très populaires Normalement, ces systèmes sont contrôlés par des opérateurs humains pour détecter des événements dangereux ou inattendus comme un combat ou une blocage d'un passage Pourtant, le travail de regarder aux plusieurs écrans de plusieurs cameras est très dur pour les opérateurs parce qu'ils doivent concentrer pendant une période très longue Alors, on essaie de créer des système d'interprétation automatique de vidéos qui facilitent le travail des opérateurs humains Le but de ces système est de détecter automatiquement des événements pré-dénis par des experts humains et d'envoyer une alarme aux opérateurs quand ils détectent un tel événement Un système d'interprétation de vidéos se compose des modules suivants : détection des objets mobiles, classication des objets, suivi des objets, reconnaissance des événements 1.1.1 Détection d'objets mobiles Ce module est pour but de détecter des objets comme les personnes, les voitures qui apparaissent dans la scène de surveillance Son entrée est la ux de vidéo de la scène contenant des objets mobiles et sa sortie est les régions qui correspondant ces objets L'objectif de ce module est de déterminer des régions qui ne couvrent que tous les pixels appartenant aux objets dans la scène Alors, le problème le plus dicile est de détecter des pixels des objets qui sont très peu contrastés et en même temps éliminer des pixels de bruit comme les ombres ou les régions ayant le changement de l'illumination Fig 1.1 Les taches principales d'une système d'interprétation de vidéos 1.1.2 Classication d'objets mobiles L'objectif de ce module est de assigner les régions détectées par le module de détection des objets une catégorie pré-dénie comme une personne, une voiture ou un groupe de personnes Ce module doit sourir la décience du module de détection comme le manque d'une partie d'une région correspondant un objet ou la fausse inclusion de bruit etc De plus, il doit résoudre le problème de la perte d'information cause de la projection de l'espace 3D des objets au l'espace 2D de l'image 1.1.3 Suivi d'objets Ce module est pour but de relier les régions du même objet dans des frames diérents pour avoir une trajectoire de mouvement de l'objet donné Cette tâche n'est pas toujours facile parce qu'il y a des cas où les modules précédents ne peuvent pas détecter des objets mobile dans quelques frames En outre, il devient plus dicile dans des scène complexes où il y a des occlusions comme le mur ou plusieurs personnes se croisent 1.1.4 Reconnaissance des événements Son objectif est de reconnaître des événements pré-dénis par des experts humains Cette tâche est très dicile parce que la plupart d'événements réels sont très compliqués Par exemple, l'événement de vandalisme d'une machine de café peut durent longtemps et impliquent plusieurs personnes et objets De plus, parce que ce module est la dernier module d'un système d'interprétation de vidéos, il doivent sourir de toutes les erreurs accumulés pendant tous les modules précédents 1.2 Motivation Avec le développement des systèmes d'interprétation de vidéos, beaucoup d'algorithmes sont proposés et chacun est conçu pour résoudre les problèmes d'un type particulière de scène Par exemple, un algorithme peut bien gérer le changement d'illumination d'une scène extérieure mais il a des diculté détecter des objets peu contrastés Alors, l'évaluation de performance pour sélectionner les algorithmes convenables une scène particulière devient très important Normalement, pour faire évaluation, on collecte un ensemble de séquences de vidéos ainsi que la vérité terrain illustrant les problèmes on veut tester La performance d'un algorithme indique seulement comment bon il traite cet ensemble de séquences Bien qu'adopté par beaucoup de projets, cette approche contient deux limitations principales Premièrement, le résultat d'évaluation dépend de l'ensemble particulier de séquences de vidéos Autrement dit, il peut changer nettement avec un nouvel ensemble de séquences d'évaluation La raison est que chaque vidéo séquence contient plusieurs problèmes de traitement de vidéos plusieurs niveau de diculté et le résultat nal est aecté par tous ces facteurs Avec la nouvelle séquence, on a une nouvelle combinaison de problèmes Ainsi, la performance d'algorithmes sur cette séquence est imprévisible Deuxièmement, un système d'interprétation de vidéos est habituellement conçu pour une condition spécique (une scène extérieure/intérieure, une scène contenant le changement rapide/lent d'illumination etc.) Pourtant, il n'y a aucune mesure quantitative de calculer le niveau de diculté d'une séquence de vidéo relativement un problème donné Par conséquent, nous ne savons pas jusqu'à quel niveau de diculté d'un problème donné, un algorithme peut avoir une performance acceptable Cette mémoire propose une méthodologie d'évaluation qui aident réutiliser le résultat d'évaluation Nous essayons d'isoler chaque problème de traitement de vidéo et de dénir des mesures quantitatives pour calculer le niveau de diculté d'une vidéo relativement au problème donné Le niveau maximum de diculté des vidéos auquel l'algorithme a une performance assez bonne est déni comme la borne supérieure de la capacité d'algorithme pour manipuler le problème Pour illustrer cette méthodologie, nous présentons les métriques qui évaluent la performance d'algorithmes relativement aux problèmes de détecter des objets faiblement contrastés et de manipuler des ombres Chapitre Etat de l'art 2.1 Travaux individuels Il y a beaucoup de travaux individuels sur l'évaluation de quelques aspects des systèmes d'interprétation de vidéos Par exemple, [1] caractérise des algorithmes de détection d'objet en utilisant les métriques comme la détection correcte, les échecs de détection, le nombre de scindement, fusions et la surface d'intersection [2] présente la métrique pour mesurer la similarité entre deux trajectoire pour évaluer la tâche de suivi [3] présente une cadre utilisant des vidéos pseudo synthétique pour evaluer la performance de suivi [4] utilise les metriques comme vrai positif, faux positif, vrai négatif, faux négatif pour évaluer la performance des algorithmes de détection des ombres Pour un survol plus complet des travaux d'évaluation des performances, voir [5] Néanmoins, ces travaux ont peu d'inuence sur la communauté de recherches parce qu'ils ne constituent pas une plate-forme d'évaluation complet permettant d'évaluer des nouveaux algorithmes D'ailleurs, leur base de données n'est pas assez grand pour avoir des résultats ables d'évaluation 2.2 Workshops et Projets d'évaluation Pour répondre au besoin d'avoir une base de vidéos annotés disponible au publique, on a créé plusieurs projets (CAVIAR [7]) et workshops (PETS [6]) d'évaluation Ces programmes de recherche fournissent les séquences de vidéos plusieurs niveaux de diculté ainsi que la vérité terrain associée Néanmoins, parce que les gens participant aux workshops tels que PETS choisissent les séquences de vidéos souvent arbitrairement et évaluent leur algorithme en utilisant la métrique dénie par eux-mêmes, la comparaison de la performance avec d'autres algorithmes est dicile D'autres programmes tels que [10], [8], [9] essayent de surmonter ce problème en fournissant la métrique et l'ensemble de données standard pour évaluer la performance de diérents algorithmes Cependant ils sourent toujours de plusieurs problèmes : Le niveau de diculté est estimé manuellement par des experts Pour la même séquence, deux experts peuvent assigner deux diérents niveaux de diculté Une séquence de vidéo peut contenir plusieurs problèmes diérents niveaux de diculté Tous ces problèmes contribuent au niveau de diculté des données d'entrée de l'algorithme (par exemple la vidéo pour l'algorithme de détection d'objet) Par conséquent, il y a plusieurs façons de combiner les problèmes qui produisent le même niveau de diculté En conséquence, le rang d'un algorithme sur deux séquences au même niveau de diculté peut être diérent parce que cet algorithme est ecace relativement un problème particulier L'extrapolation des résultats d'évaluation pour une nouvelle vidéo est presque impossible La performance d'un algorithme sur une nouvelle séquence est estimée en se basant sur sa performance sur la séquence la plus similaire dans la base de vidéos d'évaluation Le choix de la séquence la plus similaire et la prévision de l'exécution basée sur la similarité de deux séquences sont souvent subjectifs et imprécis Le processus d'évaluation ne permet pas d'obtenir des connaissances techniques de chaque algorithme de traitement de vidéos En particulier, le processus d'évaluation ne détermine pas les travaux nécessaires faire pour améliorer l'algorithme (quelle amélioration est la plus cruciale) pour avoir une performance satisfaisante sur une condition donnée de l'environnement les niveaux minimum de contraste changeant entre et 20 Cependant, avec les données existantes dans le programme d'ETISEO, dans certains cas, nous pouvons encore déduire la performance de suivi d'un algorithme sur une nouvelle séquence basé sur les résultats d'évaluation eectués sur des séquences précédentes Par exemple, si un algorithme ne suit pas les objets dans une séquence de test particulière, cet algorithme est susceptible d'échouer avec des séquences plus diciles (c.-à-d avec des niveaux de diculté plus élevés) 4.3 Manipulation des objets mélangés aux ombres Cette section présente une métrique pour évaluer la sensibilité des algorithmes de détection des ombres D'abord, nous décrivons le problème de manipuler des ombres et puis nous dénissons une mesure de calculer les niveaux de contraste des régions des ombres Finalement nous dénissons la capacité des algorithmes en détectant des ombres 4.3.1 Problème de manipulation des ombres Quand un objet apparaît dans la scène contenant une source lumineuse forte comme le soleil ou une lampe, les algorithmes de détection d'objets considèrent souvent l'objet et son ombre comme objet mobile unique Les algorithmes ont souvent des dicultés en distinguant l'objet mobile de son ombre parce que le contraste entre les ombres et le fond est assez haut Par conséquent, souvent des parties de l'ombre ou l'ombre entier est mélangées l'objet Puisque les algorithmes de détection d'ombre emploient la texture du fond et des objets pour détecter des ombres, dans ce travail, nous proposons d'évaluer la performance d'algorithme contre les ombres sous la lumière naturelle diérents niveaux d'intensité (plus ou moins contrasté) dans des situations diciles avec le fond uniforme non-coloré 4.3.2 Mesure de niveaux de contraste des ombres Contrairement aux niveaux de contraste des blobs des personnes, les niveaux de contraste d'ombre changent selon la direction de la source lumineuse Par conséquent, nous devrions calculer le contraste d'ombre en utilisant les bandes verticale et horizontales Par exemple, si nous divisons une ombre en bandes verticales, l'ensemble de niveaux de contraste de ces bandes peut être {5, 7, 6, 4} Si nous divisons cette ombre en bandes horizontales, l'ensemble de niveaux de contraste de ces bandes peut être {2, 7, 6, 3} Puis, 18 le contraste de l'ombre est déni comme union de ces deux ensembles : {2, 3, 5, 7, 6, 4} 4.3.3 Capacité des algorithmes en détectant des ombres Normalement, des algorithmes de détection des ombres [4] construisent un modèle des ombres et appliquent des techniques d'apprentissage pour déterminer des paramètres du modèle qui sont appropriés une scène spécique Selon les types des algorithmes, il y a deux situations diciles : un grand intervalle entre le niveau maximum et le niveau minimum de contraste ou des ombres très contrastées Nous concentrons sur le premier cas parce que cette situation correspond plus d'algorithmes Donc, pour chaque algorithme, nous voulons savoir l'intervalle le plus grande entre le niveau maximum et le niveau minimum de contraste qu'un algorithme peut détecter Dans la partie de détection des objets peu contrastés, nous avons essayé d'évaluer le système entier Pourtant, le problème de détecter des ombres a peu inuence sur la tâche de suivi d'objets, sauf au cas où les objets se croisent Parce que nous voulons isoler des problèmes de traitement de vidéos, nous proposons d'évaluer l'eet de la contraste des ombres seulement la tâche de détection d'objets 19 Chapitre Expérimentation Cette section décrit les expériences que nous avons réalisés pour évaluer la sensibilité d'algorithme sur la manipulation des problèmes concernant la détection d'objets faiblement contrastés et les ombres Les tables de cette section obéissent la règle suivante : la position des résultats d'algorithme reètent son rang Par exemple, le résultat du meilleur algorithme sera dans la premières ligne/colonne de la table 5.1 Détection des objets faiblement contrastés 5.1.1 Sélection des séquences de vidéos Les séquences choisies devraient contenir les objets mobiles (correspondant aux individus isolés) diérents niveaux de contraste En outre, il ne devrait y avoir aucune ombre forte et aucun changement d'illumination pour que le processus d'évaluation ne soit pas inuencé par d'autres problèmes de traitement de vidéos Finalement, ces séquences choisies devraient être traités par un nombre susant d'algorithmes dans le projet ETISEO Selon ces critères, nous avons choisi trois périodes dans trois séquences de vidéos La premières période commence au frame 336 et nit au frame 404 de la séquence ETI-VS1-BE-18-C1 (scène extérieure) La deuxième période commence au frame 90, nit au frame 105 de la séquence ETI-VS1-BE-18-C1 (scène intérieur) La période nale commence au frame 5321, nit au frame 5350 de la séquence ETI-VS1-MO-7-C1 (scène intérieur) Dans la première période, la taille de l'objet mobile est plus petite que ceux des deux dernières séquences Nous avons choisi cette période parce que nous voulons évaluer la performance des algorithmes aux niveaux de contraste très bas Pour la simplicité, dorénavant, nous emploierons le nom d'une séquence 20 Fig 5.1 L'image spécimenne de la séquence ETI-VS1-BE-18-C1 Tab 5.1 L'analyse de niveaux de contraste Nombre des régions Niveau de contraste Séquence ETI-VS1-BE-18-C1 19 46 29 13 5 ETI-VS1-BE-18-C4 15 16 11 12 14 10 ETI-VS1-MO-7-C1 30 30 30 30 0 pour référer la période choisie dans cette séquence 5.1.2 Résultat d'évaluation Les paramètres pour l'expérimentation d'évaluation sont comme suivant : Il y a 20 niveaux de contraste Le niveau maximum de contraste (19) correspond au contraste entre un pixel complètement noir (RVB (0.0.0)) et un pixel complètement blanc (RVB (255.255.255)) La taille de chaque bande et la longueur de chaque sous-région l'intérieur d'une bande sont 10 pixels Dans le projet ETISEO, pour assurer l'équitabilité de l'évaluation, la sortie d'algorithme de chaque participant est assignée un nombre anonyme et nous ne savons pas quel nombre appartient quel participant Par conséquent, dans cette section nous emploierons ces nombres pour identier les algorithmes des participants Les nombres de participants ayant traité les séquences ETI-VS1-BE-18C1, ETI-VS1-BE-18-C4 et ETI-VS1-MO-7-C1 sont 6, et respectivement 21 Fig 5.2 L'image spécimenne de la séquence ETI-VS1-BE-18-C4 Fig 5.3 L'image spécimenne de la séquence ETI-VS1-MO-7-C1 22 Tab 5.2 Le taux d'erreur sur la séquence ETI-VS1-BE-18-C1 Taux d'erreur Niveau de contraste Participant 0 0 0 0 22 0.21 0.11 0.03 0.15 0.2 0.2 0.5 12 0.79 0.35 0.1 0.08 0.4 0.5 13 0 0.63 0.1 0.08 0.2 0.5 0.89 0.41 0.17 0.15 0.20 0.20 0.50 11 0.95 0.89 0.76 0.54 0.8 0.50 La table 5.1 montre les nombres de régions diérents niveaux de contraste pour trois séquences Dans cette table, les colonnes montrent le nombre de régions homogènes un niveau donné de contraste et les lignes montrent les distributions des régions homogènes des séquences À quelques niveaux de contraste il y a trop peu de régions pour obtenir des résultats d'évaluation ables Donc, nous ignorerons ces niveaux quand évaluant la performance des algorithmes Dans cette table, nous notons qu'il y a plus de régions des niveaux de contraste plus bas dans la séquence ETI-VS1-BE-18-C1 que les autres En appliquant notre méthodologie, nous pouvons observer que le choix des séquences illustrant le problème de contraste faible devient plus facile parce que nous pouvons obtenir une description quantitative des séquences choisies Pour la tâche de la détection d'objets, la table 5.2 illustre les résultats d'évaluation de six participants d'ETISEO sur la séquence ETI-VS1-BE-18C1 Dans cette table, les colonnes correspondent aux niveaux de contraste des régions d'objet que les algorithmes doivent détecter Les lignes correspondent la performance (c.-à-d taux d'erreur) de chaque algorithme pour les diérents niveaux de contraste A partir de ces résultats nous pouvons remarquer la tendance générale que le taux d'erreur est haut (près de 1) aux niveaux bas de contraste et il réduit graduellement zéro aux plus hauts niveaux Le participant peut manipuler très bien le problème d'objets faiblement contrastés Le comportement de l'algorithme du participant 13 n'est pas logique avec la tendance générale Il peut identier l'objet au niveau bas de contraste mais sa performance est pauvre aux niveaux élevés Une analyse profonde montre que cet algorithme détecte mal des régions petites même si 23 Tab 5.3 Le taux d'erreur sur la séquence ETI-VS1-BE-18-C4 Taux d'erreur Niveau de contraste Participant 0 0 0 0 11 0 0 0 0 22 0 0 0 0 12 0.2 0.06 0.08 0.15 0.08 0.09 15 0.5 0.19 0.17 0.23 0.17 0.07 0.18 0.8 0.38 0.17 0.15 0.25 0.33 0.27 13 0.9 0.63 0.58 0.08 0.17 0.33 0.09 Tab 5.4 Le taux d'erreur sur la séquence ETI-VS1-MO-7-C1 Taux d'erreur Niveau de contraste Participant 11 0 0 0 0 0.2 0.1 0 0 0.13 0.13 0.07 0 0.67 0.07 0.07 0.7 0.07 Tab 5.5 ETI-VS1-BE-18-C1 : Capacité de détection Participant 22 12 13 11 Niveau de contraste 0 2 Tab 5.6 ETI-VS1-BE-18-C4 : Capacité de détection Participant 11 12 22 15 13 Niveau de contraste 0 0 2 24 Tab 5.7 ETI-VS1-MO-7-C1 : Capacité de détection Participant 11 Niveau de contraste 0 Tab 5.8 ETI-VS1-BE-18-C1 : Performance de suivi Participant 22 13 12 11 Résultat de suivi 0.84 0.71 0.69 0.59 0.08 elles sont très contrastées Les tables 5.3 et 5.4 illustrent les taux d'erreur des algorithmes de traitement de vidéos sur les séquences ETI-VS1-BE-18-C4 et ETI-VS1-MO-7C1 On peut observer la même tendance sur ces séquences Les algorithmes qui ont une bonne performance sur la séquence précédente maintiennent des bons résultats Néanmoins, l'algorithme 11 n'a aucune erreur sur ces deux séquences En regardant dans les détails des résultats de cet algorithme, nous trouvons que la taille des objets mobiles dans la première séquence sont trop petite pour l'algorithme 11 La capacité des algorithmes de détection d'objets pour chaque séquence est décrite dans les tables 5.5, 5.6 et 5.7 Dans notre expérience, nous prenons le seuil du taux d'erreur égal 0.5 pour calculer la capacité d'algorithme pour manipuler le problème d'objet faiblement contrasté Cette capacité correspond un niveau de contraste et signie que l'algorithme ne peut pas détecter 50 % de régions ce niveau de contraste De ces trois tables, nous pouvons observer que la capacité de chaque algorithme ne change pas travers les deux dernières séquences de vidéos C'est un résultat important parce que les résultats d'évaluation sont les mêmes pour diérents vidéos aux même niveaux de diculté La diérence entre ETI-VS1-BE-18-C1 et les deux dernières séquences, particulièrement pour le participant 11, est principalement due la petite taille de la personne dans la première séquence Par conséquent, pour de nouvelles séquences, selon la taille des objets mobiles, nous pourrions considérer le résultat d'évaluation sur la première séquence ou sur les deux dernières séquences comme borne supérieure de la capacité d'algorithme Pour la tâche du suivi d'objets, dans notre expérience, nous employons une métrique dénie dans le programme ETISEO Ce métrique mesure le 25 Fig 5.4 L'image spécimenne de la séquence ETI-VS1-RD-16-C4 illustrant des ombres Tab 5.9 ETI-VS1-BE-18-C4 : Performance de suivi Participant 11 12 13 15 Résultat de suivi 1 0.69 0.5 0.44 Tab 5.10 ETI-VS1-MO-7-C1 : Performance de suivi Participant 11 Résultat de suivi 1 0.97 0.9 26 pourcentage du temps où un objet dans les données de référence (RD) a été observé et suivi (c) avec un ID unique dans la période de l'expérience L'objet mobile est considéré être observé si la distance entre les rectangles de bord de données de référence et de l'algorithme (calculée en utilisant le coecient Dice : (2 × card(RD C))/(card(RD) + card(C))) est plus petit que 0,7 La formule de cette métrique est comme suivante : TT racked = N BRef Data card(RD ∩ C) card(RD) Ref Data Où card correspond au nombre des éléments dans un ensemble Les tables 5.8, 5.9 et 5.10 montrent les résultats de suivi d'objet sur les trois séquences Le rang d'algorithme est presque identique que dans l'expérience de la tâche de détection d'objet sauf le rang du participant 13 sur la séquence ETI-VS1-BE-18-C4 Pour le participant 13, bien que le module de détection d'objet a une performance la plus mauvaise, la sortie du module de suivi de ce participant est meilleure que cela des participants et 15 Il signie que l'algorithme de suivi du participant 13 est plus robuste pour des échecs du module de la détection d'objets De cette expérience nous concluons que les résultats d'évaluation une tâche spécique ne reète pas toujours la performance du système entier en traitant des objets mobiles faiblement contrastés en particulier et en traitant des problèmes de traitement de vidéos en général Pour la tâche du suivi d'objet, nous dénissons la capacité d'algorithme comme seuil de la performance de suivi égal Alors seulement l'algorithme du participant peut manipuler les objets mobiles dans l'ETI-VS1-BE-18-C1 Car le niveau le plus bas de contraste de l'objet suivi dans cette séquence est 1, nous déclarons qu'en cas des séquences contenant de petits objets mobiles, l'algorithme du participant peut suivre les objets avec le niveau de contraste le plus bas au moins égal Pour les séquences contenant des grands objets, les algorithmes des participants 1, 11, 12 peuvent suivre l'objet mobile dans la séquences ETI-VS1BE-18-C4 Puisque le niveau le plus bas de contraste de l'objet suivi dans cette séquences est 1, nous déclarons que ces algorithmes peuvent suivre les objets avec le niveau le plus bas de contraste au moins égal Ainsi comme sur l'ETI-VS1-MO-7-C1, les objets suivis ont le niveau le plus bas de contraste égal 2, nous pouvons vérier sur la table 5.10 que les algorithmes et 11 ont une bonne performance de suivi Par conséquent les résultats d'évaluation obtenus sur la séquence ETI-VS-BE-18-C4 peuvent être extrapolés l'autre séquence 27 Tab 5.11 Niveaux de contraste des régions des ombres Niveau de contraste 10 11 12 Nombre de régions 21 70 48 14 Tab 5.12 Taux d'erreur des algorithmes de détection des ombres Niveau de contraste des ombres Participant 10 11 19 0.03 0 0.05 0.14 0.21 0.21 11 0.52 0.46 0.35 0.43 13 0.89 0.73 12 0.99 0.98 5.2 Manipulation des objets mélangés aux ombres 5.2.1 Sélection des vidéos Comme décrit dans la chapitre concernant ETISEO, il y a beaucoup de types des ombres Dans cette section nous proposons d'examiner la performance d'algorithme contre les ombres diérents niveaux d'intensité (plus ou moins contrasté) avec le fond non-coloré et uniforme Alors, dans l'ensemble de données du programme ETISEO, nous avons choisi 74 régions d'ombre dans la séquence ETI-VS1-RD-16-C4 La gure 5.4 est une image d'échantillon de cette séquence Cette séquence a été traité par les algorithmes de participants 5.2.2 Résultat d'évaluation Pour calculer les niveaux de contraste des régions des ombre nous avons pris les mêmes paramètres utilisés dans l'expérience précédente : il y a 20 niveaux de contraste, la hauteur de la bande est 10 pixels haut et la taille des sous-régions l'intérieur d'une bande est 10x10 pixels La table 5.11 montre les niveaux de contraste des régions des ombres 28 choisies dans la séquence ETI-VS1-RD-16-C1 Les ombres sont fortement contrastées et tous les niveaux de contraste sont dans l'intervalle de 11 Les résultats d'évaluation sont illustrés dans la table 5.12 De la table nous observons que les algorithmes 12 et 13 n'ont pas un mécanisme pour détecter des ombres Donc ils considèrent presque toutes les ombres comme objets mobiles Pour les autres algorithmes, l'algorithme 19 ont une performance parfaite en manipulant des ombres L'algorithme commet encore des erreurs pour des régions des ombres fortement contrastées (taux d'erreur : 0.21) et l'algorithme 11 obtient la plus mauvaise performance parmi les trois Si nous prenons le seuil du taux d'erreur égal 0.5 comme capacité de manipuler des ombres, nous observons que les algorithmes et 19 manipulent bien les ombres avec le niveau de contraste dans l'intervalle de 11 Alors, l'intervalle du mécanisme de manipulation des ombres de ces algorithmes est au moins plus de niveaux de contraste Au contraire, le taux d'erreur de l'algorithme 11 au niveau de contraste est plus haut que le seuil acceptable (0,52) Donc, l'intervalle des niveaux de contraste des régions d'ombre qui peuvent être manipulées est (de niveau niveau 11) 29 Chapitre Conclusion Dans cette mémoire, nous proposons une nouvelle méthodologie d'évaluation qui aide généraliser les résultats d'évaluation eectués sur des vidéos choisis de nouveaux séquences Plus précisément, nous résolvons chaque problème de traitement de vidéos séparément et estimons la borne supérieure de la capacité d'algorithme en résolvant le problème donné Si cette valeur est plus petite que le niveau de diculté de nouveaux séquences, nous pouvons conclure que l'algorithme ne peut pas avoir une performance acceptable sur ces séquences Pour illustrer la nouvelle méthodologie d'évaluation, nous présentons deux métriques pour aborder les problèmes de manipuler les objets faiblement contrastés et de manipuler des objets mélangés aux ombres Les résultats préliminaires prouvent que, avec cette méthodologie, nous pouvons extrapoler les résultats d'évaluation pour des nouveaux séquences La méthodologie d'évaluation proposée a trois limitations principales D'abord, c'est une tâche dicile de choisir des vidéos illustrant seulement un problème de traitement de vidéos et illustrant ce problème diérents niveaux de diculté Cependant une fois que les vidéos ont été choisis ils peuvent être réutilisés pour n'importe quel type d'algorithmes Deuxièmement les résultats d'évaluation peuvent être partiellement extrapolé sur des nouveaux vidéos Cette méthodologie d'évaluation détermine seulement la borne supérieure de la capacité d'algorithme pour résoudre un problème Habituellement, car les vidéos illustrent plusieurs problèmes de traitement de vidéos, la diérence entre la borne supérieure de la capacité d'algorithme et la vraie performance sur des vidéos contenant plus d'un problème peut être importante Troisièmement, pour un algorithme indiqué, le même ensemble de paramètres peut être adapté pour manipuler diérents problèmes Si deux problèmes exigent deux manières diérentes de changer des paramètres, la diérence entre la borne supérieure et la vraie performance pourrait être considérable Pour limiter ce problème, les algorithmes ont été adaptés sur 30 des vidéos contenant un mélange des problèmes et examinés sur des sousparties (de ces vidéos) illustrant seulement un problème la fois Dans l'avenir nous projetons proposer la nouvelle métrique d'évaluation sur plus de problèmes et tâches de traitement de vidéos pour valider la puissance de généralisation de cette méthodologie d'évaluation Nous projetons également calculer les dépendances entre les ensembles de paramètre nécessaires pour manipuler des problèmes spéciques Sachant ces dépendances, nous pourrons estimer la abilité du calcul de la borne supérieure de capacité d'algorithme 31 Bibliographie [1] Jacinto Nascimento and Jorge Marques, Performance evaluation of object detection algorithms for video surveillance, IEEE Transactions on Multimedia pp 761-774 2006 [2] Chris J Needham and Roger D Boyle, Performance Evaluation Metrics and Statistics for Positional Tracker Evaluation, Computer Vision Systems Third International Conference, ICVS 2003 pp 278-289 SpringerVerlag 2003 [3] J Black, T Ellis and P.Rosin A novel Method for Video Tracking Performance Evaluation, Joint IEEE Int Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance (VS-PETS) pp 125-132, 2003 [4] A Prati, I Mikic, M M Trivedi, R Cucchiara, Comparative Analysis of moving shadow detection algorithms, Image and Vision Computing Journal (special issue on Visual Surveillance) 2003 [5] Benoît GEORIS Program Supervision Techques for Easy Conguration of Video Understanding Systems PhD Thesis - Université Catholique de Louvain, 2006 [6] IEEE International Workshop on Performance Evaluation of Tracking and Surveillance (PETS), http ://www.pets2006.net/ [7] CAVIAR : Context Aware Vision using Image-based Active Recognition, http ://homepages.inf.ed.ac.uk/rbf/CAVIAR/ [8] CREDS : Call for Real-Time Event Detection Solutions (CREDS) for Enhanced Security and Safety in Public Transportation, http ://wwwdsp.elet.polimi.it/avss2005/CREDS.pdf [9] CLEAR : Classication of Events, Activities and Relationships - Evaluation Campaign and Workshop, http ://www.clear-evaluation.org/ [10] VACE : Video Analysis and Content Extraction, http ://www.icarda.org/InfoExploit/vace/index.html [11] ETISEO : Video understanding Evaluation, http ://www.silogic.fr/etiseo 32 [...]... bandes verticales, l'ensemble de niveaux de contraste de ces bandes peut être {5, 7, 6, 4} Si nous divisons cette ombre en bandes horizontales, l'ensemble de niveaux de contraste de ces bandes peut être {2, 7, 6, 3} Puis, 18 le contraste de l'ombre est déni comme union de ces deux ensembles : {2, 3, 5, 7, 6, 4} 4.3.3 Capacité des algorithmes en détectant des ombres Normalement, des algorithmes de. .. horizontales Calculer le niveau de contraste de chaque bande L'ensemble des niveaux de contraste de toutes les bandes constitue le niveau de contraste du blob (en enlevant toutes les valeurs doubles) Par exemple, le blob dans la gure 4.4 peut être divisé en 8 bandes et 15 Fig 4.4 Le contraste d'un blob est l'ensemble de niveaux de contraste de toutes les bandes de ce blob L'ensemble de niveaux de. .. suivant pour calculer le contraste d 'une bande : Diviser verticalement la bande en sous-régions Pour chaque sous-région, calculer la valeur moyenne des niveaux de contraste de tous les pixels dans cette sous-région Le niveau de contraste d 'une bande est le niveau de contraste maximum de toutes les sous-régions de cette bande 13 Fig 4.2 Le niveau de contraste maximum de toutes les sous-régions aide... mesure de calculer les niveaux de diculté des données d'entrée (par exemple séquences de vidéos) relativement au problème de traitement de vidéos courant, par exemple les objets faiblement contrastés pour la tâche de détection d'objets Dénir la métrique pour évaluer la performance d 'algorithmes Choisir les séquences de vidéos illustrant le problème et les données de référence associées pour faire... diciles (c.-à-d avec des niveaux de diculté plus élevés) 4.3 Manipulation des objets mélangés aux ombres Cette section présente une métrique pour évaluer la sensibilité des algorithmes de détection des ombres D'abord, nous décrivons le problème de manipuler des ombres et puis nous dénissons une mesure de calculer les niveaux de contraste des régions des ombres Finalement nous dénissons la capacité des... par les algorithmes de 5 participants 5.2.2 Résultat d'évaluation Pour calculer les niveaux de contraste des régions des ombre nous avons pris les mêmes paramètres utilisés dans l'expérience précédente : il y a 20 niveaux de contraste, la hauteur de la bande est 10 pixels haut et la taille des sous-régions à l'intérieur d 'une bande est 10x10 pixels La table 5.11 montre les niveaux de contraste des... d'entrée, les données de référence et les séquences de vidéos choisies illustrant le problème Concernant les algorithmes de traitement de vidéos à évaluer, il est important de dénir les paramètres exigeant d'un stage d'apprentissage pendant la conguration de traiter les vidéos choisis Dans cet article, nous considérons que les réalisateurs d'algorithme pouvaient adapter leurs algorithmes et fournir les. .. Détection des objets faiblement contrastés Cette section étudie la sensibilité des algorithmes de traitement de vidéos sur la détection des objets faiblement contrastés Dans ce but, nous décrivons d'abord le problème de détecter les objets faiblement contrastés Puis nous dénissons une mesure de calculer le niveau de contraste d'un pixel, puis une bande (l'unité de base pour calculer l'ensemble de niveaux de. .. susamment des métriques pour mesurer et caractériser la performance des algorithmes en des aspects diérents Calculer les données de référence qui correspondent à la sortie prévu de l'algorithme à évaluer relativement à une tâche donnée de traitement de vidéos Les données de référence sont calculées à partir de la vérité terrain fournie par les opérateurs humains et peuvent être améliorées pour correspondre... contraste des sous-régions au niveau de contraste de la bande entière Le deuxième avantage est la taille des sous-régions dans la bande Si nous prenons le niveau maximum de contraste de tous les pixels à l'intérieur de la bande (c.-à-d la plus petite taille pour une sous-région), cette valeur peut correspondre au bruit Par conséquent, nous avons choisi une taille de région 14 Fig 4.3 Les blobs de type

Định dạng
Số trang	36
Dung lượng	441,03 KB