Stages Etudiants

Towards English Version

Année 2007-2008

Vocabulaires visuels efficaces et discriminants pour la catégorisation d'images


Encadrants : Jakob Verbeek et Diane Larlus

Description :
Ce projet s'intéresse au problème de la catégorisation d'images qui consiste à déterminer si une image contient un ou plusieurs objets d'une catégorie d'intérêt (comme les vélos, les voitures, les personnes ...). Le défi est de créer automatiquement un système à partir d'une collection d'images d'apprentissage, qui soit ensuite capable de prédire la présence d'un objet dans n'importe quelle nouvelle image proposée.
Les méthodes de l'état de l'art (comme celles developpées chez Lear) utilisent des représentations locales qui décrivent le contenu de petites vignettes extraites dans l'image. Ces vignettes sont ensuite regroupées en un nombre fini d'éléments qui constitueront les mots d'un vocabulaire visuel. Les images sont ainsi représentées comme des ensembles de mots, de la même façon que pour le texte. Cette représentation est compacte et très efficace pour la catégorisation.
La création de ces mots visuels est faite en général par ce qu'on appelle un algorithme de clustering qui groupe les vignettes en utilisant une notion de distance. Les méthodes de ce type ont deux inconvénients majeurs : le calcul de l'appartenance à un groupe est un processus très coûteux, et les groupes sont formés de façon générique en perdant de vue l'objectif final qui est la classification de l'image.
Le but du stage proposé est de résoudre ces deux problèmes en utilisant une structure hiérarchique qui permet une transformation en mots visuels particulièrement rapide. De plus on se propose de construire cette structure hiérarchique de façon à fabriquer une représentation la plus discriminante possible pour la tâche finale de classification.


Exemples de mots visuels, et de vignettes associées à chaque mot

Année 2006-2007