Stages Etudiants
Année 2007-2008
Vocabulaires visuels efficaces et discriminants pour la catégorisation d'images
Encadrants : Jakob Verbeek et Diane Larlus
Description :
Ce projet s'intéresse au problème de la
catégorisation d'images qui
consiste à déterminer si une image contient un ou plusieurs objets d'une
catégorie d'intérêt (comme les vélos, les voitures, les personnes ...).
Le défi est de créer automatiquement un système à partir d'une
collection d'images d'apprentissage, qui soit ensuite capable de prédire la
présence d'un objet dans n'importe quelle nouvelle image proposée.
Les méthodes de l'état de l'art (comme celles developpées chez
Lear)
utilisent des représentations locales qui décrivent le contenu de petites vignettes
extraites dans l'image. Ces vignettes sont ensuite regroupées en un nombre fini
d'éléments qui constitueront les mots d'un
vocabulaire visuel. Les images sont
ainsi représentées comme des ensembles de mots, de la même façon que pour le
texte. Cette représentation est compacte et très efficace pour la catégorisation.
La création de ces mots visuels est faite en général par ce qu'on appelle un
algorithme de clustering qui groupe les vignettes en utilisant une notion de
distance. Les méthodes de ce type ont deux inconvénients majeurs : le calcul de
l'appartenance à un groupe est un processus très coûteux, et les groupes sont
formés de façon générique en perdant de vue l'objectif final qui est la
classification de l'image.
Le but du stage proposé est de résoudre ces deux problèmes en utilisant une
structure
hiérarchique qui permet une transformation en mots visuels
particulièrement rapide. De plus on se propose de construire cette structure hiérarchique de
façon à fabriquer une représentation la plus discriminante possible pour la
tâche finale de classification.

Exemples de mots visuels, et de vignettes associées à chaque mot
Année 2006-2007