Internships 2009-2010

  1. Agglomération non-supervisée de données avec mise à jour online: application aux visages

  2. Annotation automatique d'image: apprentissage online et interface web


Agglomération non-supervisée de données avec mise à jour online: application aux visages

Keywords:

Vision par ordinateur, apprentissage machine, reconnaissance de visages, agglomération de données, apprentissage online.

Supervisor : Matthieu Guillaumin

Schedule:

Entre 6 et 10 semaines, à débuter à partir du 18/05/2009.

Mise-à-jour le 04/05/2009: Ce stage n'est plus disponible.

Context:

L'INRIA Rhône-Alpes, située à proximité de Grenoble dans la vallée du Grésivaudan, est un établissement majeur de la recherche en informatique en France. L'équipe LEAR, dirigée par Cordelia Schmid, s'intéresse à l'utilisation de méthodes d'apprentissage machine pour résoudre les problèmes de la vision par ordinateur. Parmi les nombreux enjeux de la vision, la reconnaissance de visages est cruciale. Ici on ne s'intéresse pas aux applications en sécurité mais plutôt aux environnements fortement non contrôlés comme les photos personnelles, les photos d'actualité illustrant les dépêches, etc... De récents progrès sur ce genre de données ont récemment été possibles en particulier par la mise à disposition libre d'une grande base annotée qui permet la mise au point de systèmes robustes. Rémunération possible selon le statut du candidat.

Exemples d'association automatique nom-visage sur une base de données de dépêches (Yahoo! News), et d'agglomération de visages (Jeremy Greenstock)

Goal:

Le stage vise à exploiter ces résultats récents et à les étendre à l'agglomération de données. On veut développer des algorithmes non supervisés mais fiables de regroupement de visages par leur identité, tels qu'on peut en trouver dans certains logiciels grand public, mais qui seraient un ordre de grandeur plus efficaces que ce qui existe actuellement. Additionnellement, il faut aussi pouvoir mettre à jour le partitionnement des données pour prendre en compte les corrections de l'utilisateur ou l'ajout de nouvelles photos.

Requirements:

L'anglais est la langue communément parlée dans l'équipe, sa maitrise est donc recommandée mais pas indispensable. De solides connaissances en programmation ainsi qu'en algorithmiques de graphe sont nécessaires.

References:

[1] K. Barnard, P. Duygulu, N. de Freitas, D. Forsyth, D. Blei, and M. Jordan, Matching Words and Pictures, JMLR 2003
[2] T. Berg, A. Berg, J. Edwards, M. Maire, R. White, Y. Teh, E. Learned-Miller, D. Forsyth, Names and Faces in the News, CVPR 2004
[3] M. Guillaumin, T. Mensink, J. Verbeek, and C. Schmid, Automatic Face Naming with Caption-based Supervision, CVPR 2008
[4] R. Bekkerman and J. Jeon, Multi-modal Clustering for Multimedia Collections, CVPR 2007
[5] Ng, A. Y., M. I. Jordan, and Y. Weiss, On Spectral Clustering: Analysis and an algorithm, NIPS 2001

Annotation automatique d'image: apprentissage online et interface web

Keywords:

Vision par ordinateur, apprentissage machine, annotation automatique d'image, apprentissage online, programmation web.

Supervisor : Matthieu Guillaumin

Schedule:

Entre 6 et 10 semaines, à débuter à partir du 18/05/2009.

Mise-à-jour le 04/05/2009: Ce stage a été attribué.

Context:

L'équipe LEAR s'intéresse à l'utilisation de méthodes d'apprentissage machine pour résoudre les problèmes de la vision par ordinateur. L'annotation automatique d'image, c'est-à-dire l'association de mots-clefs aux images ou la recherche d'images à partir de tels mots-clefs, est un sujet de recherche depuis de nombreuses années en vision par ordinateur. La technologie développée localement, bien que performante, ne se s'applique pour l'instant qu'à un ensemble pré-défini d'images et de mots. Rémunération possible selon le statut du candidat.

car
cloud
man
old
silver
sky
beach
blue
boat
cloud
mountain
ocean
sand
sea
ship
sky
water
black
chair
floor
table
white
wood
Exemples d'images avec leurs annotations issues de la base ESP Game

Goal:

Une extension de cette technologie est réalisable, vers un système flexible où l'ajout d'images et de nouveaux mots serait possible, et où l'ensemble des paramètres du modèle seraient mis à jour en conséquence. L'idée est d'obtenir in fine une démonstration interactive et en ligne de cette technologie étendue, vitrine importante pour les recherches que nous menons.

Requirements:

L'anglais est la langue communément parlée dans l'équipe, sa maitrise est donc recommandée mais pas indispensable. Programmation C et web (html,php,mysql,javascript).

References:

[1] K. Barnard, P. Duygulu, N. de Freitas, D. Forsyth, D. Blei, and M. Jordan, Matching Words and Pictures, JMLR 2003
[2] P. Duygulu, K. Barnard, N. de Freitas and D. Forsyth, Object recognition as machine translation, ECCV 2002
[3] S. Feng, R. Manmatha, and V. Lavrenko, Multiple Bernouilli relevance models for image and video annotation, CVPR 2004
[4] A. Makadia, V. Pavlovic, and S. Kumar, A new baseline for image annotation, ECCV 2008
[5] r. Yan, A. Natsev, and M. Campbell, A Learning-based Hybrid Tagging and Browsing Approach for Efficient Manual Image Annotation, CVPR 2008