Internships 2009-2010
Keywords:
Vision par ordinateur, apprentissage machine, reconnaissance de visages,
agglomération de données, apprentissage online.
Supervisor : Matthieu Guillaumin
Schedule:
Entre 6 et 10 semaines, à débuter à partir du 18/05/2009.
Mise-à-jour le 04/05/2009: Ce stage n'est
plus disponible.
Context:
L'INRIA Rhône-Alpes, située à proximité de Grenoble dans la vallée du
Grésivaudan, est un établissement majeur de la recherche en informatique
en France. L'équipe LEAR, dirigée par Cordelia Schmid, s'intéresse à
l'utilisation de méthodes d'apprentissage machine pour résoudre les
problèmes de la vision par ordinateur. Parmi les nombreux enjeux de la
vision, la reconnaissance de visages est cruciale. Ici on ne s'intéresse
pas aux applications en sécurité mais plutôt aux environnements fortement
non contrôlés comme les photos personnelles, les photos d'actualité
illustrant les dépêches, etc... De récents progrès sur ce genre de
données ont récemment été possibles en particulier par la mise à
disposition libre d'une grande base annotée qui permet la mise au point
de systèmes robustes. Rémunération possible selon le statut du
candidat.
|
|
Exemples d'association automatique nom-visage sur une base de
données de dépêches (Yahoo! News), et d'agglomération de visages (Jeremy
Greenstock)
Goal:
Le stage vise à exploiter ces résultats récents et à les
étendre à l'agglomération de données. On veut développer des algorithmes
non supervisés mais fiables de regroupement de visages par leur identité,
tels qu'on peut en trouver dans certains logiciels grand public, mais qui
seraient un ordre de grandeur plus efficaces que ce qui existe
actuellement. Additionnellement, il faut aussi pouvoir mettre à jour le
partitionnement des données pour prendre en compte les corrections de
l'utilisateur ou l'ajout de nouvelles photos.
Requirements:
L'anglais est la langue communément parlée dans
l'équipe, sa maitrise est donc recommandée mais pas indispensable. De
solides connaissances en programmation ainsi qu'en algorithmiques de
graphe sont nécessaires.
References:
[1] K. Barnard, P. Duygulu, N. de Freitas, D. Forsyth, D. Blei, and M.
Jordan, Matching Words and Pictures, JMLR 2003
[2] T. Berg, A. Berg, J. Edwards, M. Maire, R. White, Y. Teh, E.
Learned-Miller, D. Forsyth, Names and Faces in the News, CVPR 2004
[3] M. Guillaumin, T. Mensink, J. Verbeek, and C. Schmid, Automatic Face
Naming with Caption-based Supervision, CVPR 2008
[4] R. Bekkerman and J. Jeon, Multi-modal Clustering for Multimedia
Collections, CVPR 2007
[5] Ng, A. Y., M. I. Jordan, and Y. Weiss, On Spectral Clustering:
Analysis and an algorithm, NIPS 2001
Keywords:
Vision par ordinateur, apprentissage machine, annotation automatique
d'image, apprentissage online, programmation web.
Supervisor : Matthieu Guillaumin
Schedule:
Entre 6 et 10 semaines, à débuter à partir du 18/05/2009.
Mise-à-jour le 04/05/2009: Ce stage a été
attribué.
Context:
L'équipe LEAR s'intéresse à l'utilisation de méthodes d'apprentissage
machine pour résoudre les problèmes de la vision par ordinateur.
L'annotation automatique d'image, c'est-à-dire l'association de
mots-clefs aux images ou la recherche d'images à partir de tels
mots-clefs, est un sujet de recherche depuis de nombreuses années en
vision par ordinateur. La technologie développée localement, bien que
performante, ne se s'applique pour l'instant qu'à un ensemble pré-défini
d'images et de mots. Rémunération possible selon le statut du
candidat.
|
car cloud man old silver sky
|
|
beach blue boat cloud mountain ocean sand sea ship sky water |
|
black chair floor table white wood |
Exemples d'images avec leurs annotations issues de la base ESP
Game
Goal:
Une extension de cette technologie est réalisable, vers un
système flexible où l'ajout d'images et de nouveaux mots serait possible,
et où l'ensemble des paramètres du modèle seraient mis à jour en
conséquence. L'idée est d'obtenir
in fine une démonstration
interactive et en ligne de cette technologie étendue, vitrine importante
pour les recherches que nous menons.
Requirements:
L'anglais est la langue communément parlée dans
l'équipe, sa maitrise est donc recommandée mais pas indispensable.
Programmation C et web (html,php,mysql,javascript).
References:
[1] K. Barnard, P. Duygulu, N. de Freitas, D. Forsyth, D. Blei, and M.
Jordan, Matching Words and Pictures, JMLR 2003
[2] P. Duygulu, K. Barnard, N. de Freitas and D. Forsyth, Object
recognition as machine translation, ECCV 2002
[3] S. Feng, R. Manmatha, and V. Lavrenko, Multiple Bernouilli relevance
models for image and video annotation, CVPR 2004
[4] A. Makadia, V. Pavlovic, and S. Kumar, A new baseline for image
annotation, ECCV 2008
[5] r. Yan, A. Natsev, and M. Campbell, A Learning-based Hybrid Tagging
and Browsing Approach for Efficient Manual Image Annotation, CVPR
2008