Seminar/2017-05-03

Mercredi 3 mai 2017, 11h-12h, Amphi 3 de l'EPITA

Apprentissage par Imitation Auto-Supervisée

Pierre Sermanet, Google Brain

Nous proposons une approche auto-supervisée pour l’apprentissage de représentations à partir de vidéos non supervisées, enregistrées à de multiples points de vue. Cette approche est particulièrement pertinente en robotique pour l’apprentissage par l’imitation, qui nécessite une compréhension invariante par rapport au point de vue des relations entre les humains et leur environnement (telles que les interactions entre objets, les attributs et les poses corporelles). Nous entraînons nos représentations à l’aide d’une stratégie de type triplet loss, où les multiples points de vue simultanés de la même observation sont attirés dans l’espace d’intégration, tout en étant repoussés des voisins temporels qui sont souvent visuellement similaires mais fonctionnellement différents. Ce signal encourage notre modèle à découvrir des attributs invariants vis-à-vis du point de vue, mais qui varient dans le temps, tout en ignorant les potentielles nuisances telles que les occlusions, le flou de mouvement, l’éclairage et l’arrière-plan. Nos expériences démontrent qu’une telle représentation acquiert même un certain degré d’invariance vis-à-vis de l’instance d’objet. Nous montrons que notre modèle peut correctement identifier les étapes correspondantes dans les interactions complexes d’objets, à travers différentes vidéos avec différentes instances. Nous montrons également les premiers résultats, à notre connaissance, d’apprentissage intégralement auto-supervisé pour l’imitation de mouvements humains par un robot réel.

Pierre Sermanet est issu de la promo EPITA 2005 (spécialisation GISTR). En 2004 il participe avec Evolutek à la compétition robotique Eurobot <http://cs.nyu.edu/~sermanet/eurobot.html>. Après son stage de fin d’étude chez Siemens Research à Princeton, il travaille avec Yann LeCun en tant qu’ingénieur de recherche pendant 3 ans sur le thème du deep learning pour le projet de robotique mobile LAGR <http://cs.nyu.edu/~sermanet/lagr.html>. Il effectue ensuite son doctorat en deep learning avec Yann LeCun à l'Université de New York jusqu’en 2013, puis il rejoint ensuite Google Brain en tant que chercheur en deep learning appliqué à la vision et à la robotique.

https://sermanet.github.io/tcn/

Seminar/2017-05-03

From LRDE

Mercredi 3 mai 2017, 11h-12h, Amphi 3 de l'EPITA

Apprentissage par Imitation Auto-Supervisée