Difference between revisions of "Seminar/2017-05-03"
From LRDE
(Created page with "{{SeminarHeader
| id = 2017-05-03
| date = Mercredi 3 mai 2017
| schedule = 11h-12h
| location = Amphi 3 de l'EPITA
}}
{{Talk
| id = 2017-05-03
| abstract = Nous propo...") |
|||
Line 1: | Line 1: | ||
{{SeminarHeader |
{{SeminarHeader |
||
| id = 2017-05-03 |
| id = 2017-05-03 |
||
− | | date = Mercredi 3 mai 2017 |
+ | | date = Mercredi 3 mai 2017 |
| schedule = 11h-12h |
| schedule = 11h-12h |
||
| location = Amphi 3 de l'EPITA |
| location = Amphi 3 de l'EPITA |
Latest revision as of 18:07, 4 December 2018
Mercredi 3 mai 2017, 11h-12h, Amphi 3 de l'EPITA
Apprentissage par Imitation Auto-Supervisée
Pierre Sermanet, Google Brain
Nous proposons une approche auto-supervisée pour l’apprentissage de
représentations à partir de vidéos non supervisées, enregistrées à de
multiples points de vue. Cette approche est particulièrement pertinente en
robotique pour l’apprentissage par l’imitation, qui nécessite une
compréhension invariante par rapport au point de vue des relations
entre les humains et leur environnement (telles que les interactions
entre objets, les attributs et les poses corporelles). Nous entraînons
nos représentations à l’aide d’une stratégie de type triplet loss,
où les multiples points de vue simultanés de la même observation
sont attirés dans l’espace d’intégration, tout en étant repoussés
des voisins temporels qui sont souvent visuellement similaires mais
fonctionnellement différents. Ce signal encourage notre modèle à
découvrir des attributs invariants vis-à-vis du point de vue, mais
qui varient dans le temps, tout en ignorant les potentielles nuisances
telles que les occlusions, le flou de mouvement, l’éclairage et
l’arrière-plan. Nos expériences démontrent qu’une telle représentation
acquiert même un certain degré d’invariance vis-à-vis de l’instance
d’objet. Nous montrons que notre modèle peut correctement identifier
les étapes correspondantes dans les interactions complexes d’objets,
à travers différentes vidéos avec différentes instances. Nous montrons
également les premiers résultats, à notre connaissance, d’apprentissage
intégralement auto-supervisé pour l’imitation de mouvements humains
par un robot réel.
Pierre Sermanet est issu de la promo EPITA 2005 (spécialisation GISTR). En
2004 il participe avec Evolutek à la compétition robotique Eurobot
<http://cs.nyu.edu/~sermanet/eurobot.html>. Après son stage de fin d’étude
chez Siemens Research à Princeton, il travaille avec Yann LeCun en tant
qu’ingénieur de recherche pendant 3 ans sur le thème du deep learning pour
le projet de robotique mobile LAGR <http://cs.nyu.edu/~sermanet/lagr.html>.
Il effectue ensuite son doctorat en deep learning avec Yann LeCun à l'Université
de New York jusqu’en 2013, puis il rejoint ensuite Google Brain en tant que
chercheur en deep learning appliqué à la vision et à la robotique.
https://sermanet.github.io/tcn/