Internship: Learning states and actions representations for reinforcement learning

Learning states and actions representations for reinforcement learning

 

L’apprentissage par renforcement est aujourd’hui arrive à un stade où les algorithmes d’apprentissage permettent de traiter des problèmes réels aussi bien dans le domaine de la robotique, du contrôle que dans le domaine du traitement de données et de l’interaction homme-machine – voir par exemple les derniers travaux de Google-DeepMind sur les jeux vidéos [1]. Cependant, la performance des algorithmes est encore grandement limitée par la qualité des représentations fournies au système. En effet, les algorithmes efficaces (Policy-gradient, RCPI, …) sont tous des algorithmes directement dérivés de travaux en machine learning. Ils travaillent donc sur des représentations vectorielles des états (et éventuellement des actions) qui sont principalement définie manuellement. Plusieurs méthodes récentes issues notamment du deep learning et des réseaux de neurones récurrents se sont intéressés à l’apprentissage de représentations (avec des résultats intéressants). Cependant ces travaux sont encore limités à des cas assez simples d’apprentissage.

Deux problèmes principaux sont à résoudre pour obtenir des modèles performants : (i) le premier problème qui est aujourd’hui adressé par plusieurs travaux consiste à apprendre automatiquement des représentations continues des états du processus. Nous avons récemment proposé une approche originale pour le cas des processus à observations incomplètes (POMDP) [2] qui est un cas particulièrement complexe et les premiers résultats sont encourageants. Cependant, il n’existe pas de méthode aujourd’hui satisfaisante pour traiter ce cas-là, notamment quand les observations sont issues de plusieurs capteurs, et sont potentiellement incomplètes (certains capteurs ne fournissant des informations que de temps en temps). (ii) Le second problème est que les travaux se sont focalisés sur la représentation des états, mais pas sur la représentation des actions. Pourtant, quand le nombre d’actions devient grand, il peut être important de découvrir automatiquement une « métrique » sous-jacente dans l’espace des actions (ou des états-actions) permettant de factoriser l’apprentissage, et donc d’apprendre plus vite.

Le stage proposé vise à s’inspirer des travaux préalablement effectué au LIP6 afin de proposer de nouvelles méthodes d’apprentissage de représentations pour les POMDP – aussi bien au niveau des actions qu’au niveau des états. L’outil privilégié sera le développement de modèles statistiques issus des travaux en Deep Learning, et leur application à l’apprentissage par renforcement. Des applications seront envisagées sur des cas jouets, ainsi que sur des problématiques simples de robotique.

 

  • Encadrant : Ludovic Denoyer , ludovic.denoyer@lip6.fr
  • Niveau M1/M2
  • Salaire : environ 400 € mensuels
  • Ce stage pourra déboucher sur une thèse.

 

Informations additionnelles

  • Compétences requises : Il est demandé des compétences de base en apprentissage statistique et en programmation. Il faut aussi avoir envie d’explorer des problématiques nouvelles
  • Lieu du stage : laboratoire LIP6, 4 Place Jussieu, 75005 Paris
  • Durée : 5 à 6 mois
  • Rémunération : environ 400 Euros / mois
  • Contact : patrick.gallinari@lip6.fr, benjamin.piwowarski@lip6.fr

Références

[1] Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller: Playing Atari with Deep Reinforcement Learning.

[2] Gabriella Contardo, Ludovic Denoyer, Thierry Artières, Patrick Gallinari: Learning States Representations in POMDP

[3] Ludovic Denoyer, Patrick Gallinari: Deep Sequential Neural Network.