Pierre Gérard

pierre.gerard@univ-paris13.fr

Maître de Conférences en Informatique

Université de Paris 13

Recherche : Laboratoire d'informatique de Paris Nord (LIPN) / Bureau B211 / +33 1 49 40 28 31

Enseignement : IUT de Villetaneuse, département Informatique / Bureau T208 / +33 1 49 40 28 31


Recherche (fr) / Research (en) / Enseignement / Divers

Recherche

Je m'intéresse à l'auto-adaptation d'agents autonomes. Plus particulièrement, je m'intéresse à l'apprentissage par renforcement et à l'apprentissage de modèles d'action pour que l'agent puisse anticiper les conséquences de ses actions.

Publications

Sélection

Autres

Livres édités

Thèse de doctorat

Projets

HARRI

Je suis porteur du projet ANR « Jeunes Chercheurs » HARRI. Il implique d'autres membres de l'équipe A3, dont Christophe Rodrigues, doctorant. HARRI est un acronyme de "Hiérarchisation et Apprentissage par Renforcement Relationnel Indirect".

Objectif

L'apprentissage par renforcement (AR) considère des systèmes informatiques engagés dans une boucle sensori-motrice (typiquement : un système robotique percevant son environnement par l'intermédiaire de capteurs, et doté de moyens d'action au moyen d'effecteurs). Plutôt que de programmer « à la main » les réactions du système dans chaque situation possible, on cherche à le voir acquérir automatiquement – par apprentissage – un comportement adéquat. Les techniques d'AR habituelles exploitent des représentations des états par attributs/valeurs comme par exemple un vecteur de distances aux objets les plus proches.

La plupart des travaux en AR visent ainsi à découvrir des algorithmes d'apprentissage efficaces exploitant ces représentations propositionnelles. Dans le cadre du projet HARRI, nous entendons développer une activité en AR en ciblant nos recherches sur la question de la représentation des états et des actions. Avec des représentations utilisant des restrictions de la logique d'ordre un plutôt que des langages propositionnels, les situations sont représentées par des prédicats exprimant des relations entre objets dans l'environnement plutôt que par des vecteurs de valeurs numériques. Ce changement de paradigme offre de nouvelles possibilités d'apprentissage, notamment des possibilités de généralisation et de passage à l'échelle des solutions apprises qui sont hors de portée systèmes opérant dans des langages propositionnels.

L'apprentissage par renforcement relationnel (ARR) mobilise ainsi des compétences complémentaires en :

L'équipe proposée pour le projet a ceci de particulier qu'elle dispose de jeunes spécialistes dans les deux domaines au sein du même laboratoire, ce qui est singulier en France. L'objectif scientifique du projet HARRI est d'investir rapidement un domaine émergent grâce à la complémentarité des participants. La part applicative prendra aussi une part importante des travaux engagés, avec des applications à des problèmes réels issus du domaine des jeux vidéo.

Téléchargement

MACS

MACS est le système que j'ai développé dans le cadre de ma thèse de doctorat. Il a ensuite été partiellement réécrit par Fabien Flacher et Olivier Sigaud. MACS est écrit en Java, il est sous licence GPL (C) Pierre Gérard and Olivier Sigaud.

Téléchargements

Systèmes de classeurs à anticipation

Mon domaine de recherche est l'Apprentissage par Renforcement (AR). Durant ma thèse à l'AnimatLab, au LIP6, je me suis surtout intéressé à l'Apprentissage Latent dans les Systèmes de Classeurs.

L'AR considère des agents informatiques engagés dans une boucle sensori-motice avec leur environnement. De tels agents perçoivent leur situation et décident d'une action qu'ils entreprennent. En retour de cette action, il reçoivent parfois de leur environnement une récompense scalaire non nulle et perçoivent leur nouvelle situation. La tâche dévolue à de tels agents est l'apprentissage d'une politique optimale, c'est à dire comment agir dans chaque situation de manière à maximiser le cumul des récompenses successives, et ceci dans un environnement a priori inconnu.

Pour ce faire, on a coutume d'apprendre à associer une valeur à chaque état pour quantifier la quantité de récompense future qu'on est en droit d'attendre à partir de l'état en question. Une récompense lointaine compte souvent moins qu'une récompense immédiate, si bien qu'en remontant un gradient de valeurs, l'agent maximise la récompense obtenue. Le problème des algorithmes d'AR est de rétro-propager les récompenses sporadiques de manière à produire des valeurs pour chaque état, y compris ceux qui ne permettent d'obtenir aucune récompense. Pour apprendre à agir, on apprend les valeurs des états. La figure ci-dessous montre comment un algorithme basique de type Q-learning met à jour les valeurs (en mauve) : pas terrible !

Dans ce cadre, je m'intéresse à l'apprentissage par l'agent d'un modèle de ses interactions avec son environnement. Un tel modèle peut être appris de manière latente - c'est à dire indépendamment de la récompense - et permet à l'agent d'anticiper les conséquences de ses actions. De telles capacités d'anticipation permettent d'utiliser des techniques itératives de planification de manière à accélérer l'apprentissage de la politique. La figure suivante montre un agent mettant à profit un modèle correct de son environnement pour apprendre les valeurs des états. c'est bien mieux comme ça !

Évidemment, un agent ne connaît en principe pas le modèle de son environnement et il doit l'apprendre en même temps que les valeurs. Ca rend les choses un peu plus compliquées comme le montre la figure suivante, mais il y a des solutions.


L'utilisation de systèmes de classeurs dédiés à l'anticipation permet à l'agent d'apprendre un modèle environnemental sous la forme d'un ensemble de règles. Ces règles - ou classeurs - permettent à l'agent de représenter des régularités dans la dynamique de des interactions avec son environnement, le dotant ainsi de capacités de généralisation propres à réduire la complexité de son modèle de l'environnement.

Mes travaux de thèse ont surtout porté sur la question de la représentation du modèle de l'environnement à l'aide de règles dans un système de classeurs. La représentation que j'ai proposée permet de représenter de nouvelles régularités dans la dynamique des relations entre l'agent et son environnement, offrant ainsi de nouvelles possibilités de généralisation aux systèmes de régression employés pour l'apprentissage.

Liens