Pierre Gérard
Maître de Conférences en Informatique
Université de Paris 13
Recherche : Laboratoire d'informatique de Paris Nord (LIPN) / Bureau B211 / +33 1 49 40 28 31
Enseignement : IUT de Villetaneuse, département Informatique / Bureau T208 / +33 1 49 40 28 31
Recherche (fr) / Research (en) / Enseignement / Divers
Je m'intéresse à l'auto-adaptation d'agents autonomes. Plus particulièrement, je m'intéresse à l'apprentissage par renforcement et à l'apprentissage de modèles d'action pour que l'agent puisse anticiper les conséquences de ses actions.
Rodrigues, C., Gérard, P., Rouveirol, C. and Soldano, H. (2010) Incremental learning of relational action rules. ICMLA'10
Rodrigues, C., Gérard, P. and Rouveirol, C. (2010) Incremental learning of relational action models in noisy environments. ILP'10
Gérard, P., Meyer J.-A. and Sigaud, O. (2005) Combining Latent Learning and Dynamic Programming in MACS. European Journal of Operational Research 160:614-637.
Gérard, P. and Sigaud, O. (2003) Designing Efficient Exploration with MACS: Modules and Function Approximation. Proceedings of the Genetic and Evolutionary Computation Conference,GECCO'03.
Gérard, P., Stolzmann, W. and Sigaud, O. (2002) YACS : a new Learning Classifier System using Anticipation. Journal of Soft Computing : Special Issue on Learning Classifier Systems. 6 (3-4), 216-228 Springer Verlag.
Rodrigues, C., Gérard, P. and Rouveirol, C. (2010) Incremental learning of relational action models in noisy environments. JFPDA'10
Rodrigues, C., Gérard, P. and Rouveirol, C. (2010) Apprentissage incrémental de règles d'actions relationnelles. RFIA'10
Rodrigues, C., Gérard, P. and Rouveirol, C. (2008) On and Off-Policy Relational Reinforcement Learning. ILP'08.
Rodrigues, C., Gérard, P. and Rouveirol, C. (2008) Relational TD Reinforcement Learning. EWRL'08.
Rodrigues, C., Gérard, P. and Rouveirol, C. (2008) On and Off-Policy Relational Reinforcement Learning. ILP'08.
Gérard, P. and Sigaud, O. (2004) Apprentissage par renforcement indirect dans les systèmes de classeurs. JEDAI.
Butz, M.V., Sigaud, O. and Gérard, P. (2003) Internal Models and Anticipations in Adaptive Learning Systems. In Butz et al. (Eds) LNCS 2684 :Anticipatory Behavior in Adaptive Learning Systems , Springer Verlag.
Butz, M.V., Sigaud, O. and Gérard, P. (2003) Anticipatory Behavior: Exploiting Knowledge about the Future to Improve Current Behavior. In Butz et al. (Eds) LNCS 2684 :Anticipatory Behavior in Adaptive Learning Systems , Springer Verlag.
Landau, S., Picault, S., Sigaud, O., and Gérard, P. (2003). Further Comparison between ATNoSFERES and XCSM. In Stolzmann, W., Lanzi, P.-l., and Wilson, S. W., editors, Learning Classifier Systems LNCS 2661, pages 99-117. Springer-Verlag.
Sigaud, O. and Gérard, P. (2003) Apprentissage par renforcement indirect dans les systèmes de classeurs. In Actes des journées PDMIA.
Butz, M. V. and Sigaud, O. and Gérard, P. (2002) Internal Models and Anticipations in Adaptive Learning Systems. Anticipatory Behavior in Adaptive Learning Systems. SAB'02 workshop. (version étendue dans les chapitres d'ouvrages)
Landau, S., Picault, S., Sigaud, O. and Gérard, P. (2002) A Comparison between ATNoSFERES and XCSM. In Proceedings of the Genetic and Evolutionary Computation Conference, GECCO'02., 926-933
Gérard, P. and Sigaud, O. (2001) Adding a Generalization Mechanism to YACS. In Proceedings of the Genetic and Evolutionary Computation Conference, GECCO-2001, 951-957
Gérard, P. and Sigaud, O. (2001) YACS : Combining Dynamic Programming with Generalization in Classifier Systems. In LNAI 1996 : Advances in Classifier Systems, 53-69, Springer-Verlag (version étendue de la contribution à IWLCS00)
Sigaud, O. and Gérard, P. (2001) Being reactive by exchanging roles: an empirical study. In LNAI 2103: Balancing reactivity and Social Deliberation in Multiagent Systems, 150-172, Springer-Verlag (version étendue de la contribution à ECAI00)
Sigaud, O. and Gérard, P. (2001) Using Classifier Systems as Adaptive Expert Systems for Control. In LNAI 1996 : Advances in Classifier Systems, 138-157, Springer-Verlag
Landau, S., Picault, S., Sigaud, O. and Gérard, P. (2002) Further Comparison between ATNoSFERES and XCSM. In Stolzmann et al. (Eds). IWLCS-02. Proceedings of the Fourth International Workshop on Learning Classifier Systems.
Gérard, P. and Sigaud, O. (2000) Combining Anticipation and Dynamic Programming in Classifier Systems (abstract). In Proceedings of the Third International Workshop on Learning Classifier Systems, IWLCS00.
Sigaud, O. and Gérard, P. (2000) The use of roles in a multiagent adaptive simulation. In Proceedings of the 14th European Conference in Artificial Intelligence (ECAI00), Workshop on Balancing reactivity and Social Deliberation in Multiagent Systems., 113-124
Sigaud, O. and Gérard, P. (1999) Contribution au problème de la sélection de l'action en environnement partiellement observable. In Drogoul et Meyer (Eds.). Intelligence Artificielle Située., 129-146, Hermès.
Gérard, P. (2001) Generalization and Latent Learning in Learning Classifier Systems. Proceedings of the EURO Summer Institute XIX.
Butz, M.V., Sigaud, O. and Gérard, P. (Eds) (2003) LNCS 2684 : Anticipatory Behavior in Adaptive Learning Systems.
Gérard, P. (2002). Systèmes de classeurs : étude de l'apprentissage latent. Thèse de Doctorat de l'Université Paris 6. Spécialité Informatique [pdf].
Je suis porteur du projet ANR « Jeunes Chercheurs » HARRI. Il implique d'autres membres de l'équipe A3, dont Christophe Rodrigues, doctorant. HARRI est un acronyme de "Hiérarchisation et Apprentissage par Renforcement Relationnel Indirect".
L'apprentissage par renforcement (AR) considère des systèmes informatiques engagés dans une boucle sensori-motrice (typiquement : un système robotique percevant son environnement par l'intermédiaire de capteurs, et doté de moyens d'action au moyen d'effecteurs). Plutôt que de programmer « à la main » les réactions du système dans chaque situation possible, on cherche à le voir acquérir automatiquement – par apprentissage – un comportement adéquat. Les techniques d'AR habituelles exploitent des représentations des états par attributs/valeurs comme par exemple un vecteur de distances aux objets les plus proches.
La plupart des travaux en AR visent ainsi à découvrir des algorithmes d'apprentissage efficaces exploitant ces représentations propositionnelles. Dans le cadre du projet HARRI, nous entendons développer une activité en AR en ciblant nos recherches sur la question de la représentation des états et des actions. Avec des représentations utilisant des restrictions de la logique d'ordre un plutôt que des langages propositionnels, les situations sont représentées par des prédicats exprimant des relations entre objets dans l'environnement plutôt que par des vecteurs de valeurs numériques. Ce changement de paradigme offre de nouvelles possibilités d'apprentissage, notamment des possibilités de généralisation et de passage à l'échelle des solutions apprises qui sont hors de portée systèmes opérant dans des langages propositionnels.
L'apprentissage par renforcement relationnel (ARR) mobilise ainsi des compétences complémentaires en :
Apprentissage par renforcement (AR) pour découvrir de nouveaux algorithmes adaptés à de nouvelles représentations.
Programmation logique inductive (PLI), un champ de l'apprentissage symbolique dédié à l'apprentissage de concepts ou de régularités exprimés en logique d'ordre un, pour découvrir de nouveaux algorithmes d'apprentissage relationnel adaptés au problème de l'apprentissage par renforcement (incrémentalité, stabilité).
L'équipe proposée pour le projet a ceci de particulier qu'elle dispose de jeunes spécialistes dans les deux domaines au sein du même laboratoire, ce qui est singulier en France. L'objectif scientifique du projet HARRI est d'investir rapidement un domaine émergent grâce à la complémentarité des participants. La part applicative prendra aussi une part importante des travaux engagés, avec des applications à des problèmes réels issus du domaine des jeux vidéo.
MACS est le système que j'ai développé dans le cadre de ma thèse de doctorat. Il a ensuite été partiellement réécrit par Fabien Flacher et Olivier Sigaud. MACS est écrit en Java, il est sous licence GPL (C) Pierre Gérard and Olivier Sigaud.
Code source MACS v1.0 (460k)
Mon domaine de recherche est l'Apprentissage par Renforcement (AR). Durant ma thèse à l'AnimatLab, au LIP6, je me suis surtout intéressé à l'Apprentissage Latent dans les Systèmes de Classeurs.
L'AR considère des agents informatiques engagés dans une boucle sensori-motice avec leur environnement. De tels agents perçoivent leur situation et décident d'une action qu'ils entreprennent. En retour de cette action, il reçoivent parfois de leur environnement une récompense scalaire non nulle et perçoivent leur nouvelle situation. La tâche dévolue à de tels agents est l'apprentissage d'une politique optimale, c'est à dire comment agir dans chaque situation de manière à maximiser le cumul des récompenses successives, et ceci dans un environnement a priori inconnu.
Pour ce faire, on a coutume d'apprendre à associer une valeur à chaque état pour quantifier la quantité de récompense future qu'on est en droit d'attendre à partir de l'état en question. Une récompense lointaine compte souvent moins qu'une récompense immédiate, si bien qu'en remontant un gradient de valeurs, l'agent maximise la récompense obtenue. Le problème des algorithmes d'AR est de rétro-propager les récompenses sporadiques de manière à produire des valeurs pour chaque état, y compris ceux qui ne permettent d'obtenir aucune récompense. Pour apprendre à agir, on apprend les valeurs des états. La figure ci-dessous montre comment un algorithme basique de type Q-learning met à jour les valeurs (en mauve) : pas terrible !
Dans ce cadre, je m'intéresse à l'apprentissage par l'agent d'un modèle de ses interactions avec son environnement. Un tel modèle peut être appris de manière latente - c'est à dire indépendamment de la récompense - et permet à l'agent d'anticiper les conséquences de ses actions. De telles capacités d'anticipation permettent d'utiliser des techniques itératives de planification de manière à accélérer l'apprentissage de la politique. La figure suivante montre un agent mettant à profit un modèle correct de son environnement pour apprendre les valeurs des états. c'est bien mieux comme ça !
Évidemment, un agent ne connaît en principe pas le modèle de son environnement et il doit l'apprendre en même temps que les valeurs. Ca rend les choses un peu plus compliquées comme le montre la figure suivante, mais il y a des solutions.
L'utilisation de systèmes de classeurs dédiés à l'anticipation permet à l'agent d'apprendre un modèle environnemental sous la forme d'un ensemble de règles. Ces règles - ou classeurs - permettent à l'agent de représenter des régularités dans la dynamique de des interactions avec son environnement, le dotant ainsi de capacités de généralisation propres à réduire la complexité de son modèle de l'environnement.
Mes travaux de thèse ont surtout porté sur la question de la représentation du modèle de l'environnement à l'aide de règles dans un système de classeurs. La représentation que j'ai proposée permet de représenter de nouvelles régularités dans la dynamique des relations entre l'agent et son environnement, offrant ainsi de nouvelles possibilités de généralisation aux systèmes de régression employés pour l'apprentissage.