L’apprentissage par renforcement, clé de l’autonomie des robots

Les espoirs de la robotique autonome de demain reposent largement sur l'apprentissage par renforcement. Mais il reste encore de grands verrous à lever pour passer des paillasses de laboratoire à l'usine.

Kevin Poireault

Publié le 11 mai 2022 à 14h00

Réservé aux abonnés

Des chercheurs de l'École polytechnique fédérale de Zurich ont étudié les possibilités de l'apprentissage par renforcement en combinant l'exploration physique et simulée de leur robot RoyalPanda.

Qui n'a jamais frissonné, d'émerveillement autant que d'inquiétude, en voyant les robots de Boston Dynamics, l'humanoïde Atlas et le canidoïde Spot, monter des escaliers, ouvrir des portes et faire des saltos ? Antoine Cully, le directeur du laboratoire Adaptive and intelligent robotics à l'Imperial College de Londres, reconnaît sans peine que les vidéos de la filiale de Hyundai sont «impressionnantes». Mais « il est presque plus parlant de visionner les vidéos publiées dans un second temps, où l'on voit tous les ratés, nuance-t-il. Ces échecs montrent que, dès que les robots s'éloignent des cas de figure anticipés par les ingénieurs, ils commencent à être défectueux.»

Et pour cause : ces robots intègrent « énormément d'expertises sur la physique des corps, la biomécanique…», mais « aucune brique d'apprentissage», assure Antoine Cully. En somme, Spot et Atlas se meuvent uniquement grâce à un système d'asservissement en boucle fermée, soit un jeu de règles entièrement préprogrammées par les équipes de Boston Dynamics. Comme « tous les robots industriels commercialisés aujourd'hui », sans exception, relève Fabien Moutarde, le directeur du centre de robotique de Mines ParisTech.

Se défaire des règles pour gagner en autonomie

Pour gagner en autonomie, les robots vont devoir se défaire des règles, inadaptées à une réalité complexe et changeante. L'apprentissage par renforcement s'est imposé comme une clé de cette évolution. Ce type d'apprentissage automatique (machine learning) consiste à faire explorer par un agent un grand nombre d'actions possibles en lui indiquant, à travers une fonction de récompense, lesquelles sont les meilleures. Et ainsi lui enseigner à prendre les bonnes décisions dans des situations variées et non prévisibles. Après le retentissant succès d'AlphaGo de Google DeepMind face au champion sud-coréen du jeu de go Lee Sedol en 2016, l'apprentissage par renforcement a démontré sa puissance pour résoudre des problèmes d'optimisation ou battre des humains à des jeux vidéo (Dota 2, Gran Turismo…). Mais aussi pour rendre plus autonomes des agents du monde matériel, les robots.

« Il s'agit de très bons cas d'usage du fait de la complexité des environnements » dans lesquels ils sont susceptibles d'évoluer, souligne Thomas Pierrot, chercheur d'InstaDeep, une start-up britannico-tunisienne d'« IA décisionnelle ». Cependant, un obstacle demeure : les méthodes actuelles d'apprentissage sont efficaces pour entraîner son robot sur un type d'aléas, guère plus. Une performance qui peine à convaincre les industriels, habitués à des environnements plus mouvants. « C'est pourquoi l'apprentissage doit être combiné à d'autres stratégies », insiste Matteo Leonetti, maître de conférences au King's College de Londres.

Une méthode évolutive pour des hexapodes de maintenance

Une approche qui progresse depuis deux à trois ans associe l'apprentissage par renforcement avec des algorithmes d'optimisation inspirés de la théorie de l'évolution – et que l'on nomme évolutionnistes. « Les algorithmes d'apprentissage par renforcement les plus utilisés (Q-learning, TD-learning, Actor-critic… ) cherchent à définir un gradient et à le suivre pour aboutir à une solution. Avec les méthodes évolutionnistes, on essaie d'identifier différentes familles de solutions », indique Antoine Cully. Avec Jean-Baptiste Mouret, de l'Inria, il a entraîné un robot hexapode à s'adapter à des aléas insurmontables pour Spot, Atlas et beaucoup d'autres robots, grâce à des algorithmes évolutionnistes dits de « qualité-diversité ».

« Nous l'avons entraîné dans un environnement de simulation en lui demandant de trouver, de manière aléatoire, toutes les façons de marcher, en fonction de dommages que nous simulions, comme une patte en moins ou atrophiée. À l'issue de cette étape, le programme a trouvé 13000solutions, toutes très différentes et toutes relativement efficaces – dont certaines étaient très créatives, comme se retourner et marcher sur les “coudes”, détaille le chercheur. Puis, nous avons lancé le vrai robot, doté d'une seule caméra 3D et endommagé de différentes manières, en lui demandant d'aller le plus vite possible d'un point A à un point B. Nous avons démontré qu'il lui fallait moins de deux minutes pour trouver comment faire le trajet à la vitesse de 24 cm/s, contre 25 cm/s pour le même robot en parfait état. »

Prometteuse, l'expérience a fait la une de Nature en 2015. Antoine Cully travaille aujourd'hui à l'intégrer aux hexapodes de maintenance d'éoliennes de la start-up britannique BladeBUG. Une méthode très proche est développée par Stéphane Doncieux, le directeur adjoint de l'Institut des systèmes intelligents et de robotique (Isir-CNRS), dans le cadre du projet européen VeriDream. D'autres s'inspirent du développement des enfants, en faisant apprendre aux robots les tâches les plus simples d'abord, puis de plus en plus complexes (curriculum learning).

Un double réseau de neurones pour éviter « l'oubli catastrophique »

En revanche, même en maîtrisant ces méthodes dites d'apprentissage ouvert (open-en-ded learning), on est encore loin du robot autonome. Pour s'en rapprocher, et intéresser vraiment les industriels, il faudra des robots multitâches. « C'est ce que nous essayons d'obtenir aujourd'hui, notamment en appliquant ces algorithmes de qualité-diversité à des réseaux de neurones, qui nous permettraient de transférer certaines compétences apprises pour une tâche à une autre tâche», détaille Antoine Cully. Pour cela, il faudra tout de même résoudre un problème bien connu des spécialistes du deep learning : l'« oubli catastrophique » (catastrophic forgetting), ou la tendance de ces réseaux à oublier complètement la tâche précédente lorsqu'ils en apprennent une nouvelle.

Pour enrayer ce phénomène, Raia Hadsell, la directrice de la robotique de DeepMind, mise sur la méthode « progress and compress ». Celle-ci consiste à « utiliser un double réseau de neurones : la base de connaissances, soit la compression de différents réseaux entraînés à résoudre les problèmes précédemment rencontrés, et un autre réseau, plus petit, utilisé pour apprendre efficacement la tâche actuelle, après quoi il est distillé dans la base de connaissances, en veillant à protéger toutes les compétences acquises précédemment », indique un article scientifique publié par DeepMind en 2018. L'équipe robotique de Google Research (Alphabet) mise, quant à elle, sur une méthode de deep reinforcement learning qui s'appuie sur MT-Opt, un système d'apprentissage collectif multi-robots pour la collecte de données, développé en interne en 2021, qui recueille simultanément l'expérience de plusieurs tâches.

La révolution des simulateurs sur GPU

En introduisant un système multi-agents, non pas pour la phase opérationnelle comme certains l'imaginent, mais pour la phase exploratoire, les chercheurs derrière MT-Opt font d'une pierre deux coups : ils raccourcissent aussi la phase d'exploration, généralement trop longue et trop coûteuse au goût des industriels. Bien sûr, comme Antoine Cully l'a évoqué, il est possible de réduire le temps d'exploration physique grâce à la simulation sur des plates-formes telles que Gazebo ou PyBullet pour la robotique, ou encore Carla pour la conduite autonome. Et bonne nouvelle : MuJo-Co, un simulateur sous licence utilisé notamment par DeepMind, a été racheté par la filiale d'Alphabet en octobre 2021, qui l'a immédiatement rendu gratuit et open source. « Un beau cadeau pour la communauté robotique », s'enthousiasme Antoine Cully.

MT-Opt est un système d'apprentissage multi-robots pour la collecte de données développé par Google en 2021. Le succès des tâches les plus simples aide à en réaliser d'autres plus complexes. (© K. Hausman, Y. Chebotar / Google AI Blog)

«Une nouvelle famille vient de débarquer : les “ simulateurs dérivables ” (differentiable simulators), qui vont nous permettre, en tournant sur des GPU et sur des CPU, de simuler des dizaines de milliers de robots en parallèle, contre quelques dizaines seulement avec les simulateurs classiques, qui ne s'appuient que sur les CPU. Brax, de Google, en est un exemple.» Les résultats sont déjà là, poursuit le chercheur de l'Imperial College : « En 2015, il nous a fallu deux semaines pour obtenir, sur un très bon ordinateur, les 13000façons de marcher de notre hexapode. Aujourd'hui, avec ces simulateurs nouvelle génération, on obtient ce résultat en cinq minutes.»

Systèmes hybrides

Reste un dernier défi, peut-être le plus exigeant de tous. « Quels qu'ils soient, les robots autonomes ne sont pas assez fiables, ni précis, deux grandes qualités des robots industriels actuels », souligne Olivier Ly, chercheur en robotique au Laboratoire bordelais en recherche informatique (LaBRI). Un défaut qui fait dire à Matteo Leonetti que le futur des robots autonomes ne se fera pas seulement avec les spécialistes de l'apprentissage automatique : «Même ceux qui travaillent sur des méthodes d'apprentissage indépendantes de l'asservissement classique l'admettent : les robots de demain intégreront des systèmes hybridant ces deux approches.»

«Pour l'instant, les bénéfices de l'apprentissage ne sont pas systématiques. Nous sommes dans une phase où nous devons encore faire nos preuves», confirme Antoine Cully. Ce n'est donc peut-être pas si étonnant si le Spot de Boston Dynamics commence à trouver des cas d'usages industriels, par exemple dans le contrôle à distance de plates-formes pétrolières, là où ceux de DeepMind n'en sont encore qu'à la phase d'expérimentation.

L’apprentissage par renforcement, clé de l’autonomie des robots

Se défaire des règles pour gagner en autonomie

Un double réseau de neurones pour éviter « l'oubli catastrophique »

Systèmes hybrides

À lire aussi