Comment les robots apprennent plus vite à mieux marcher au laboratoire Laas

A Toulouse, le Laboratoire d’analyse et d’architecture des systèmes allie le contrôle prédictif à l’apprentissage par renforcement pour accélérer l’entraînement des robots et garantir leurs mouvements. Une hybridation au cœur d’un projet lancé avec l’université de New York.

Frédéric Monflier

Publié le 18 janvier 2024 à 08h30

Réservé aux abonnés

Image d'illustration de l'article — Olivier Stasse, Guilhem Saurel et Nicolas Mansard s’affairent autour de Talos. Grâce à des algorithmes explicables d’apprentissage par renforcement, le comportement de ce robot bipède pourrait être garanti.

Prudemment maintenu par des cordes fixées à un portique, Talos se dresse sur ses deux jambes, au rez-de-chaussée du bâtiment Georges Giralt, au cœur du Laboratoire d’analyse et d’architecture des systèmes (Laas), une unité de recherche CNRS implantée à Toulouse. Du haut de ses 175 centimètres, Talos est la figure la plus en vue de ce lieu où cohabitent bras polyarticulés, drones volants et autres quadrupèdes faits de polymère et de métal. Conçu par l’espagnol Pal Robotics, ce précieux robot humanoïde – il coûte 1 million d’euros – est depuis 2016 le principal objet d’expérimentation de l’équipe Gepetto, spécialisée dans l’étude des mouvements des systèmes anthropomorphes.

«Talos est un robot de 100 kg qui doit prendre des centaines de décisions par seconde en tenant compte de milliers de variables pour marcher et garder l’équilibre, fait remarquer Nicolas Mansard, chercheur en robotique – parmi la centaine qui travaille au Laas. S’il prend une mauvaise décision, il tombe. Il peut alors être endommagé, voire mettre en danger des personnes. Garantir qu’il se comporte de manière appropriée est un grand défi.» L’objectif étant que ces robots évoluent dans les usines à proximité des humains.

Décrire les contraintes

Pour adopter le comportement adéquat, Talos peut être guidé par des contraintes imposées. «Le pied ne doit pas glisser quand il est en contact avec le sol, le torse ne doit pas toucher le sol, l’effort demandé à tel moteur ne doit pas dépasser telles limites…, égrène Nicolas Mansard. Nous sommes capables de décrire mathématiquement ces contraintes. Ce que nous ne savons pas encore faire et sur quoi nous travaillons, c’est garantir que nos algorithmes de contrôle du robot les respectent.»

Pour y parvenir, l’équipe Gepetto a l’intention d’hybrider deux méthodes de contrôle : le modèle prédictif (ou MPC, model predictive control) et l’apprentissage par renforcement. Deux approches qui sont assez opposées. «Le contrôle prédictif repose sur une fonction d’optimisation numérique sous contrainte du comportement du robot au cours des dix prochaines secondes, par exemple, explique le chercheur. Le simulateur intégré au robot calcule sa future trajectoire grâce à cette fonction. L’optimisation numérique sous contrainte est un champ de recherche mathématique indépendant de la robotique, que l’on essaie d’exploiter depuis vingt ans et qui arrive à une certaine maturité.» Nicolas Mansard cite l’article fondateur de l’équipe du Japonais Shuuji Kajita au début des années 2000. «C’est la première fois que les commandes prédictives ont prouvé qu’elles pouvaient faire marcher un robot», poursuit Nicolas Mansard.

Le MPC est un modèle mathématique, déterministe, qui reflète des lois physiques reliant une force à une accélération. En ce sens, la prévision du mouvement peut valoir garantie. Cependant, les fonctions mathématiques impliquées sont très complexes, mettant en jeu une grande quantité de variables, d’autant plus élevée que le nombre de moteurs et de degrés de liberté est important. Le coût en calcul peut très vite devenir rédhibitoire, en particulier pour du temps réel en embarqué.

L’apprentissage par renforcement est quant à lui un type d’apprentissage automatique inspiré par l’apprentissage humain : nous privilégions les expériences qui nous bénéficient, au détriment de celles qui nous pénalisent. Alors que Talos se fait boudeur en cette matinée de décembre – la faute à un capteur de couple dans sa cheville qui l’empêche de se tenir debout plus de quelques minutes –, le petit robot quadrupède Solo, fabriqué au Laas dans le cadre d’un projet open source, témoigne des qualités de ce type d’apprentissage.

Un projet d’algorithmes explicables

Le chercheur Thomas Flayols l’emmène derrière le bâtiment, sous un soleil rasant, pour qu’il se dégourdisse les jambes sur un terrain plat. «Nous avons simulé en quelques heures une année de vie du robot sur des serveurs informatiques, dit-il en guidant Solo avec un joystick. Par essais et erreurs, le réseau de neurones se pondère progressivement de manière à optimiser la fonction de récompense, ce qui renforce les actions les plus positives : “Avance tout droit à 1 mètre par seconde”, “évite les collisions avec le sol”…» Une fois ce modèle d’IA embarqué, Solo marche grâce à des réflexes, une sorte de mémoire procurée par son apprentissage, sans programme explicite qui lui dit quoi faire. «Les décisions d’équilibre, celles de contact avec le sol… tout est délégué à l’IA», résume Nicolas Mansard. Le pilote humain se contente de transmettre des ordres de haut niveau.

Solo se meut grâce à des réflexes acquis par apprentissage par renforcement. Le chercheur Thomas Flayols ne lui transmet que des ordres de haut niveau. © Lydie Lecarpentier / Réa

Bien qu’il peine face à l’imprévu, l’apprentissage par renforcement a été à l’origine de progrès spectaculaires ces dernières années. En témoigne le robot quadrupède de l’École polytechnique fédérale de Zurich qui a réussi à gravir une montagne. Mais l’absence de garantie de résultat confine ces expériences aux laboratoires. D’où l’idée d’élaborer une nouvelle génération d’algorithmes d’apprentissage par renforcement qui soient explicables, avec le renfort du MPC. C’est l’ambition d’un projet de recherche réunissant le Laas et l’université de New York, qui a débuté le 1er décembre pour une durée de quatre ans.

Le MPC guidera dans un premier temps l’exploration très aléatoire durant la phase d’apprentissage par renforcement. «Nos algorithmes MPC réussissent en quinze itérations à trouver une bonne trajectoire, détaille Nicolas Mansard. Il en faut 10 000 aux algorithmes d’apprentissage par renforcement. En combinant les deux, les mouvements corrects seraient plus vite appris, ce qui accélérerait le processus.»

Mouvements optimisés à la volée

Olivier Stasse, directeur de recherche au CNRS et responsable de l’équipe Gepetto, illustre cette économie de calcul avec un exemple frappant : «Quand on injecte de la connaissance, en l’occurrence du MPC, où il le faut et comme il le faut, les algorithmes d’apprentissage par renforcement sont entraînés en une heure sur une carte graphique RTX de la série 4000, au lieu de cinq mille heures.» Avec à la clé un bilan carbone considérablement amélioré. Une seconde hybridation s’effectuera en ligne, à bord du robot. «Nous voudrions que le réseau de neurones fournisse une idée générale du mouvement, affinée, puis optimisée à la volée par le MPC, lequel agirait en post-traitement comme un filtre, précise Nicolas Mansard. Les mouvements seraient plus précis. D’autre part, le MPC garantirait le comportement du robot à un certain horizon temporel. Les deux technologies sont complémentaires.»

Ce projet franco-américain succède au projet européen Memory of motion, qui s’est achevé en 2022 et qui a été lauréat des Étoiles de l’Europe. «Nous avons montré comment l’apprentissage pouvait aider à améliorer la trajectoire des robots, confie Nicolas Mansard. Désormais, nous voudrions fermer la boucle dans l’autre sens : que l’optimisation numérique bénéficie à l’apprentissage en l’accélérant et en le garantissant.»

Digit, l’assistant humanoïde enrôlé par Amazon

Robot humanoïde Digit chez Amazon
Digit est un robot dont le système de contrôle s'enrichit par apprentissage afin de planifier toutes sortes de comportements. © Agility Robotics

Développé par l’américain Agility Robotics, spin-off de l’université de l’Oregon, le robot bipède Digit sera fabriqué à 10 000 exemplaires par an dans l’usine Robofab de Salem (Oregon), ouverte en septembre 2023. Il est déjà testé sur un site de R&D d’Amazon, au sud de Seattle. Inséré dans le circuit logistique, mais sans contact direct avec les employés, Digit les aide à déplacer et à ramasser les bacs vidés de leur contenu.

Le contrôle de son comportement est très structuré, assure Jonathan Hurst, le responsable robotique et cofondateur de la start-up : «De petits éléments du système de contrôle sont obtenus par apprentissage et sont incorporés dans le système de contrôle plus large afin que nous puissions planifier de très nombreux comportements différents.»

Mais est-il sûr ? «C’est quelque chose que nous pouvons prouver par empirisme, poursuit Jonathan Hurst. Si pendant dix mille heures aucun problème ne survient, on peut dire que notre robot est sûr d’un point de vue statistique.» Digit est équipé d’un petit contrôleur logique qui le désactive si jamais il fait quelque chose d’incohérent. Un code informatique parfaitement compris par les autorités de régulation, selon Jonathan Hurst.

Comment les robots apprennent plus vite à mieux marcher au laboratoire Laas

Décrire les contraintes

Un projet d’algorithmes explicables

Mouvements optimisés à la volée

Digit, l’assistant humanoïde enrôlé par Amazon

À lire aussi