Les robots humanoïdes dopés à l'IA générative se mettent à l'épreuve dans l'usine

Gagnant en assurance et en habileté, les robots humanoïdes entrent doucement dans les ateliers et les entrepôts pour transporter bacs et cartons. Un tournant qui s’explique notamment par les progrès fulgurants de l’IA générative, offrant des capacités de perception, de manipulation et même de raisonnement. L’âge de l’IA « incarnée » semble à portée de main...

Frédéric Monflier

Publié le 1er octobre 2024 à 10h00

Réservé aux abonnés

Image d'illustration de l'article — Appolo A1 d'Apptronik est un robot modulable, conçu pour le transport de bacs et le déchargement de cartons.

Apollo A1 a été enrôlé en mars par Mercedes-Benz aux États-Unis pour contrôler visuellement et transporter des pièces jusqu’aux lignes d’assemblage des véhicules. Le fait serait anecdotique s’il ne s’agissait pas d’un robot humanoïde. Un mois plus tôt, Figure 01 avait entamé sa carrière chez BMW, en Caroline du Sud, pour se former à des tâches logistiques dans l’atelier de carrosserie et dans l’entrepôt… Des robots à l’apparence humaine partageant nos vies professionnelles, voire familiales : c’est le rêve d’Apptronik et de Figure, les start-up américaines à l’origine d’Apollo A1 et de Figure 01. Depuis la révélation au public d’Optimus en 2022, Tesla nourrit la même ambition. La déferlante vient aussi du Canada, de la Norvège et surtout de la Chine.

Abstraction faite de spécimens réservés à la recherche, une bonne quinzaine de robots à silhouette humaine se projettent vers un avenir commercial. La justification ? Ces robots humanoïdes à vocation généraliste pourraient remédier à la pénurie de main-d’œuvre, émergente dans les pays occidentaux à la suite des politiques de relocalisation. Ils seraient déjà suffisamment performants pour accomplir certaines tâches répétitives et rébarbatives (porter un carton d’un point A à un point B), qui restaient jusqu’alors le propre de l’homme, car difficilement à portée des solutions d’automatisation traditionnelles.

progrès impressionnants du contrôle et des algorithmes

Les investisseurs, convaincus, font pleuvoir les dollars : Figure a récolté la somme astronomique de 675 millions de dollars au printemps dernier. L’optimisme gagne aussi Goldman Sachs, qui estime que le marché de la robotique humanoïde pèsera 38 milliards de dollars en 2035. Il y a quelques années, les espoirs placés dans la robotique humanoïde avaient pourtant été douchés. Emblèmes de la robotique de service, les Nao et autres Pepper du français Aldebaran n’ont jamais connu un développement commercial probant. Asimo, conçu par Honda, a quant à lui pris sa retraite en 2022… Mais, après les échecs d’hier, l’heure semble être à un optimisme mesuré.

Cela s’explique tout d’abord par les « progrès impressionnants du contrôle pour la marche dynamique, que ce soit dans le registre des algorithmes, de la motorisation et de l’architecture mécanique (…), ainsi qu’à des perfectionnements remarquables des capteurs et des algorithmes de localisation et de planification de trajectoire », note Fabrice Noreils. Ce docteur en robotique, responsable technique à Valeo, est l’auteur de l’étude « Les robots humanoïdes au travail : où en sommes-nous ? », parue en avril sur Arxiv. L’étonnante agilité du G1, le dernier-né du chinois Unitree, lui fait écho et ne coûte que… 16 000 dollars !

L'Intelligence artificielle générative dope la préhension

Mais ce qui enflamme le monde de la robotique depuis deux ans, c’est l’IA générative. Dans une vidéo qui a fait le buzz, Figure 01, assorti du grand modèle de langage (LLM) d’OpenAI (l’un des investisseurs de Figure), fait étalage de capacités surprenantes. On y voit une personne lui demander quelque chose à manger. Il parvient à reconnaître une pomme sur un plan de travail et à s’en saisir pour la lui donner. Un peu plus tard, il range habilement une assiette dans l’égouttoir à côté et se permet de faire des commentaires… Figure 01 est capable d’analyser la situation. Il isole et identifie les objets, détermine les actions exécutables et, selon les instructions, exécute un plan d’actions. Un « raisonnement » dont est responsable un modèle purement statistique, entraîné à partir de données et sans programmation.

Six robots à la loupe

Figure 01

C’est le premier robot humanoïde autonome commercialement viable, d’après son concepteur, Figure, fondé en 2022. Il a déjà été « embauché » par BMW. Une plongée en conditions réelles qui en dira plus sur sa maturité qu’un slogan… La start-up américaine ne communique pas sur le prix ni sur les capteurs embarqués. Avec l’appui d’OpenAI (l’un de ses investisseurs), elle a en revanche mis l’accent sur les possibilités de l’IA générative, en matière de perception et de manipulation…

Taille/Poids : 1,78 m/59 kg
Charge utile : 20 kg
Vitesse max : 3 m/s

Apollo A1

Dévoilé à l’été 2023, Apollo A1 est le premier robot commercial d’Apptronik. Créée en 2016 et soutenue par la Nasa, la start-up américaine vise un prix de 50 000 dollars et des applications telles que le transport de bacs et le déchargement de cartons… Précoce, ce robot fait déjà l’objet d’un pilote avec Mercedes-Benz. Modulaire, il peut être équipé de ses deux jambes ou fixé à un socle. Il se localise notamment grâce à une caméra de profondeur. Apptronik ne communique guère sur l’IA employée.

Taille/Poids : 1,77 m / 72 kg
Charge utile : 25 kg
Vitesse max : 1 m/s (estimation)

Optimus Gen2

C’est la deuxième version du robot Optimus de Tesla, présenté fin 2023. Au menu des améliorations : vitesse de marche, poids, équilibre, dextérité (11 degrés de liberté par main, avec des capteurs tactiles pour manipuler les objets fragiles)... Elon Musk suggère un prix autour de 20 000 dollars. Tesla aura l’avantage de pouvoir déployer ce robot dans ses propres usines pour le tester. La localisation et la planification de trajectoire profitent sans doute de l’expérience du constructeur dans le véhicule autonome.

Taille/Poids : 1,78 m / 59 kg
Charge utile : 20 kg
Vitesse max : 2-3 m/s (estimation)

Phoenix G7

Les Canadiens de Sanctuary.ai, fondé en 2018, ne se tournent pas les pouces : le Phoenix G7 est déjà la 7e itération de leur robot humanoïde, à l’impressionnante dextérité. Son cerveau, nommé Carbon, est entraîné à partir de simulations et de télé-opérations humaines réelles. L’hybridation entre réseaux de neurones et IA symbolique est également évoquée. Un pilote a été annoncé dernièrement avec l’équipement automobile Magna, ainsi qu’un partenariat avec Microsoft pour développer un grand modèle de comportement.

Taille/Poids : 1,70 m / 70 kg
Charge utile : 25 kg
Vitesse max : 1,4 m/s

Neo

Fondé en 2014, le norvégien 1X est le seul européen à participer à la nouvelle vague de la robotique humanoïde. Après Eve, un buste humanoïde à roulettes disponible commercialement, 1X développe Neo, un petit gabarit dont l’anatomie quasi humaine et l’écran à la place du visage pourraient intimider. L’entreprise devrait capitaliser sur l’expérience acquise en matière de réseaux de neurones pour la perception et la manipulation d’objets. Avec OpenAI entré à son capital, il y a fort à parier que l’IA générative jouera un rôle.

Taille/Poids : 1,65 m / 30 kg
Charge utile : 20 kg
Vitesse max : 4 m/s

G1

Après le H1, un humanoïde réputé pour sa vitesse record de 3,3 m/s, le fabricant chinois Unitree signe le G1. Et casse les prix : 16 000 euros ! Mais ce n’est pas un robot au rabais : il est équipé d’une caméra et d’un lidar, fait preuve d’équilibre et peut se plier en deux pour être rangé. Des capteurs tactiles sont optionnels pour ses mains à trois doigts (recouvertes par des gants sur cette photo). Côté IA, Unitree indique un apprentissage par imitation et par renforcement, ainsi que le grand modèle UnifoLM. Des pilotes seraient prévus ces prochains mois.

Taille/Poids : 1,27 m / 35 kg
Charge utile : 4 kg
Vitesse max : 2 m/s

Les progrès sont spectaculaires dans le domaine de la manipulation des objets, qui demeure un point dur en robotique. « Il y a dix-huit mois, nous avons adopté des techniques classiques, comme la cinématique inverse [les angles des articulations et les déplacements sont calculés à partir des positions et des orientations fournies, ndlr] et un modèle de vision par IA, pour que notre robot puisse saisir un objet sur une table, explique Matthieu Lapeyre, le président et fondateur de la start-up française Pollen Robotics, qui finalise une deuxième version de son robot Reachy, adaptée à l’industrie. Le travail a duré deux mois. On l’a refait en début d’année en partant sur l’IA générative. Notre robot a rapidement su attraper n’importe quel objet sans apprentissage préalable. »

Vers de grands modèles de comportement à architecture Transformer

Pour cela, le LLM, qui facilite par ailleurs les interactions homme-machine, est combiné à un VLM, ou modèle de vision-langage, qui confère au robot le sens de la perception. « Le VLM, analysant la scène, offre des capacités de raisonnement spatial et classifie les objets, puis le LLM récupère ces informations pour planifier les actions », précise Fabrice Noreils. L’idée est de créer des grands modèles de comportement, ou LBM (large behavior model). De même que dans les LLM, l’architecture Transformer est au cœur des VLM. Google Deepmind, son inventeur, a été parmi les premiers à explorer son potentiel.

Son modèle open source RT-1, présenté en 2022, prend en entrée la description de la tâche et les images associées et produit en sortie les actions transmises aux contrôleurs du robot. Son entraînement a mobilisé une flotte de 13 robots, enfermés durant dix-sept mois dans une cuisine pour manipuler divers objets, ouvrir et fermer des tiroirs… Ces bras robotiques sur base mobile sont plus rudimentaires qu’un robot humanoïde bipède, mais le principe est là. La démarche a permis de collecter quelque 130 000 « opérations » robotiques. Et les résultats sont au rendez-vous : RT-1 montre entre autres d’excellentes capacités à généraliser des actions à partir de nouvelles instructions.

Du Pick-and-place à l’assemblage complexe

Google a récidivé l’an dernier avec RT-2, un modèle plus évolué, pré-entraîné à partir des données du web (images et textes). RT-2 forme un seul modèle, un VLAM, ou modèle de vision-langage-action, qui établit la correspondance entre instructions et actions. Dans son étude, Fabrice Noreils aborde une autre approche, fondée sur les modèles de diffusion (à l’instar de Dall-E pour la génération d’images). « La plus prometteuse », selon lui. La piste est explorée par le Toyota Research Institute. Dans une vidéo, on peut voir deux bras robotiques qui réalisent des actions assez complexes – du moins pour un robot –, comme tartiner une biscotte ou battre un œuf avec un batteur. L’apprentissage, rapide, requiert un humain qui télé-opère le robot.

Le voyage vers l’IA incarnée a commencé. « Après le pick and place, qui a profité des progrès de la vision par ordinateur, la prochaine étape consistera à mettre en œuvre des opérations d’assemblage complexe, prévoit Tilman Buchner, partenaire et directeur au Boston Consulting Group. Le perfectionnement des techniques de simulation offre les outils nécessaires à cet effet. Cette étape est une condition nécessaire à l’apprentissage de concepts. À ce stade, on parlera de robotique cognitive. »

Construction d'IA démocratisée

Comme dans bien d’autres secteurs, les outils se multiplient et, a fortiori quand ils sont open source, démocratisent la « construction » des IA. Nvidia a ainsi récemment lancé le projet Groot, une plateforme pour entraîner une IA générative spécifique à la robotique humanoïde. Mais l’apprentissage requiert beaucoup de données de nature robotique, quasiment absentes du web. Pour compenser, l’industriel devrait produire des images synthétiques, capter des images sur le web, télé-opérer le robot… « Un processus long et coûteux », indique Fabrice Noreils.

De nombreuses autres problématiques se font jour, relatives notamment à l’autonomie (quelques heures aujourd’hui) et au danger que peut faire courir un robot de 80 kilos évoluant parmi les humains… Rien ne dit, enfin, qu’un robot « augmenté » par ChatGPT puisse un jour atteindre le taux de succès minimum de 99 % imposé par les industriels.

Trop humains pour se faire aimer ?

Les robots humanoïdes et les humains cohabiteront-ils en paix, à l’usine comme à la maison ? La question, abordée dans les œuvres de science-fiction à tonalité sociale, motive régulièrement des études scientifiques, dont celle produite par l’équipe de Tatjana Nazir, chercheuse CNRS à l’université de Lille. Les résultats ont été publiés en novembre 2023 : un robot, d’un point de vue fonctionnel, serait d’autant mieux toléré que les points de comparaison avec l’humain sont moindres. Sinon, et à plus forte raison quand le robot se montre moins performant, l’humain instaure un rapport de domination, méprisant, voire rejetant ce dernier. L’étude suggère par conséquent de rendre ces robots « différents des humains ». Figure 01, Optimus et leurs semblables n’en prennent pas le chemin et devront surmonter les préjugés en prouvant leur utilité. Pour ce faire, l’humain doit pouvoir se les approprier, explique Marc-Éric Bobillier Chaumon, professeur titulaire de la chaire de psychologie du travail au Cnam : « Le robot doit comprendre ma façon de faire, je peux lui faire confiance et lui déléguer des tâches… » Cette approche anthropocentrée implique la prise en compte des contraintes et des exigences des métiers. Si l’opérateur s’ajuste en permanence au comportement du robot, il le considérera comme une extension de la technostructure. « Et cela ne marchera jamais », estime le professeur.

T. A. Nazir, B. Lebrun, B. Li, « Improving the acceptability of social robots: make them look different from humans », PLOS One, 18(11), 2023
doi.org/10.1371/journal.pone.0287507