« La raison pour laquelle Paris est l’un des écosystèmes les plus actifs en intelligence artificielle est due en grande partie, je pense, à l’existence du laboratoire Fair à Paris ». Ce 7 février, Yann Lecun, l’un des papes de l’apprentissage profond et l’actuel directeur scientifique de l’IA au sein de Meta, a tenu à vanter les mérites de Facebook AI Research, ou Fair, et plus spécifiquement de la déclinaison parisienne qu’il a lui-même créée dix ans auparavant, en 2015.
L’entreprise américaine a profité de l’effervescence autour du Sommet pour l’IA, culminant les 10 et 11 février au Grand Palais à Paris, pour célébrer avec quelques mois d’avance le 10e anniversaire de son laboratoire de recherche parisien consacré à l’IA.
L’idée était notamment de valoriser des projets de recherche en cours dans les labos Fair, à Paris ou ailleurs. Tel que le modèle Brain2Qwerty, qui décode avec une précision de 80% les signaux du cerveau pour produire du texte.
L'interaction homme-robot à l'étude
C’était aussi l’occasion d’annoncer le programme Partnr (planning and reasoning tasks in human-robot collaboration), dont l’ambition est d’étudier les interactions entre homme et robot dans un environnement domestique. L’initiative se traduit par le partage en open source d’une base de données de 100 000 instructions vocales pour commander le robot et d’un outil d’évaluation des performances.
Pour joindre le geste à la parole, des chercheurs du laboratoire Fair de Californie avaient été conviés. Histoire de montrer que Meta, sur le sujet de l’IA « incarnée », ne se laissait pas distancer par Google, OpenAI ou encore Tesla, qui multiplient les annonces sur le sujet depuis deux ans.
Le robot quadrupède de Boston Dynamics, muni d’une pince au bout d’un bras articulé, avait été convoqué pour la démonstration – bien qu’on imagine un robot humanoïde à sa place dans un avenir lointain. Son objectif, à la demande de la chercheuse Akshara Rai, était d’attraper une peluche placée sur un fauteuil puis la déposer sur une table quelques mètres plus loin.
Une vision plus dynamique et plus abstraite du monde
L’« animal » mécanique s’est bien acquitté de sa mission, non sans quelques hésitations sur le chemin à emprunter. L’intérêt était surtout d’observer comment le robot obéissait aux instructions de haut niveau de la chercheuse (« déplace la peluche du séjour jusqu’à la table de cuisine »), après avoir décomposé celles-ci en une série d’actions appropriées. Le casque de réalité virtuelle dont la chercheuse était équipée reproduisait la vision du robot et affichait les étapes de ce qui s’apparentait à un raisonnement.
« Le robot sait qu’il y a un séjour, une cuisine, une table de cuisine, et ainsi de suite, mais il ne connait pas les positions exactes des objets dans l’environnement, du fait que nos domiciles sont chaque jour différents, a expliqué Akshara Rai. Cela fait une grande différence avec les autres systèmes d’IA et de robotique, qui supposent que le monde est statique (…). De notre côté, nous construisons un système très réaliste qui, même s’il doit faire plusieurs essais, est beaucoup plus résistant aux modifications de l’environnement. »
L’apprentissage du modèle a été réalisé sur la base de 200 configurations différentes de domicile, grâce au simulateur Habitat 3.0 de Meta, ce qui a permis de collecter 100 000 situations différentes.
L'IA à la manoeuvre est le fruit, précisait la chercheuse, de la combinaison d’une architecture Jepa (joint embedding predictive architecture) et d’un modèle de planification de tâches – un modèle Llama ajusté (fine-tuned) et spécifiquement entraîné sur des actions robotiques.
L'architecture Jepa pour faire avancer l'IA
L’architecture Jepa, sur laquelle Yann Lecun et ses équipes planchent depuis quelques années, est une approche non-générative qui vise à fournir à une IA une représentation du monde réel.
L’enjeu est de dépasser les limitations des grands modèles de langage (LLM) à la ChatGPT – « des machines à prédire le prochain mot», selon Yann Lecun – et de tendre vers une intelligence artificielle avancée, baptisée AMI (advanced machine intelligence) par Meta, capable de mieux saisir le monde qui l’entoure.
Ce serait un moyen pour Meta de se différencier des modèles de vision-langage (VLM, vision langage models), fondés sur l’architecture Transformer des LLM et employés par Google et OpenAI notamment, pour la robotique. Le robot humanoïde du second, Figure, est déjà expérimenté dans une usine BMW, bien que l'on puisse s'interroger sur ce qu'il y fait réellement.
Concernant l'AMI, « il faudra attendre de trois à cinq ans avant de constater des progrès significatifs », tempère Yann Lecun. Une façon de dire, peut-être, qu’il ne faut pas mettre la charrue avant les bœufs.



