[L'instant tech] Les bonds de géant des Transformers

Après avoir s’être imposés dans le traitement naturel du langage, ces modèles d’attention sont utilisés en biologie et en vision. De quoi lancer les géants de l’intelligence artificielle dans une nouvelle course à l’innovation.

Marion Garreau

Publié le 24 mai 2021 à 11h00

Réservé aux abonnés

Image d'illustration de l'article — Le modèle Dino de Facebook et l’Inria, fondé sur un Transformer, apprend par lui-même à segmenter les objets dans les images.

Qu’on lui demande de discourir sur la créativité à la manière d’un certain psychiatre, d’écrire des lignes de code ou de générer des tweets, le programme d’intelligence artificielle GPT-3 provoque chaque fois des commentaires dithyrambiques. Ce modèle conçu par la pépite américaine OpenAI et financé par Microsoft est considéré comme le plus abouti dans le traitement naturel du langage (NPL).

Facebook a dévoilé en octobre un modèle capable de traduire 100 langues sans passer par l’anglais. En décembre, un réseau de neurones artificiels développé par DeepMind, la branche IA de Google, a pu prédire avec précision la forme 3D d’une protéine à partir de sa séquence d’acides aminés. Un défi vieux de cinquante ans, dont la résolution devrait considérablement accélérer la découverte de médicaments.

Le point commun entre ces annonces ? Elles reposent toutes sur l’utilisation d’un nouveau type de réseaux de neurones, les Transformers, apparus pour la première fois dans une publication de Google en 2017. « Ces architectures ont été développées pour la traduction automatique et reposent sur un mécanisme d’attention, explique Benoît Favre, chercheur au Laboratoire d’informatique et systèmes d’Aix-Marseille Université. Dans une séquence, l’algorithme ne regarde plus seulement le voisinage, mais voit des correspondances statistiques lointaines et en déduit un sens. »

Puissance et polyvalence

Les atouts des Transformers : puissance et polyvalence. « On s’est rendu compte que plus vous administrez des données aux Transformers, plus ils continuent d’apprendre à un bon rythme, là où les autres architectures de réseaux de neurones dominantes peuvent s’essouffler », observe Grégoire Mialon, doctorant à l’Institut national de recherche en sciences et technologies du numérique (Inria) et à l’ENS.

Autrement dit, les Transformers sont des gloutons, que les développeurs peuvent nourrir d’une infinité de données textuelles disponibles sur internet. De quoi donner naissance à des réseaux gargantuesques. Avec ses 175 milliards de paramètres, GPT-3 a lu 500 milliards de mots pour s’entraîner.

« Tous les trois mois, un Gafa sort un modèle plus gros que les précédents », souligne Grégoire Mialon. GPT-3, la troisième génération des Generative pre-trained Transformers d’OpenAI, a ainsi surpassé Bert, son concurrent de Google. L’architecture domine désormais le domaine du NPL, avec des applications au-delà du langage naturel.

[L'instant tech] Les bonds de géant des Transformers

À lire aussi