[L'instant tech] Les bonds de géant des Transformers

Après avoir s’être imposés dans le traitement naturel du langage, ces modèles d’attention sont utilisés en biologie et en vision. De quoi lancer les géants de l’intelligence artificielle dans une nouvelle course à l’innovation.

Réservé aux abonnés
Image d'illustration de l'article
Le modèle Dino de Facebook et l’Inria, fondé sur un Transformer, apprend par lui-même à segmenter les objets dans les images.

Qu’on lui demande de discourir sur la créativité à la manière d’un certain psychiatre, d’écrire des lignes de code ou de générer des tweets, le programme d’intelligence artificielle ­GPT-3 provoque chaque fois des commentaires dithyrambiques. Ce modèle conçu par la pépite américaine OpenAI et financé par Microsoft est considéré comme le plus abouti dans le traitement naturel du langage (NPL).

Facebook a dévoilé en octobre un modèle capable de traduire 100 langues sans passer par l’anglais. En décembre, un réseau de neurones artificiels développé par DeepMind, la branche IA de Google, a pu prédire avec précision la forme 3D d’une protéine à partir de sa séquence d’acides aminés. Un défi vieux de cinquante ans, dont la résolution devrait considérablement accélérer la découverte de médicaments.

Le point commun entre ces annonces ? Elles reposent toutes sur l’utilisation d’un nouveau type de réseaux de neurones, les Transformers, apparus pour la première fois dans une publication de Google en 2017. « Ces architectures ont été développées pour la traduction automatique et reposent sur un mécanisme d’attention, explique Benoît Favre, chercheur au Laboratoire d’informatique et systèmes d’Aix-Marseille Université. Dans une séquence, l’algorithme ne regarde plus seulement le voisinage, mais voit des correspondances statistiques lointaines et en déduit un sens. »

Puissance et polyvalence

Les atouts des Transformers : puissance et polyvalence. « On s’est rendu compte que plus vous administrez des données aux Transformers, plus ils continuent d’apprendre à un bon rythme, là où les autres architectures de réseaux de neurones dominantes peuvent s’essouffler », observe Grégoire Mialon, doctorant à l’Institut national de recherche en sciences et technologies du numérique (Inria) et à l’ENS.

Autrement dit, les Transformers sont des gloutons, que les développeurs peuvent nourrir d’une infinité de données textuelles disponibles sur internet. De quoi donner naissance à des réseaux gargantuesques. Avec ses 175 milliards de paramètres, GPT-3 a lu 500 milliards de mots pour s’entraîner.

« Tous les trois mois, un Gafa sort un modèle plus gros que les précédents », souligne Grégoire Mialon. GPT-3, la troisième génération des Generative pre-trained Transformers d’OpenAI, a ainsi surpassé Bert, son concurrent de Google. L’architecture domine désormais le domaine du NPL, avec des applications au-delà du langage naturel.

Davantage de malléabilité

En biologie, les Transformers appréhendent les séquences de caractères qui forment les protéines et l’ADN comme un langage. Après l’exploit de Deepmind pour prédire la structure 3D des protéines, ils devraient s’inviter dans les recherches sur l’élaboration de médicaments et sur la prédiction des mutations de virus.

Les Transformers sont des architectures plus génériques et malléables que les précédentes. Dans tous les domaines où un grand nombre de données est disponible, ils peuvent changer la pratique du machine learning.

—  Grégoire Mialon, doctorant à l’Inria

« Ces architectures sont plus génériques et malléables que les précédentes, apprécie Grégoire Mialon. Dans tous les domaines où un grand nombre de données est disponible, ils peuvent changer la pratique du machine learning. On semble aller vers un modèle avec un Transformer pré-entraîné sur une énorme base de données, en open source, auquel les chercheurs ou les entreprises peuvent ensuite donner un petit jeu de données pour l’adapter à une tâche particulière. »

Cette réalité pourrait aussi fonctionner en vision. En mai 2020, Facebook a été le premier à utiliser un Transformer pour la détection d’objets dans une image de manière aussi compétitive que les approches traditionnelles. Le 30 avril, Fair, son centre de recherche en IA à Paris, a présenté un nouveau modèle, Dino, performant sur des images non annotées.

Des performances remarquables

« L’algorithme est capable de se faire une représentation de l’image et de se focaliser sur ce qu’elle a de saillant, explique Mathilde Caron, doctorante à l’Inria et chez Fair. Avec beaucoup d’applications possibles : segmenter un objet dans une image, détecter des copies, suivre un objet dans une séquence d’images... » Des performances remarquables dans le cas d’un apprentissage auto-supervisé, qui se passe du long et coûteux travail d’annotation des données.

« On est à un point de bascule, avec la question de savoir si les Transformers vont s’imposer en vision comme ils l’ont fait dans le NPL », estime Mathilde Caron. Reste à savoir si ces progrès profiteront à toute la communauté. Pour rentabiliser leurs investissements, ­OpenAI et Microsoft ont créé une API rendant payant l’accès à GPT-3.

« En vision, Google a développé deux versions de son Transformer : celle entraînée sur des jeux de données publics a été publiée, contrairement à la plus performante, entraînée celle-ci sur un plus grand jeu de données, interne à Google », observe Grégoire Mialon. La course à l’innovation est aussi une bataille commerciale.

Newsletter La Quotidienne
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.
Les webinars
Les services L'Usine Nouvelle
Détectez vos opportunités d’affaires
Trouvez des produits et des fournisseurs