Zoom sur le réseau de neurones Transformer que Nvidia a mis au coeur de son calculateur pour véhicule autonome

Développé par Nvidia pour la voiture autonome, le calculateur centralisé Drive Thor est motorisé par un réseau de neurones de type Transformer. Une première dans l'industrie automobile, selon Nvidia, pour cette technique d'IA qui suscite l'engouement des chercheurs depuis quelques années. Raoul de Charette, chercheur à l’Inria, en explique pour Industrie & Technologies les spécificités.

Frédéric Monflier

Publié le 28 septembre 2022 à 14h00

Réservé aux abonnés

Image d'illustration de l'article — Le modèle de réseau de neurone Transformer, promu par nVidia, peut découvrir des corrélations entre des objets éloignés dans une image, ce qui peut aider une IA à mieux percevoir son environnement.

Dévoilé par Nvidia au cours de son évènement semestriel GTC 2022 la semaine dernière, Drive Thor est un système informatique centralisé, conçu pour être le cerveau de futurs véhicules autonomes. Son circuit graphique, allié à des unités de calcul de tenseurs, exécute un type de réseaux de neurones particulier qui suscite l'engouement des chercheurs en IA depuis quelques années : les « transformers ». C’est une première dans la filière automobile, selon la société américaine, qui avance que les performances en inférence de ce moteur d’IA seraient accélérées d’un facteur neuf sur cette architecture matérielle.

« Ce n’est pas une révolution algorithmique, mais plutôt une accélération de moyens, tempère Raoul de Charette de l’Inria. L’annonce de Nvidia est une application industrielle de travaux de recherche. » Ce chercheur en vision par ordinateur dirige la partie « vision » de l’équipe-projet commune Inria/Valeo, nommée Astra (automated and safe transportation systems).

Des réseaux de neurones nés pour traiter les textes

Les Transformers ont vu le jour en 2017, chez Google, et ont démontré aussitôt une supériorité dans le traitement du langage naturel, par rapport aux autres types de réseaux de neurones. « Mais ils sont efficaces pour analyser tout type de données dès lors qu'elles contiennent une notion de récurrence », souligne Raoul de Charette.

« Un réseau de neurones de type transformer s’appuie sur un mécanisme d’attention : il calcule des matrices de corrélation entre des ensembles de données afin de modéliser les interdépendances. Pour du texte, cela revient à estimer les interactions entre les mots », poursuit Raoul de Charette. Ce mécanisme d’attention est antérieur à l’arrivée du Transformer, mais dans un tel modèle, il devient central.

D'abord convertir les images en données séquentielles

L’idée d’appliquer un transformer à l’analyse d’image revient toujours à Google, dont les travaux en la matière ont été rendus publics en octobre 2020 puis publiés en juin 2021 à l’occasion de l'ICLR (International conference on learning representations). « Puisqu’un transformer analyse des séquences de données, on convertit les images en données séquentielles et plus seulement spatiales, détaille Raoul de Charette. Ainsi en 2021, les premiers Transformers découpaient les images en 16x16 blocs, de petits morceaux d’image équivalents à des mots en quelque sorte, et on lisait ces images de gauche à droite et de haut en bas, comme on le ferait avec un texte. »

Un transformer intervient ensuite sur cette représentation séquentielle pour modéliser les corrélations entre ces données séquentielles - certaines étant très abstraites – qui peuvent être très éloignées dans une image. Une fois apprises sur le corpus d'apprentissage, ces corrélations sont utilisées pour résoudre des tâches telles que la détection d'objets ou l'estimation tri-dimensionnelle d'une scène.

Prise en compte des interactions entre éléments lointains d'une image

« Par exemple, pour identifier un oiseau, un Transformer s'appuie non seulement sur son voisinage direct, tel que le ciel, mais aussi sur des interactions lointaines, comme la présence du sol en dessous ou d'autres oiseaux dans l'image, précise Raoul de Charette. A la différence, un réseau convolutif est spécialisé dans la modélisation d'interactions locales. »

Le gain d’un facteur 9 avancé par Nvidia paraît plausible aux yeux de Raoul de Charette. Mais s’agit-il de rapidité ou de performance ? « La rapidité se réfère au temps d'exécution, comme le temps mis pour détecter un objet dans une image acquise par la caméra de la voiture, développe-t-il. La performance est définie par la capacité à correctement détecter ces objets, par exemple des piétons. »

Nvidia reste assez vague sur ce point. Quoi qu’il en soit, une rapidité supérieure reste avantageuse, même si les performances ne s’améliorent pas dans les mêmes proportions. « Si les calculs sont résolus plus rapidement, les modèles d’IA peuvent être plus sophistiqués », éclaire Raoul de Charette. De quoi octroyer aux IA embarquées une meilleure perception de l’environnement.

Zoom sur le réseau de neurones Transformer que Nvidia a mis au coeur de son calculateur pour véhicule autonome

Des réseaux de neurones nés pour traiter les textes

D'abord convertir les images en données séquentielles

Prise en compte des interactions entre éléments lointains d'une image

À lire aussi