L'électronique neuromorphique accélère pour aller au-delà de Moore et contenir l’envolée énergétique de l’intelligence artificielle

Si l’intelligence artificielle atteint des performances impressionnantes, c’est au prix d’une véritable débauche d’énergie. À lui seul, l’apprentissage du modèle GPT-3, mobilisant des milliers de puces graphiques (GPU), aurait englouti 190 mégawattheures, selon une étude scientifique datée de 2020 ! En comparaison, notre matière grise ne draine qu’une vingtaine de watts, tout en faisant preuve de capacités d’analyse et d’apprentissage à faire pâlir n’importe quelle IA. Elle constitue ainsi la source d’inspiration de l’électronique dite neuromorphique, héritière des travaux pionniers de Carver Mead, chercheur à Caltech, à la fin des années 1980.

Deux écoles coexistent, se nourrissant mutuellement. « Une vision plus traditionnelle, issue des neurosciences, propose de réaliser des circuits électroniques imitant la structure exacte du cerveau et la façon dont les neurones effectuent des calculs jusqu’au niveau moléculaire, explique Damien Querlioz, chercheur CNRS au Centre de nanosciences et de nanotechnologies. L’idée est de comprendre le fonctionnement du cerveau. » Le projet européen Humain Brain Project est l’un des symboles de cette perspective neuromimétique.

La deuxième approche s’inspire aussi de l’architecture du cerveau, mais sans chercher à le reproduire en détail, tout comme le mode opératoire exact des neurones et des synapses biologiques. « La motivation est plus applicative. Il s’agit de résoudre la problématique actuelle de l’IA : sa consommation excessive d’énergie, souligne Damien Querlioz. On espère trouver dans le cerveau les clés pour rendre l’IA plus efficace. » C’est la démarche qui intéresse l’industrie. Si le besoin se fait sentir dans les serveurs informatiques, il est plus immédiat dans l’embarqué, qui regroupe entre autres les capteurs et l’edge computing (calcul à la périphérie). Ces dispositifs fonctionnent sur batterie, d’où l’importance d’améliorer leur autonomie. De plus, les algorithmes qu’ils abritent doivent décider en quasi-temps réel, sans consulter l’avis d’un cloud distant.

En finir avec von Neumann

L’enjeu de la conception de circuits bio-inspirés n’excite plus seulement la recherche académique, mais aussi les industriels et des start-up deeptechs, dont le français Prophesee. Signe de l’explosion du neuromorphique, se réjouit Damien Querlioz. Cette « niche de passionnés » est sortie de la confidentialité en 2012, quand les réseaux de neurones profonds ont démontré leur supériorité pour classifier des images. Les communautés du neuromorphique et de l’IA, la première considérant le substrat matériel, la seconde l’aspect logiciel, ont amorcé leur convergence et collaborent de plus en plus.

Image d'illustration de l'article — Stratégies variées pour puces bio-inspirées Stratégies variées pour puces bio-inspirées

Côté matériel, un mot d’ordre s’est imposé pour réduire la consommation énergétique de l’électronique : en finir avec l’architecture de von Neumann !, comme le souligne Julie Grollier, directrice de recherche à l’unité mixte de physique CNRS-Thales. Cette architecture est la pierre angulaire de l’informatique depuis ses origines. Elle dissocie les unités logiques et de contrôle, chargées de traiter les informations, des unités de mémoire, dans lesquelles sont enregistrées les informations. « La majorité de l’énergie est dépensée par le transfert de données entre calcul et mémoire », pointe Julie Grollier. Si une simple addition consomme une unité d’énergie, une étude de 2017 (dirigée par Vivienne Sze) a estimé que l’accès aux données nécessaires au calcul dans la mémoire centrale réclame... 3 500 fois plus. Or, les réseaux de neurones réalisent des quantités faramineuses de telles opérations simples. « Dans le cerveau, les données sont situées dans les synapses et cette mémoire distribuée est directement disponible pour les neurones », compare Julie Grollier.

Le rapprochement des unités logique et mémoire est donc considéré comme l’une des stratégies du neuromorphisme, bien que ce soit une tendance plus générale. En service depuis 2017, les TPU (tensor processing unit) de Google ont fait un pas en ce sens grâce à leur matrice systolique (en référence au pouls) massivement parallèle, qui réduit les accès à la mémoire centrale du circuit pour accélérer les calculs propres à l’apprentissage ou à l’inférence d’une IA. D’après le géant des services numériques, un TPU est 30 à 80 fois plus efficaces d’un point de vue énergétique qu’une puce traditionnelle.

Dans la mémoire elle-même

Mieux encore : les calculs pourraient être exécutés dans la mémoire elle-même, ce que la littérature anglaise désigne par l’approche « in memory computing ». C’est là une véritable scission avec l’architecture de von Neumann. Encore faut-il des composants appropriés. Les technologies de mémoire actuelles de type DRAM (dynamic random access memory), fondées sur des charges électriques, ont le gros inconvénient de la volatilité. « On perdrait du temps à recharger le réseau de neurones à chaque fois que le circuit est éteint », fait remarquer Julie Grollier. D’autre part, ces mémoires requièrent des cycles de rafraîchissement et donc une tension électrique permanente, sinon les données s’évanouissent. La mémoire statique Sram n’a pas besoin de rafraîchissement et fait l’objet de travaux de recherche pour y introduire des fonctions calculatoires. Mais, monopolisant six transistors, elle a littéralement un problème de taille, ce qui vaut aussi pour la mémoire flash, certes non volatile.

Les regards se sont ainsi tournés vers un composant d’un nouveau type, le memristor (ou memory-resistor), dit « émergent » car n’entrant pas dans la famille des composants fabriqués grâce aux procédés conventionnels CMOS (complementary metal-oxyde semiconductor). L’existence de ce dipôle électronique a été prédite en 1971 par Leon Chua puis découverte expérimentalement en 2008 par une équipe du HP Labs.

Les réseaux de neurones impulsionnels n’ont pas encore donné tous les résultats escomptés, à savoir de bonnes performances avec une consommation très basse.
— Sylvain Saïghi, maître de conférences à l’université de Bordeaux

Un memristor, qui mesure quelques dizaines de nanomètres, offre une résistance électrique programmable grâce à divers effets physiques et peut coder une information non volatile. Structurés sous forme de matrices, utilisables en mode analogique, ils deviennent alors des nanocœurs de calcul capables d’accélérer les opérations matricielles des réseaux de neurones. La puce Hermès d’IBM [lire le reportage page 36] témoigne de ce type d’architecture, qui a fait florès dans les publications scientifiques ces dix dernières années. Ces systèmes ne semblent pas très éloignés d’une possible commercialisation.

Le gain d’énergie, qui peut atteindre un facteur 10, est parfois débattu, en l’absence de benchmarks standardisés. « À la fin d’une tâche donnée, combien a-t-on consommé ?, interroge Sylvain Saïghi, maître de conférences à l’université de Bordeaux (Gironde). L’indicateur des watts par opération n’est pas suffisant. On progresse certes de ce côté mais on reste sur des réseaux de neurones classiques qui demandent encore beaucoup d’opérations. »

Ces réseaux de neurones artificiels (ANN), dits de deuxième génération – le perceptron représentant la première génération –, suivent le modèle mathématique de neurone formel, défini par McCulloch-Pitts au début des années 1940 : les données entrantes d’un neurone sont pondérées par les poids synaptiques et sommés. Une fonction d’activation, généralement non linéaire, est appliquée au résultat pour générer la sortie du neurone. Le calcul est laborieux et la dimension dynamique du cerveau est perdue.

Les réseaux de neurones impulsionnels ou événementiels (SNN, spiking neural networks), dits de troisième génération, se veulent plus proches du comportement biologique de nos cellules cérébrales et introduisent la concordance temporelle des événements. Dans le modèle de réseau de neurones le plus courant, LIF (leaky integrate and fire), les impulsions en entrée, associées aux poids synaptiques, « chargent » ou « déchargent » le neurone selon le délai séparant leur arrivée. Le neurone ne déclenchera sa propre impulsion de sortie que lorsque le cumul de ces impulsions finit par dépasser un seuil.

La boîte à outils ne cesse de grossir

« Ce ne sont que des additions, plus simples à réaliser électroniquement. Seule l’info qui arrive – l’événement – est traitée. De plus, un SNN est parcimonieux, tandis qu’un réseau de neurones classique utilise 100 % de son réseau à plein temps », détaille Benoît Miramond, professeur à l’université Côte d’Azur, dont l’équipe collabore avec Renault sur une caméra événementielle à base de circuit programmable (FPGA) intégrant un SNN, à des fins de conduite autonome. Les SNN sont prometteurs pour ce type d’application très dynamique. En outre, des modèles mathématiques traduisant la plasticité des synapses suggèrent que les puces pourraient parfaire leur apprentissage initial pour tenir compte d’un environnement particulier. Seulement, « les SNN n’ont pas encore donné tous les résultats escomptés, à savoir de bonnes performances avec une consommation très basse », reconnaît Sylvain Saïghi. Dit autrement, ils ne rivalisent pas encore avec les réseaux de neurones classiques, dont ils seraient de bons compléments.

À titre d’exemple, les puces Loihi et TrueNorth d’Intel et IBM mettant en œuvre des SNN ne sont pas encore proposées à la commercialisation. Mais la science progresse. « Les SNN ont été étudiés plus tardivement, donc un décalage s’est produit au niveau applicatif, nuance Benoît Miramond. Un écart qui se comble peu à peu grâce à des méthodes d’apprentissage plus robustes. » Selon Sylvain Saïghi, les SNN concentrent aujourd’hui « 80 à 90 % du volume de la recherche ». Reste à trouver les meilleurs substrats matériels pour une application donnée. Comme pour les ANN, la boîte à outils ne cesse de grossir : transistors (CMOS), memristors, spintronique, photonique, matériaux organiques, architectures mixtes, calcul analogique ou numérique...

« Un compromis doit être trouvé entre plusieurs critères, explique Benoît Miramond, à savoir les performances applicatives, l’efficacité énergétique ainsi que le passage à l’échelle, qui concerne aussi le logiciel. » Trois problématiques que devra résoudre l’électronique neuromorphique pour continuer à se développer.