À Zurich, IBM fusionne calcul et mémoire dans sa puce neuromorphique Hermès

Économiser l’énergie grâce au calcul dans la mémoire : voici le principe fondateur de la puce Hermès qu’IBM a développée dans son centre de recherche zurichois. Cet accélérateur d’IA accueille des millions de memristors dans ses multiples cœurs analogiques. Reportage.

Frédéric Monflier

Publié le 12 septembre 2023 à 14h00

Réservé aux abonnés

Image d'illustration de l'article — Chercheur d'IBM Zurich, Manuel Le Gallo travaille sur l’accélérateur Hermès de 144 mm2 (ici à l'avant, sur son circuit imprimé), fabriqué en deux étapes : la gravure des transistors en 14 nm, puis l’intégration des memristors.

Des chiens s’égaillant dans la nature s’affichent sur l’écran, pris sur le vif. L’IA préposée au sous-titrage automatique des images décrit presque immanquablement la situation : un chien blanc court dans l’herbe, un chien blanc et noir court à travers l’eau... Rien d’impressionnant, a priori, au regard des performances des réseaux de neurones les plus évolués, ChatGPT en tête.

Mais cet algorithme est exécuté par une puce électronique, intitulée Hermès, dont l’architecture et le fonctionnement recèlent davantage de surprises. Dans le but d’économiser l’énergie et de réduire le temps de latence dû aux échanges de données, la plupart des calculs sont traités à l’intérieur même des unités de mémoire qui stockent les données. « C’est la tendance actuelle dans notre domaine de recherche », souligne le Canadien francophone Manuel Le Gallo, qui se charge de la démonstration au sein du laboratoire IBM Research, niché sur une colline au bord du lac de Zurich.

La multinationale américaine y a implanté l’un de ses principaux centres de recherche sur l’électronique, le quantique ou encore la photonique en Europe. Hermès, dont la commercialisation n’est pas évoquée, a été conçue en 2020 et réceptionnée fin 2021, après sa fabrication dans une fonderie tierce puis dans un autre centre d’IBM à Albany, aux États-Unis. « Avec une architecture classique, les allers-retours des données entre la mémoire et le processeur consomment 100 à 1 000 fois plus d’énergie qu’une simple opération d’addition dans le processeur, estime Manuel Le Gallo, chercheur qui travaille depuis dix ans pour IBM. Il devient plus facile de réduire cette consommation que celle des processeurs en miniaturisant davantage les transistors. On peut le faire en rapprochant la mémoire et le calcul, mais la seule chance d’aller plus loin est d’adopter une approche plus radicale. »

Puce neuromorphique Hermes. @Pascal Guittet

L’encodage d’une information

La puce Hermès met en action le principe du calcul dans la mémoire en s’appuyant sur des dipôles électroniques au comportement singulier – les memristors – organisés au sein d’une grille (« crossbar »). En premier lieu, la résistance électrique d’un memristor, variable sous l’effet d’une tension électrique, permet l’encodage d’une information binaire, voire analogique. Ce deuxième cas de figure, s’il est plus difficile à contrôler à cause de valeurs de résistance parfois très proches les unes des autres, autorise l’encodage du poids synaptique d’un réseau de neurones dans une seule mémoire. Les poids synaptiques sont déterminés lors de l’apprentissage préalable du réseau de neurones, réalisé typiquement sur un circuit graphique externe (GPU). Ils sont ensuite programmés dans les memristors, qui sont non volatils. « C’est intéressant pour l’embarqué, note Manuel Le Gallo. Les poids synaptiques sont conservés même si l’alimentation électrique est coupée. »

Les allers-retours entre un processeur et sa mémoire consomment 100 à 1000 fois plus d’énergie qu’une simple opération d’addition.
— Manuel Le Gallo, chercheur chez IBM Research Group

La puce Hermès compte plus de 16 millions de memristors, répartis dans 64 cœurs. Dans chaque cœur, ces composants électroniques font la jonction entre deux séries d’électrodes superposées et perpendiculaires [voir schéma ci-contre], et forment une grille de 256 x 256 cellules de mémoire. Cette configuration maximisant la densité de tels dipôles est très populaire depuis dix ans dans les publications scientifiques. C’est ici qu’intervient le calcul dans la mémoire. Durant l’inférence d’un réseau de neurones logiciel – c’est-à-dire lors de l’exécution d’un réseau de neurones déjà entraîné –, les données en entrée du réseau de neurones sont converties en tensions électriques appliquées sur les électrodes supérieures – les « lignes » – [en mauve sur le schéma ci-dessus] faisant circuler un courant électrique à travers les memristors sous-jacents.

Selon la loi d’Ohm, le courant électrique à la sortie d’un memristor résulte de la multiplication de sa conductance (soit l’inverse de la résistance, laquelle traduit le poids synaptique préalablement enregistré) par la tension à son entrée. Les courants sont ensuite collectés par les électrodes inférieures – les « colonnes » – [en gris sur le schéma]. Le courant qui sort de chaque électrode inférieure est la somme des courants traversant chaque memristor de la colonne correspondante, en accord avec la loi de Kirchhoff.

Ce système, dont le comportement obéit à deux lois physiques enseignées dès le lycée, donne donc en sortie un vecteur (les courants de chaque colonne) égal à la multiplication d’une matrice (les conductances ou poids synaptiques) par un vecteur d’entrée (les tensions de chaque ligne). Soit la majorité des calculs que requiert un réseau de neurones en inférence. En réalisant ces calculs directement, Hermès agit comme un accélérateur, minimisant les échanges de données entre unités logiques et unités de mémoire. Car il en reste. « On a toujours besoin de transférer des données de cœur à cœur, chacun représentant une couche du réseau de neurones, commente Manuel Le Gallo. Mais ce sont les activations intermédiaires des neurones, pas les poids synaptiques. »

Ces fonctions d’activation, telles que ReLu (unité linéaire rectifiée), qui transforme toute valeur négative en 0, ou encore Sigmoïde, qui donne une probabilité entre 0 et 1, sont prises en charge par des circuits numériques plus classiques, internes ou adjacents aux cœurs analogiques. « Ces opérations utilisées pour le deep learning réclament une précision qu’on ne peut pas obtenir en mode analogique », justifie Manuel Le Gallo.

Des niveaux de précision comparables

Il reste à savoir si les performances d’Hermès sont à la hauteur de son architecture originale. D’après une publication scientifique sur arXiv, en attente de révision par les pairs, la puce d’IBM offrirait une précision de 92,81 % quand elle met en œuvre un réseau de neurones à convolution pour classifier des images de la banque de données Cifar-10. Voilà qui est prometteur, car la précision du même algorithme tournant sur un PC atteint 93,67 %. Et Hermès ferait mieux que la plupart des autres prototypes de puce exploitant du calcul analogique dans la mémoire, développés par d’autres équipes dans le monde. Le sous-titrage des images fait, lui, appel à un réseau LSTM (long short term memory). Là encore, Hermès rivalise avec la version PC.

Pour classifier ou sous-titrer des images, la puce Hermès rivalise avec un PC exécutant les mêmes algorithmes. @Pascal Guittet

Mais le fait-elle avec une meilleure efficacité énergétique, élément crucial pour que de telles puces percent un jour dans l’industrie ? Celle-ci s’élèverait à 9,76 Tops (1 000 milliards d’opérations par seconde) par watt consommé, toujours selon les chercheurs d’IBM. À précision équivalente (entiers sur 8 bits), on serait tenté de la comparer, pour l’exemple, aux 2 Tops/W du GPU A100 de Nvidia, dont les cœurs tenseurs massivement parallèles sont conçus pour accélérer l’IA. Mais Manuel Le Gallo ne s’y risque pas : « Comparer une puce dédiée comme Hermès avec des processeurs universels comme des processeurs centraux (CPU) ou graphiques (GPU) n’a pas vraiment de sens d’un point de vue scientifique. »

La puce du CEA détecte les anomalies cardiaques

La puce bio-inspirée du CEA-Leti à Grenoble comporte aussi une grille de memristors (32 x 32, soit 1 024 en tout), mais sa finalité est plus concrète : elle distingue les arythmies cardiaques dans des enregistrements d’électrocardiogrammes. « La précision atteint l’état de l’art, mais on divise la consommation énergétique d’un facteur 100 à 1 000 », se réjouit Élisa Vianello, chercheuse au CEA-Leti et responsable du programme pour l’IA embarquée. Jusqu’à présent, l’instabilité de la conductance des mémoires résistives de type filamentaire (formées ici d’oxyde d’hafnium), causée par un phénomène de relaxation, empêchait de bien discriminer les différentes valeurs de conductance encodant les poids synaptiques. Un obstacle que l’équipe d’Élisa Vianello a surmonté avec une nouvelle technique de programmation multiniveaux. « La procédure est certes plus lente, mais les résultats sont stables durant deux mois », commente la chercheuse. Cette étude a fait l’objet d’une publication scientifique dans « Advanced Intelligent Systems » en 2022. Le CEA-Leti procède actuellement au packaging d’un circuit de 256 x 256 memristors qui répondra à des applications plus complexes, comme la reconnaissance
de chiffres manuscrits.