Le 29 avril dernier, l’entreprise Vsora, créée en 2015 et implantée à Meudon-la-Forêt (Hauts-de-Seine), se félicitait d’avoir empoché 40 millions d’euros, provenant d’Otium et du Conseil européen de l’innovation, entre autres. Ce qui séduit ces investisseurs, c’est que la start-up française prépare une puce accélératrice d’IA, nommée Jotunn 8, susceptible de faire de l’ombre à un géant du secteur, à savoir l’américain Nvidia. Son objectif est d’améliorer significativement l’efficacité de la phase d’inférence (ou exécution, par opposition à la phase d'entraînement) des grands modèles de langage.
Pour y parvenir, Vsora s’est donnée pour objectif, dès son origine, de briser le « mur de la mémoire », ou « memory wall », d’après l’expression anglophone consacrée en microélectronique. A l’intérieur du processeur, la vitesse des unités de calcul internes – des unités arithmétiques et logiques précisément – progresse plus vite que la bande passante de la mémoire externe contenant les données, qui nourrissent ces mêmes calculs. Résultat, ces unités passent plus de temps à attendre ces données qu’à les traiter.
« Il existe aujourd’hui toute une mécanique qui permet de ramener les données depuis la mémoire externe vers les registres internes de la puce avant de les acheminer dans les unités de calcul, détaille Khaled Maalej, PDG et cofondateur de Vsora. Plus on s’éloigne des registres, plus on stocke de données, mais plus on ralentit leur accès. Un registre sera accessible en un cycle d’horloge, une mémoire cache de niveau 1 en demande des dizaines, etc. Comme le nombre d’unités arithmétiques est très important, on n’arrive plus à les alimenter en données. »
Vsora L'architecture de Vsora agrège tous les mémoires intermédiaires entre les unités de calcul et la mémoire externe à la puce pour constituer des millions de registres, accessibles en un cycle d'horloge.
Vsora rompt avec cette architecture conventionnelle pour optimiser la gestion et la circulation des données dans la puce. « On fait en sorte que toute la mémoire embarquée dans le silicium (les mémoires caches qui appartiennent au circuit intégré de la puce, ndlr) soit vue comme des registres, poursuit-il. On passe d’un système avec des centaines de milliers de registres à un système à plusieurs millions de registres. »
C'est du temps d’accès très réduit de ces registres, qui abreuvent les unités de calcul en quasi-continu, que vient le gain d’efficacité de Jotuun 8. « On n’atteint pas à 100% d’efficacité mais on s’en approche autant que possible, indique Khaled Maalej. Cette efficacité pilote le coût d’une requête IA, qui est donné par l’amortissement de l’investissement dans les puces équipant les datacenters. Si elle progresse d’un facteur 3 ou 4, on divise d’autant le coût d’une requête. Le marché est en attente d’une solution technique pour réduire ce coût, afin de passer de 5000 requêtes par seconde à 100000 requêtes par seconde, ce que gère actuellement le moteur de recherche de Google. On peut alors appliquer le modèle économique de Google et rendre la technologie accessible gratuitement à l’utilisateur final. »
Un dixième de seconde pour le premier token
Vsora, en revanche, ne s’adresse pas au marché de l’apprentissage de ces grands modèles d’IA, les flux de données étant alors organisés de manière plus optimale pour leur traitement, sans enjeu de temps réel. « Les puces actuelles font cela très bien et nous n’aurions pas de valeur ajoutée », fait remarquer Khaled Maalej.
Un effet visible de Jotuun 8 serait la réduction de la latence à l’inférence, donnée par la métrique « time to first token » (délai avant l’affichage du premier token de la réponse, ndlr), propre aux grands modèles de langage façon ChatGPT. « La latence dépend du réseau de neurones, du nombre de mots dans le prompt… explique Khaled Maalej. Mais pour un modèle Llama 3.1 à 405 milliards de paramètres, on serait autour du dixième de seconde, contre 0,5 à 0,8 secondes actuellement. »
L’emploi du conditionnel est justifié par le fait que Vsora ne dispose pas encore d’un exemplaire « silicium », c’est-à-dire d’une puce en bonne et due forme. Ce qui ne saurait tarder, selon la start-up : la production sera bientôt lancée dans les usines du taïwanais TSMC, avec un procédé de fabrication à 5 nanomètres, pour une disponibilité prévue en fin d’année.
L'IA à la périphérie aussi dans le viseur
Jotuun 8 – il paraît que le directeur marketing de Vsora est un admirateur de la mythologie nordique - comportera, dans le même packaging, 8 cœurs de calcul et 8 puces mémoires à haute bande passante (HBM) d’une capacité totale de 288 Go, sous la forme de « chiplets » (puces désagrégées reliées par un interposeur). Elle s’apparente à une puce graphique (GPU), 100% programmable. Il n’y a pas non plus besoin d’un code de bas niveau pour l’exploiter de façon optimale, selon Khaled Maleej, qui fait référence à la « lourdeur » de la couche logicielle Cuda de Nvidia utilisée par les développeurs pour programmer les GPU de l'américain.
Reste que beaucoup de monde entend prendre sa part de gâteau sur le marché de l’inférence IA. Pas de quoi intimider Khaled Maalej : « Quand vous regardez la plateforme de benchmarking MLPerf (développée par MLCommons pour mesurer les performances en inférence, ndlr), Nvidia est numéro 1 ; AMD, malgré des performances supérieures sur le papier, est numéro 2 ; et les start-up telles que Grok et Cerebra, on ne les voit pas ! La proposition vraiment mature, c’est celle de Nvidia et notre but, avec cette levée, est de nous positionner par rapport à eux et à AMD ». Une concurrence à laquelle Vsora se frottera aussi sur le marché de l’IA à la périphérie (edge), en particulier celui de la voiture autonome, qui fait partie de sa feuille de route.
En corollaire de sa meilleure efficacité, Jotuun 8 serait à créditer d’une meilleure sobriété énergétique. « Notre puce serait moitié moins énergivore par requête d’IA », souligne Khaled Maalej. Une qualité bienvenue à l’heure où l’IA fait exploser la consommation énergétique des datacenters.



