Inférence en furie

AI, AI, AI, AI, AI... Les visages et les voix se succèdent et répètent la même chose. Difficile de ne pas sourire devant cette séquence vidéo de 45 secondes mettant bout à bout toutes les fois où les différents intervenants de la grand-messe annuelle de Google, Google I/O, le 14 mai, ont prononcé l'abréviation en anglais d'intelligence artificielle. Il ne s'agit pas seulement du géant de MountainView. La planète entière semble répéter «AI» depuis le lancement de ChatGPT fin 2023. Et les assistants personnels à base de grands modèles multimodaux (texte, image, son), Gemini Live, présenté au Google I/O, et GPT-4o, lancé la veille par OpenAI, vont remettre une pièce dans la machine.

Nos smartphones vont utiliser de plus en plus ces grands modèles de l'IA dite générative, tout comme les entreprises, qui se ruent sur ces technologies et multiplient les projets. Les processeurs de haute performance nécessaires pour construire (l'entraînement) et utiliser (l'inférence) ces grands modèles sont devenus le nerf de la guerre économique, comme en témoignent les Chips Act du monde entier et les restrictions américaines à leur export vers la Chine. Ou encore la capitalisation boursière de Nvidia, qui absorbe quelque75% de ce marché avec ses processeurs graphiques, au coude à coude avec celle d'Apple, derrière Microsoft, avec quelque 3000 milliards de dollars - bien plus que l'ensemble du CAC40 !

Les besoins à venir sont faramineux et l'industrie des semi-conducteurs s'emballe avec des prévisions de marché allant jusqu'à 400 milliards de dollars en 2027, presque dix fois plus qu'en 2023. Les géants de la tech veulent réduire leur dépendance envers le roi du GPU. Les CPU (processeurs généralistes) comptent s'imposer dans l'inférence; des puces alternatives, voire exotiques, espèrent prouver leurs performances... Les grandes manœuvres technologiques se multiplient.

Les processeurs de haute performance nécessaires aux grands modèles d'IA sont devenus le nerf de la guerre économique.

Google a présenté le 14 mai la dernière version de ses puces TPU dédiées à l'IA, Trillium, et dévoilé un CPU sur base ARM, Axion. Deux jours plus tôt était dévoilée l'ambition de Softbank de créer une division d'ARM dédiée aux puces pour l'IA. En avril, Meta a lancé la deuxième itération de son accélérateur MTIA, orienté vers l'inférence, et Intel a exposé sa puce Gaudi 3 pour l'entraînement et l'inférence, tout en mettant toujours en avant son CPU Xeon pour l'inférence. Quelques mois plus tôt, en novembre, Amazon présentait la seconde génération de sa puce Trainium pour l'entraînement de grands modèles et la quatrième génération de son processeur à base ARM Graviton dédié à l'inférence, tandis que Microsoft annonçait deux futures puces maison pour l'IA. Nvidia, évidemment pas en reste, a dévoilé sa nouvelle génération de GPU, Blackwell, en mars.

Face aux américains, l'Europe fait pâle figure, sauf si l'on considère qu'ARM est encore britannique. Graphcore, fondé en 2016 au Royaume-Uni et qui a levé en tout 682 millions de dollars pour ses puces censées rivaliser avec les GPU, est en grande difficulté financière. Reste SiPearl, français fondé en 2019 et soutenu par l'Europe pour animer les supercalculateurs avec ses CPU haute performance à base d'ARM, Rhea. SiPearl compte bien faire valoir les atouts de ses puces dans l'inférence, mais la centaine de millions d'euros levés jusqu'ici n'y suffiront pas. Aïe, aïe, aïe ?