Datacenters : comment Vertiv adapte ses systèmes d’alimentation électrique et de refroidissement à l’explosion de l’IA générative

L’IA générative, omniprésente, pousse l’alimentation électrique et le refroidissement des datacenters dans leurs retranchements. L’américain Vertiv, fournisseur de ces systèmes indispensables, a décrit l'enjeu et les solutions possibles à l’occasion d’une conférence de presse organisée le 21 novembre dernier près de Bologne (Italie), l’un de ses fiefs industriels en Europe.

Réservé aux abonnés
Image d'illustration de l'article
Karsten Winther, le 21 novembre 2024, durant la conférence de presse européenne organisée sur le site industriel de Vertiv, dans la banlieue de Bologne.

Le marché de l’IA générative pourrait rappeler la ruée vers l’or, cumulant quelque 40 milliards de dollars en 2022… et plus de 1300 milliards à l’horizon 2032. Désignant les projections de Bloomberg qui s’affichent juste derrière lui, Karsten Winther, directeur Europe/Moyen-Orient/Afrique de Vertiv, se frotte les mains : « Il s’agit d’une formidable opportunité pour tout le monde ! »

A plus forte raison pour Vertiv. A l’instar d’ABB, Eaton ou encore Schneider Electric, cet industriel américain, qui compte 30000 employés dans le monde, équipe les datacenters avec ses systèmes d’alimentation électrique et de refroidissement. Les premiers sont testés et assemblés dans la banlieue de Bologne en Italie, où se déroule la conférence de presse européenne organisée par Vertiv le 21 novembre dernier.

Le thème de l’évènement, « Powering the AI era » (alimenter l’ère de l’IA), définit explicitement l’enjeu pour l’équipementier et la filière en général : les grandes infrastructures numériques que sont les datacenters sont confrontées à une explosion des usages de l’IA générative, véritable « dévoreuse » de kilowatts.

La tendance ne devrait pas s’inverser. « Aujourd’hui, la puissance globale fournie par les datacenters s’élève à 80 gigawatts (GW), indique Karsten Winther, relayant cette fois des prévisions de l’analyste Omdia. Elle devrait doubler dans cinq ans. » Le graphique montre le poids grandissant de l’IA, qui ne se substitue pas aux tâches informatiques traditionnelles mais s’y ajoute. Obligation est faite aux industriels comme Vertiv d’anticiper et d’élaborer les solutions technologiques appropriées, dont voici trois illustrations.

Densifier les alimentations sans interruption

L’IA réclame une proportion croissante de puces graphiques (GPU), comparativement aux puces classiques (CPU). Mais les GPU ont un appétit supérieur, qui se fait sentir au niveau du rack, cette armoire aux dimensions standardisées (60 cm de large) qui recueille les lames de serveurs informatiques.

D’après les estimations de Vertiv, la nouvelle génération de GPU Blackwell de Nvidia  - victime de retards de livraisons – demanderait une puissance électrique de 130 à 250 kilowatts (kW) par rack, lequel comporte entre 36 à 576 GPU.

A ce rythme, et malgré l’amélioration de l’efficacité énergétique des GPU (de 17000 joules par token en inférence à 0,4 joule par token entre 2016 et 2024, selon Nvidia), la génération Rubin/Rubin Ultra de Nvidia attendue à partir de 2027/2028 aura besoin d’un mégawatt pour fonctionner !

Faute de repousser les murs ou d’accroître sans cesse la surface des datacenters, la densité énergétique des alimentions sans interruption (ASI, ou UPS en anglais), assorties notamment de batteries et fournissant l’énergie aux serveurs, doit impérativement continuer à progresser.

Dans le centre d’expérience client, toujours situé sur le site de Bologne, on aperçoit le Trinergy, la nouvelle génération d’ASI annoncée en juillet dernier par Vertiv. De conception modulaire, celui peut livrer une puissance totale de 1500 kW à 2500 kW. « Par rapport à l’ancienne génération, la puissance par module est passée de 400 kW à 500 kW », explique Arturo Di Filippi, directeur de l’offre large puissance de Vertiv.

Image d'illustration de l'articleVertiv
Powernexus Powernexus

Le Powernexus combine dans un seul gabarit une ASI Trinenergy et tout l'appareillage électrique annexe, de manière à faciliter la mise en oeuvre et à réduire l'empreinte au sol.

Le gain provient notamment d’un travail sur la topologie de l’électronique de puissance (des transistors en carbure de silicium) et sur l’efficacité des conversions successives entre le courant alternatif et le courant continu, ici de 97,5%.

Promouvoir le refroidissement par liquide

La densification énergétique ne peut s’entendre sans des progrès significatifs dans l’évacuation des calories. La population croissante de GPU, qui en est la principale cause, devrait ainsi aiguillonner l’intégration d’unités de refroidissement (CDU) faisant circuler du liquide à l’intérieur de plaques (cold plate) fixées sur les puces, fait observer Vertiv. Il est question également de refroidissement par immersion.

Voulant démontrer son implication, l’industriel a même annoncé en octobre dernier s’être associé à Nvidia. Les deux partenaires ont co-développé une architecture de référence pourvoyant le refroidissement par liquide et l’alimentation électrique (jusqu’à 7 MW) au serveur IA GB200 NVL72 de Nvidia, qui contient jusqu’à 72 GPU Blackwell.

L’exemple vient d’en haut : le supercalculateur Leonardo, construit à Bologne et dont Vertiv a organisé la visite en cette fin d’après-midi du 21 novembre, exploite aussi un circuit de refroidissement par liquide pour conserver ses milliers de GPU à une température acceptable.

LeonardoFrédéric Monflier
Leonardo Leonardo

En service depuis 2022, le supercalculateur Leonardo, à Bologne, profite d'un circuit de refroidissement liquide pour maintenir la température de ses 14000 GPU.

Indispensables au flot de l’IA, ces unités de refroidissement vont devenir « critiques », assure Giovanni Zanei, responsable de la conversion grande puissance de Vertiv. A tel point qu’elles devraient disposer de leur propre système d'alimentation sans interruption pour garantir leur fonctionnement constant.

Simuler les fluctuations énergétiques liées aux calculs d’IA

Quand ils sont produits par un grand modèle d’IA, les flux informatiques  exécutés par un datacenter ne sont pas un long fleuve tranquille d’un point de vue énergétique. Un pic de puissance (plus de 150%) se manifeste au début de chaque calcul, durant quelques centaines de microseconde, avant que la courbe revienne progressivement à la normale. Le cycle se répète plusieurs fois par seconde.

Ces fluctuations sont susceptibles de nuire à la durée de vie des ASI, conçues pour les compenser. Pour s’attaquer à ce problème, Vertiv a donc élaboré un simulateur, opérationnel depuis un mois. C’est une machine dont les commutateurs électriques reproduisent les variations d’intensité et de tension induite par le fonctionnement d’une IA. Un moyen de tester puis d’ajuster les paramètres d’une ASI raccordée à ce simulateur, en fonction d’un profil de fluctuations mesuré dans le datacenter d’un client.

Vertiv simulateur IAFrédéric Monflier
Vertiv simulateur IA Vertiv simulateur IA

La partie matérielle du simulateur IA conçu par Vertiv, à disposition dans le centre d'expérience client du site industriel de Bologne.

Newsletter La Quotidienne
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.