Meta (ex-Facebook) a annoncé le 24 janvier 2021 la mise en service de la première tranche de son nouveau supercalculateur RSC (Research SuperCluster), dédié à ses recherches en intelligence artificielle. Le géant de l’internet est convaincu qu'il sera, au terme de son extension à la mi-2022, le supercalculateur le plus puissant au monde. Une allégation à prendre toutefois avec prudence.
Cette machine est construite sur mesure en partenariat avec Penguin Computing sur la base exclusive de processeurs graphiques A100 de Nvidia, qui se prêtent bien aux tâches d’intelligence artificielle en offrant de grandes vitesses de traitement à plus faible consommation d’énergie que les processeurs de calcul classiques. «Cette architecture n’a rien de révolutionnaire, affirme à L’Usine Nouvelle Christophe Calvin, adjoint à la directrice de la recherche fondamentale en charge du calcul à hautes performances et de la simulation numérique au CEA. Le processeur graphique constitue l’unité de base de traitement dans l’intelligence artificielle. La nouveauté réside dans le nombre impressionnant de processeurs graphiques réunis dans cette machine. Cela traduit l’énorme besoin de calcul de Meta pour mettre au point ses modèles d’intelligence artificielle.»
Cette architecture est déjà mise en œuvre dans le supercalculateur japonais ABCI, construit par Fujitsu et qui équipe, depuis 2021, le National Institute of Advanced Industrial Science and Technology (AIST) et le supercalculateur français Jean Zay, construit par HPE et installé depuis 2019 au centre de calcul IDRIS du CNRS.
5 exaflops
Dans sa configuration actuelle, la machine combine 6 080 processeurs graphiques interconnectés par un réseau rapide Infiniband de Nvidia à 200 Gbit/s, contre environ 3 000 processeurs graphiques pour Jean Zay et 5 000 pour ABCI. A son achèvement, elle réunira 16 000 processeurs graphiques. Ce qui lui donnerait une puissance de calcul de près de 5 exaflops (1 exaflops vaut 1 milliard de milliards d’opérations en virgule flottante par seconde) à « précision mixte » selon Meta.
«Dans le calcul intensif, la puissance de calcul se mesure par le nombre d’opérations en virgule flottante par seconde, qui correspond au calcul en double précision, explique Christophe Calvin. Mais cette métrique n’est pas pertinente dans l’intelligence artificielle qui se contente de calcul en simple, voire demi-précision. Il faudrait diviser au moins par quatre la puissance de calcul avancée par Meta pour comparer sa machine à celles du Top 500. Mais une chose est sûre : on a probablement affaire à l’un des supercalculateurs les plus puissants au monde.»
Le Top 500 est le classement des 500 supercalculateurs les plus puissants dans le monde, publié deux fois par an. Aucun supercalculateur exflopique ne figure dans le dernier classement publié en novembre 2021, alors que la Chine aurait déjà mis en service deux machines de ce type mais se serait bien gardée de les révéler dans le Top 500.
Deuxième supercalculateur le plus puissant au monde ?
Meta compare son supercalculateur dans sa configuration actuelle au Pelmutter du ministère américain de l’énergie, qui pointe à la cinquième place du dernier Top 500 avec une puissance de calcul de 70 petaflops (1 petaflops vaut 1 million de milliards d’opérations en virgule flottante) selon le référentiel Linpack utilisé pour le classement. A son achèvement, sa puissance de calcul selon ce référentiel devrait grimper à 184 petaflops, ce qui en ferait le deuxième supercalculateur le plus puissant de la planète derrière l’indétrônable Fugaku japonais avec ses 442 petaflops. C’est impressionnant mais cela reste loin, très loin du chiffre en exaflops revendiqué par Meta.
Pour l’ex-Facebook, ce nouveau supercalculateur constitue néanmoins une grande avancée par rapport à l’ancienne machine à la même architecture avec des processeurs graphiques V100 de Nvidia mise en service en 2017. Les premiers travaux montrent un gain d’un facteur 20 dans le temps d’exécution des modèles de vision par ordinateur et trois dans les modèles de traitement de la parole en langage naturel. «Cela signifie que l’entraînement d’un modèle d’intelligence artificielle à des dizaines de milliards de paramètres peut se faire maintenant en trois semaines, contre neuf semaines auparavant», avance l’entreprise californienne.
Alors pourquoi Meta ne va pas au-delà des 16 000 processeurs graphiques pour flirter vraiment avec l’exaflops ? «Ce n’est pas une question de coût, pense Christophe Calvin. Cela n’est pas un problème pour Meta. C’est probablement pour des contraintes techniques de consommation d’énergie et de refroidissement. Déjà avec 16 000 processeurs, Meta et Penguin Computing ont dû se creuser la tête pour trouver le moyen de bien refroidir la machine.» Mais cela, Meta n’en dit rien.



