Les supercalculateurs prennent le virage de la convergence HPC-IA
⏱ 5 minTout en répondant aux besoins classiques en calcul intensif, un nombre croissant de supercalculateurs s’adaptent aux besoins de l’IA.
Depuis 2019, c’est officiel, la communauté scientifique française dispose d’un supercalculateur « convergé », selon la terminologie officielle, c’est-à-dire répondant aux besoins non seulement des applications gourmandes en puissance de calcul « classiques », mais aussi de celles de l’intelligence artificielle. Comme nous l’expliquions dans un article précédent, l’équipement Jean Zay de GENCI (Grand Équipement National de Calcul Intensif), réalisé par HPE (Hewlett Packard Enterprise) et installé à l’IDRIS (Institut du Développement et des Ressources en Informatique Scientifique), qui dépend du CNRS, devrait s’étoffer en février 2022 d’une nouvelle extension majeure consistant en 52 nœuds supplémentaires « octo-GPU », en l’occurrence des Nvidia A100.
Un second équipement de calcul intensif également doté d’accélérateurs GPU sera prochainement mis à la disposition de la communauté scientifique française. Stéphane Requena, le directeur technique et innovation de GENCI, précise : « Au printemps 2022 commencera l’installation au CINES, le Centre Informatique National de l’Enseignement Supérieur, à Montpellier, d’un nouveau supercalculateur, nommé Adastra, qui doit offrir à terme une puissance crête (théorique) de plus de 70 pétaflops (millions de milliards d’opérations en virgule flottante par seconde). Réalisé par HPE et AMD, il comportera des nœuds accélérés par des GPU Instinct MI250X d’AMD, conçus pour la simulation numérique et pour le deep learning. »
VERS UN EXASCALE EUROPÉEN
La disponibilité pour la communauté scientifique de moyens de calcul de classe mondiale est un enjeu stratégique auquel il est difficile de répondre pour un pays de taille moyenne. C’est pourquoi les pays de l’UE ont lancé en 2018 le European High Performance Computing Joint Undertaking (EuroHPC JU), un effort conjoint de l’Union européenne et de 32 pays pour établir un écosystème de calcul intensif en Europe, doublé d’un ambitieux programme de R&D sur la technologie HPC. L’un des premiers efforts concrets de EuroHPC consiste à installer début 2022 trois premiers supercalculateurs « pré-exascale » : LUMI (375 Pflops) à Kajaani (Finlande), Leonardo (250 Pflops) à Bologne et MareNostrum 5 (au moins 205 Pflops) à venir, à Barcelone. Leonardo comportera une partition accélérée à l’aide de GPU Nvidia, et Lumi comportera des GPU Instinct MI250X d’AMD. L’architecture de MareNostrum 5 est encore en discussion.
Mais bien sûr, l’effort concret le plus attendu de la part de EuroHPC est l’installation en Europe d’un premier supercalculateur dont la puissance passera la barre symbolique de l’exaflops, soit un milliard de milliards d’opérations, en virgule flottante, par seconde. En l’occurrence, EuroHPC doit prochainement sélectionner les deux pays qui vont héberger chacun un système exascale, en 2023 et 2024. On pense bien sûr à l’Allemagne et à la France. Une fois ces pays désignés, EuroHPC lancera un appel d’offres pour acquérir ces deux équipements. Des appels d’offres compétitifs et ouverts, même si EuroHPC souhaite intégrer des technologies européennes. « On peut espérer que l’un de ces systèmes au moins fasse appel, pour la partie CPU, au microprocesseur européen issu de l’EPI (European Processor Initiative) et développé par la société SiPearl, reposant sur l’architecture ARM et gravé par le fondeur taiwanais TSMC, précise Stéphane Requena. Les accélérateurs GPU devront être fortement couplés aux CPU hôtes, en ce sens la récente annonce entre SiPearl et Intel autour de la technologie Ponte Vecchio va dans le bon sens.. » Ponte Vecchio est un impressionnant module regroupant 47 puces nues, ou chiplets, interconnectées directement sur un support en silicium et totalisant quelque cent milliards de transistors.
La convergence HPC-IA est en route au niveau international et concerne une proportion croissante des grands équipements de calcul. Mais il y a des surprises. Au classement TOP500 des plus puissants supercalculateurs, on trouve en première place le système japonais Fugaku (installé à Kobe), qui affiche une puissance de 442 Pflops, sous la toise du benchmark Linpack. Trois fois plus puissant que son concurrent en deuxième position, il comporte quelque 7 630 848 cœurs. « Mais il ne fait pas appel à des accélérateurs GPU » note Stéphane Requena, contrairement aux engins présents sur les deux autres marches du podium : Summit (149 Pflops) et Sierra (95 Pflops), installés dans des laboratoires du DOE, le département de l’énergie états-unien (équivalent de notre CEA), à Oak Ridge (Tennessee) et Livermore (Californie). Ces derniers font appel à la technologie GPU de Nvidia. Le quatrième du classement est le premier supercalculateur chinois, Sunway TaihuLight, installé à Wuxi, province de Jiangsu, près de Shanghai. Il repose sur une architecture très homogène comportant un total de dix millions de cœurs répartis sur 40 960 puces CPU identiques de conception chinoise, abritant chacune 256 cœurs.
DES PUCES TOUJOURS PLUS AD HOC
Bien sûr, le GPU n’est pas l’alpha et l’oméga de l’accélération des applications relevant de l’apprentissage automatique. Des réponses encore plus ad hoc sont déjà disponibles, à commencer par ces « tensor cores » désormais présentes sur les puces de Nvidia. Les propositions de puces plus ou moins « neuromorphiques » se multiplient. Outre-Manche, par exemple, Graphcore propose ses IPU (pour « Intelligence Processing Unit », s’il vous plaît). Sa puce de deuxième génération, Colossus MK2 GC200, intègre près de 1500 cœurs sur une puce comportant 60 milliards de transistors. « Pourquoi pas intégrer des technologies comme celle de Graphcore sur un supercalculateur exascale européen », remarque Stéphane Requena.
Cette offre de puces pensées pour l’IA comporte même un champion toutes catégories avec le Wafer-Scale Engine de la start-up californienne Cerebras, que nous avons déjà présentée ici. La deuxième version de cette puce géante, comportant 2 600 milliards de transistors gravés sur une surface de silicium de 215 × 215 mm, offre quelque 850 000 cœurs. Cerebras ne vend pas la puce isolée mais la propose intégrée, avec son système de refroidissement et tout ce qu’il faut pour l’interfacer, dans un châssis standardisé. Ce mouton à mille pattes ne pouvait qu’attiser la curiosité dans les hauts lieux du HPC-IA. « Il y a déjà des systèmes Cerebras installés dans plusieurs centres de calcul intensif, notamment dans deux laboratoires du DOE, le Lawrence Livermore National Laboratory et le Argonne National Laboratory », souligne Stéphane Requena.
USA VS CHINE DANS LA DERNIÈRE LIGNE DROITE
Le mot d’ordre de la convergence HPC-IA plane évidemment sur les projets de supercalculateurs exascale en cours. Côté États-Unis, trois monstres sont attendus, comme d’habitude dans des laboratoires du DOE. Frontier, qui sera installé au Oak Ridge National Laboratory (Tennessee) et devrait offrir une puissance crête de 1,5 exaflops, sera équipé de CPU AMD Epyc de 3e génération et d’accélérateurs GPU AMD Instinct 250X. Aurora, l’équipement attendu dans l’Illinois au Argonne National Laboratory, sera de son côté tout Intel : CPU Xeon et GPU Ponte Vecchio. Sa puissance crête, selon Intel, pourrait atteindre les deux exaflops. Enfin, El Capitan, au Lawrence Livermore National Laboratory (Californie), dont la puissance crête devrait dépasser les deux exaflops, sera comme Frontier équipé de puces CPU et GPU d’origine AMD.
Mais dans la course à l’exascale, il faut compter avec la Chine, où, selon des observateurs patentés, la barre de l’exaflops aurait déjà été franchie en catimini, et des records chinois pourraient donc être homologués dès la prochaine édition du TOP 500 en juin 2022. « Trois équipements chinois visant l’exaflops sont attendus, indique Stéphane Requena. Il y a tout d’abord OceanLight, successeur de Sunway TaihuLight, qui serait déjà opérationnel et aurait démontré une puissance de 1,05 exaflops sur le test Linpack. Plus récemment, Tianhe-3 aurait été testé à 1,3 exaflops. En revanche, l’installation du supercalculateur Sugon, annoncé pour deux exaflops, serait retardée. » Cela pour cause d’embargo états-unien : il devait reposer sur une puce réalisée sous licence avec AMD… Sugon devait d’ailleurs comporter des accélérateurs GPU reposant sur la technologie du même AMD. De son côté, Tianhe-3 disposerait « d’accélérateurs matriciels » de fabrication chinoise (Matrix-2000) jouant un rôle comparable à des GPU. OceanLight semble en revanche être doté uniquement de CPU. D’une centaine de milliers de CPU, en l’occurrence, totalisant 40 millions de cœurs…
Les équipements de calcul intensif s’ouvrent donc progressivement aux applications de l’IA. Mais nous n’avons encore rien vu, car on annonce déjà l’irruption dans un avenir proche de l’intelligence artificielle… quantique ! Un tout autre sujet, qu’il nous faudra aborder un jour.
Pierre Vandeginste
Image en une : ORNL, ANL et LLNL