Ce qu’il reste à gagner côté datacenters
⏱ 5 minCes ordinateurs et baies de stockage sont déjà particulièrement optimisés. De fait, gestionnaires de l’infrastructure et utilisateurs (entreprises ou chercheurs) ont tout intérêt à favoriser les économies d’énergie : les premiers pour diminuer leur facture d’électricité, les seconds celle due au datacenter. Si les améliorations sont d’abord venues du côté matériel, elles concernent désormais aussi le logiciel.
On distingue les datacenters où sont traitées et stockées les données des entreprises des centres de calcul intensif (ou HPC pour High Performance Computing), ces datacenters dédiés à la simulation numérique. « Les développements matériels et logiciels pour l’optimisation énergétique sont néanmoins comparables car les économies en jeu sont les mêmes,fait remarquer Hervé Lozach, responsable du complexe de calcul du CEA. La principale différence est que nos 3 centres de calcul (TERACe centre de calcul est dédié aux applications militaires, CCRTLe Centre de calcul recherche et technologies (CCRT) est en partenariat avec des industriels, TGCCCe centre de calcul héberge la contribution française à l’infrastructure de recherche européenne Prace) tournent en continu, 24h/24, 7 jours/7 avec un taux de remplissage entre 80 et 100 %. Nous n’avons pas vraiment les problématiques de charge d’utilisation variable des datacenters du cloud. »
Limiter la consommation d’énergie et de calculs
Les datacenters accaparent environ 3 % de l’électricité mondiale. Même s’ils ne sont pas en première ligne, leur consommation énergétique est pointée du doigtVoir cette étude de fin 2016 sur l’efficacité énergétique des datacenters en France ainsi le guide sur le cloud computing. depuis une dizaine d’années. « Il faut dire que leur puissance est multipliée par 3 à chaque nouvelle génération de machines, précise Hervé Lozach. Au CEA, on est passé de machines de 600 kW à 1,5 MW puis 5 MW en 2010 et probablement 12 MW pour la prochaine. Et les plus voraces au monde ont des puissances installées entre 15 et 30 MW. Nous faisons de gros efforts de R&D pour maitriser cette augmentation depuis les années 2000, notamment avec Atos. »
Aujourd’hui, les marges de gain en matière de consommation énergétique, concernent surtout la réduction du gaspillage des ressources en énergie et en calcul. Côté énergie, il s’agit de limiter les besoins en climatisation ou de récupérer l’énergie puisque toute l’électricité consommée par les processeurs est dissipée en chaleur. Côté architecture de calcul, deux contextes se développent : la virtualisation surtout adaptée au cloud où les ressources de calcul et/ou de stockage sont allouées dans des machines virtuelles pilotées par un hyperviseurUn hyperviseur est une plate-forme de virtualisation qui permet à plusieurs systèmes d’exploitation de travailler sur une même machine physique en même temps et la physicalisation où des milliers de microserveurs sont regroupés et activés selon les besoins. « Mais c’est avant tout la conception fonctionnelle et le choix des algos qui comptent le plus en termes d’impact énergétique », rappelle Frédéric Bordage, consultant en écoconception de services numériques et créateur du site GreenIT.fr (voir article « L’impact énergétique du numérique » de notre dossier).
Refroidir… sinon chauffer alentour
Quelles sont les solutions ? On mesure généralement l’efficience d’un datacenter par le biais d’une métrique baptisée Power Usage Effectiveness (PUE). C’est le ratio entre la consommation totale d’énergie d’un datacenter et celle des machines qu’il héberge. L’idée générale est de transporter la chaleur produite par les processeurs soit avec de l’air (free cooling), d’où les installations de datacenters dans le grand Nord où l’air froid est gratuit (comme celui de Facebook en Suède, près du cercle arctique), soit avec un fluide caloporteur, en général de l’eau (free chilling). Après avoir compartimenté les bâtiments en allées chaudes et allées froides où est envoyé de l’air froid produit à partir d’eau glacée (à 8 °C), on a équipé les racks informatiques de portes froides dans lesquelles circule directement l’eau glacée.
« Depuis 5 ans, c’est au niveau de la carte informatique elle-même que l’on fait circuler le liquide de refroidissement dans une plaque froide, un design spécifique pour le HPC, explique Hervé Lozach. Au lieu d’une eau à 8 °C, on utilise désormais une eau à 35 °C (qui rafraichit les équipements à 45 °C, ce qui est largement suffisant pour un bon fonctionnement). On évite ainsi la consommation due à la production d’eau froide. Cela nous a permis de passer d’un PUE de 1,7 (soit 70 % de surconsonsommation énergétique) à 1,4 puis 1,2. » On parle de refroidissement à l’eau tempérée. Atos, HP, Cray, IBM, etc. utilisent ce même genre de solutions. Certains tentent de climatiser avec de l’eau de mer ou puisée dans un lac voisin voire dans une nappe phréatique.
« Il sera difficile de descendre en dessous d’un PUE de 1,1 à 1,15, soit 10 à 15 % de surconsommation, poursuit-il. Au-delà, c’est en chauffant nos propres bâtiments au lieu d’évacuer la chaleur dans des tours aéroréfrigérantes que nous valorisons ces calories. » L’université de Bourgogne ou Air France en région Provence-Alpes-Côte d’Azur font de même, l’idéal étant quand le même acteur exploite le datacenter et le système de chauffage. Le chauffage de bâtiments attenants ou la production d’eau chaude sanitaire ont d’ailleurs clairement le vent en poupe. Des entreprises françaises font figure de pionnières comme Qarnot Computing avec ses radiateurs-ordinateurs qui calculent en chauffant des HLM parisiens ou ses crypto-radiateurs qui « minent » les bitcoins (voir article « L’impact énergétique du numérique » de notre dossier) ou Stimergy et ses chaudières numériques qui produisent de l’eau chaude sanitaire pour chauffer des immeubles ou la piscine parisienne de la Butte aux Cailles.
Eteindre ou consolider
Des économies sont aussi possibles selon le profil de charge. On peut par exemple éteindre les serveurs inactifs, peu sollicités la nuit dans les infrastructures du cloud surdimensionnées pour absorber les pics d’afflux de données. « Les processeurs ont été largement optimisés en termes de consommation et l’intérêt d’éteindre les cœurs dépend vraiment du profil de charge, explique Hervé Lozach. C’est rarement nécessaire sur nos machines HPC. Nous avons surtout développé des outils d’optimisation logicielle, comme des gestionnaires de ressources, qui répartissent les calculs sur les milliers de serveurs. Ces logiciels sont assez spécifiques à nos architectures parallèles. Ils analysent la consommation énergétique des calculs et transmettent l’information aux utilisateurs dans le but de diminuer leurs temps de calcul ou d’optimiser l’équilibrage de la simulation numérique sur les différents cœurs. Ils permettent également, le cas échéant, d’éteindre ceux qui ne seraient pas utilisés ou de les passer en mode basse consommation. » Des recherches sont également en cours avec Atos sur de nouveaux calculateurs capables de faire une mesure en temps réel de la consommation d’un algorithme selon la façon de faire le calcul. Encore 5 à 10 % à grappiller sur certains algos notamment en évitant de faire tourner processeurs et mémoires à haute fréquence -ce qui est plus énergivore- lors de certaines phases de traitement.
« L’efficience logicielle s’étend désormais aux serveurs car les datacenters sont des points de concentrations des consommations », confirme Romain Rouvoy, professeur à l’université de Lille 1 et chercheur chez Inria. Il s’intéresse notamment au pilotage des datacenters d’un cloud dont la part de logiciel ne cesse de croître, tant pour la partie serveurs, que le stockage et le réseau (on parle de Software-Defined Datacenter). « Avec la croissance des services numériques, la virtualisation s’est développée pour favoriser la modularité, cela permet d’allouer une machine en quelques secondes ou minutes. Les problématiques d’efficacité énergétiques sont arrivées ensuite, rappelle Romain Rouvoy. Quand toutes les ressources sont allouées, même si elles ne sont pas utilisées, pour le moment, la seule solution est d’installer de nouvelles machines. Dans le cadre d’une équipe mixte créée avec la société Scalair, qui opère un datacenter dans le nord de la France, nous cherchons par exemple à détecter les sources de gaspillage et apprendre les périodes d’utilisation des machines, pour mieux recycler et optimiser les ressources physiques sans dégrader les performances d’un datacenter. »
« On peut aussi regrouper des services sur un minimum de machines pour en arrêter d’autres (par des techniques dites de consolidation) sans impacter la qualité de service, poursuit-il. On joue alors sur l’ACPI (Advanced Configuration and Power Interface) pour éteindre et allumer les machines à distance. » C’est ce que propose par exemple Easyvirt, une startup française, en mesurant les consommations des machines virtuelles. « Un autre levier est de faire en sorte que toutes les ressources (processeurs, mémoire, réseau, disque) soient utilisées au maximum de leur capacité, ajoute-t-il. Pour cela, nous reconstituons les profils d’utilisation des logiciels en termes d’utilisations des ressources pour mieux réordonnancer les tâches logicielles. » Selon lui, les verrous actuels ne sont pas uniquement matériels ou logiciels mais aussi humains, les administrateurs de datacenters ayant du mal à céder la main à des algorithmes, et la légende persistant selon laquelle ces optimisations pourraient impacter performances et disponibilité.
Isabelle Bellin