Le refroidissement par immersion dunks les serveurs pour couper l’alimentation
L’électronique et les fluides ne font généralement pas bon ménage. Mais des équipes de différents coins du monde montrent que l’immersion des équipements des centres de données dans des fluides spécialisés pourrait être le meilleur moyen de les garder au frais.
Les ordinateurs peuvent tomber en panne s’ils deviennent trop chauds, c’est pourquoi ils utilisent souvent des ventilateurs gourmands en énergie pour les refroidir. Récemment, des ingénieurs ont déployé des moyens de refroidir les supercalculateurs en faisant circuler de l’eau dans des tuyaux à proximité des processeurs. Les fluides sont beaucoup plus denses que l’air, ce qui les rend plus efficaces pour évacuer la chaleur des ordinateurs. Cette efficacité est de plus en plus importante : une étude de 2023 révèle que l’énergie nécessaire pour empêcher la surchauffe des serveurs des centres de données représente 30 à 40 % de l’énergie totale consommée par les centres de données.
Cependant, le refroidissement par eau est confronté à ses propres problèmes. L’eau transportant la chaleur des ordinateurs est généralement acheminée vers les tours de refroidissement. Là, sa chaleur convertit une réserve d’eau séparée en brouillard qui s’évapore dans l’atmosphère. En 2022, les centres de données de Google ont consommé environ 19 milliards de litres d’eau douce pour leur refroidissement.
Aujourd’hui, deux résultats distincts consistent à utiliser une technologie différente pour le refroidissement par immersion cartographique ou à tremper des centres de données entiers dans le pétrole. L’huile est non conductrice et non corrosive, de sorte qu’elle peut être en contact direct avec les composants électroniques sans les court-circuiter ni les endommager. La technologie a le potentiel de réduire de moitié la consommation d’énergie, déclare Oliver Curtis, co-PDG de la société de centres de données refroidis par immersion Sustainable Metal Cloud.
Nous avons prouvé que vous pouvez obtenir le même niveau de performance, mais pour la moitié de la quantité d’énergie, et si vous pouvez y parvenir, il est de notre responsabilité sociale de faire proliférer cette technologie, déclare Curtis.
Tremper une usine d’IA
Hier, le concours de formation MLPerf AI a annoncé une nouvelle référence en matière de consommation d’énergie. Comme son nom l’indique, il mesure la puissance consommée par chaque machine de soumission lors de l’exécution de chacun de ses autres tests, tels que la formation d’un grand modèle de langage ou d’un moteur de recommandation. Cette nouvelle catégorie ne comptait qu’une seule organisation candidate, Sustainable Metal Cloud (SMC), basée à Singapour.
SMC cherchait à montrer les gains d’efficacité résultant de son système de refroidissement par immersion. Le fluide du système est une huile appelée polyalphaoléfine, qui est un lubrifiant automobile couramment utilisé. L’huile est forcée lentement à travers les serveurs immergés, permettant un transfert de chaleur efficace.
L’équipe SMC a identifié les modifications à apporter aux serveurs pour les rendre compatibles à long terme avec ce mode de refroidissement. Au-delà du retrait des ventilateurs intégrés, ils remplacent les matériaux d’interface thermique qui relient les puces à leurs dissipateurs thermiques, car certains de ces matériaux se dégradent dans l’huile. Curtis affirme que les modifications qu’ils apportent sont minimes mais importantes pour le fonctionnement de leur configuration.
Ce que nous avons fait là-bas, c’est créer l’environnement d’exploitation parfait pour un ordinateur, explique Curtis. Il n’y a pas de poussière, pas de mouvement, pas de vibration, car il n’y a pas de ventilateurs. Et c’est une température de fonctionnement parfaite.
Les systèmes SMC, appelés HyperCubes, sont constitués de 12 ou 16 réservoirs de pétrole, chacun abritant un serveur. Les serveurs sont connectés les uns aux autres entre les réservoirs via des interconnexions ordinaires, sortant en boucle du pétrole d’un réservoir et entrant dans le réservoir adjacent. Curtis affirme que cette approche permet d’économiser 20 à 30 % de la consommation totale d’énergie au niveau du serveur.
De plus, SMC construit des systèmes d’échange de chaleur sur l’ensemble du site, un pour chaque HyperCube. Dans un centre de données traditionnel, en plus des ventilateurs directement connectés aux serveurs, une climatisation centralisée est nécessaire pour maintenir les serveurs au frais. Curtis affirme que l’échangeur de chaleur au niveau du système fait le travail de climatisation plus efficacement, permettant une réduction supplémentaire de 20 % de la consommation d’énergie.
SMC appelle ses HyperCubes combinés et ses échangeurs de chaleur dédiés AI Factories. La société a déployé son premier HyperCube en Tasmanie en 2019, puis en a construit et livré plus de 14 autres en Australie. En 2022, SMC a installé sa première AI Factory à Singapour, accessible via le cloud pour une utilisation commerciale en Asie.
Référence | SMC Énergie (kJ) |
SMC Il est temps de s’entraîner | Meilleur moment pour s’entraîner |
Traitement du langage naturel | 1 793 | 5.39 | 5.31 (Supermicro) |
Systèmes de recommandation | 1 266 | 3,84 | 3,84 (SMC) |
GPT-3 | 1 676 757 | 56,87 | 50.73 (Nvidia) |
Reconnaissance d’images | 7 757 | 2,55 | 2.49 (Oracle) |
Détection d’objet | 21 493 | 6.31 | 6.08 (Nvidia) |
L’imagerie médicale | 5 915 | 1,83 | 1,83 (CMS) |
Étant donné que SMC a été la seule entreprise à entrer dans la nouvelle catégorie énergétique de MLPerf, il est difficile de valider ses allégations exactes en matière d’économie d’énergie. Cependant, les performances de sa plate-forme sur divers benchmarks étaient comparables à celles de concurrents comparables, c’est-à-dire d’autres systèmes qui, comme SMC, utilisent les GPU Nvidias H100 dans les mêmes proportions. Et ses résultats énergétiques sont désormais disponibles comme un défi, lancé aux autres entreprises.
Rechercher du pétrole pour le froid
Par ailleurs, les laboratoires nationaux Sandia, au Nouveau-Mexique, testent le refroidissement par immersion dans le but de fournir une évaluation indépendante et accessible au public. Jusqu’à présent, le refroidissement par immersion présente de nombreux avantages, et il est très difficile pour moi de voir les inconvénients qui pourraient m’orienter vers d’autres technologies, déclare Dave Martinez, chef de projet du programme d’ingénierie pour les services informatiques d’infrastructure de Sandias.
Le liquide utilisé par Sandia provient de Submer Technologies à Barcelone. Il s’agit d’un fluide synthétique, biodégradable, non toxique, ininflammable et non corrosif, fabriqué à partir de composants de qualité alimentaire. Le fluide a une conductivité électrique 1/8ème de celle de l’air et a à peu près la viscosité de l’huile de cuisson, explique Martinez.
Lors de tests, Sandia place des racks d’ordinateurs et de serveurs entiers et leurs câbles d’alimentation dans des réservoirs d’immersion chargés de fluide. Cette stratégie vise à capter toute la chaleur générée par l’électronique pour assurer un refroidissement uniforme. Le liquide de refroidissement cède sa chaleur à l’air libre, compte tenu de la bonne différence de température.
Selon Submer, son système de refroidissement par immersion est 95 % plus efficace que les technologies de refroidissement traditionnelles. Martinez suggère que cela pourrait réduire la consommation d’énergie de 70 pour cent par rapport aux méthodes standard. De plus, une fois que le liquide de refroidissement a absorbé la chaleur, il peut être utilisé pour réchauffer les bâtiments pendant les mois d’hiver, explique-t-il.
Lorsqu’il s’agit de remplacer un composant, par exemple, une puce sur une carte d’un système de portique au-dessus du réservoir peut soulever un rack de serveur. Nous le laissons simplement s’égoutter jusqu’à ce qu’il ne reste plus d’huile, dit Martinez. Nous devrons peut-être tout nettoyer un tout petit peu, pas beaucoup. C’est juste une étape de plus qu’un système normal. Mais mon hypothèse est que le taux de défaillance de ces pièces diminuera considérablement car le refroidissement est plus efficace qu’un système basé sur un ventilateur.
En partenariat avec Adacen, société de données basée à Albuquerque, Martinez et ses collègues ont commencé à tester les fluides et les équipements Submers en mai.
À l’heure actuelle, nous voyons beaucoup plus d’avantages que d’inconvénients, dit Martinez. Il ne s’agit pas seulement de l’énergie économisée, qui est assez énorme. Sans tous les ventilateurs, il n’y a pratiquement aucun bruit non plus. Vous ne savez peut-être même pas qu’il existe un centre de données là-bas.
Les tests Sandias consistent à vérifier les températures à l’intérieur et à l’extérieur du réservoir d’immersion, à mesurer la quantité d’énergie nécessaire au refroidissement, la fiabilité du matériel, à examiner si certains modèles de flux de liquide de refroidissement fonctionnent mieux que d’autres, à calculer les coûts d’infrastructure et à déterminer la meilleure façon d’utiliser les ventilateurs. ou de l’eau pour éliminer la chaleur dégagée par le liquide de refroidissement. Le laboratoire prévoit également d’overclocker les ordinateurs et de voir dans quelle mesure le liquide de refroidissement pourrait améliorer les performances sans endommager l’électronique, explique Martinez.
Submer note qu’il existe des défis potentiels auxquels son liquide de refroidissement est confronté. Par exemple, les composés plastifiants contenus dans les câbles en PVC peuvent s’infiltrer dans le liquide de refroidissement, rendant potentiellement les câbles plus rigides et cassants. Cependant, l’entreprise note que les câbles dont la gaine extérieure est constituée de matériaux comme la résine polyuréthane ne présentent pas ce problème.
Sandia prévoit de terminer ses tests en juillet et de rédiger ses résultats en août. Sandia explore à quoi ressemblera notre prochain centre de données, et le refroidissement par immersion pourrait jouer un rôle, explique Martinez. À l’heure actuelle, cela s’annonce plutôt bien en tant que joueur pour notre avenir.