À l’ISC, les leaders de l’informatique durable discutent du carrefour énergétique du HPC

Ce dont le HPC durable a besoin (et ce dont il n’a pas besoin)

Au cours des dernières décennies, notre communauté s’est concentrée sur les flops par watt et le PUE en supposant que la réduction des watts est le moyen de réduire les émissions de CO2, a déclaré Grimshaw. En même temps, a-t-il expliqué, il y avait un point d’inflexion dans le monde de l’énergie, avec de l’énergie éolienne et solaire incroyablement bon marché à certains endroits. Mais, bien sûr, ces énergies renouvelables ont des problèmes : à savoir la variabilité et une congestion moins visible. La société Grimshaws, Lancium, exploite ces problèmes en construisant des campus propres où les énergies renouvelables sont abondantes et encombrées, permettant aux clients HPC d’exécuter leurs charges de travail sur un réseau entièrement renouvelable et à très faible coût. Les clients peuvent même choisir de suspendre leurs charges de travail lorsque les ressources sont moins disponibles, ce qui permet d’économiser davantage sur les coûts et le carbone.

Si vous y réfléchissez, il existe de nombreuses applications de calcul, en particulier dans HPC et HTC où il n’y a vraiment pas d’humains dans la boucle, donc si l’application est mise en pause pendant une heure ou peut-être une demi-journée, ce n’est pas la fin du monde, dit Grimshaw.

Huffstetler a accepté, soulignant un problème adjacent où un serveur haute puissance pourrait ne pas être pleinement utilisé par ses charges de travail disponibles qui pourraient être suspendues. Si vous allumez un serveur et qu’il n’est pas utilisé, a déclaré Huffstetler, vous pouvez éteindre le serveur et le réveiller si nécessaire. Donc [were] commencer vraiment à penser à quelles charges de travail peuvent gérer cela, par rapport à cette mentalité toujours active, tout le temps que nous avions.

Je pense que nous pouvons tous convenir que toutes les charges de travail HPC ne sont pas identiques, a déclaré Grimshaw.

Thibault a déclaré qu’eux aussi avaient remarqué une augmentation des charges de travail qui ne sont pas sensibles à la latence, comme les modèles HPC à grande échelle et la formation à l’IA.

Si le modèle fonctionne pendant 24 heures, si la latence est de 60 ms, ce sera 24 heures et 60 millisecondes au lieu de 24 heures et 2 millisecondes, a déclaré Thibault. Cela signifie que vous devez localiser ces charges de travail là où l’énergie est 100 % renouvelable et le climat est aussi froid que possible.

Les choses que les fournisseurs de matériel peuvent faire pour nous le plus efficacement sont : nous donner la possibilité de démarrer et de désamorcer rapidement les machines, a ajouté Grimshaw, car nous voulons essentiellement les faire passer d’un état de fonctionnement à un état de non-exécution. Grimshaw a souligné qu’un serveur inactif peut consommer 65 W, ce qui ne ressemble pas à beaucoup de puissance tant que vous ne le multipliez pas par 10 000, et que les GPU en particulier démarrent très lentement.

Thibault a adopté une perspective différente. Si vous avez un GPU à 40 000 $ ou un CPU à 10 000 $, nos clients veulent les faire fonctionner à fond, 24 heures sur 24, 7 jours sur 7, 365 jours par an, a-t-il déclaré, soulignant que pour une puce comme celle-là, le coût d’alimentation pendant toute sa durée de vie, cela pourrait ne représenter qu’une petite fraction de son coût en capital.

Pour sa part, Thibault a déclaré que la chose dont QScale avait le plus besoin de la part des fournisseurs de matériel était des progrès dans le refroidissement liquide, un élément qui avait été mentionné par Huffstetler plus tôt dans la conférence. Thibault a expliqué qu’à mesure que les transistors rétrécissaient, les fuites de tension augmentaient, de sorte que la consommation d’énergie des puces augmentait de manière exponentielle. Et avec les GPU dépassant l’enveloppe de 1 kW, le problème était de plus en plus urgent. Ce qui, à mon avis, sera un grand, grand changement, c’est si nous pouvons passer au refroidissement par eau chaude, a déclaré Thibault.

Huffstetler a convenu qu’il était crucial d’examiner la consommation d’énergie globale du centre de données dans son ensemble, ce qu’elle a dit qu’Intel avait fait en partenariat avec QScale et d’autres. Il ne s’agit pas seulement d’examiner l’efficacité énergétique ou les performances par watt du processeur ou du GPU, mais également la puissance au niveau du système, la puissance requise pour le refroidissement dans le centre de données, qui peut parfois représenter jusqu’à 40 % de la consommation énergétique du centre de données.

Huffstetler a également déclaré que le logiciel pourrait être d’une aide considérable pour ne laisser aucun transistor derrière lui, ajoutant qu’Intel avait constaté des améliorations de l’efficacité énergétique allant jusqu’à 100 grâce à la co-optimisation.

De plus, les acteurs du matériel peuvent réfléchir à la manière dont ils fournissent plus de granularité sur ce qui se passe réellement sur la plate-forme elle-même, a déclaré Huffstetler. Donc : un logiciel de gestion qui permet la surveillance, l’analyse et même le contrôle des émissions en prévoyant les émissions de carbone, l’espace et les besoins énergétiques futurs, en surveillant l’appareil et la consommation d’énergie du centre de données. Huffstetler a également mentionné la télémétrie avancée ajoutée aux puces Intel qui permettrait la surveillance et la gestion des processus au niveau du système, permettant des choses comme les charges de travail sensibles au carbone.

Accroître l’attractivité de la colocation renouvelable

Généralement, nous entendons de l’appréhension lorsque nous entendons des utilisateurs HPC parler de déplacer l’informatique hors site et de colocaliser avec des énergies renouvelables par le biais de fournisseurs tels que Lancium et QScale : de nombreux utilisateurs HPC sont habitués à avoir un accès direct à leurs systèmes et à des recherches sensibles (par exemple, médecine, sécurité, secrets d’entreprise), il peut y avoir de sérieuses inquiétudes quant à la souveraineté et à la sécurité des données.

Thibault a déclaré que répondre à ces préoccupations était une question à laquelle ils étaient confrontés quotidiennement chez QScale, mais a ramené la question à ses fondamentaux en expliquant comment les banques new-yorkaises ont lentement expulsé leurs opérations HPC de Manhattan en raison de besoins technologiques en hausse, puis en énergie. Lorsque vous passez d’un système qui consomme 1 MW d’énergie à quelque chose qui consomme 15 MW d’énergie, laissez-moi vous dire : la mise à niveau du siège social à Manhattan sera impossible, a déclaré Thibault.

Certaines organisations, a déclaré Thibault, comme le ministère de la Défense, ne pouvaient vraiment pas déplacer les charges de travail, mais la plupart des organisations n’étaient pas le DOD, et il a déclaré que le coût total de l’hébergement chez QScale était souvent inférieur au coût de l’énergie pour ces charges de travail dans des endroits comme l’Allemagne. .

Combien d’entre nous ont des amis en Europe qui dirigent des centres de calcul intensif et qui, même s’ils voulaient construire, n’ont pas le pouvoir de le faire ? Grimshaw a accepté, affirmant que la gestion à distance était de plus en plus la norme plutôt que l’exception.

Huffstetler a ajouté que l’état de la sécurité et de la confiance évoluait et que la colocation devenait non seulement plus rentable, mais que des entreprises comme Intel fournissaient également de nombreux nouveaux outils (comme Project Amber) pour aider à renforcer la confiance des utilisateurs.

La réutilisation de la chaleur était également un sujet brûlant (compris ?) pendant le panel. Comme mentionné ci-dessus, QScale prévoit une réutilisation massive de la chaleur en partenariat avec des serres à l’échelle industrielle qui, au Québec, ont besoin d’être considérablement chauffées pendant les hivers longs et rigoureux. Nous croyons que le nuage se transforme en smog, et notre objectif est de transformer le smog en tomates, a plaisanté Thibault.

Vus du toit du premier centre de données de QScale, des serres à l’échelle industrielle brillent au loin.

Huffstetler a déclaré qu’elle était entièrement alignée sur QScale sur la réutilisation de la chaleur, ajoutant que c’était ainsi que nous allions redonner aux communautés locales partout où ces centres de données sont construits ; Thibault a répondu que la réutilisation de la chaleur était un point clé pour obtenir l’adhésion de la communauté.

J’espère que nous passerons bien de l’utilisation du PUE comme facteur d’efficacité à l’ERE, qui est l’efficacité énergétique récréative, donc la quantité de chaleur produite par l’ordinateur que nous pouvons réutiliser efficacement, a ajouté Thibault.

Une voie cohérente à suivre ?

Vers la fin de la session, Thibault a profité de l’occasion pour présenter sa vision d’un pipeline HPC plus durable.

La façon dont j’espère que le monde va aller de l’avant, c’est que nous avons l’équipement le plus récent et le plus performant qui fonctionne dans des installations comme QScale pendant une période de deux, trois, quatre ans peut-être, a-t-il déclaré. Et après cela, le matériel est remplacé et au lieu de se déplacer vers un site de décharge, il pourrait être réutilisé dans un site comme Lanciums où le coût de l’énergie sera pratiquement nul pour le faire fonctionner.

Nous savons qu’il y a des utilisateurs, principalement dans le milieu de la recherche, où ils ont plus de temps, [but] ils ont moins de ressources, a-t-il poursuivi. Comment donnons-nous réellement ces ressources à ces personnes?

Les citations de cet article sont extraites de l’événement spécial ISC HPC’s Energy Crossroads: The Roles of Hardware, Software and Location in Low-Carbon HPC. La session complète est disponible exclusivement via la plateforme numérique ISC.

www.actusduweb.com

Suivez Actusduweb sur Google News