Les pénuries de puces Nvidia laissent les startups d’IA à la recherche de puissance de calcul
Fournisseurs de cloud computing sont très conscients que leurs clients ont du mal à obtenir de la capacité. La demande croissante a un peu pris l’industrie au dépourvu, déclare Chetan Kapoor, directeur de la gestion des produits chez AWS.
Le temps nécessaire pour acquérir et installer de nouveaux GPU dans leurs centres de données a mis les géants du cloud à la traîne, et les dispositions spécifiques les plus demandées ajoutent également du stress. Alors que la plupart des applications peuvent fonctionner à partir de processeurs faiblement répartis à travers le monde, la formation de programmes d’IA générative a tendance à donner de meilleurs résultats lorsque les GPU sont physiquement regroupés étroitement, parfois 10 000 puces à la fois. Cela limite la disponibilité comme jamais auparavant.
Kapoor affirme que le client typique d’AWS en matière d’IA générative accède à des centaines de GPU. « S’il y a une demande d’un client particulier qui a besoin de 1 000 GPU demain, il nous faudra un certain temps pour les intégrer », explique Kapoor. Mais s’ils sont flexibles, nous pouvons y arriver.
AWS a suggéré à ses clients d’adopter des services personnalisés plus coûteux via son offre Bedrock, où les besoins en puces sont intégrés dans l’offre sans que les clients n’aient à s’inquiéter. Les clients pourraient également essayer les puces d’IA uniques d’AWS, Trainium et Inferentia, qui ont enregistré une augmentation indéterminée de leur adoption, explique Kapoor. La mise à niveau des programmes pour fonctionner sur ces puces au lieu des options Nvidia a toujours été une corvée, bien que Kapoor affirme que passer à Trainium ne nécessite désormais que la modification de deux lignes de code logiciel dans certains cas.
Les défis sont nombreux ailleurs également. Google Cloud n’a pas été en mesure de répondre à la demande pour son équivalent GPU local, connu sous le nom de TPU, selon un employé non autorisé à parler aux médias. Un porte-parole n’a pas répondu à une demande de commentaire. L’unité cloud Azure de Microsoft a proposé des remboursements aux clients qui n’utilisent pas les GPU qu’ils ont réservés, a rapporté l’information en avril. Microsoft a refusé de commenter.
Les sociétés cloud préféreraient que les clients réservent leur capacité sur plusieurs mois, voire plusieurs années, afin que ces fournisseurs puissent mieux planifier leurs propres achats et installations de GPU. Mais les startups, qui ont généralement peu de liquidités et des besoins intermittents pour trier leurs produits, sont réticentes à s’engager, préférant les plans d’achat à l’usage. Cela a conduit à une augmentation des activités des fournisseurs de cloud alternatifs, tels que Lambda Labs et CoreWeave, qui ont récolté à eux deux près de 500 millions de dollars auprès des investisseurs cette année. Astria, la startup génératrice d’images, fait partie de leurs clients.
AWS n’est pas vraiment content de perdre face aux nouveaux entrants sur le marché, et envisage donc des options supplémentaires. Nous réfléchissons à différentes solutions à court et à long terme pour offrir l’expérience recherchée par nos clients, dit Kapoor, refusant de donner plus de détails.
Les pénuries chez les fournisseurs de cloud se répercutent sur leurs clients, parmi lesquels figurent de grands noms de la technologie. La plateforme de médias sociaux Pinterest étend son utilisation de l’IA pour mieux servir les utilisateurs et les annonceurs, selon le directeur de la technologie Jeremy King. L’entreprise envisage d’utiliser les nouvelles puces d’Amazon. Nous avons besoin de plus de GPU, comme tout le monde, dit King. La pénurie de puces est une réalité.