Nvidia domine le marché des puces IA, mais la concurrence est plus forte que jamais
Jensen Huang, co-fondateur et PDG de Nvidia Corp., lors de la Nvidia GPU Technology Conference (GTC) à San Jose, Californie, États-Unis, le mardi 19 mars 2024.
David Paul Morris | Bloomberg | Getty Images
Les fabricants de puces rivaux Intel et Advanced Micro Devices ont déclaré des marges brutes au dernier trimestre de 41 % et 47 %, respectivement.
La position de Nvidia sur le marché des puces IA a été décrite comme un fossé par certains experts. Ses unités de traitement graphique (GPU) IA phares, telles que le H100, associées au logiciel CUDA de la société, lui ont donné une telle longueur d’avance sur la concurrence que passer à une alternative peut sembler presque impensable.
Pourtant, le PDG de Nvidia, Jensen Huang, dont la valeur nette est passée de 3 milliards de dollars à environ 90 milliards de dollars au cours des cinq dernières années, s’est dit « inquiet et préoccupé » par la perte d’avantage de son entreprise de 31 ans. Il a reconnu lors d’une conférence à la fin de l’année dernière qu’il existe de nombreux concurrents puissants en plein essor.
« Je ne pense pas que les gens essaient de me mettre en faillite », a déclaré Huang en novembre. « Je sais probablement qu’ils essaient de le faire, donc c’est différent. »
Nvidia s’est engagé à publier une nouvelle architecture de puces IA chaque année, plutôt que tous les deux ans comme c’était le cas historiquement, et à proposer de nouveaux logiciels susceptibles d’ancrer plus profondément ses puces dans les logiciels d’IA.
Mais le GPU de Nvidia n’est pas le seul à pouvoir exécuter les calculs complexes qui sous-tendent l’IA générative. Si des puces moins puissantes peuvent faire le même travail, Huang pourrait être à juste titre paranoïaque.
La transition de la formation de modèles d’IA à ce qu’on appelle l’inférence ou le déploiement de modèles pourrait également donner aux entreprises la possibilité de remplacer les GPU de Nvidia, surtout s’ils sont moins chers à l’achat et à l’exploitation. La puce phare de Nvidia coûte environ 30 000 dollars ou plus, ce qui incite les clients à rechercher des alternatives.
« Nvidia adorerait en avoir 100%, mais les clients n’aimeraient pas que Nvidia en ait 100% », a déclaré Sid Sheth, co-fondateur du futur rival D-Matrix. « C’est tout simplement une trop grande opportunité. Ce serait trop malsain si une seule entreprise s’emparait de la totalité. »
Fondée en 2019, D-Matrix prévoit de lancer plus tard cette année une carte à semi-conducteurs pour serveurs visant à réduire le coût et la latence de l’exécution des modèles d’IA. L’entreprise a levé 110 millions de dollars en septembre.
Outre D-Matrix, des entreprises allant des sociétés multinationales aux startups naissantes se battent pour une part du marché des puces IA qui pourrait atteindre 400 milliards de dollars de ventes annuelles au cours des cinq prochaines années, selon les analystes du marché et AMD. Nvidia a généré environ 80 milliards de dollars de revenus au cours des quatre derniers trimestres, et Bank of America estime que la société a vendu 34,5 milliards de dollars de puces IA l’année dernière.
De nombreuses entreprises adoptant les GPU de Nvidia parient qu’une architecture différente ou certains compromis pourraient produire une meilleure puce pour des tâches particulières. Les fabricants d’appareils développent également une technologie qui pourrait finir par effectuer une grande partie du calcul pour l’IA qui se déroule actuellement dans de grands clusters basés sur GPU dans le cloud.
« Personne ne peut nier qu’aujourd’hui Nvidia est le matériel que vous souhaitez pour entraîner et exécuter des modèles d’IA », a déclaré à CNBC Fernando Vidal, co-fondateur de 3Fourteen Research. « Mais des progrès progressifs ont été réalisés pour uniformiser les règles du jeu, depuis les hyperscalers travaillant sur leurs propres puces jusqu’aux petites startups qui conçoivent leur propre silicium. »
Lisa Su, PDG d’AMD, souhaite que les investisseurs croient qu’il y a beaucoup de place pour de nombreuses entreprises prospères dans ce secteur.
« La clé est qu’il existe de nombreuses options », a déclaré Su aux journalistes en décembre, lorsque son entreprise a lancé sa dernière puce d’IA. « Je pense que nous allons voir une situation dans laquelle il n’y aura pas qu’une seule solution, il y aura plusieurs solutions. »
Lisa Su présente une puce AMD Instinct MI300 lors de son discours d’ouverture au CES 2023 à Las Vegas, Nevada, le 4 janvier 2023.
David Becker | Getty Images
AMD fabrique des GPU pour les jeux et, comme Nvidia, les adapte à l’IA dans les centres de données. Sa puce phare est l’Instinct MI300X. Microsoft a déjà acheté des processeurs AMD, en leur offrant l’accès via son cloud Azure.
Lors du lancement, Su a souligné l’excellence de la puce en matière d’inférence, par opposition à la concurrence de Nvidia pour la formation. La semaine dernière, Microsoft a annoncé qu’il utilisait les GPU AMD Instinct pour servir ses modèles Copilot. Les analystes de Morgan Stanley ont interprété cette nouvelle comme un signe que les ventes de puces IA d’AMD pourraient dépasser les 4 milliards de dollars cette année, l’objectif public de l’entreprise.
Intel, qui a été dépassé par Nvidia l’année dernière en termes de revenus, tente également de s’implanter dans l’IA. La société a récemment annoncé la troisième version de son accélérateur d’IA, Gaudi 3. Cette fois, Intel l’a comparé directement à la concurrence, le décrivant comme une alternative plus rentable et meilleure que le H100 de Nvidia en termes d’inférence, tout en étant plus rapide pour la formation des modèles. .
Les analystes de Bank of America ont récemment estimé qu’Intel détiendrait moins de 1 % du marché des puces IA cette année. Intel affirme avoir un retard de commande de 2 milliards de dollars pour la puce.
Le principal obstacle à une adoption plus large pourrait être le logiciel. AMD et Intel participent tous deux à un grand groupe industriel appelé la fondation UXL, qui comprend Google, qui travaille à créer des alternatives gratuites au CUDA de Nvidia pour contrôler le matériel des applications d’IA.
L’un des défis potentiels pour Nvidia est qu’elle est en concurrence avec certains de ses plus gros clients. Les fournisseurs de cloud, notamment Google, Microsoft et Amazon, créent tous des processeurs à usage interne. Les trois Big Tech, plus Oracle, représentent plus de 40 % des revenus de Nvidia.
Amazon a introduit ses propres puces orientées IA en 2018, sous la marque Inferentia. Inferentia en est maintenant à sa deuxième version. En 2021, Amazon Web Services a lancé Tranium destiné à la formation. Les clients ne peuvent pas acheter les puces, mais ils peuvent louer des systèmes via AWS, qui commercialise les puces comme étant plus rentables que celles de Nvidia.
Google est peut-être le fournisseur de cloud le plus engagé dans son propre silicium. L’entreprise utilise ce qu’elle appelle des unités de traitement tensoriel (TPU) depuis 2015 pour former et déployer des modèles d’IA. En mai, Google a annoncé la sixième version de sa puce, Trillium, qui, selon la société, a été utilisée pour développer ses modèles, notamment Gemini et Imagen.
Google utilise également des puces Nvidia et les propose via son cloud.
Microsoft n’est pas aussi avancé. La société a annoncé l’année dernière qu’elle construisait son propre accélérateur et processeur d’IA, appelé Maia et Cobalt.
Meta n’est pas un fournisseur de cloud, mais l’entreprise a besoin d’énormes quantités de puissance de calcul pour exécuter ses logiciels et son site Web et pour diffuser des publicités. Alors que la société mère de Facebook achète pour des milliards de dollars de processeurs Nvidia, elle a déclaré en avril que certaines de ses puces locales se trouvaient déjà dans des centres de données et permettaient « une plus grande efficacité » par rapport aux GPU.
Les analystes de JPMorgan ont estimé en mai que le marché de la construction de puces personnalisées pour les grands fournisseurs de cloud pourrait valoir jusqu’à 30 milliards de dollars, avec une croissance potentielle de 20 % par an.
La puce WSE-3 de Cerebras est un exemple de nouveau silicium conçu pour exécuter et entraîner l’intelligence artificielle.
Systèmes cérébraux
Les investisseurs en capital-risque voient des opportunités pour les entreprises émergentes de se lancer dans le jeu. Ils ont investi 6 milliards de dollars dans des sociétés de semi-conducteurs d’IA en 2023, soit une légère hausse par rapport aux 5,7 milliards de dollars un an plus tôt, selon les données de PitchBook.
Il s’agit d’un domaine difficile pour les startups, car les semi-conducteurs coûtent cher à concevoir, développer et fabriquer. Mais il existe des possibilités de différenciation.
Pour Cerebras Systems, un fabricant de puces IA de la Silicon Valley, l’accent est mis sur les opérations de base et les goulots d’étranglement de l’IA, par rapport à la nature plus générale d’un GPU. La société a été fondée en 2015 et était évaluée à 4 milliards de dollars lors de sa dernière levée de fonds, selon Bloomberg.
La puce Cerebras, WSE-2, regroupe les capacités GPU ainsi que le traitement central et la mémoire supplémentaire dans un seul appareil, ce qui est meilleur pour la formation de grands modèles, a déclaré le PDG Andrew Feldman.
« Nous utilisons une puce géante, eux utilisent beaucoup de petites puces », a déclaré Feldman. « Ils ont du mal à déplacer les données, pas nous. »
Feldman a déclaré que sa société, qui compte parmi ses clients Mayo Clinic, GlaxoSmithKline et l’armée américaine, gagnait des marchés pour ses systèmes de supercalcul, même face à Nvidia.
« Il y a une forte concurrence et je pense que c’est sain pour l’écosystème », a déclaré Feldman.
Sheth de D-Matrix a déclaré que sa société prévoyait de lancer une carte avec son chipset plus tard cette année, qui permettra plus de calculs en mémoire, plutôt que sur une puce comme un GPU. Le produit de D-Matrix peut être intégré à un serveur d’IA avec des GPU existants, mais il allège le travail des puces Nvidia et contribue à réduire le coût de l’IA générative.
Les clients « sont très réceptifs et très incités à permettre la mise sur le marché d’une nouvelle solution », a déclaré Sheth.
Les appareils Apple iPhone de la série 15 sont exposés à la vente dans la boutique Apple Grove le jour de leur sortie à Los Angeles, en Californie, le 22 septembre 2023.
Patrick T. Fallon | Afp | Getty Images
La plus grande menace pour l’activité des centres de données de Nvidia pourrait être un changement dans le lieu de traitement.
Les développeurs parient de plus en plus que le travail sur l’IA passera des batteries de serveurs aux ordinateurs portables, PC et téléphones que nous possédons.
Les grands modèles comme ceux développés par OpenAI nécessitent des clusters massifs de GPU puissants pour l’inférence, mais des sociétés comme Apple et Microsoft développent des « petits modèles » qui nécessitent moins d’énergie et de données et peuvent fonctionner sur un appareil alimenté par batterie. Ils ne sont peut-être pas aussi compétents que la dernière version de ChatGPT, mais ils exécutent d’autres applications, telles que la synthèse de texte ou la recherche visuelle.
Apple et Qualcomm mettent à jour leurs puces pour exécuter l’IA plus efficacement, en ajoutant des sections spécialisées pour les modèles d’IA appelées processeurs neuronaux, qui peuvent présenter des avantages en matière de confidentialité et de vitesse.
Qualcomm a récemment annoncé une puce PC qui permettra aux ordinateurs portables d’exécuter les services Microsoft AI sur l’appareil. La société a également investi dans un certain nombre de fabricants de puces qui fabriquent des processeurs à faible consommation pour exécuter des algorithmes d’IA en dehors d’un smartphone ou d’un ordinateur portable.
Apple commercialise ses derniers ordinateurs portables et tablettes comme étant optimisés pour l’IA en raison du moteur neuronal de ses puces. Lors de sa prochaine conférence des développeurs, Apple prévoit de présenter une multitude de nouvelles fonctionnalités d’IA, probablement exécutées sur le silicium alimentant l’iPhone de la société.