Comment Amazon fait la course pour rattraper Microsoft et Google dans l’IA générative avec des puces AWS personnalisées
Dans un immeuble de bureaux banalisé à Austin, au Texas, deux petites pièces contiennent une poignée d’employés d’Amazon qui conçoivent deux types de micropuces pour la formation et l’accélération de l’IA générative. Ces puces personnalisées, Inferentia et Trainium, offrent aux clients AWS une alternative à la formation de leurs grands modèles de langage sur les GPU Nvidia, qui sont devenus difficiles et coûteux à se procurer.
« Le monde entier aimerait plus de puces pour faire de l’IA générative, qu’il s’agisse de GPU ou des propres puces d’Amazon que nous concevons », a déclaré Adam Selipsky, PDG d’Amazon Web Services, à CNBC dans une interview en juin. « Je pense que nous sommes mieux placés que n’importe qui d’autre sur Terre pour fournir la capacité que nos clients voudront collectivement. »
Pourtant, d’autres ont agi plus rapidement et investi davantage pour tirer profit du boom de l’IA générative. Lorsque OpenAI a lancé ChatGPT en novembre, Microsoft a suscité une large attention pour avoir hébergé le chatbot viral et investi 13 milliards de dollars dans OpenAI. Il n’a pas tardé à ajouter les modèles d’IA générative à ses propres produits, en les incorporant à Bing en février.
Le même mois, Google a lancé son propre grand modèle de langage, Bard, suivi d’un investissement de 300 millions de dollars dans son rival OpenAI Anthropic.
Ce n’est qu’en avril qu’Amazon a annoncé sa propre famille de grands modèles de langage, appelée Titan, ainsi qu’un service appelé Bedrock pour aider les développeurs à améliorer les logiciels à l’aide de l’IA générative.
« Amazon n’a pas l’habitude de courir après les marchés. Amazon a l’habitude de créer des marchés. Et je pense que pour la première fois depuis longtemps, ils se retrouvent en retrait et ils travaillent pour rattraper leur retard », a déclaré Chirag Dekate, Vice-président analyste chez Gartner.
Meta a également récemment publié son propre LLM, Llama 2. Le rival open source de ChatGPT est maintenant disponible pour que les gens puissent le tester sur le cloud public Azure de Microsoft.
À long terme, a déclaré Dekate, le silicium personnalisé d’Amazon pourrait lui donner un avantage en matière d’IA générative.
« Je pense que la véritable différenciation réside dans les capacités techniques qu’ils apportent », a-t-il déclaré. « Parce que devinez quoi? Microsoft n’a pas Trainium ou Inferentia », a-t-il déclaré.
AWS a tranquillement commencé la production de silicium personnalisé en 2013 avec un matériel spécialisé appelé Nitro. C’est maintenant la puce AWS la plus volumineuse. Amazon a déclaré à CNBC qu’il y en avait au moins un sur chaque serveur AWS, avec un total de plus de 20 millions en cours d’utilisation.
AWS a commencé la production de silicium personnalisé en 2013 avec ce matériel spécialisé appelé Nitro. Amazon a déclaré à CNBC en août que Nitro est désormais la puce AWS la plus volumineuse, avec au moins une sur chaque serveur AWS et un total de plus de 20 millions d’unités utilisées.
Avec l’aimable autorisation d’Amazon
En 2015, Amazon a acheté la startup israélienne de puces Annapurna Labs. Puis en 2018, Amazon a lancé sa puce serveur basée sur Arm, Graviton, un rival des processeurs x86 de géants comme AMD et Intel.
« Arm, et une bonne partie d’entre eux seront probablement Amazon. Du côté du processeur, ils ont plutôt bien réussi », a déclaré Stacy Rasgon, analyste senior chez Recherche Bernstein.
Toujours en 2018, Amazon a lancé ses puces axées sur l’IA. Cela s’est produit deux ans après que Google a annoncé son premier Tensor Processor Unit, ou TPU. Microsoft n’a pas encore annoncé la puce Athena AI sur laquelle il travaille, apparemment en partenariat avec AMD.
CNBC a visité les coulisses du laboratoire de puces d’Amazon à Austin, au Texas, où Trainium et Inferentia sont développés et testés. Le vice-président du produit, Matt Wood, a expliqué à quoi servent les deux puces.
« L’apprentissage automatique se décompose en ces deux étapes différentes. Ainsi, vous formez les modèles d’apprentissage automatique, puis vous exécutez l’inférence sur ces modèles formés », a déclaré Wood. « Trainium offre une amélioration d’environ 50 % en termes de performances tarifaires par rapport à tout autre moyen de formation de modèles d’apprentissage automatique sur AWS. »
Trainium est arrivé sur le marché en 2021, après la sortie en 2019 d’Inferentia, qui en est maintenant à sa deuxième génération.
Inferentia permet aux clients « de fournir une inférence d’apprentissage automatique à très, très faible coût, à haut débit et à faible latence, c’est-à-dire toutes les prédictions du moment où vous tapez une invite dans votre modèle d’IA générative, c’est là que tout cela est traité pour vous donner la réponse », a déclaré Wood.
Pour l’instant, cependant, les GPU de Nvidia sont toujours rois lorsqu’il s’agit de modèles de formation. En juillet, AWS a lancé un nouveau matériel d’accélération de l’IA alimenté par Nvidia H100.
« Les puces Nvidia ont un énorme écosystème logiciel qui s’est construit autour d’elles au cours des 15 dernières années que personne d’autre n’a », a déclaré Rasgon. « Le grand gagnant de l’IA en ce moment est Nvidia. »
Les puces personnalisées d’Amazon, de gauche à droite, Inferentia, Trainium et Graviton sont présentées au siège d’Amazon à Seattle le 13 juillet 2023.
Joseph Huerta
La domination du cloud d’AWS, cependant, est un grand différenciateur pour Amazon.
« Amazon n’a pas besoin de faire la une des journaux. Amazon dispose déjà d’une base d’installation cloud très solide. Tout ce qu’ils ont à faire est de trouver comment permettre à leurs clients existants de se développer dans des mouvements de création de valeur en utilisant l’IA générative », a déclaré Dekate.
Lors du choix entre Amazon, Google et Microsoft pour l’IA générative, des millions de clients AWS peuvent être attirés par Amazon parce qu’ils le connaissent déjà, exécutant d’autres applications et y stockant leurs données.
« C’est une question de rapidité. La rapidité avec laquelle ces entreprises peuvent développer ces applications d’IA génératives dépend du fait qu’elles commencent d’abord par les données dont elles disposent dans AWS et qu’elles utilisent les outils de calcul et d’apprentissage automatique que nous fournissons », a expliqué Mai-Lan Tomsen Bukovec, Vice-président de la technologie chez AWS.
AWS est le plus grand fournisseur de cloud computing au monde, avec 40 % de part de marché en 2022, selon le chercheur de l’industrie technologique Gartner. Bien que le bénéfice d’exploitation ait diminué d’une année sur l’autre pendant trois trimestres consécutifs, AWS représentait toujours 70 % du bénéfice d’exploitation global de 7,7 milliards de dollars d’Amazon au deuxième trimestre. Les marges d’exploitation d’AWS ont toujours été bien plus importantes que celles de Google Cloud.
AWS dispose également d’un portefeuille croissant d’outils de développement axés sur l’IA générative.
« Remontons le temps avant même ChatGPT. Ce n’est pas comme après que cela se soit produit, tout à coup nous nous sommes dépêchés et avons élaboré un plan parce que vous ne pouvez pas concevoir une puce en si peu de temps, et encore moins vous ne pouvez pas créer un service Bedrock dans une question de 2 à 3 mois », a déclaré Swami Sivasubramanian, vice-président de la base de données, de l’analyse et de l’apprentissage automatique chez AWS.
Bedrock permet aux clients d’AWS d’accéder à de grands modèles de langage créés par Anthropic, Stability AI, AI21 Labs et Titan d’Amazon.
« Nous ne croyons pas qu’un modèle va gouverner le monde, et nous voulons que nos clients disposent des modèles de pointe de plusieurs fournisseurs, car ils vont choisir le bon outil pour le bon travail », dit Sivasubramanian.
Un employé d’Amazon travaille sur des puces IA personnalisées, dans une veste portant la marque de la puce Inferentia d’AWS, au laboratoire de puces AWS à Austin, Texas, le 25 juillet 2023.
Katie Tarassov
L’une des dernières offres d’IA d’Amazon est AWS HealthScribe, un service dévoilé en juillet pour aider les médecins à rédiger des résumés de visites de patients à l’aide de l’IA générative. Amazon a également SageMaker, un centre d’apprentissage automatique qui propose des algorithmes, des modèles et plus encore.
Un autre outil important est le compagnon de codage CodeWhisperer, qui, selon Amazon, a permis aux développeurs d’effectuer des tâches 57 % plus rapidement en moyenne. L’année dernière, Microsoft a également signalé des gains de productivité grâce à son compagnon de codage, GitHub Copilot.
En juin, AWS a annoncé un « centre » d’innovation IA générative de 100 millions de dollars.
« Nous avons tellement de clients qui disent : « Je veux faire de l’IA générative », mais ils ne savent pas nécessairement ce que cela signifie pour eux dans le contexte de leur propre entreprise. Nous allons donc faire appel à des architectes de solutions. et des ingénieurs, des stratèges et des scientifiques des données pour travailler avec eux individuellement », a déclaré Selipsky, PDG d’AWS.
Bien que jusqu’à présent, AWS se soit largement concentré sur les outils au lieu de créer un concurrent pour ChatGPT, un e-mail interne récemment divulgué montre que le PDG d’Amazon, Andy Jassy, supervise directement une nouvelle équipe centrale qui élabore également de vastes modèles de langage étendus.
Lors de l’appel sur les résultats du deuxième trimestre, Jassy a déclaré qu’une « quantité très importante » de l’activité d’AWS est désormais pilotée par l’IA et plus de 20 services d’apprentissage automatique qu’elle propose. Quelques exemples de clients incluent Philips, 3M, Old Mutual et HSBC.
La croissance explosive de l’IA s’est accompagnée d’une vague de problèmes de sécurité de la part des entreprises craignant que les employés ne mettent des informations exclusives dans les données de formation utilisées par les grands modèles de langage publics.
« Je ne peux pas vous dire à combien d’entreprises du Fortune 500 j’ai parlé et qui ont interdit ChatGPT. Ainsi, avec notre approche de l’IA générative et notre service Bedrock, tout ce que vous faites, tout modèle que vous utilisez via Bedrock sera dans votre propre isolement environnement de cloud privé virtuel. Il sera crypté, il aura les mêmes contrôles d’accès AWS », a déclaré Selipsky.
Pour l’instant, Amazon ne fait qu’accélérer sa poussée vers l’IA générative, déclarant à CNBC que « plus de 100 000 » clients utilisent aujourd’hui l’apprentissage automatique sur AWS. Bien qu’il ne s’agisse que d’un petit pourcentage des millions de clients d’AWS, les analystes disent que cela pourrait changer.
« Ce que nous ne voyons pas, ce sont des entreprises qui disent : ‘Oh, attendez une minute, Microsoft est tellement en avance sur l’IA générative, allons-y et changeons nos stratégies d’infrastructure, migrons tout vers Microsoft.’ Dekate a déclaré : « Si vous êtes déjà client d’Amazon, il y a de fortes chances que vous exploriez les écosystèmes d’Amazon de manière assez approfondie. »
Jordan Novet de CNBC a contribué à ce rapport.
CORRECTION : Cet article a été mis à jour pour refléter Inferentia en tant que puce utilisée pour l’inférence d’apprentissage automatique.