Nvidia affirme que le nouveau logiciel doublera la vitesse d’inférence LLM sur le GPU H100 | CRN

Actualités Composants et Périphériques

Dylan Martin

Le géant des puces IA affirme que la bibliothèque de logiciels open source TensorRT-LLM doublera les performances du H100 pour exécuter l’inférence sur les principaux modèles de langages de grande envergure lors de sa sortie le mois prochain. Nvidia prévoit d’intégrer le logiciel, disponible en accès anticipé, dans son framework Nvidia NeMo dans le cadre de la suite logicielle Nvidia AI Enterprise.

  TITRE DE L'ARTICLE ICI



Nvidia a annoncé son intention de publier un nouveau logiciel open source qui accélérera considérablement les applications en direct exécutées sur de grands modèles de langage alimentés par ses GPU, y compris l’accélérateur phare H100.

Le géant des puces d’IA basé à Santa Clara, en Californie, a déclaré vendredi que la bibliothèque logicielle TensorRT-LLM doublerait les performances du H100 pour exécuter l’inférence sur les principaux modèles de langage étendu (LLM) lors de sa sortie le mois prochain. Nvidia prévoit d’intégrer le logiciel, disponible en accès anticipé, dans son framework Nvidia NeMo LLM dans le cadre de la suite logicielle Nvidia AI Enterprise.

[Related: Nvidia CEO Explains How AI Chips Could Save Future Data Centers Lots Of Money]

Le concepteur de puces a annoncé TensorRT-LLM alors que Nvidia cherche à maintenir sa domination sur le marché en croissance rapide de l’informatique IA, ce qui lui a permis de doubler ses revenus sur un an au cours du dernier trimestre financier.

« Nous avons doublé les performances en utilisant les dernières techniques, les derniers planificateurs et en intégrant les dernières optimisations et noyaux », a déclaré Ian Buck, vice-président du calcul hyperscale et haute performance chez Nvidia, lors d’un point de presse avec des journalistes. « Ces techniques améliorent les performances, non seulement en augmentant l’efficacité, mais également en optimisant l’algorithme de bout en bout. »

Nvidia a présenté TensorRT-LLM le mois dernier dans le cadre de la plate-forme VMware Private AI Foundation récemment annoncée, qui permettra aux clients VMware d’utiliser leurs données propriétaires pour créer des LLM personnalisés et exécuter des applications d’IA génératives à l’aide de Nvidia AI Enterprise sur VMware Cloud Foundation.

Buck a déclaré que TensorRT-LLM prendrait en charge plusieurs GPU Nvidia au-delà du H100, y compris son précédent accélérateur de centre de données phare, l’A100, ainsi que les L4, L40, L40S et le prochain Grace Hopper Superchip, qui combine un GPU H100 avec son 72- processeur Grace de base.

Comme CRN l’a rapporté plus tôt cette semaine, la forte demande pour les H100 et A100, motivée par le développement de l’IA générative, a entraîné de longs délais de livraison pour de nombreuses entreprises, ce qui a incité le principal responsable des ventes de serveurs de Lenovo à demander à ses partenaires d’envisager des alternatives s’ils n’ont pas besoin de fonctionner. le plus grand des LLM.

« Nous disposons d’une large gamme de produits permettant à nos clients de se connecter et de créer la bonne infrastructure pour toutes les différentes modalités dans lesquelles ils se trouvent dans leur parcours vers l’IA », a déclaré Buck.

Comment TensorRT-LLM accélère les GPU Nvidia

Nvidia a déclaré avoir travaillé en étroite collaboration avec plusieurs acteurs majeurs de l’écosystème de l’IA, notamment la société mère de Facebook Meta et Mosaic, le fournisseur de plate-forme d’IA générative récemment acquis par Databricks, sur les optimisations d’inférence LLM intégrées au TensorRT-LLM open source.

« Tout le monde peut bénéficier des meilleures performances possibles de Hopper et, bien sûr, d’autres GPU de centres de données pour l’inférence de modèles de langage à grande échelle », a déclaré Buck.

TensorRT-LLM optimise les performances d’inférence LLM sur les GPU Nvidia de quatre manières, selon Buck.

La première consiste à inclure des versions prêtes à l’emploi, de pointe et optimisées pour l’inférence, des derniers LLM tels que GPT-3, Llama, Falcon 180B et BLOOM. Le logiciel comprend également les derniers noyaux d’IA open source qui introduisent des techniques de pointe pour exécuter des LLM.

« À mesure que les gens développent de nouveaux grands modèles de langage, ces noyaux peuvent être réutilisés pour continuer à optimiser et améliorer les performances et à créer de nouveaux modèles. Bien sûr, à mesure que la communauté mettra en œuvre de nouvelles techniques, nous continuerons à les placer ou ils les placeront dans ce référentiel open source », a déclaré Buck.

Le deuxième élément de TensorRT-LLM est une bibliothèque logicielle qui permet aux versions d’inférence des LLM de s’exécuter automatiquement en même temps sur plusieurs GPU et plusieurs serveurs GPU connectés via les interconnexions NVLink et InfiniBand de Nvidia, respectivement.

« Dans le passé, les développeurs devaient, pour obtenir les meilleures performances possibles, prendre un grand modèle de langage et le diviser manuellement sur plusieurs GPU dans un serveur ou sur plusieurs serveurs et le gérer explicitement. Pas plus », a déclaré Buck.

« TensorRT-LLM encapsule toute cette technologie, tout cet apprentissage, toute cette expérience de l’ingénierie Nvidia et de la collaboration avec la communauté dans une seule bibliothèque, afin que nous puissions automatiquement faire évoluer de grands modèles de langage sur plusieurs GPU et plusieurs serveurs », a-t-il ajouté.

Buck a déclaré que le calcul multi-GPU et multi-nœuds est nécessaire pour le plus grand des LLM car ils sont si gros, composés de 175 milliards de paramètres ou plus, qu’ils ne peuvent pas tenir sur un seul GPU, même le H100.

Le troisième élément qui améliore les performances d’inférence LLM est ce que Nvidia appelle le traitement par lots en vol, un nouveau planificateur qui « permet au travail d’entrer dans le GPU et de sortir du GPU indépendamment des autres tâches », a déclaré Buck.

Le dirigeant de Nvidia a déclaré que cette fonctionnalité est importante pour les LLM car il existe une grande variabilité dans la longueur et la complexité des invites des utilisateurs finaux, qui peuvent aller d’une simple question à une demande de production d’un document complet.

Sans traitement par lots en vol, un système GPU ne serait capable d’envoyer qu’un seul lot de travail vers et depuis un GPU à la fois, ce qui ralentit le traitement par lots et réduit l’utilisation du GPU.

« Avec TensorRT-LLM et le traitement par lots en vol, le travail peut entrer et sortir du lot de manière indépendante et asynchrone pour garder le GPU occupé à 100 %. Tout cela se produit automatiquement dans le système d’exécution TensorRT-LLM, ce qui améliore considérablement l’efficacité du H100 », a déclaré Buck.

Le dernier aspect critique de TensorRT-LLM est qu’il est optimisé pour tirer parti du moteur Transformer du H100, qui convertit automatiquement les LLM formés avec un format à virgule flottante 16 bits en un format entier 8 bits qui prend moins d’espace dans la mémoire du GPU.

Fonctionnement du H100 avec TensorRT-LLM

Dans deux graphiques partagés par Nvidia, la société a démontré que les optimisations TensorRT-LLM permettent au H100 de fournir des performances nettement supérieures pour les LLM populaires.

Pour le GPT-J 6B LLM, Nvidia a montré qu’un H100 activé avec TensorRT-LLM peut effectuer une inférence deux fois plus rapide qu’un H100 classique et huit fois plus rapide que l’A100 de génération précédente.

Pour le Llama2 LLM de Meta, la société a présenté le H100 optimisé fonctionnant près de 77 % plus vite que le H100 vanille et 4,6 fois plus rapide que l’A100.

Buck a déclaré que les gains de performances se traduisent par une efficacité énergétique améliorée, le H100 utilisant la même puissance pour effectuer deux fois plus de tâches qu’auparavant grâce à TensorRT-LLM.

« L’efficacité énergétique est une optimisation de bout en bout. Cela vient du matériel. Cela vient de la planification. Cela vient des algorithmes. Et cela vient bien sûr de nouveaux modèles. Et donc pour la pile de solutions de bout en bout, TensorRT est une partie extrêmement importante de cette histoire », a-t-il déclaré.


  En savoir plus sur Dylan Martin

Dylan Martin

Dylan Martin est rédacteur en chef chez CRN et couvre les domaines des semi-conducteurs, des PC, des appareils mobiles et de l’IoT. Il s’est distingué dans sa couverture de l’industrie des semi-conducteurs grâce à des entretiens approfondis avec des PDG et des cadres supérieurs ; des scoops et des exclusivités sur les changements de produits, de stratégie et de personnel ; et des analyses qui approfondissent le pourquoi de l’actualité. Il peut être contacté à dmartin@thechannelcompany.com.


www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepteLire la suite