Décrypter la manière dont NVIDIA AI Workbench optimise le développement d’applications

Qu’est-ce que NVIDIA AI Workbench ?

Disponible gratuitement, NVIDIA AI Workbench permet aux utilisateurs de développer, d’expérimenter, de tester et de prototyper des applications d’IA sur les systèmes GPU de leur choix, des ordinateurs portables et des stations de travail aux centres de données et au cloud. Il offre une nouvelle approche pour créer, utiliser et partager des environnements de développement compatibles GPU entre les personnes et les systèmes.

Une installation simple permet aux utilisateurs de démarrer avec AI Workbench sur une machine locale ou distante en quelques minutes seulement. Les utilisateurs peuvent ensuite démarrer un nouveau projet ou en répliquer un à partir des exemples sur GitHub. Tout fonctionne via GitHub ou GitLab, ce qui permet aux utilisateurs de collaborer et de distribuer facilement leur travail. Découvrez comment démarrer avec AI Workbench.

Comment AI Workbench aide à relever les défis des projets d’IA

Le développement de charges de travail d’IA peut nécessiter des processus manuels, souvent complexes, dès le départ.

La configuration des GPU, la mise à jour des pilotes et la gestion des incompatibilités de version peuvent s’avérer fastidieuses. La reproduction de projets sur différents systèmes peut nécessiter la réplication répétée de processus manuels. Les incohérences lors de la réplication de projets, comme les problèmes de fragmentation des données et de contrôle des versions, peuvent entraver la collaboration. Des processus de configuration variés, le déplacement des informations d’identification et des secrets, ainsi que des modifications de l’environnement, des données, des modèles et des emplacements de fichiers peuvent tous limiter la portabilité des projets.

AI Workbench permet aux data scientists et aux développeurs de gérer plus facilement leur travail et de collaborer sur des plateformes hétérogènes. Il intègre et automatise divers aspects du processus de développement, offrant :

Facilité d’installation : AI Workbench simplifie le processus de configuration d’un environnement de développement accéléré par GPU, même pour les utilisateurs disposant de connaissances techniques limitées.

Collaboration transparente : AI Workbench s’intègre aux outils de contrôle de version et de gestion de projet tels que GitHub et GitLab, réduisant ainsi les frictions lors de la collaboration.

Cohérence lors de la mise à l’échelle du local au cloud : AI Workbench garantit la cohérence dans plusieurs environnements, en prenant en charge la mise à l’échelle vers le haut ou vers le bas depuis les postes de travail ou les PC locaux vers les centres de données ou le cloud.

RAG pour les documents, plus simple que jamais

NVIDIA propose des exemples de projets Workbench de développement pour aider les utilisateurs à démarrer avec AI Workbench. Le projet hybride RAG Workbench en est un exemple : il exécute une application Web RAG personnalisée basée sur du texte avec les documents d’un utilisateur sur son poste de travail local, son PC ou son système distant.

Chaque projet Workbench s’exécute dans un logiciel conteneur qui comprend tous les composants nécessaires pour exécuter l’application d’IA. L’exemple RAG hybride associe une interface de chat Gradio sur la machine hôte à un serveur RAG conteneurisé, le backend qui traite les demandes des utilisateurs et achemine les requêtes vers et depuis la base de données vectorielle et le modèle de langage volumineux sélectionné.

Ce projet Workbench prend en charge une grande variété de LLM disponibles sur la page GitHub de NVIDIA. De plus, la nature hybride du projet permet aux utilisateurs de sélectionner l’endroit où exécuter l’inférence.

Les projets Workbench permettent aux utilisateurs de versionner l’environnement de développement et le code.

Les développeurs peuvent exécuter le modèle d’intégration sur la machine hôte et exécuter l’inférence localement sur un serveur d’inférence de génération de texte Hugging Face, sur des ressources cloud cibles à l’aide de points de terminaison d’inférence NVIDIA comme le catalogue d’API NVIDIA, ou avec des microservices auto-hébergés tels que NVIDIA NIM ou des services tiers.

Le projet hybride RAG Workbench comprend également :

Indicateurs de performance: Les utilisateurs peuvent évaluer les performances des requêtes utilisateur basées sur RAG et non RAG dans chaque mode d’inférence. Les mesures suivies incluent le temps de récupération, le temps jusqu’au premier jeton (TTFT) et la vitesse du jeton.

Transparence de la récupération : Un panneau affiche les extraits exacts de texte récupérés à partir du contenu le plus pertinent du point de vue du contexte dans la base de données vectorielle qui sont introduits dans le LLM et améliorent la pertinence des réponses à la requête d’un utilisateur.

Personnalisation de la réponse : Les réponses peuvent être modifiées avec une variété de paramètres, tels que le nombre maximum de jetons à générer, la température et la pénalité de fréquence.

Pour démarrer ce projet, installez simplement AI Workbench sur un système local. Le projet hybride RAG Workbench peut être transféré depuis GitHub vers le compte utilisateur et dupliqué sur le système local.

D’autres ressources sont disponibles dans le guide d’utilisation d’AI Decoded. De plus, les membres de la communauté proposent des didacticiels vidéo utiles, comme celui de Joe Freeman ci-dessous.

Personnaliser, optimiser, déployer

Les développeurs cherchent souvent à personnaliser les modèles d’IA pour des cas d’utilisation spécifiques. Le réglage fin, une technique qui modifie le modèle en l’entraînant avec des données supplémentaires, peut être utile pour le transfert de style ou la modification du comportement du modèle. AI Workbench aide également à affiner le réglage.

Le projet Llama-factory AI Workbench permet d’utiliser QLoRa, une méthode de réglage précis qui minimise les besoins en mémoire, pour une variété de modèles, ainsi que la quantification des modèles via une interface utilisateur graphique simple. Les développeurs peuvent utiliser des ensembles de données publics ou leurs propres ensembles de données pour répondre aux besoins de leurs applications.

Une fois le réglage final terminé, le modèle peut être quantifié pour améliorer les performances et réduire l’empreinte mémoire, puis déployé sur des applications Windows natives pour l’inférence locale ou sur NVIDIA NIM pour l’inférence dans le cloud. Retrouvez un tutoriel complet pour ce projet sur le référentiel NVIDIA RTX AI Toolkit.

Exécutez des charges de travail d’IA véritablement hybrides n’importe où

Le projet Hybrid-RAG Workbench décrit ci-dessus est hybride à plus d’un titre. En plus d’offrir un choix de mode d’inférence, le projet peut être exécuté localement sur des stations de travail NVIDIA RTX et des PC GeForce RTX, ou étendu à des serveurs cloud et des centres de données distants.

La possibilité d’exécuter des projets sur les systèmes choisis par les utilisateurs sans avoir à configurer l’infrastructure s’étend à tous les projets Workbench. Retrouvez plus d’exemples et d’instructions pour affiner et personnaliser le système dans le guide de démarrage rapide d’AI Workbench.

L’IA générative transforme les jeux, les vidéoconférences et les expériences interactives de toutes sortes. Découvrez les nouveautés et les prochaines étapes en vous abonnant à la newsletter Bulletin d’information AI Decoded.

www.actusduweb.com

Suivez Actusduweb sur Google News

dapplications décrypter développement dont manière Nvidia optimise Workbench