Ce que les mises à jour de Google Gemini AI signifient pour les développeurs de logiciels | Cible technologique

Les mises à jour du modèle de base de Google Gemini AI et les nouvelles fonctionnalités d’AI Studio et Vertex attendues le mois prochain visent à prendre en charge les flux de travail d’application avancés plus efficacement que les versions existantes.

Le modèle de langage large (LLM) Google Gemini 1.5 Pro mis à jour, disponible en avant-première dans 200 pays dans divers Google services aux consommateurs et aux développeurs, devrait être généralement disponible en juin. Il prendra en charge jusqu’à 1 million de jetons dans sa fenêtre contextuelle, selon les responsables de l’entreprise lors des présentations principales mardi.

Lors de son introduction initiale en février, Gemini 1.5 Pro prenait en pratique 128 000 jetons, et 1 million de jetons était une fonctionnalité expérimentale. Fenêtre de jeton fait référence à la quantité de données – texte, images, audio ou vidéo – sur laquelle un LLM peut raisonner à la fois. Les utilisateurs des outils de développement Google AI Studio et Vertex AI peuvent également s’inscrire sur une liste d’attente cette semaine pour prévisualiser la prise en charge d’un maximum de 2 millions de jetons prévus plus tard cette année. Un million de jetons équivaut à environ une heure de vidéo, 11 heures d’audio, 30 000 lignes de code et 750 000 mots.

« La plus grande fenêtre de jetons est comme la mémoire de travail de l’IA, et c’est l’une des frontières en termes d’utilité de l’IA pour des tâches avancées et hautement contextuelles », a déclaré David Strauss, co-fondateur et CTO du fournisseur de services WebOps Pantheon. , qui a utilisé la plateforme d’apprentissage automatique Vertex AI de Google pour des projets de production et expérimentaux. « Cela déplace de plus en plus de tâches vers celles que l’IA peut accomplir sur un coup de tête, plutôt qu’avec une formation complète ou même un réglage précis. »

1 million de jetons – et alors ?

Les principaux fournisseurs de LLM se sont lancés dans une course aux armements pour étendre les multiples attributs de leurs modèles au cours de l’année dernière, et particulièrement au cours des derniers mois, a déclaré Ian Beaver, scientifique en chef chez Verint Systems, un fournisseur de centres de contact en tant que service. à Melville, New York, il a cité des exemples tels que le lancement d’Anthropic Claude 3 Opus il y a deux mois, qui a surpassé le GPT-4 d’OpenAI dans les benchmarks LLM de GPT-4 ; en avril, Meta affichait des performances de référence plus élevées pour Llama 3 par rapport à la version préliminaire de Gemini 1.5 Pro Hier encore, OpenAI a annoncé GPT-4o et une mise à jour de ChatGPT prenant en charge la saisie de texte, d’audio et d’image et incluant des références plus élevées que Llama 3 et Gemini. 1.5 Pro.

Tous ces modèles ont également fait de grands progrès dans les limites des jetons d’entrée, a déclaré Beaver : GPT-4 est passé de 16 000 à 128 000 jetons ; Claude est passé de 100 000 à 200 000 ; et les Gémeaux sont passés de 32 000 à 1 million.

Des fenêtres contextuelles plus grandes peuvent être utiles pour certaines applications, telles que les invites vidéo et la génération. Néanmoins, Beaver a déclaré qu’il n’était pas sûr de l’utilité d’un million de jetons.

Le fait que vous puissiez désormais envoyer facilement le texte intégral de Guerre et Paix peut être utile pour générer des critiques sur de grands romans, mais il reste à voir dans quelle mesure ces modèles sont efficaces.

Ian CastorScientifique en chef, Verint

« Le fait que vous puissiez désormais envoyer confortablement l’intégralité du texte de Guerre et Paix peut être utile pour générer des critiques sur de grands romans, mais il reste à voir dans quelle mesure ces modèles sont efficaces pour maintenir des dépendances à longue distance dans les données contextuelles sur un espace de recherche aussi vaste », a-t-il déclaré. « D’après notre expérience, une fois que vous dépassez un quelques centaines de jetons, il n’est généralement pas utile pour la qualité de la réponse du modèle d’en inclure davantage, car il y a généralement un pipeline de sélection en cours avant le LLM, comme une requête dans une base de données ou une recherche.

Plus grand n’est pas nécessairement meilleur, a écrit Torsten Volk, analyste chez Enterprise Management Associates, dans un article de blog le mois dernier.

« Bien que l’impressionnante fenêtre contextuelle d’un million de jetons du Gemini 1.5 Pro de Google offre un avantage théorique dans la gestion de données volumineuses, l’efficacité pratique d’un modèle de langage comme GPT-4 la surpasse souvent en raison de mécanismes plus sophistiqués. [that] gérer efficacement des fenêtres contextuelles plus petites en concentrant les ressources informatiques sur les informations les plus pertinentes, optimisant ainsi les performances », a écrit Volk dans le message.

Google AI Studio, mises à jour de Vertex AI

Pendant ce temps, les mises à jour de l’API Google Gemini et des services tels que Google AI Studio et Vertex AI ont ajouté cette semaine de nouvelles fonctionnalités spécifiquement destinées aux développeurs. Selon Volk, la première, la mise en cache contextuelle, pourrait être plus efficace que les grandes fenêtres contextuelles. La fonctionnalité, présentée par Google comme un moyen de rendre la formation des modèles et les invites plus efficaces en n’ayant pas à renvoyer de grands ensembles de données à plusieurs reprises, peut également faciliter les requêtes récurrentes sur de grands ensembles de documents.

« Par pure coïncidence, OpenAI a déclaré que GPT-4o dispose désormais également d’une mise en cache du contexte dans les conversations », a déclaré Volk dans une interview en ligne cette semaine, faisant référence à l’événement d’actualité d’OpenAI la veille de Google I/O.

Une autre mise à jour du développeur Google Gemini dévoilée cette semaine concerne l’appel de fonctions parallèles, ce qui signifie que le modèle peut appeler plusieurs fonctions à la fois.

Cela alimentera une tendance émergente vers le déploiement d’agents d’IA qui exécutent des flux de travail en plusieurs étapes ; Vertex AI de Google a ajouté le mois dernier un outil Agent Builder, tandis qu’Atlassian a ajouté la prise en charge des agents IA, ou coéquipiers virtuels, avec son produit Atlassian Rovo.

Jaclyn Konzelmann, API Google I/O Gemini
Jaclyn Konzelmann, directrice de la gestion des produits pour l’API Gemini de Google, présente la fenêtre contextuelle d’un million de jetons de Gemini 1.5 Pro sur Google I/O.

Gemini 1.5 Flash et Gemma ajoutent de la flexibilité en matière de coûts

Une nouvelle version de Gemini déployée cette semaine, Gemini 1.5 Flash, utilise une technique appelée distillation pour transmettre les capacités d’analyse de données du plus grand modèle Pro à un LLM plus léger et moins coûteux, optimisé pour donner des réponses plus rapides que la version plus grande.

Avec Flash, Google a ajouté de nouveaux tarifs à l’utilisation pour AI Studio et Vertex AI. Gemini Flash 1.5 est au prix de 0,35 $ par million de jetons pour les invites de 128 000 jetons et de 0,70 $ par million de jetons pour les invites plus grandes. À titre de comparaison, Gemini 1.5 Pro coûte 3,50 $ par million de jetons pour un maximum de 128 000 et 7,00 $ par million de jetons pour les invites plus volumineuses. En général, les premiers utilisateurs des services LLM hébergés ont déclaré que le contrôle des coûts du cloud était jusqu’à présent l’un de leurs plus grands défis.

« Nous n’avons rien fait à une échelle suffisamment importante sur Vertex pour avoir [cost] devenir une priorité, mais je dirai que beaucoup de produits Vertex semblent avoir une véritable facturation de services publics », a déclaré Strauss. « J’aime cela car cela signifie que nous pouvons potentiellement les fournir par défaut de manière isolée pour les clients et ne payer que pour utilisation réelle. »

Dans le monde de l’IA open source en croissance rapide, deux nouvelles permutations de Gemma de Google augmenteront considérablement la taille du LLM open source avec le Gemma 2 de 27 milliards de paramètres et ajouteront un modèle affiné pour la génération vidéo avec PaliGemma — la première vision -modèle ouvert en langage de Google.

Comme pour les tests de performances et les limites d’entrée de jetons, tous les principaux fournisseurs de modèles ont lancé des versions moins chères et plus rapides de leurs modèles phares, selon Beaver de Verint.

« Ce qui nécessitait auparavant le modèle le plus grand et le plus coûteux peut désormais être réalisé par un modèle plus petit et rentable », a-t-il déclaré. « La course aux armements en matière d’IA fait également baisser rapidement le coût d’entrée des LLM très performants. Il ne fait que devenir moins cher de déployer des applications utilisant l’IA générative.

La prise en charge multimodale d’un plus large éventail de modèles réduira également le coût de production de divers types de contenu multimédia, a prédit Beaver.

La confiance, la sécurité et la qualité restent les principales préoccupations de l’IA

Les modèles Gemini nativement multimodaux sont capables de traiter diverses formes de données, telles que des images et des vidéos ainsi que du texte, et de produire des sorties multiformats, mais ne fonctionnent pas encore de cette manière dans les pratiques prêtes à la production.

Google travaille sur une nouvelle version d’Imagen « reconstruite à partir de zéro », selon une présentation liminaire de Douglas Eck, directeur principal de la recherche chez Google, à la suite d’une récente controverse qui a contraint Google à suspendre l’outil de génération d’images en février. Imagen 3 est désormais disponible en essai sur la cuisine de test ImageFX AI de Google et sera bientôt disponible sur Vertex AI. Les fonctions véritablement multimodales seront plus largement disponibles plus tard cette année, ont déclaré les principaux intervenants d’I/O.

Plusieurs intervenants principaux ont également souligné le travail effectué par Google sur la confiance et la sécurité de l’IA afin d’éviter d’autres résultats controversés, notamment la mise à jour du modèle d’équipe rouge, la consultation d’un panel d’experts humains issus de plusieurs domaines d’étude et un outil de filigrane appelé SynthID.

Cependant, la lente adoption des outils d’IA générative tels qu’Ansible Lightspeed jusqu’à présent indique que les entreprises ne se sont pas encore lancées avec enthousiasme dans l’utilisation en production. Strauss a déclaré que les premiers projets Vertex ont eu des résultats mitigés, bien qu’il attribue cela en partie au fait que les ensembles de données n’ont pas été correctement intégrés.

« Nous avons utilisé Vertex AI dans des prototypes pour formuler des recommandations visant à baliser le contenu écrit et pour le système de recherche Vertex AI », a-t-il déclaré. « Le premier est activement en production, et nous avons constaté des résultats médiocres avec le second, mais nous devons consacrer davantage d’efforts à l’intégration pour vraiment le tester. »

Beth Pariseau, rédactrice principale pour TechTarget Editorial, est une vétéran primée du journalisme informatique couvrant DevOps. Vous avez un conseil ? Envoyez-lui un email ou contactez @PariseauTT.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite