Les types émergents de modèles de langage et leur importance – TechCrunch
Les systèmes d’IA qui comprendre et générer du texte, connus sous le nom de modèles de langage, sont la nouveauté en vogue dans l’entreprise. Une enquête récente a révélé que 60 % des leaders technologiques ont déclaré que leurs budgets pour les technologies linguistiques de l’IA avaient augmenté d’au moins 10 % en 2020, tandis que 33 % ont signalé une augmentation de 30 %.
Mais tous les modèles de langage ne sont pas créés égaux. Plusieurs types émergent comme dominants, y compris de grands modèles à usage général comme le GPT-3 d’OpenAI et des modèles affinés pour des tâches particulières (pensez à répondre aux questions du bureau informatique). À la périphérie existe une troisième catégorie de modèles – ceux qui ont tendance à être très compressés en taille et limités à quelques capacités, conçus spécifiquement pour fonctionner sur les appareils et les postes de travail de l’Internet des objets.
Ces différentes approches présentent des différences majeures en termes de forces, de lacunes et d’exigences. Voici comment elles se comparent et où vous pouvez vous attendre à les voir déployées au cours de la prochaine année ou deux.
Grands modèles de langage
Les grands modèles de langage ont, en général, une taille de dizaines de gigaoctets et sont entraînés sur d’énormes quantités de données textuelles, parfois à l’échelle du pétaoctet. Ils font également partie des modèles les plus importants en termes de nombre de paramètres, où un « paramètre » fait référence à une valeur que le modèle peut modifier indépendamment au fur et à mesure de son apprentissage. Les paramètres sont les parties du modèle apprises à partir des données d’entraînement historiques et définissent essentiellement la compétence du modèle sur un problème, tel que la génération de texte.
« Les grands modèles sont utilisés pour des scénarios à tir nul ou à quelques tirs où peu de domaine-[tailored] les données de formation sont disponibles et fonctionnent généralement d’accord générer quelque chose en fonction de quelques invites », Fangzheng Xu, Ph.D. étudiant à Carnegie Mellon spécialisé dans le traitement du langage naturel, a déclaré à TechCrunch par e-mail. Dans l’apprentissage automatique, « quelques coups » fait référence à la pratique consistant à former un modèle avec un minimum de données, tandis que « zéro coup » implique qu’un modèle peut apprendre à reconnaître des choses qu’il n’a pas explicitement vues pendant la formation.
« Un seul grand modèle pourrait potentiellement permettre de nombreuses tâches en aval avec peu de données d’entraînement », a poursuivi Xu.
L’utilisation de grands modèles de modèles de langage a considérablement augmenté au cours des dernières années, à mesure que les chercheurs développent des architectures plus récentes et plus grandes. En juin 2020, la startup d’IA OpenAI a publié GPT-3, un modèle de 175 milliards de paramètres qui peut générer du texte et même du code à partir d’une courte invite contenant des instructions. Le groupe de recherche ouvert EleutherAI a ensuite mis à disposition GPT-J, un modèle de langage plus petit (6 milliards de paramètres) mais néanmoins capable qui peut traduire entre les langues, écrire des articles de blog, compléter le code et plus encore. Plus récemment, Microsoft et Nvidia ont ouvert un modèle baptisé Megatron-Turing Natural Language Generation (MT-NLG), qui figure parmi les plus grands modèles de compréhension de lecture et d’inférence du langage naturel développés à ce jour avec 530 milliards de paramètres.
« L’une des raisons pour lesquelles ces grands modèles de langage restent si remarquables est qu’un seul modèle peut être utilisé pour des tâches », y compris réponse aux questions, résumé de document, génération de texte, complétion de phrases, traduction et plus encore, Bernard Koch, spécialiste des sciences sociales en informatique à l’UCLA, a déclaré à TechCrunch par e-mail. « Une deuxième raison est que leurs performances continuent d’évoluer à mesure que vous ajoutez plus de paramètres au modèle et ajoutez plus de données La troisième raison pour laquelle les très grands modèles de langage pré-formés sont remarquables est qu’ils semblent être capables de faire des prédictions décentes lorsqu’on leur donne juste un quelques exemples étiquetés.
Des startups telles que Cohere et AI21 Labs proposent également des modèles similaires à GPT-3 via des API. D’autres entreprises, en particulier des géants de la technologie comme Google, ont choisi de garder secrets les grands modèles de langage qu’ils ont développés. Par exemple, Google a récemment détaillé – mais a refusé de publier – un modèle de 540 milliards de paramètres appelé PaLM qui, selon la société, atteint des performances de pointe dans les tâches linguistiques.
Les grands modèles de langage, open source ou non, ont tous en commun des coûts de développement élevés. Une étude de 2020 d’AI21 Labs a évalué les dépenses de développement d’un modèle de génération de texte avec seulement 1,5 milliard de paramètres à 1,6 million de dollars. L’inférence – exécutant en fait le modèle formé – est un autre drain. Une source estime le coût d’exécution de GPT-3 sur une seule instance AWS (p3dn.24xlarge) à un minimum de 87 000 USD par an.
« Les grands modèles deviendront plus grands, plus puissants, polyvalents, plus multimodaux et moins chers à former. Seules les grandes technologies et les startups extrêmement bien financées peuvent jouer à ce jeu », a déclaré Vu Ha, directeur technique de l’incubateur AI2, à TechCrunch par e-mail. « Les grands modèles sont parfaits pour le prototypage, la construction de nouvelles preuves de concept et l’évaluation de la faisabilité technique. Ils sont rarement le bon choix pour un déploiement dans le monde réel en raison du coût. Une application qui traite régulièrement les tweets, les messages Slack, les e-mails et autres deviendrait prohibitive si elle utilisait GPT-3.
Les grands modèles de langage continueront d’être la norme pour les services cloud et les API, où la polyvalence et l’accès aux entreprises sont plus importants que la latence. Mais malgré les innovations architecturales récentes, ces types de modèles linguistiques resteront impraticables pour la majorité des organisations, qu’elles soient universitaires, publiques ou privées.
Modèles de langage affinés
Les modèles affinés sont généralement plus petits que leurs homologues de grands modèles de langage. Les exemples incluent le Codex d’OpenAI, un descendant direct de GPT-3 affiné pour les tâches de programmation. Tout en contenant toujours des milliards de paramètres, Codex est à la fois plus petit qu’OpenAI et meilleur pour générer – et compléter – des chaînes de code informatique.
Un réglage fin peut améliorer la capacité d’un modèle à effectuer une tâche, par exemple répondre à des questions ou générer des séquences de protéines (comme dans le cas de ProGen de Salesforce). Mais cela peut également renforcer la compréhension d’un modèle sur certains sujets, comme la recherche clinique.
« Les modèles affinés sont bons pour les tâches matures avec beaucoup de données d’entraînement », a déclaré Xu. « Les exemples incluent la traduction automatique, la réponse aux questions, la reconnaissance d’entité nommée, la liaison d’entité [and] récupération de l’information. »
Les avantages ne s’arrêtent pas là. Étant donné que les modèles affinés sont dérivés de modèles de langage existants, les modèles affinés ne prennent pas autant de temps (ou de calcul) pour s’entraîner ou s’exécuter. (Les modèles plus grands comme ceux mentionnés ci-dessus peuvent prendre des semaines ou nécessiter beaucoup plus de puissance de calcul pour s’entraîner en quelques jours.) Ils ne nécessitent pas non plus autant de données que les grands modèles de langage. GPT-3 a été formé sur 45 téraoctets de texte contre les 159 gigaoctets sur lesquels Codex a été formé.
Un réglage fin a été appliqué à de nombreux domaines, mais un exemple récent et particulièrement fort est InstructGPT d’OpenAI. En utilisant une technique appelée « apprentissage par renforcement à partir de la rétroaction humaine », OpenAI a collecté un ensemble de données de démonstrations écrites par des humains sur des invites soumises à l’API OpenAI et des invites écrites par une équipe d’étiqueteurs de données humaines. Ils ont exploité ces ensembles de données pour créer des ramifications affinées de GPT-3 qui, en plus d’être un centième de la taille de GPT-3, sont manifestement moins susceptibles de générer du texte problématique tout en s’alignant étroitement sur l’intention de l’utilisateur.
Dans une autre démonstration de la puissance du réglage fin, les chercheurs de Google ont publié en février une étude affirmant qu’un modèle beaucoup plus petit que le GPT-3 – réseau de langage à réglage fin (FLAN) – surpasse le GPT-3 « de loin » sur un nombre de repères difficiles. Le FLAN, qui compte 137 milliards de paramètres, a surpassé le GPT-3 sur 19 des 25 tâches sur lesquelles les chercheurs l’ont testé et a même dépassé les performances du GPT-3 sur 10 tâches.
« Je pense que le réglage fin est probablement l’approche la plus largement utilisée dans l’industrie à l’heure actuelle, et je ne vois pas cela changer à court terme. Pour l’instant, le réglage fin sur des modèles de langage plus petits permet aux utilisateurs d’avoir plus de contrôle pour résoudre leurs problèmes spécialisés en utilisant leurs propres données spécifiques au domaine », a déclaré Koch. « Au lieu de distribuer [very large language] modèles que les utilisateurs peuvent affiner par eux-mêmes, les entreprises commercialisent l’apprentissage en quelques prises de vue via des invites d’API où vous pouvez donner au modèle de courtes invites et des exemples.
Modèles de langage Edge
Les modèles Edge, volontairement de petite taille,pouvez prendre la forme de modèles affinés — mais pas toujours. Parfois, ils sont formés à partir de zéro sur de petits ensembles de données pour répondre à des contraintes matérielles spécifiques (par exemple, matériel de téléphone ou de serveur Web local). Dans tous les cas, les modèles de périphérie – bien que limités à certains égards – offrent une multitude d’avantages que les grands modèles de langage ne peuvent égaler.
Le coût est un facteur majeur. Avec un modèle de périphérie qui s’exécute hors ligne et sur l’appareil, il n’y a pas de frais d’utilisation du cloud à payer. (Même les modèles affinés sont souvent trop volumineux pour être exécutés sur des machines locales ; MT-NLG peut prendre plus d’une minute pour générer du texte sur un processeur de bureau.) Des tâches telles que l’analyse de millions de tweets peuvent générer des milliers de dollars de frais sur le cloud populaire. modèles à base.
Les modèles Edge offrent également une plus grande confidentialité que leurs homologues liés à Internet, en théorie, car ils n’ont pas besoin de transmettre ou d’analyser des données dans le cloud. Ils sont également plus rapides, un avantage clé pour des applications telles que la traduction. Des applications telles que Google Translate s’appuient sur des modèles de pointe pour fournir des traductions hors ligne.
« L’informatique de périphérie est susceptible d’être déployée dans des environnements où une rétroaction immédiate est nécessaire. En général, je pense qu’il s’agit de scénarios où les humains interagissent de manière conversationnelle avec l’IA ou des robots ou quelque chose comme des voitures autonomes lisant des panneaux routiers », a déclaré Koch. « À titre d’exemple hypothétique, Nvidia a une démo où un chatbot de pointe a une conversation avec des clients dans un restaurant de restauration rapide. Un dernier cas d’utilisation pourrait être la prise de notes automatisée dans les dossiers médicaux électroniques. Traiter rapidement la conversation dans ces situations est essentiel.
Bien sûr, les petits modèles ne peuvent pas accomplir tout ce que les grands modèles peuvent faire. Ils sont liés par le matériel que l’on trouve dans les périphériques de périphérie, qui va des processeurs monocœur aux systèmes sur puces équipés de GPU. De plus, certaines recherches suggèrent que les techniques utilisées pour les développer peuvent amplifier des caractéristiques indésirables, comme les biais algorithmiques.
« [There’s usually a] compromis entre la consommation d’énergie et la puissance prédictive. De plus, le calcul des appareils mobiles n’augmente pas vraiment au même rythme que les clusters de calcul haute performance distribués, de sorte que les performances peuvent être de plus en plus à la traîne », a déclaré Xu.
Regarder vers l’avenir
Au fur et à mesure que les modèles de langage étendus, affinés et avancés continuent d’évoluer avec de nouvelles recherches, ils sont susceptibles de rencontrer des obstacles sur la voie d’une adoption plus large. Par exemple, bien que le réglage fin des modèles nécessite moins de données que la formation d’un modèle à partir de zéro, le réglage fin nécessite toujours un base de données. Selon le domaine — par exemple, traduire à partir d’une langue peu parlée — les données peuvent ne pas exister.
« TL’inconvénient du réglage fin est qu’il nécessite encore une bonne quantité de données. L’inconvénient de l’apprentissage en quelques coups est qu’il ne fonctionne pas aussi bien que le réglage fin, et que les scientifiques des données et les ingénieurs en apprentissage automatique ont moins de contrôle sur le modèle car ils n’interagissent avec lui que via une API », a poursuivi Koch. « Et les inconvénients de l’IA de pointe sont que les modèles complexes ne peuvent pas tenir sur de petits appareils, de sorte que les performances sont strictement inférieures à celles des modèles qui peuvent tenir sur un seul GPU de bureau – et encore moins de grands modèles de langage basés sur le cloud répartis sur des dizaines de milliers de GPU.
Xu note que tous les modèles de langage, quelle que soit leur taille, restent sous-étudiés dans certains aspects importants. Elle espère que des domaines tels que l’explicabilité et l’interprétabilité – qui visent à comprendre comment et pourquoi un modèle fonctionne et à exposer ces informations aux utilisateurs – recevront une plus grande attention et un plus grand investissement à l’avenir, en particulier dans des domaines « à fort enjeu » comme la médecine.
« La provenance est vraiment une prochaine étape importante que ces modèles devraient avoir », a déclaré Xu. « À l’avenir, il y aura de plus en plus de techniques de réglage fin efficaces pour s’adapter au coût croissant du réglage fin d’un modèle plus grand dans son ensemble. Les modèles Edge continueront d’être importants, car plus le modèle est grand, plus la recherche et le développement sont nécessaires pour distiller ou compresser le modèle afin qu’il s’adapte aux appareils Edge.