#image_title

Les entreprises d’IA manquent d’Internet


L’IA manque d’Internet pour consommer. Pendant que vous et moi nous connectons à notre Web mondial pour profiter (ou peut-être pas), éduquer et nous connecter, les entreprises utilisent ces données pour former leurs grands modèles de langage (LLM) et développer leurs capacités. C’est ainsi que ChatGPT connaît non seulement des informations factuelles, mais aussi comment enchaîner les réponses : une grande partie de ce qu’il « sait » est basé sur une énorme base de données de contenu Internet.

Mais alors que de nombreuses entreprises s’appuient sur Internet pour former leurs LLM, elles se heurtent à un problème : Internet est limité et les entreprises qui développent l’IA souhaitent que leur croissance continue, et ce rapidement. Comme le rapporte le Wall Street Journal, des entreprises comme OpenAI et Google sont confrontées à cette réalité. Certaines estimations du secteur indiquent qu’ils seront à court d’Internet dans environ deux ans, à mesure que les données de haute qualité se raréfient et que certaines entreprises gardent leurs données hors des mains de l’IA.

L’IA a besoin d’un parcelle de données

Ne sous-estimez pas la quantité de données dont ces entreprises ont besoin, aujourd’hui et à l’avenir. Le chercheur d’Epoch, Pablo Villalobos, a déclaré au Wall Street Journal qu’OpenAI avait entraîné GPT-4 sur environ 12 millions de jetons, qui sont des mots et des portions de mots décomposés de manière à ce que le LLM puisse les comprendre. (OpenAI dit qu’un jeton représente environ 0,75 mots, donc 12 millions de jetons représentent environ neuf millions de mots.) Villalobos estime que GPT-5, le prochain grand modèle d’OpenAI, aurait besoin de 60 à 100 mots. mille milliards jetons pour suivre la croissance attendue. Cela représente 45 à 75 000 milliards de mots, selon le décompte d’OpenAI. Le kicker ? Villalobos affirme qu’après avoir épuisé toutes les données de haute qualité disponibles sur Internet, vous auriez encore besoin de 10 à 20 000 milliards de jetons, voire plus.

Malgré tout, Villalobos ne croit pas que cette pénurie de données se produira réellement avant 2028 environ, mais d’autres ne sont pas aussi optimistes, en particulier les entreprises d’IA. Ils voient l’écriture sur le mur et recherchent des alternatives aux données Internet avec lesquelles entraîner leurs modèles.

Le problème des données de l’IA

Il y a bien sûr quelques problèmes à résoudre ici. La première est la pénurie de données susmentionnée : vous ne pouvez pas former un LLM sans données, et les modèles géants comme GPT et Gemini ont besoin d’un parcelle de données. Toutefois, la seconde est la qualité de ces données. Les entreprises n’exploiteront pas tous les recoins imaginables d’Internet, car il y a ici un déluge de déchets. OpenAI ne veut pas injecter des informations erronées et du contenu mal écrit dans GPT, car son objectif est de créer un LLM capable de répondre avec précision aux invites des utilisateurs. (Nous avons bien sûr déjà vu de nombreux exemples d’IA crachant des informations erronées.) Le filtrage de ce contenu leur laisse moins d’options qu’auparavant.

Enfin, il y a l’éthique de récupérer des données sur Internet en premier lieu. Que vous le sachiez ou non, les sociétés d’IA ont probablement récupéré vos données et les ont utilisées pour former leurs LLM. Bien entendu, ces entreprises ne se soucient pas de votre vie privée : elles veulent juste des données. S’ils y sont autorisés, ils l’accepteront. C’est aussi une grosse affaire : Reddit vend votre contenu à des sociétés d’IA, au cas où vous ne le sauriez pas. Certains endroits ripostent – ​​le New York Times poursuit OpenAI pour cela – mais jusqu’à ce qu’il y ait de véritables protections des utilisateurs dans les livres, vos données Internet publiques se dirigent vers un LLM près de chez vous.

Alors, où les entreprises recherchent-elles ces nouvelles informations ? OpenAI mène la charge. Pour GPT-5, la société envisage de former le modèle sur des transcriptions de vidéos publiques, telles que celles extraites de YouTube, à l’aide de son transcripteur Whisper. (Il semble possible que la société ait déjà utilisé elle-même les vidéos pour Sora, son générateur de vidéos IA.) OpenAI travaille également au développement de modèles plus petits pour des niches particulières, ainsi qu’au développement d’un système de rémunération des fournisseurs d’informations en fonction de la qualité de leur contenu. ces données le sont.

Les données synthétiques sont-elles la réponse ?

Mais la prochaine étape la plus controversée envisagée par certaines entreprises consiste peut-être à utiliser des données synthétiques pour former des modèles. Les données synthétiques sont simplement des informations générées par un ensemble de données existant : l’idée est de créer un nouvel ensemble de données qui ressemble à l’original, mais qui est entièrement nouveau. En théorie, il peut être utilisé pour masquer le contenu de l’ensemble de données d’origine, tout en donnant à un LLM un ensemble similaire sur lequel s’entraîner.

En pratique, cependant, la formation des LLM sur des données synthétiques pourrait conduire à un « effondrement du modèle ». En effet, les données synthétiques contiennent des modèles existants issus de leur ensemble de données d’origine. Une fois qu’un LLM est formé sur les mêmes modèles, il ne peut pas grandir et peut même oublier des éléments importants de l’ensemble de données. Au fil du temps, vous constaterez que vos modèles d’IA renvoient les mêmes résultats, car ils ne disposent pas des données d’entraînement variées nécessaires pour prendre en charge des réponses uniques. Cela tue quelque chose comme ChatGPT et va à l’encontre de l’objectif premier de l’utilisation de données synthétiques.

Pourtant, les entreprises d’IA sont, dans une certaine mesure, optimistes quant aux données synthétiques. Anthropic et OpenAI voient tous deux une place pour cette technologie dans leurs ensembles de formation. Ce sont des entreprises compétentes, donc si elles parviennent à trouver un moyen d’implémenter des données synthétiques dans leurs modèles sans brûler la maison, elles auront plus de pouvoir. En fait, ce serait bien de savoir que mes publications sur Facebook de 2010 ne sont pas utilisées pour alimenter la révolution de l’IA.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite