L’Internet n’est pas encore complètement étrange ; L’IA peut résoudre ce problème

Internet se précipite dans un ouragan d’absurdités générées par l’IA, et personne ne sait comment l’arrêter.

C’est la possibilité qui donne à réfléchir présentée dans une paire d’articles qui examinent des modèles d’IA entraînés sur des données générées par l’IA. Ce sort peut-être évitable n’est pas nouveau pour les chercheurs en IA. Mais ces deux nouvelles découvertes mettent en avant des résultats concrets qui détaillent les conséquences d’une boucle de rétroaction qui entraîne un modèle sur sa propre sortie. Bien que la recherche n’ait pas pu reproduire l’échelle des plus grands modèles d’IA, tels que ChatGPT, les résultats ne sont toujours pas beaux. Et ils peuvent être raisonnablement extrapolés à des modèles plus grands.

Au fil du temps, ces erreurs s’accumulent. Puis, à un moment donné, vos données sont essentiellement dominées par les erreurs plutôt que par les données d’origine. Ilia Shumailov, Université de Cambridge

Avec le concept de génération de données et de réutilisation de la génération de données pour recycler, ajuster ou perfectionner des modèles d’apprentissage automatique, vous entrez maintenant dans un jeu très dangereux, déclare Jennifer Prendki, PDG et fondatrice de la société DataPrepOps Alectio.

L’IA fonce vers l’effondrement

Les deux articles, qui sont tous deux des prépublications, abordent le problème sous des angles légèrement différents. The Curse of Recursion: Training on Generated Data Makes Models Forget examine l’effet potentiel sur les grands modèles de langage (LLM), tels que ChatGPT et Google Bard, ainsi que sur les modèles de mélange gaussien (GMM) et les auto-encodeurs variationnels (VAE). Le deuxième article, Towards Understanding the Interplay of Generative Artificial Intelligence and the Internet, examine l’effet sur les modèles de diffusion, tels que ceux utilisés par les générateurs d’images comme Stable Diffusion et Dall-E.

Bien que les modèles discutés diffèrent, les articles parviennent à des résultats similaires. Les deux ont constaté que la formation d’un modèle sur les données générées par le modèle peut conduire à un échec connu sous le nom de effondrement du modèle.

En effet, lorsque le premier modèle correspond aux données, il a ses propres erreurs. Et puis le deuxième modèle, qui s’entraîne sur les données produites par le premier modèle qui contient des erreurs, apprend essentiellement les erreurs définies et y ajoute ses propres erreurs, explique Ilia Shumailov, titulaire d’un doctorat en informatique de l’Université de Cambridge. candidat et co-auteur de l’article sur la récursivité. Au fil du temps, ces erreurs s’accumulent. Puis, à un moment donné, vos données sont essentiellement dominées par les erreurs plutôt que par les données d’origine.

La qualité des résultats générés par les LLM diminue à chaque génération de formation sur les données générées par l’IA.La malédiction de la récursivité : la formation sur les données générées fait oublier les modèles

Et les erreurs s’empilent rapidement. Shumailov et ses coauteurs ont utilisé OPT-125M, un LLM open source introduit par des chercheurs de Meta en 2022, et ont affiné le modèle avec l’ensemble de données wikitext2. Alors que les premières générations ont produit des résultats décents, les réponses sont devenues absurdes en dix générations. Une réponse de la neuvième génération a répété l’expression des lièvres à queue et alterné à travers diverses couleurs dont aucune ne se rapporte à l’invite initiale sur l’architecture des tours du Somerset, en Angleterre.

Les modèles de diffusion sont tout aussi sensibles. Rik Sarkar, co-auteur de Towards Understanding et directeur adjoint du Laboratory for Foundations of Computer Science à l’Université d’Edimbourg, déclare : « Il semble que dès que vous disposez d’un volume raisonnable de données artificielles, cela dégénère. L’article a révélé qu’un simple modèle de diffusion entraîné sur une catégorie spécifique d’images, telles que des photos d’oiseaux et de fleurs, produisait des résultats inutilisables en deux générations.

Sarkar prévient que les résultats sont un scénario du pire : l’ensemble de données était limité et les résultats de chaque génération ont été directement réinjectés dans le modèle. Pourtant, les résultats des articles montrent que l’effondrement du modèle peut se produire si un ensemble de données de formation de modèles comprend trop de données générées par l’IA.

Les données de formation à l’IA représentent une nouvelle frontière pour la cybersécurité

Ce n’est pas un choc pour ceux qui étudient de près l’interaction entre les modèles d’IA et les données utilisées pour les former. Prendki est un expert dans le domaine des opérations d’apprentissage automatique (MLOps), mais il est également titulaire d’un doctorat en physique des particules et considère le problème sous un angle plus fondamental.

C’est fondamentalement le concept d’entropie, non ? Les données ont de l’entropie. Plus il y a d’entropie, plus il y a d’informations, n’est-ce pas ? dit Prendki. Mais avoir un jeu de données deux fois plus grand ne garantit absolument pas une entropie deux fois plus grande. C’est comme si vous mettiez du sucre dans une tasse de thé, puis vous rajoutiez de l’eau. Vous n’augmentez pas la quantité de sucre.

Il s’agit de la prochaine génération de problèmes de cybersécurité dont très peu de gens parlent. Jennifer Prendki, PDG, Alectio.com

L’effondrement du modèle, vu sous cet angle, semble un problème évident avec une solution évidente. Fermez simplement le robinet et versez une autre cuillerée de sucre. Cela, cependant, est plus facile à dire qu’à faire. Pedro Reviriego, co-auteur de Towards Understanding, affirme que s’il existe des méthodes pour éliminer les données générées par l’IA, la publication quotidienne de nouveaux modèles d’IA les rend rapidement obsolètes. C’est comme [cyber]sécurité, dit Reviriego. Vous devez continuer à courir après quelque chose qui se déplace rapidement.

Prendki est d’accord avec Reviriego et pousse l’argument un peu plus loin. Elle dit que les organisations et les chercheurs qui forment un modèle d’IA devraient considérer les données de formation comme un adversaire potentiel qui doit être contrôlé pour éviter de dégrader le modèle. Il s’agit de la prochaine génération de problèmes de cybersécurité dont très peu de gens parlent, dit Prendki.

Il existe une solution qui pourrait complètement résoudre le problème : le filigrane. Les images générées par OpenAIs DALL-E incluent un motif de couleurs spécifique par défaut, en tant que filigrane (bien que les utilisateurs aient la possibilité de le supprimer). Les LLM peuvent également contenir des filigranes, sous la forme de motifs algorithmiquement détectables qui ne sont pas évidents pour les humains. Un filigrane permet de détecter et d’exclure facilement les données générées par l’IA.

Un filigrane efficace nécessite un accord sur la manière dont il est mis en œuvre, cependant, et un moyen d’application pour empêcher les mauvais acteurs de distribuer des données générées par l’IA sans filigrane. La Chine a introduit un projet de mesure qui imposerait un filigrane sur le contenu de l’IA (entre autres réglementations), mais c’est un modèle peu probable pour les démocraties occidentales.

Les images créées avec OpenAIs DALL-E ont un filigrane dans le coin inférieur droit, bien que les utilisateurs puissent choisir de le supprimer.OpenAI

Quelques lueurs d’espoir subsistent. Les modèles présentés dans les deux articles sont petits par rapport aux plus grands modèles utilisés aujourd’hui, tels que Stable Diffusion et GPT-4, et il est possible que les grands modèles se révèlent plus robustes. Il est également possible que de nouvelles méthodes de conservation des données améliorent la qualité des futurs ensembles de données. Cependant, en l’absence de telles solutions, Shumailov affirme que les modèles d’IA pourraient avoir l’avantage du premier arrivé, car les premiers modèles auront un meilleur accès aux ensembles de données non contaminés par les données générées par l’IA.

Une fois que nous aurons la capacité de générer des données synthétiques contenant des erreurs et que nous aurons une utilisation à grande échelle de ces modèles, les données produites par ces modèles finiront inévitablement par être utilisées en ligne, explique Shumailov. Si je veux créer une entreprise qui fournit un grand modèle linguistique en tant que service à quelqu’un [today]. Si je vais ensuite récupérer une année de données en ligne et que j’essaie de créer un modèle, mon modèle va s’effondrer à l’intérieur.

À partir des articles de votre site

Articles connexes sur le Web

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite