Comment le texte généré par l’IA empoisonne Internet

Les milliardaires vendent des actions Nvidia et achètent…

Cette année a été folle pour l’IA. Si vous avez passé beaucoup de temps en ligne, vous êtes probablement tombé sur des images générées par des systèmes d’IA comme DALL-E 2 ou Stable Diffusion, ou des blagues, des essais ou d’autres textes écrits par ChatGPT, la dernière incarnation du grand modèle de langage OpenAI GPT-3.

Parfois, c’est évident lorsqu’une image ou un morceau de texte a été créé par une IA. Mais de plus en plus, la sortie générée par ces modèles peut facilement nous faire croire qu’elle a été faite par un humain. Et les grands modèles de langage en particulier sont des conneries confiantes : ils créent un texte qui semble correct mais qui peut en fait être plein de faussetés.

Bien que cela n’ait pas d’importance si c’est juste un peu amusant, cela peut avoir de graves conséquences si des modèles d’IA sont utilisés pour offrir des conseils de santé non filtrés ou fournir d’autres formes d’informations importantes. Les systèmes d’IA pourraient également rendre stupidement facile la production de tonnes de désinformation, d’abus et de spam, déformant les informations que nous consommons et même notre sens de la réalité. Cela pourrait être particulièrement inquiétant autour des élections, par exemple.

La prolifération de ces grands modèles de langage facilement accessibles soulève une question importante : comment saurons-nous si ce que nous lisons en ligne est écrit par un humain ou une machine ? Je viens de publier une histoire sur les outils dont nous disposons actuellement pour repérer le texte généré par l’IA. Alerte spoiler : la trousse d’outils de détection d’aujourd’hui est terriblement inadéquate contre ChatGPT.

Mais il y a une implication plus sérieuse à long terme.On assiste peut-être, en temps réel, à la naissance d’une boule de neige de conneries.

Les grands modèles de langage sont formés sur des ensembles de données qui sont construits en grattant Internet pour le texte, y compris toutes les choses toxiques, idiotes, fausses et malveillantes que les humains ont écrites en ligne. Les modèles d’IA finis régurgitent ces faussetés comme des faits, et leur sortie est diffusée partout en ligne. Les entreprises technologiques grattent à nouveau Internet, récupérant du texte écrit par l’IA qu’elles utilisent pour former des modèles plus grands et plus convaincants, que les humains peuvent utiliser pour générer encore plus de bêtises avant qu’il ne soit gratté encore et encore, jusqu’à la nausée.

Ce problème de l’IA se nourrissant d’elle-même et produisant des sorties de plus en plus polluées s’étend aux images. Internet est désormais contaminé à jamais par les images créées par l’IA, a déclaré Mike Cook, chercheur en IA au Kings College de Londres, à mon collègue Will Douglas Heaven dans son nouvel article sur l’avenir des modèles d’IA générative.

Les images que nous avons réalisées en 2022 feront partie de tout modèle qui sera fabriqué à partir de maintenant.

www.actusduweb.com

Suivez Actusduweb sur Google News