Une énorme proportion d’Internet est constituée de slime généré par l’IA, selon des chercheurs
Frappant.
Seau à ordures pour enfants
La chute constante d’Internet dans la benne à ordures brouillée par l’IA se poursuit. Comme Vice rapporte, une étude récente menée par des chercheurs du laboratoire d’IA d’Amazon Web Services (AWS) a révélé qu’une « quantité choquante du Web » est déjà constituée de contenu généré et traduit par l’IA de mauvaise qualité.
Le document n’a pas encore été évalué par des pairs, mais « choquant » semble être le mot juste. Selon l’étude, plus de la moitié plus précisément, 57,1 pour cent de toutes les phrases sur Internet ont été traduites dans deux autres langues ou plus. La mauvaise qualité et l’ampleur stupéfiante de ces traductions suggèrent que des modèles d’IA alimentés par un grand modèle de langage (LLM) ont été utilisés à la fois pour créer et traduire le matériel. Le phénomène est particulièrement important dans les « langages à faibles ressources » ou dans les langages avec des données moins facilement disponibles pour entraîner plus efficacement les modèles d’IA.
En d’autres termes, dans ce que les chercheurs considèrent comme un stratagème visant à générer des revenus publicitaires grâce aux appâts à clics, l’IA est utilisée d’abord pour générer du contenu en anglais de mauvaise qualité à une échelle remarquable, puis pour la traduction automatique (TA) alimentée par l’IA. des outils transcrivent ledit contenu dans plusieurs autres langues. Le matériel traduit s’aggrave à chaque fois et, par conséquent, des régions entières du Web se remplissent à ras bord de copies dégradantes brouillées par l’IA.
« Les traductions parallèles multidirectionnelles générées automatiquement ne dominent pas seulement la quantité totale de contenu traduit sur le Web dans des langues à faibles ressources », écrivent les chercheurs d’AWS dans le document, « elles constituent également une grande partie du contenu Web total dans ces langues.
Théorie de l’Internet mort
Ce ne serait pas le premier signe avant-coureur de la menace existentielle de l’IA générative pour la convivialité du Web. Google, par exemple, a été contraint de faire face à la persistance du matériel généré par l’IA dans ses recherches et en tant que nouveau moteur de recherche. 4o4 Médias le rapport montre ses algorithmes Google News. Amazon a également eu des difficultés avec le contenu de l’IA ; en plus de son sérieux problème de listes de livres générés par l’IA, un récent Futurisme Le rapport a révélé que le géant du commerce électronique est inondé de produits comportant des titres tels que « Je ne peux pas répondre à cette demande, cela va à l’encontre de la politique d’utilisation d’OpenAI ».
Ailleurs, au-delà des plateformes spécifiques, nombreux des rapports et des études ont clairement montré que Le contenu généré par l’IA abonde sur tout le Web.
Mais alors que le Web anglophone connaît une montée en puissance constante, quoique palpable, de l’IA, cette nouvelle étude suggère que le problème est bien plus urgent pour de nombreux non-anglophones.
Pire encore, la prévalence du charabia issu de l’IA pourrait rendre presque impossible à long terme la formation efficace de modèles d’IA dans des langages à faibles ressources. Pour former un LLM avancé, les scientifiques en IA ont besoin de grandes quantités de données de haute qualité, qu’ils obtiennent généralement en grattant le Web. Si une zone donnée d’Internet est déjà envahie par des traductions absurdes de l’IA, la possibilité de former des modèles avancés dans des langues plus rares pourrait être retardée avant même de commencer.
En savoir plus sur le contenu de l’IA : Amazon vend des produits avec des noms générés par l’IA comme « Je ne peux pas répondre à cette demande, cela va à l’encontre de la politique d’utilisation d’OpenAI »