Reddit veut être payé pour aider à enseigner les grands systèmes d’IA
Reddit est depuis longtemps un point chaud pour les conversations sur Internet. Environ 57 millions de personnes visitent le site chaque jour pour discuter de sujets aussi variés que le maquillage, les jeux vidéo et les pointeurs pour les allées de lavage à haute pression.
Ces dernières années, la gamme de chats Reddits a également été une aide pédagogique gratuite pour des entreprises comme Google, OpenAI et Microsoft. Ces entreprises utilisent les conversations Reddits dans le développement de systèmes d’intelligence artificielle géants qui, selon de nombreux habitants de la Silicon Valley, sont en passe de devenir la prochaine grande chose de l’industrie technologique.
Maintenant, Reddit veut être payé pour cela. La société a déclaré mardi qu’elle prévoyait de commencer à facturer aux entreprises l’accès à son interface de programmation d’applications, ou API, la méthode par laquelle des entités extérieures peuvent télécharger et traiter la vaste sélection de conversations de personne à personne sur les réseaux sociaux.
Le corpus de données Reddit est vraiment précieux, a déclaré Steve Huffman, fondateur et directeur général de Reddit, dans une interview. Mais nous n’avons pas besoin de donner gratuitement toute cette valeur à certaines des plus grandes entreprises du monde.
Cette décision est l’un des premiers exemples significatifs d’un réseau social facturant l’accès aux conversations qu’il héberge dans le but de développer des systèmes d’IA comme ChatGPT, le programme populaire d’OpenAI. Ces nouveaux systèmes d’IA pourraient un jour conduire à de grandes entreprises, mais ils ne sont pas susceptibles d’aider beaucoup des entreprises comme Reddit. En fait, ils pourraient être utilisés pour créer des doublons automatisés des concurrents dans les conversations Reddits.
Reddit agit également alors qu’il se prépare à une éventuelle offre publique initiale à Wall Street cette année. L’entreprise, qui a été fondée en 2005, tire la majeure partie de son argent de la publicité et des transactions de commerce électronique sur sa plateforme. Reddit a déclaré qu’il était toujours en train de régler les détails de ce qu’il facturerait pour l’accès à l’API et qu’il annoncerait les prix dans les semaines à venir.
Les forums de conversation Reddits sont devenus des produits précieux car les grands modèles de langage, ou LLM, sont devenus un élément essentiel de la création de nouvelles technologies d’IA.
Les LLM sont essentiellement des algorithmes sophistiqués développés par des sociétés comme Google et OpenAI, qui est un proche partenaire de Microsoft. Pour les algorithmes, les conversations Reddit sont des données, et elles font partie du vaste pool de matériel alimenté dans les LLM pour les développer.
L’algorithme sous-jacent qui a aidé à construire Bard, le service d’IA conversationnelle de Google, est en partie formé sur les données de Reddit. OpenAIs Chat GPT cite les données Reddit comme l’une des sources d’informations sur lesquelles il a été formé.
D’autres entreprises commencent également à voir de la valeur dans les conversations et les images qu’elles hébergent. Shutterstock, le service d’hébergement d’images, a également vendu des données d’image à OpenAI pour aider à créer DALL-E, le programme d’IA qui crée des images graphiques vives avec seulement une invite textuelle requise.
Le mois dernier, Elon Musk, le propriétaire de Twitter, a déclaré qu’il réprimait l’utilisation de l’API de Twitter, que des milliers d’entreprises et de développeurs indépendants utilisent pour suivre les millions de conversations sur le réseau. Bien qu’il n’ait pas cité les LLM comme raison du changement, les nouveaux frais pourraient atteindre des dizaines, voire des centaines de milliers de dollars.
Pour continuer à améliorer leurs modèles, les fabricants d’intelligence artificielle ont besoin de deux choses importantes : une énorme quantité de puissance de calcul et une énorme quantité de données. Certains des plus grands développeurs d’IA disposent d’une grande puissance de calcul, mais recherchent toujours en dehors de leurs propres réseaux les données nécessaires pour améliorer leurs algorithmes. Cela inclut des sources comme Wikipedia, des millions de livres numérisés, des articles universitaires et Reddit.
Les représentants de Google, Open AI et Microsoft n’ont pas immédiatement répondu à une demande de commentaire.
Reddit entretient depuis longtemps une relation symbiotique avec les moteurs de recherche d’entreprises telles que Google et Microsoft. Les moteurs de recherche parcourent les pages Web Reddits afin d’indexer les informations et de les rendre disponibles pour les résultats de recherche. Ce crawling, ou scraping, n’est pas toujours bienvenu par tous les sites sur Internet. Mais Reddit a bénéficié en apparaissant plus haut dans les résultats de recherche.
La dynamique est différente avec les LLM, ils gobent autant de données que possible pour créer de nouveaux systèmes d’IA comme les chatbots.
Reddit pense que ses données sont particulièrement précieuses car elles sont continuellement mises à jour. Cette nouveauté et cette pertinence, a déclaré M. Huffman, sont ce dont les grands algorithmes de modélisation du langage ont besoin pour produire les meilleurs résultats.
Plus que tout autre endroit sur Internet, Reddit est un lieu de conversation authentique, a déclaré M. Huffman. Il y a beaucoup de choses sur le site que vous ne diriez jamais qu’en thérapie, ou AA, ou jamais du tout.
M. Huffman a déclaré que l’API Reddits serait toujours gratuite pour les développeurs qui souhaitaient créer des applications aidant les gens à utiliser Reddit. Ils pourraient utiliser les outils pour créer un bot qui suit automatiquement si les commentaires des utilisateurs respectent les règles de publication, par exemple. Les chercheurs qui souhaitent étudier les données de Reddit à des fins académiques ou non commerciales continueront d’y accéder gratuitement.
Reddit espère également intégrer davantage de soi-disant apprentissage automatique dans le fonctionnement du site lui-même. Il pourrait être utilisé, par exemple, pour identifier l’utilisation de texte généré par l’IA sur Reddit et ajouter une étiquette qui avertit les utilisateurs que le commentaire provient d’un bot.
La société a également promis d’améliorer les outils logiciels pouvant être utilisés par les modérateurs, les utilisateurs qui donnent de leur temps pour assurer le bon fonctionnement des forums du site et améliorer les conversations entre les utilisateurs. Et les robots tiers qui aident les modérateurs à surveiller les forums continueront d’être pris en charge.
Mais pour les fabricants d’IA, il est temps de payer.
Crawler Reddit, générer de la valeur et ne rien restituer à nos utilisateurs est quelque chose qui nous pose problème, a déclaré M. Huffman. C’est le bon moment pour nous de resserrer les choses.
Nous pensons que c’est juste, a-t-il ajouté.