L’IA a appris de leur travail. Maintenant, ils veulent une indemnisation.

SAN FRANCISCO Un groupe de plus en plus vocal d’artistes, d’écrivains et de cinéastes affirme que des outils d’intelligence artificielle tels que les chatbots ChatGPT et Bard ont été illégalement formés à leur travail sans autorisation ni compensation, ce qui constitue une menace juridique majeure pour les entreprises qui diffusent la technologie à des millions de personnes. le monde.

OpenAIs ChatGPT et le générateur d’images Dall-E, ainsi que Googles Bard et Stability AIs Stable Diffusion, ont tous été formés sur des milliards d’articles de presse, de livres, d’images, de vidéos et de billets de blog extraits d’Internet, dont la plupart sont protégés par le droit d’auteur.

La semaine dernière, la comédienne Sarah Silverman a intenté une action en justice contre OpenAI et la société mère de Facebook Meta, alléguant qu’ils ont utilisé une copie piratée de son livre dans les données de formation, car les chatbots de l’entreprise peuvent résumer son livre avec précision. Les romanciers Mona Awad et Paul Tremblay ont déposé une poursuite similaire contre OpenAI. Et plus de 5 000 auteurs, dont Jodi Picoult, Margaret Atwood et Viet Thanh Nguyen, ont signé une pétition demandant aux entreprises technologiques d’obtenir le consentement et de donner crédit et compensation aux écrivains dont les livres ont été utilisés dans les données de formation.

Deux recours collectifs ont été déposés contre OpenAI et Google, alléguant que les entreprises ont violé les droits de millions d’internautes en utilisant leurs commentaires sur les réseaux sociaux pour former des IA conversationnelles. Et la Federal Trade Commission a ouvert une enquête pour savoir si OpenAI a violé les droits des consommateurs avec ses pratiques en matière de données.

Pendant ce temps, le Congrès a tenu la deuxième de deux audiences sur l’IA et le droit d’auteur mercredi, en entendant des représentants de l’industrie musicale, le fabricant de Photoshop Adobe, Stability AI et l’artiste conceptuelle et illustratrice Karla Ortiz.

Ces sociétés d’IA utilisent notre travail comme données de formation et matières premières pour leurs modèles d’IA sans consentement, crédit ou compensation, a déclaré Ortiz, qui a travaillé sur des films tels que Black Panther et Les Gardiens de la Galaxie dans des remarques préparées. Aucun autre outil ne repose uniquement sur les travaux des autres pour générer des images. Ni Photoshop, ni la 3D, ni l’appareil photo, rien ne se rapproche de cette technologie.

La vague de poursuites judiciaires, de plaintes très médiatisées et de propositions de réglementation pourrait constituer le plus grand obstacle à l’adoption des outils d’IA générative, qui ont saisi le monde de la technologie depuis qu’OpenAI a lancé ChatGPT au public à la fin de l’année dernière et a incité les dirigeants de Microsoft, Google et d’autres géants de la technologie à déclarer que la technologie est l’innovation la plus importante depuis l’avènement du téléphone mobile.

Faire défiler les réseaux sociaux peut créer une dépendance similaire à la cocaïne ou à l’alcool. Et cela contribue à une crise de santé mentale croissante chez les jeunes. (Vidéo : Luis Velarde, Brian Monroe/The Washington Post)

Les artistes disent que les moyens de subsistance de millions de travailleurs créatifs sont en jeu, en particulier parce que les outils d’IA sont déjà utilisés pour remplacer certains travaux créés par l’homme. Le grattage massif d’art, d’écriture et de films sur le Web pour la formation à l’IA est une pratique que les créateurs disent n’avoir jamais envisagée ou consentie.

Mais lors d’apparitions publiques et en réponse à des poursuites, les sociétés d’IA ont fait valoir que l’utilisation d’œuvres protégées par le droit d’auteur pour former l’IA relève de l’utilisation équitable, un concept de la loi sur le droit d’auteur qui crée une exception si le matériel est modifié de manière transformatrice.

Les modèles d’IA apprennent essentiellement de toutes les informations disponibles. Cela s’apparente à un étudiant qui va lire des livres dans une bibliothèque et apprend ensuite à écrire et à lire, a déclaré Kent Walker, président des affaires mondiales de Google, dans une interview vendredi. En même temps, vous devez vous assurer que vous ne reproduisez pas les œuvres d’autres personnes et que vous ne faites pas des choses qui constitueraient des violations du droit d’auteur.

Le mouvement des créateurs demandant plus de consentement sur la façon dont leur contenu protégé par le droit d’auteur est utilisé fait partie d’un mouvement plus large alors que l’IA modifie les règles de base et les normes de longue date pour Internet. Pendant des années, les sites Web ont été heureux que Google et d’autres géants de la technologie récupèrent leurs données dans le but de les aider à apparaître dans les résultats de recherche ou à accéder aux réseaux de publicité numérique, ce qui les a tous deux aidés à gagner de l’argent ou à rencontrer de nouveaux clients.

Il existe des précédents qui pourraient jouer en faveur des entreprises technologiques, comme une décision de la Cour d’appel américaine de 1992 qui a permis aux entreprises de procéder à l’ingénierie inverse du code logiciel d’autres entreprises pour concevoir des produits concurrents, a déclaré Andres Sawicki, professeur de droit à l’Université de Miami qui étudie la propriété intellectuelle. Mais beaucoup de gens disent qu’il y a une injustice intuitive envers les grandes et riches entreprises qui utilisent le travail des créateurs pour créer de nouveaux outils lucratifs sans rémunérer qui que ce soit.

La question de l’IA générative est vraiment difficile, a-t-il déclaré.

La bataille pour savoir qui bénéficiera de l’IA devient déjà controversée.

À Hollywood, l’IA est devenue un point d’éclair pour les écrivains et les acteurs qui se sont récemment mis en grève. Les dirigeants de studio veulent préserver le droit d’utiliser l’IA pour proposer des idées, écrire des scripts et même reproduire les voix et les images des acteurs. Les travailleurs voient l’IA comme une menace existentielle pour leurs moyens de subsistance.

Les créateurs de contenu trouvent des alliés parmi les grandes entreprises de médias sociaux, qui ont également vu les commentaires et les discussions sur leurs sites récupérés et utilisés pour enseigner aux robots IA comment fonctionne la conversation humaine.

Vendredi, le propriétaire de Twitter, Elon Musk, a déclaré que le site Web était aux prises avec des entreprises et des organisations qui grattaient illégalement son site en permanence, au point qu’il a décidé de limiter le nombre de tweets que les comptes individuels pouvaient consulter pour tenter d’arrêter le raclage de masse.

Nous avions plusieurs entités essayant de gratter chaque tweet jamais créé, a déclaré Musk.

D’autres réseaux sociaux, dont Reddit, ont également tenté d’empêcher la collecte de contenu de leurs sites, en commençant à facturer des millions de dollars pour utiliser leurs interfaces de programmation d’applications ou API, les passerelles techniques par lesquelles d’autres applications et programmes informatiques interagissent avec les réseaux sociaux. .

Certaines entreprises sont proactives en signant des accords avec des sociétés d’IA pour licencier leur contenu moyennant des frais. Jeudi, l’Associated Press a accepté de concéder sous licence ses archives de reportages remontant à 1985 à OpenAI. L’organisation de presse aura accès à la technologie OpenAIs pour expérimenter son utilisation dans son propre travail dans le cadre de l’accord.

Une déclaration de juin publiée par Digital Content Next, un groupe commercial qui comprend le New York Times et le Washington Post parmi d’autres éditeurs en ligne, a déclaré que l’utilisation d’articles de presse protégés par le droit d’auteur dans les données de formation à l’IA irait probablement bien au-delà de la portée de l’utilisation équitable telle qu’énoncée dans la loi sur le droit d’auteur.

Les professionnels de la création du monde entier utilisent ChatGPT dans le cadre de leur processus de création, et nous avons activement recherché leurs commentaires sur nos outils dès le premier jour, a déclaré Niko Felix, porte-parole d’OpenAI. ChatGPT est formé sur le contenu sous licence, le contenu accessible au public et le contenu créé par des formateurs et des utilisateurs humains de l’IA.

Les porte-parole de Facebook et de Microsoft ont refusé de commenter. Un porte-parole de Stability AI n’a pas renvoyé de demande de commentaire.

Nous savons depuis des années que nous utilisons des données provenant de sources publiques telles que des informations publiées sur le Web ouvert et des ensembles de données publiques pour former les modèles d’IA derrière des services tels que Google Traduction, a déclaré Halimah DeLaine Prado, avocate générale de Google. La loi américaine soutient l’utilisation des informations publiques pour créer de nouvelles utilisations bénéfiques, et nous sommes impatients de réfuter ces allégations sans fondement.

L’utilisation équitable est une défense solide pour les entreprises d’IA, car la plupart des résultats des modèles d’IA ne ressemblent pas explicitement au travail d’humains spécifiques, a déclaré Sawicki, professeur de droit d’auteur. Mais si les créateurs qui poursuivent les sociétés d’IA peuvent montrer suffisamment d’exemples de résultats d’IA très similaires à leurs propres œuvres, ils auront un argument solide selon lequel leur droit d’auteur est violé, a-t-il déclaré.

Les entreprises pourraient éviter cela en créant des filtres dans leurs robots pour s’assurer qu’ils ne crachent rien de trop similaire à une œuvre d’art existante, a déclaré Sawicki. YouTube, par exemple, utilise déjà la technologie pour détecter quand des œuvres protégées par le droit d’auteur sont téléchargées sur son site et les supprimer automatiquement. En théorie, les entreprises d’IA pourraient créer des algorithmes capables de repérer des sorties très similaires à l’art, à la musique ou à l’écriture existants.

Les techniques informatiques qui permettent l’IA générative moderne sont théorisées depuis des décennies, mais ce n’est que lorsque les grandes entreprises de technologie telles que Google, Facebook et Microsoft ont combiné leurs énormes centres de données d’ordinateurs puissants avec les énormes quantités de données qu’elles avaient collectées à partir de l’Internet ouvert que les bots ont commencé à montrer des capacités impressionnantes.

En parcourant des milliards de phrases et d’images sous-titrées, les entreprises ont créé de grands modèles de langage capables de prédire quelle est la chose logique à dire ou à dessiner en réponse à n’importe quelle invite, en fonction de leur compréhension de tous les écrits et images qu’ils ont ingérés.

À l’avenir, les entreprises d’IA utiliseront davantage d’ensembles de données organisés et contrôlés pour former leurs modèles d’IA, et la pratique consistant à jeter des tas de données non filtrées extraites de l’Internet ouvert sera considérée comme archaïque, a déclaré Margaret Mitchell, scientifique en chef de l’éthique chez AI start-up Hugging Face. Au-delà des problèmes de droits d’auteur, l’utilisation de données Web ouvertes introduit également des biais potentiels dans les chatbots.

C’est une approche tellement stupide et une approche non scientifique, sans parler d’une approche qui porte atteinte aux droits des peuples, a déclaré Mitchell. L’ensemble du système de collecte de données doit changer, et il est regrettable qu’il doive changer via des poursuites judiciaires, mais c’est souvent ainsi que la technologie fonctionne.

Mitchell a déclaré qu’elle ne serait pas surprise si OpenAI devait supprimer complètement l’un de ses modèles d’ici la fin de l’année en raison de poursuites ou d’une nouvelle réglementation.

OpenAI, Google et Microsoft ne divulguent pas d’informations sur les données qu’ils utilisent pour former leurs modèles, affirmant que cela pourrait permettre à de mauvais acteurs de reproduire leur travail et d’utiliser les IA à des fins malveillantes.

Une analyse Post d’une ancienne version du principal modèle d’apprentissage des langues d’OpenAI a montré que l’entreprise avait utilisé des données provenant de sites d’actualités, de Wikipedia et d’une base de données notoire de livres piratés qui a depuis été saisie par le ministère de la Justice.

Ne pas savoir exactement ce qui se passe dans les modèles rend encore plus difficile pour les artistes et les écrivains d’obtenir une rémunération pour leur travail, a déclaré Ortiz, l’illustrateur, lors de l’audience du Sénat.

Nous devons garantir une transparence claire, a déclaré Ortiz. C’est l’une des bases de départ pour que les artistes et autres individus puissent obtenir le consentement, le crédit et la rémunération.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite