Le procès qui pourrait réécrire les règles du droit d’auteur sur l’IA
Microsoft, sa filiale GitHub et son partenaire commercial OpenAI ont été visés dans un projet de recours collectif alléguant que la création par les entreprises de l’assistant de codage GitHub Copilot repose sur le piratage de logiciels à une échelle sans précédent. L’affaire n’en est qu’à ses débuts mais pourrait avoir un effet énorme sur le monde plus large de l’IA, où les entreprises font fortune en formant des logiciels sur des données protégées par le droit d’auteur.
Copilot, qui a été dévoilé par GitHub, propriété de Microsoft, en juin 2021, est formé sur des référentiels publics de code extrait du Web, dont beaucoup sont publiés avec des licences qui obligent quiconque réutilise le code à créditer ses créateurs. Il a été constaté que Copilot régurgitait de longues sections de code sous licence sans fournir de crédit, ce qui a conduit à ce procès qui accuse les entreprises de violer la loi sur le droit d’auteur à grande échelle.
Il s’agit du premier cas de recours collectif aux États-Unis contestant la formation et la sortie des systèmes d’IA. Ce ne sera pas le dernier.
Nous contestons la légalité de GitHub Copilot, a déclaré le programmeur et avocat Matthew Butterick, qui a intenté une action en justice avec l’aide du cabinet d’avocats Joseph Saveri basé à San Francisco, dans un communiqué de presse. C’est la première étape d’un long voyage. À notre connaissance, il s’agit du premier cas de recours collectif aux États-Unis contestant la formation et la sortie des systèmes d’IA. Ce ne sera pas le dernier. Les systèmes d’IA ne sont pas exemptés de la loi. Ceux qui créent et exploitent ces systèmes doivent rester responsables.
Le procès, qui a été déposé vendredi dernier, en est à ses débuts. En particulier, le tribunal n’a pas encore certifié la catégorie proposée de programmeurs qui auraient été lésés. Mais parler à Le bordButterick et les avocats Travis Manfredi et Cadio Zirpoli du cabinet d’avocats Joseph Saveri ont déclaré qu’ils s’attendaient à ce que l’affaire ait un impact énorme sur le monde plus large de l’IA générative.
Microsoft et OpenAI sont loin d’être les seuls à extraire du Web du matériel protégé par des droits d’auteur pour former des systèmes d’IA à des fins lucratives. De nombreuses IA text-to-image, comme le programme open-source Stable Diffusion, ont été créées exactement de la même manière. Les entreprises à l’origine de ces programmes insistent sur le fait que leur utilisation de ces données est couverte aux États-Unis par la doctrine de l’utilisation équitable. Mais les experts juridiques disent que c’est loin d’être une loi établie et que des litiges comme le recours collectif de Buttericks pourraient bouleverser la définition ténue Status Quo.
Pour en savoir plus sur les motivations et le raisonnement derrière le procès, nous avons parlé à Butterick (MB), Manfredi (TM) et Zirpoli (CZ), qui ont expliqué pourquoi ils pensaient être à l’ère Napster de l’IA et pourquoi laisser Microsoft utiliser d’autres codes sans attribution pourraient tuer le mouvement open source.
En réponse à une demande de commentaires, GitHub a déclaré : Nous nous sommes engagés à innover de manière responsable avec Copilot depuis le début, et nous continuerons à faire évoluer le produit pour mieux servir les développeurs du monde entier. OpenAI et Microsoft n’avaient pas répondu à des demandes similaires au moment de la publication.
Cette interview a été éditée pour plus de clarté et de brièveté
Tout d’abord, je veux parler un peu de la réaction de la communauté de l’IA, des personnes qui défendent cette technologie. J’ai trouvé un commentaire qui, à mon avis, est représentatif d’une réaction à cette affaire, qui dit que l’objectif de Buttericks ici est de tuer pour toujours l’utilisation transformatrice de ML de données telles que le code source ou les images.
Qu’en penses-tu, Matthieu ? Est-ce votre objectif ? Si non, qu’est-ce que c’est ?
Les systèmes d’IA ne sont pas des boîtes noires magiques exemptées de la loi.
Matthieu Butterick : Je pense que c’est vraiment simple. Les systèmes d’IA ne sont pas des boîtes noires magiques qui sont exemptées de la loi, et la seule façon d’avoir une IA responsable est si c’est juste et éthique pour tout le monde. Les propriétaires de ces systèmes doivent donc rester responsables. Ce n’est pas un principe que l’on fabrique à partir de tissu entier et qui s’applique simplement à l’IA. C’est le même principe que nous appliquons à toutes sortes de produits, qu’il s’agisse de produits alimentaires, pharmaceutiques ou de transport.
J’ai parfois l’impression que le contrecoup que vous recevez de la part de la communauté de l’IA et que vous avez affaire à de merveilleux chercheurs, de merveilleux penseurs, ils ne sont pas habitués à travailler dans cette sphère de réglementation et de sécurité. C’est toujours un défi en matière de technologie car la réglementation suit l’innovation. Mais dans l’intervalle, des cas comme celui-ci comblent cette lacune. Cela fait partie de ce qu’est un recours collectif : tester ces idées et commencer à clarifier.
Pensez-vous que si vous réussissez votre procès, cela aura un effet destructeur sur l’innovation dans ce domaine, sur la création de modèles d’IA générative ?
Étaient à l’ère Napster de l’IA générative, dit Butterick, avec le piratage alimentant l’innovation
Mo : J’espère que c’est le contraire. Je pense que dans le domaine de la technologie, nous voyons à maintes reprises des produits sortir qui contournent les limites de la loi, mais ensuite quelqu’un arrive et trouve une meilleure façon de le faire. Ainsi, au début des années 2000, vous aviez Napster, que tout le monde adorait mais qui était complètement illégal. Et aujourd’hui, nous avons des choses comme Spotify et iTunes. Et comment ces systèmes sont-ils apparus ? Par des entreprises concluant des accords de licence et apportant du contenu de manière légitime. Toutes les parties prenantes se sont réunies et ont fait en sorte que cela fonctionne, et l’idée qu’une chose similaire ne puisse pas arriver pour l’IA est, pour moi, un peu catastrophique. Nous venons de voir une annonce récente de Shutterstock créant un fonds de contributeurs pour les personnes dont les images sont utilisées dans la formation [generative AI], et peut-être que cela deviendra un modèle pour la façon dont d’autres formations sont réalisées. Moi, je préfère de loin Spotify et iTunes, et j’espère que la prochaine génération de ces outils d’IA sera meilleure et plus juste pour tout le monde et rendra tout le monde plus heureux et plus productif.
Je déduis de vos réponses que vous n’accepteriez pas un règlement de Microsoft et OpenAI ?
Mo : [Laughs] C’est le seul jour du procès…
Une partie du procès que j’ai trouvé particulièrement intéressante concernait la relation commerciale très étroite mais mal définie entre Microsoft et OpenAI. Vous soulignez qu’en 2016, OpenAI a déclaré qu’il mènerait ses expériences à grande échelle sur le cloud de Microsoft, que Microsoft dispose de licences exclusives pour certains produits OpenAI et que Microsoft a investi un milliard de dollars dans OpenAI, ce qui en fait à la fois le plus grand investisseur d’OpenAI et fournisseur de services. Quelle est la signification de cette relation et pourquoi avez-vous ressenti le besoin de la mettre en valeur ?
Travis Manfredi : Eh bien, je dirais que Microsoft essaie d’utiliser OpenAI comme un bouclier perçu comme bénéfique pour éviter toute responsabilité. Ils essaient de filtrer la recherche à travers cette organisation à but non lucratif pour en faire un usage équitable, même si ce n’est probablement pas le cas. Nous voulons donc montrer que quoi qu’OpenAI ait commencé, ce n’est plus ça. C’est une entreprise à but lucratif. Son travail consiste à faire de l’argent pour ses investisseurs. Il peut être contrôlé par une association à but non lucratif [OpenAI Inc.], mais le conseil d’administration de cette organisation à but non lucratif sont tous des hommes d’affaires. Nous ne savons pas quelles sont leurs intentions. Mais cela ne semble pas suivre la mission initiale d’OpenAI. Nous voulions donc montrer et espérons que la découverte révélera plus d’informations à ce sujet qu’il s’agit d’un schéma collectif entre Microsoft, OpenAI et GitHub qui n’est pas aussi bénéfique ou aussi altruiste qu’ils pourraient nous le faire croire.
Que craignez-vous qu’il se passe si Microsoft, GitHub, OpenAI et d’autres acteurs de l’industrie qui créent des modèles d’IA générative sont autorisés à continuer à utiliser les données d’autres personnes de cette manière ?
TM : En fin de compte, cela pourrait être la fin des licences open source. Parce que si les entreprises ne respectent pas vos licences, à quoi bon même le mettre sur votre code ? Si ça va être cassé et recraché sans aucune attribution? Nous pensons que le code open source a été extrêmement bénéfique pour l’humanité et le monde de la technologie, et nous ne pensons pas que l’IA qui ne comprend pas comment coder et ne peut que faire des suppositions probabilistes, nous ne pensons pas que ce soit mieux que l’innovation que les codeurs humains peuvent apporter.
Quelqu’un arrive et dit : socialisons les coûts et privatisons les profits.
Mo : Oui, je pense vraiment que c’est une menace existentielle pour l’open source. Et peut-être que c’est juste ma génération, mais j’ai vu assez de situations où il y a une belle communauté libre opérant sur Internet, et quelqu’un arrive et dit : Socialisons les coûts et privatisons les profits.
Si vous séparez le code des créateurs, qu’est-ce que cela signifie ? Permettez-moi de vous donner un exemple. J’ai parlé à un ingénieur en Europe qui m’a dit : l’attribution est vraiment importante pour moi parce que c’est ainsi que j’obtiens tous mes clients. Je fais des logiciels open source ; les gens utilisent mes packages, voient mon nom dessus et me contactent, et je leur vends plus d’ingénierie ou de support. Il a dit, si vous enlevez mon attribution, ma carrière est terminée, et je ne peux pas subvenir aux besoins de ma famille, je ne peux pas vivre. Et cela rappelle vraiment que ce n’est pas un problème bénin pour beaucoup de programmeurs.
Mais pensez-vous qu’il y a lieu de prouver que des outils comme Copilot sommes l’avenir et qu’ils sont meilleurs pour les codeurs en général ?
Mo : J’adore l’IA, et c’est un de mes rêves depuis que j’ai huit ans en jouant avec un ordinateur que nous pouvons apprendre à ces machines à raisonner comme nous le faisons, et donc je pense que c’est un domaine vraiment intéressant et merveilleux. Mais Je ne peux que reprendre l’exemple de Napster : que [these systems] ne sont que la première étape, et peu importe à quel point les gens pensaient que Napster était formidable, c’était aussi complètement illégal, et nous avons fait beaucoup mieux en réunissant tout le monde autour de la table et en le rendant juste pour tout le monde.
Alors, quel est le remède que vous aimeriez voir mis en œuvre ? Certaines personnes soutiennent qu’il n’y a pas de bonne solution, que les ensembles de données de formation sont trop volumineux, que les modèles d’IA sont trop complexes, pour vraiment tracer l’attribution et donner du crédit. Que penses-tu de cela?
Cadio Zirpoli : Nous aimerions les voir former leur IA d’une manière qui respecte les licences et fournit une attribution. J’ai vu sur les forums de discussion qu’il pourrait y avoir des moyens pour les personnes qui ne le souhaitent pas de se désabonner ou de s’inscrire, mais de lever les mains et de dire que c’est trop difficile, alors laissez simplement Microsoft faire ce qu’ils veulent n’est pas une solution étaient prêts vivre avec.
Pensez-vous que ce procès pourrait créer un précédent dans d’autres médias de l’IA générative ? Nous voyons des plaintes similaires dans l’IA text-to-image, selon lesquelles des entreprises, y compris OpenAI, utilisent des images protégées par le droit d’auteur sans autorisation appropriée, par exemple.
CZ : La réponse la plus simple est oui.
TM : Le DMCA s’applique de la même manière à toutes les formes de matériel protégé par le droit d’auteur, et les images incluent souvent une attribution ; les artistes, lorsqu’ils publient leur travail en ligne, incluent généralement un avis de droit d’auteur ou une licence Creative Commons, et ceux-ci sont également ignorés par [companies creating] générateurs d’images.
Alors que se passe-t-il ensuite avec ce procès? Je crois que vous devez obtenir le statut de recours collectif sur ce procès pour qu’il aille de l’avant. Selon vous, à quelle échéance cela pourrait-il se produire ?
CZ : Eh bien, nous nous attendons à ce que Microsoft dépose une requête pour rejeter notre affaire. Nous croyons que nous réussirons et que l’affaire avancera. Eh bien engagez-vous dans une période de découverte, puis nous déplacerons le tribunal pour la certification de classe. Le moment de cela peut varier considérablement en fonction des différents tribunaux et des différents juges, alors il faut bien voir. Mais nous croyons que nous avons un cas méritoire et que nous réussirons non seulement à surmonter la motion de rejet, mais aussi à faire certifier notre classe.