Nous avons besoin de lois intelligentes sur la propriété intellectuelle pour l’intelligence artificielle
Autrefois un marigot rempli de spéculations, l’intelligence artificielle est maintenant une conflagration brûlante, « les cheveux en feu », des espoirs et des craintes concernant la transformation technologique révolutionnaire. Une profonde incertitude entoure ces systèmes intelligents – qui dépassent déjà les capacités humaines dans certains domaines – et leur régulation. Faire les bons choix sur la façon de protéger ou de contrôler la technologie est le seul moyen pour que les espoirs concernant les avantages de l’IA – pour la science, la médecine et une vie meilleure en général – l’emportent sur les peurs apocalyptiques persistantes.
Publicité
L’introduction publique de chatbots IA tels que ChatGPT d’OpenAI au cours de la dernière année a conduit à des avertissements démesurés. Ils vont d’un donné par le chef de la majorité au Sénat Chuck Schumer de l’État de New York, qui a déclaré que l’IA « introduira des changements spectaculaires sur le lieu de travail, la salle de classe, nos salons – dans pratiquement tous les coins de la vie », à un autre affirmé par le président russe Vladimir Poutine, qui a dit : « Celui qui devient le leader dans ce domaine deviendra le maître du monde ». Ces craintes incluent également des avertissements sur les conséquences désastreuses d’une IA sans contrainte de la part des leaders de l’industrie.
Les efforts législatifs pour résoudre ces problèmes ont déjà commencé. Le 14 juin, le Parlement européen a voté pour approuver une nouvelle loi sur l’intelligence artificielle, après avoir adopté 771 amendements à une proposition de 69 pages de la Commission européenne. La loi exige que les systèmes d’IA «génératifs» comme ChatGPT mettent en œuvre un certain nombre de garanties et de divulgations, telles que l’utilisation d’un système qui «déploye des techniques subliminales au-delà de la conscience d’une personne» ou «exploite et des vulnérabilités d’un groupe spécifique de personnes en raison de leur âge, de leur handicap physique ou mental », ainsi que pour éviter « les risques prévisibles pour la santé, la sécurité, les droits fondamentaux, l’environnement, la démocratie et l’État de droit ».
Une question urgente dans le monde est de savoir si les données utilisées pour former les systèmes d’IA nécessitent le consentement des auteurs ou des artistes interprètes, qui cherchent également à obtenir une attribution et une compensation pour l’utilisation de leurs œuvres.
Publicité
Plusieurs gouvernements ont créé des exceptions spéciales d’exploration de textes et de données à la loi sur le droit d’auteur afin de faciliter la collecte et l’utilisation d’informations pour la formation à l’IA. Ceux-ci permettent à certains systèmes de s’entraîner sur des textes en ligne, des images et d’autres travaux appartenant à d’autres personnes. Ces exceptions se sont récemment heurtées à une opposition, en particulier de la part des titulaires de droits d’auteur et des critiques aux objections plus générales qui souhaitent ralentir ou dégrader les services. Ils s’ajoutent aux controverses suscitées par une explosion de rapports sur les risques de l’IA au cours des derniers mois liés au potentiel de la technologie à poser des menaces de partialité, de manipulation sociale, de pertes de revenus et d’emplois, de désinformation, de fraude et d’autres risques, y compris des prédictions catastrophiques sur « le fin de la race humaine. »
Les récentes audiences américaines sur le droit d’auteur ont fait écho à un refrain commun des auteurs, des artistes et des interprètes : les données de formation à l’IA devraient être soumises aux « trois C » du consentement, du crédit et de la rémunération. Chaque C a ses propres défis pratiques qui vont à l’encontre des exceptions d’exploration de texte et de données les plus favorables adoptées par certains pays.
Les approches nationales de la propriété intellectuelle associée aux données de formation sont diverses et évolutives. Les États-Unis font face à de multiples poursuites pour déterminer dans quelle mesure l’exception d’utilisation équitable au droit d’auteur s’applique. Une directive de l’Union européenne (UE) de 2019 sur le droit d’auteur dans le marché unique numérique comprenait des exceptions pour l’exploration de textes et de données, y compris une exception obligatoire pour les organisations de recherche et d’héritage culturel, tout en donnant aux titulaires de droits d’auteur le droit d’empêcher l’utilisation de leurs œuvres pour des services commerciaux. . En 2022, le Royaume-Uni a proposé une large exception qui s’appliquerait aux utilisations commerciales, bien qu’elle ait ensuite été suspendue plus tôt cette année. En 2021, Singapour a créé une exception dans sa loi sur le droit d’auteur pour l’analyse informatique des données, qui s’applique à l’exploration de textes et de données, à l’analyse de données et à l’apprentissage automatique. L’exception de Singapour exige un accès légal aux données mais ne peut être annulée par des contrats. La Chine a publié des déclarations suggérant qu’elle exclura des données de formation « le contenu portant atteinte aux droits de propriété intellectuelle ». Dans un article d’avril du projet DigiChina de l’Université de Stanford, Helen Toner du Center for Security and Emerging Technology de l’Université de Georgetown a décrit cela comme « quelque peu opaque, étant donné que le statut de copyright d’une grande partie des données en question – généralement extraites à grande échelle d’un large éventail des sources en ligne – est trouble. De nombreux pays n’ont pas d’exception spécifique pour l’exploration de texte et de données, mais n’ont pas encore défini de position. Les responsables indiens ont indiqué qu’ils n’étaient pas prêts à réglementer l’IA pour le moment, mais comme de nombreux autres pays, l’Inde tient à soutenir une industrie nationale.
Publicité
Au fur et à mesure que des lois et des réglementations émergent, il faut veiller à éviter une approche unique, dans laquelle les règles qui s’appliquent à la musique enregistrée ou à l’art s’appliquent également aux articles et données scientifiques utilisés pour la recherche et le développement médicaux.
Les efforts législatifs antérieurs sur les bases de données illustrent la nécessité d’être prudent. Dans les années 1990, des propositions ont circulé pour conférer automatiquement des droits sur les informations extraites des bases de données, y compris les statistiques et autres éléments non protégés par le droit d’auteur. Un exemple était un traité proposé par l’Organisation mondiale de la propriété intellectuelle (OMPI) en 1996. Aux États-Unis, une coalition diversifiée d’universitaires, de bibliothèques, de généalogistes amateurs et de groupes d’intérêt public s’est opposée à la proposition de traité. Mais probablement plus conséquente a été l’opposition d’entreprises américaines telles que Bloomberg, Dun & Bradstreet et STATS qui en sont venues à considérer le traité sur les bases de données comme à la fois inutile et onéreux, car il augmenterait le fardeau de l’octroi de licences pour les données dont elles avaient besoin pour acquérir et fournir aux clients. et, dans certains cas, créerait des monopoles indésirables. Le traité sur les bases de données de l’OMPI a échoué lors d’une conférence diplomatique en 1996, tout comme les efforts ultérieurs pour adopter une loi aux États-Unis, mais l’UE a procédé à la mise en œuvre d’une directive sur la protection juridique des bases de données. Au cours des décennies qui ont suivi, les États-Unis ont connu une prolifération des investissements dans les bases de données et l’UE a cherché à affaiblir sa directive par des décisions de justice. En 2005, ses évaluations internes ont conclu que cet « instrument n’a eu aucun impact avéré sur la production de bases de données ».
L’aspect pratique pur appelle une autre mise en garde. L’échelle des données dans les grands modèles de langage peut être difficile à comprendre. La première version de Stable Diffusion, qui génère des images à partir de texte, a nécessité une formation sur 2,3 milliards d’images. GPT-2, une version antérieure du modèle qui alimente ChatGPT, a été formé sur 40 gigaoctets de données. La version ultérieure GPT-3 a été formée sur 45 téraoctets de données, plus de 1 000 fois plus volumineux. OpenAI, confronté à un litige sur son utilisation des données, n’a pas divulgué publiquement la taille spécifique de l’ensemble de données utilisé pour former la dernière version, GPT-4. L’obtention des droits sur une œuvre protégée par le droit d’auteur peut être difficile, même pour des projets simples, et pour de très grands projets ou plateformes, il est presque impossible de savoir qui détient les droits, étant donné les exigences pratiques de localisation des métadonnées et d’évaluation des contrats entre auteurs ou artistes interprètes et éditeurs. . En science, les exigences d’obtention du consentement à l’utilisation d’œuvres protégées par le droit d’auteur pourraient donner aux éditeurs d’articles scientifiques une influence considérable sur les entreprises qui pourraient utiliser les données, même si la plupart des auteurs ne sont pas rémunérés.
Publicité
Les différences entre qui possède quoi importent. C’est une chose que le détenteur des droits d’auteur d’un enregistrement de musique populaire se retire d’une base de données ; c’en est une autre si un article scientifique important est laissé de côté en raison de différends en matière de licence. Lorsque l’IA est utilisée dans les hôpitaux et en thérapie génique, voulez-vous vraiment exclure les informations pertinentes de la base de données de formation ?
Au-delà du consentement, les deux autres c, le crédit et l’indemnisation, ont leurs propres défis, comme l’illustre encore aujourd’hui le coût élevé des litiges concernant les atteintes au droit d’auteur ou aux brevets. Mais on peut également imaginer des ensembles de données et des utilisations dans les arts ou la recherche biomédicale où un programme d’IA bien géré pourrait être utile pour mettre en œuvre le partage des avantages, comme le dividende open source proposé pour l’ensemencement de produits biomédicaux réussis.
Dans certains cas, les données utilisées pour former l’IA peuvent être décentralisées, avec un certain nombre de garanties. Ils incluent la mise en œuvre de la protection de la vie privée, l’évitement du contrôle monopolistique indésirable et l’utilisation des approches « espaces de données » actuellement en cours de construction pour certaines données scientifiques.
Publicité
Tout cela soulève le défi évident de tout type de droits de propriété intellectuelle attribués aux données de formation : les droits sont essentiellement nationaux, tandis que la course au développement des services d’IA est mondiale. Les programmes d’IA peuvent être exécutés partout où il y a de l’électricité et un accès à Internet. Vous n’avez pas besoin d’un grand personnel ou de laboratoires spécialisés. Les entreprises opérant dans des pays qui imposent des obligations coûteuses ou peu pratiques sur l’acquisition et l’utilisation de données pour former l’IA seront en concurrence avec des entités qui opèrent dans des environnements plus libres.
Si quelqu’un d’autre pense comme Vladimir Poutine à l’avenir de l’IA, c’est matière à réflexion.
Ceci est un article d’opinion et d’analyse, et les opinions exprimées par l’auteur ou les auteurs ne sont pas nécessairement celles de Scientifique Américain.