Les outils d’IA text-to-image remplaceront-ils les artistes ou leur donneront-ils plus de pouvoir ?
Tout au long de l’histoire de l’humanité, le progrès technologique a rendu certains travailleurs obsolètes tout en donnant du pouvoir à d’autres. Les travailleurs de secteurs tels que le transport et la fabrication ont déjà été fortement touchés par les progrès de l’automatisation et de l’intelligence artificielle.
Aujourd’hui, c’est le secteur créatif qui est en jeu. Les artistes visuels, les designers, les illustrateurs et de nombreux autres créatifs ont observé l’arrivée des générateurs de texte en image de l’IA avec un mélange d’admiration et d’appréhension.
Cette nouvelle technologie a suscité un débat sur le rôle de l’IA dans les arts visuels et sur des questions telles que l’appropriation du style. Sa rapidité et son efficacité ont suscité des craintes de redondance chez certains artistes, tandis que d’autres l’ont adoptée comme un nouvel outil passionnant.
Qu’est-ce qu’un générateur de texte en image IA ?
Un générateur de texte en image AI est un logiciel qui crée une image à partir de la saisie de texte d’un utilisateur, appelée invite. Ces outils d’IA sont formés sur d’énormes ensembles de données de paires de texte et d’images.
DALL-E 2 et Midjourney n’ont pas encore rendu publics leurs jeux de données. Cependant, l’outil open source populaire Stable Diffusion a été plus transparent sur ce sur quoi il forme son IA.
Nous ne sommes pas allés sur Internet pour trouver les images nous-mêmes. C’est quelque chose que d’autres ont déjà fait, a déclaré le professeur Bjrn Ommer, qui dirige le groupe Vision par ordinateur et apprentissage à l’Université Ludwig Maximilian de Munich.
Ommer a travaillé sur la recherche qui sous-tend Stable Diffusion.
Il existe maintenant de grands ensembles de données extraits d’Internet, accessibles au public. Et ceux que nous avons utilisés, principalement les ensembles de données LAION, qui sont là-bas, constitués de milliards d’images sur lesquelles nous pouvons nous entraîner, a-t-il déclaré à Euronews Next.
LAION est une association à but non lucratif qui collecte des couples image-texte sur Internet. Il les organise ensuite en ensembles de données en fonction de facteurs tels que la langue, la résolution, la probabilité d’avoir un filigrane et le score esthétique prévu, comme l’ensemble de données Aesthetic Visual Analysis (AVA) qui contient des photographies qui ont été notées de 1 à 10.
LAION obtient ces paires image-texte d’une autre organisation à but non lucratif appelée Common Crawl. Common Crawl fournit un accès libre à son référentiel de données d’exploration Web, afin de démocratiser l’accès aux informations Web. Pour ce faire, il récupère des milliards de pages Web chaque mois et les publie sous forme d’ensembles de données librement accessibles.
Former l’IA
Une fois ces ensembles de données de paires image-texte rassemblés et organisés, le modèle d’IA est formé sur eux. Le processus de formation apprend à l’IA à établir des liens entre la structure visuelle, la composition et toutes les données visuelles discernables dans l’image et leur relation avec le texte qui l’accompagne.
Ainsi, lorsque cette formation se termine enfin après beaucoup de temps passé à former ces modèles, vous disposez d’un modèle puissant qui fait la transition entre le texte et les images, a déclaré Ommer.
La prochaine étape dans le développement d’un générateur de texte en image s’appelle la diffusion.
Dans ce processus, un bruit visuel gaussien ou aléatoire est ajouté progressivement à une image, tandis que l’IA est entraînée à chaque itération de l’image progressivement plus bruyante.
Le processus est ensuite inversé et l’IA apprend à construire, à partir de pixels aléatoires, une image visuellement similaire à l’image d’entraînement d’origine.
Le produit final de mille fois en ajoutant un tout petit peu de bruit donnera l’impression que vous avez tiré le câble d’antenne de votre téléviseur et (il y a) juste de l’électricité statique, juste du bruit, il ne reste plus de signal, a expliqué Ommer.
Le modèle d’IA est formé sur des milliards d’images de cette manière, passant d’une image au bruit, puis inversant le processus à chaque fois.
Après cette étape du processus de formation, l’IA peut alors commencer à créer, à partir du bruit, des images qui n’avaient jamais existé auparavant.
En pratique, cela signifie qu’un utilisateur peut désormais accéder à un générateur de texte en image, saisir une commande de texte dans une simple zone de texte, et l’IA générera une toute nouvelle image basée sur la saisie de texte.
Chaque IA text-to-image a des mots-clés que ses utilisateurs ont découverts par essais et erreurs. Des mots clés tels que l’art numérique, 4k ou cinématique peuvent avoir un effet dramatique sur le résultat, et les utilisateurs ont partagé des trucs et astuces en ligne pour générer de l’art dans un style spécifique. Une invite typique pourrait se lire comme une illustration numérique d’une pomme portant un chapeau de cow-boy, 4k, détaillée, tendance dans artstation.
Appropriation du style artistique
L’éthique des générateurs de texte en image de l’IA a fait l’objet de nombreux débats. Une préoccupation clé a été le fait que ces IA peuvent être formées sur le travail d’artistes réels, vivants et actifs. Cela permet potentiellement à toute personne utilisant ces outils de créer de nouvelles œuvres dans le style de signature de ces artistes.
Je pense que nous allons devoir trouver soit un moyen pour les artistes d’être indemnisés si leurs noms ou leurs images apparaissent dans les ensembles de données, soit pour qu’ils se retirent complètement s’ils ne veulent rien avoir à faire avec elle, l’artiste de collage vidéo Erik Winkowski a déclaré à Euronews Next.
Sur la question de l’appropriation stylistique à des fins financières, il a ajouté que si une campagne de marque est manifestement appropriée à partir de l’œuvre d’une personne, qu’elle ait été réalisée avec l’IA ou autre, ce n’est tout simplement pas une bonne chose. Et j’espère qu’ils seront un public debout contre cela.
En novembre, la communauté d’art en ligne Deviant Art a annoncé qu’elle ajouterait son propre outil de génération de texte en image par IA DreamUp à son site Web.
Toutes les illustrations des utilisateurs de Deviant Arts sur le site Web seraient alors automatiquement disponibles pour former l’IA.
Cependant, dans les 24 heures suivant l’annonce, face à une forte réaction de sa communauté, Deviant Art a changé sa politique. Au lieu de cela, les utilisateurs devraient choisir activement de s’inscrire pour former l’IA.
Shutterstock, une place de marché d’images, prévoit désormais d’intégrer le générateur de texte en image DALL-Es et de rémunérer les créateurs dont le travail a été utilisé pour former l’IA.
Concurrence déloyale ou nouvel outil puissant ?
Lors de la foire de l’État du Colorado en 2022, l’œuvre Thtre Dopra Spatial générée par l’IA de Jason Allens, créée à l’aide de Midjourney, a remporté le prix dans la catégorie des « artistes numériques émergents ».
Le prix a suscité beaucoup de controverses et de débats autour de l’avenir de l’art. Au milieu de la publicité, Allen a lancé une nouvelle société, AI Infinitum, qui propose des impressions AI de luxe.
Certains artistes s’inquiètent de la vitesse et de la précision avec lesquelles un générateur de texte en image AI peut créer des œuvres d’art. Un outil comme Stable Diffusion peut, en quelques secondes, créer plusieurs œuvres d’art qui prendraient des heures ou des jours aux artistes à produire.
Cela a préoccupé certains créatifs qui craignent que leurs compétences ne soient rendues obsolètes par cette technologie.
J’ai vu le but de mes recherches ne voulant jamais remplacer les êtres humains, l’intelligence humaine ou autre, a déclaré Ommer à Euronews Next.
Je vois Stable Diffusion comme beaucoup d’autres outils que nous voyons là-bas, comme une simple technologie habilitante qui permet à l’artiste, à l’être humain, à l’utilisateur utilisant ces outils de faire ensuite plus ou de faire les choses qu’ils faisaient déjà mieux, mais sans les remplacer par les meilleurs.
La prochaine étape de l’art de l’IA
Les générateurs de texte en image IA sont continuellement améliorés et certains chercheurs et entreprises technologiques développent la prochaine étape de l’art visuel génératif.
Meta a publié des exemples de son IA texte-vidéo actuellement en développement, qui peut produire une vidéo à partir de la saisie de texte d’un utilisateur.
Pendant ce temps, Google a dévoilé DreamFusion, une IA text-to-3D qui s’appuie sur la technologie des générateurs text-to-image pour générer des modèles 3D sans avoir besoin d’ensembles de données contenant des ressources 3D.*
Certains artistes visuels tels que Winkowski ont déjà commencé à intégrer des outils d’IA générative dans leur flux de travail et à pousser la technologie pour créer de l’art animé.
Dans son récent court métrage intitulé Leaving home, Winkowski a dessiné certaines images et a permis à Stable Diffusion de générer les images intermédiaires.
C’est presque comme avoir un super pouvoir en tant qu’artiste, vraiment, dit-il.
C’est vraiment excitant. Et je pense que nous allons peut-être pouvoir entreprendre des projets plus ambitieux que nous n’aurions jamais cru possible.
Pour en savoir plus sur cette histoire, regardez la vidéo dans le lecteur multimédia ci-dessus.