Dall-E 2 mini : qu’est-ce que l’art généré par l’IA ? Comment ça marche? Va-t-il remplacer les artistes visuels humains ?

Josh, j’ai beaucoup entendu parler de l’art généré par l’IA et j’ai vu beaucoup de mèmes vraiment fous. Que se passe-t-il, est-ce que les machines ramassent les pinceaux maintenant ?

Pas des pinceaux, non. Ce que vous voyez, ce sont des réseaux de neurones (des algorithmes censés imiter la façon dont nos neurones se signalent) formés pour générer des images à partir de texte. C’est essentiellement beaucoup de maths.

Les réseaux de neurones? Générer des images à partir de texte ? Donc, comme, vous branchez Kermit la grenouille dans Blade Runner dans un ordinateur et il crache des images de cela ?

L'art du kangourou en fromage généré par l'IA
Art généré par l’IA de kangourou fait de fromage. Photo : Dalle Mini

Vous ne sortez pas assez des sentiers battus ! Bien sûr, vous pouvez créer toutes les images Kermit que vous souhaitez. Mais la raison pour laquelle vous entendez parler de l’art de l’IA est à cause de la capacité de créer des images à partir d’idées que personne n’a jamais exprimées auparavant. Si vous faites une recherche Google pour un kangourou fait de fromage, vous ne trouverez vraiment rien. Mais voici neuf d’entre eux générés par un modèle.

Vous avez mentionné que c’était tout un tas de maths auparavant, mais en le mettant aussi simplement que possible, comment cela fonctionne-t-il réellement?

Je ne suis pas un expert, mais essentiellement ce qu’ils ont fait est d’avoir un ordinateur pour regarder des millions ou des milliards d’images de chats et de ponts et ainsi de suite. Ceux-ci sont généralement extraits d’Internet, ainsi que les légendes qui leur sont associées.

Les algorithmes identifient des modèles dans les images et les légendes et peuvent éventuellement commencer à prédire quelles légendes et images vont de pair. Une fois qu’un modèle peut prédire à quoi devrait ressembler une image sur la base d’une légende, l’étape suivante consiste à l’inverser en créant des images entièrement nouvelles à partir de nouvelles légendes.

DALLE mini est un modèle d’IA qui génère des images à partir de n’importe quelle invite que vous donnezhttps://t.co/q8KgTWdYFH pic.twitter.com/BDqBMaO5eH

— Flo (@sketchbookflo) 5 juin 2022

\n », »url »: »https://twitter.com/sketchbookflo/status/1533414898541150208?s=20&t=usUO1lq2HoSoeWdKUwTQEg », »id »: »1533414898541150208″, »hasMedia »:false, »role »: »en ligne « , »isThirdPartyTracking »:false, »source »: »Twitter », »elementId »: »75f51d3c-b29a-48ce-8892-7bad3c0d2533″ »/>

Lorsque ces programmes créent de nouvelles images, trouvent-ils des points communs comme, toutes mes images étiquetées kangourous sont généralement de gros blocs de formes comme cetteet le fromage est généralement un tas de pixels qui ressemblent à cette et juste faire tourner des variations là-dessus?

C’est un peu plus que ça. Si vous regardez cet article de blog de 2018, vous pouvez voir à quel point les anciens modèles avaient des problèmes. Lorsqu’on lui a donné la légende d’un troupeau de girafes sur un navire, cela a créé un tas de gouttes de couleur girafe debout dans l’eau. Ainsi, le fait que nous obtenions des kangourous reconnaissables et plusieurs sortes de fromage montre à quel point la compréhension des algorithmes a fait un grand pas en avant.

Merde. Alors, qu’est-ce qui a changé pour que les choses qu’il fabrique ne ressemblent plus à des cauchemars complètement horribles ?

Il y a eu un certain nombre de développements dans les techniques, ainsi que dans les ensembles de données sur lesquels elles s’entraînent. En 2020, une société nommée OpenAi a publié GPT-3, un algorithme capable de générer du texte étrangement proche de ce qu’un humain pourrait écrire. L’un des algorithmes de génération de texte en image les plus en vogue, DALLE, est basé sur GPT-3 ; plus récemment, Google a publié Imagen, en utilisant ses propres modèles de texte.

Ces algorithmes sont nourris d’énormes quantités de données et obligés de faire des milliers d’exercices pour améliorer leurs prédictions.

Des exercices? Y a-t-il encore de vraies personnes impliquéescomme dire aux algorithmes si ce qu’ils font est vrai ou faux ?

En fait, c’est un autre grand développement. Lorsque vous utilisez l’un de ces modèles, vous ne voyez probablement qu’une poignée d’images réellement générées. Semblable à la façon dont ces modèles ont été initialement formés pour prédire les meilleures légendes pour les images, ils ne vous montrent que les images qui correspondent le mieux au texte que vous leur avez donné. Ils se marquent.

Mais il y a encore des faiblesses dans ce processus de génération, n’est-ce pas ?

Je ne saurais trop insister sur le fait que ce n’est pas de l’intelligence. Les algorithmes ne comprennent pas ce que signifient les mots ou les images de la même manière que vous ou moi. C’est un peu comme une meilleure estimation basée sur ce qu’il a vu auparavant. Il y a donc pas mal de limitations à la fois dans ce qu’il peut faire et dans ce qu’il fait qu’il ne devrait probablement pas faire (comme des images potentiellement graphiques).

Hum pic.twitter.com/VB0RkDUXXE

– Matt Bevan (@MatthewBevan) 9 juin 2022

\n », »url »: »https://twitter.com/MatthewBevan/status/1534752593372905473?s=20&t=alX2bHC8hcBnR71SKZ-Yjg », »id »: »1534752593372905473″, »hasMedia »:false, »role »: « inline », »isThirdPartyTracking »:false, »source »: »Twitter », »elementId »: »2d18232f-b994-4e26-a1d4-5cab5bed45f4″ »/>

OK, donc si les machines font des photos à la demande maintenant, combien d’artistes cela mettra-t-il au chômage ?

Pour l’instant, ces algorithmes sont largement restreints ou coûteux à utiliser. Je suis toujours sur la liste d’attente pour essayer DALLE. Mais la puissance de calcul devient également moins chère, il existe de nombreux ensembles de données d’images énormes et même les gens ordinaires créent leurs propres modèles. Comme celui que nous avons utilisé pour créer les images de kangourou. Il existe également une version en ligne appelée Dall-E 2 mini, qui est celle que les gens utilisent, explorent et partagent en ligne pour tout créer, de Boris Johnson mangeant un poisson aux kangourous au fromage.

Je doute que quiconque sache ce qui arrivera aux artistes. Mais il y a encore tellement de cas extrêmes où ces modèles tombent en panne que je ne me fierais pas exclusivement à eux.

J’ai le sentiment imminent que l’art généré par l’IA dévorera la durabilité économique d’être un illustrateur

non pas parce que l’art sera remplacé par l’IA dans son ensemble – mais parce que ce sera tellement moins cher et assez bon pour la plupart des gens et des entreprises

— Freya Holmr (@FreyaHolmer) 2 juin 2022

\n », »url »: »https://twitter.com/FreyaHolmer/status/1532261886078631940″, »id »: »1532261886078631940″, »hasMedia »:false, »role »: »inline », »isThirdPartyTracking »: false, »source »: »Twitter », »elementId »: »59baeb37-2e10-424a-b7d1-51edb6a39e2a » »>

J’ai le sentiment imminent que l’art généré par l’IA dévorera la durabilité économique d’être un illustrateur

non pas parce que l’art sera remplacé par l’IA dans son ensemble – mais parce que ce sera tellement moins cher et assez bon pour la plupart des gens et des entreprises

— Freya Holmr (@FreyaHolmer) 2 juin 2022

Y a-t-il d’autres problèmes avec la création d’images basées uniquement sur la correspondance de motifs, puis en se marquant sur leurs réponses ? Des questions de parti pris, par exemple, ou d’associations malheureuses ?

Quelque chose que vous remarquerez dans les annonces d’entreprise de ces modèles, c’est qu’ils ont tendance à utiliser des exemples anodins. Beaucoup d’images générées d’animaux. Cela parle de l’un des énormes problèmes liés à l’utilisation d’Internet pour former un algorithme de correspondance de modèles, une grande partie est absolument terrible.

Il y a quelques années, un ensemble de données d’images de 80 m utilisées pour former des algorithmes a été supprimé par des chercheurs du MIT en raison de termes péjoratifs tels que des catégories et des images offensantes. Quelque chose que nous avons remarqué dans nos expériences est que les mots commerciaux semblent être associés à des images générées d’hommes.

Donc, en ce moment, c’est à peu près assez bon pour les mèmes, et fait toujours des images de cauchemar étranges (en particulier des visages), mais pas autant qu’avant. Mais qui connaît l’avenir. Merci Josh.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite