Un village médiéval en spirale génial généré par l’IA captive les médias sociaux Ars Technica
Dimanche, un utilisateur de Reddit nommé « Ugleh » a publié une image générée par l’IA d’un village médiéval en forme de spirale qui a rapidement attiré l’attention sur les réseaux sociaux pour ses remarquables qualités géométriques. Les publications de suivi ont suscité encore plus d’éloges, notamment un tweet avec plus de 145 000 likes. Ugleh a créé les images en utilisant la diffusion stable et une technique de guidage appelée ControlNet.
Les réactions face à l’œuvre d’art en ligne allaient de l’émerveillement et de l’étonnement au respect pour le développement de quelque chose de nouveau dans l’art de l’IA générative. « Je n’ai jamais vu d’images comme celle-ci. Quelque chose de nouveau dans le monde de l’art », a écrit un utilisateur de X. « Tbh, j’ai vu BEAUCOUP d’art IA, je suis dans cet espace depuis très très longtemps, et c’est l’une des pièces les plus impressionnantes que j’ai jamais vues. Vous avez si bien fait », a écrit l’artiste IA Kali Yuga sur X.
Peut-être plus particulièrement, Paul Graham, cofondateur de Y-Combinator et commentateur fréquent des réseaux sociaux, a écrit : « C’est à ce moment-là que l’art généré par l’IA a réussi le test de Turing pour moi. » Alors que Graham faisait référence au test de Turing (qui prétend tester si le comportement d’une machine est impossible à distinguer de celui d’un humain) comme une métaphore plutôt que littéralement, il a été clairement impressionné.
Bien sûr, tout le monde n’a pas été impressionné par la tentative de certains utilisateurs de X de séparer les éléments de composition du village en spirale généré par l’IA. « C’est bien, mais il y a beaucoup de décisions qu’un humain ne prendrait pas », a écrit un graphiste nommé Trent. « Beaucoup d’ombres ne sont pas correctes et placer des cheminées juste au-dessus des fenêtres n’a aucun sens. En zoomant, on retrouve également les modèles de bruit révélateurs de l’art de l’IA. »
En juin, nous avons abordé une technique utilisant le modèle de synthèse d’images IA Stable Diffusion et ControlNet pour créer des codes QR qui ressemblent à de riches œuvres d’art, notamment des œuvres d’art inspirées des dessins animés. Ugleh a utilisé le même réseau neuronal optimisé pour créer ces codes QR (qui sont eux-mêmes des formes géométriques) et y a introduit des images simples de spirales et de motifs en damier.
Lorsque vous êtes guidé par l’invite : « Scène de village médiéval avec des rues animées et un château au loin (chef-d’œuvre : 1.4), (meilleure qualité), (détaillé), » ControlNet a rendu des scènes dans lesquelles les éléments artistiques des images correspondent aux formes perceptuelles des spirales et des damiers. Dans une image, les nuages se dressent au-dessus de votre tête et les gens se tiennent dans une courbe douce pour correspondre au guidage en spirale. Dans une autre, des carrés de nuages, des haies, des façades de bâtiments et un chariot composent une scène en forme de damier.
La magie de ControlNet
Alors, comment ça marche? Nous avons souvent abordé la question de la diffusion stable auparavant. Il s’agit d’un modèle de réseau neuronal formé sur des millions d’images récupérées sur Internet. Mais la clé ici est ControlNet, qui est apparu pour la première fois dans un document de recherche intitulé « Adding Conditional Control to Text-to-Image Diffusion Models » par Lvmin Zhang, Anyi Rao et Maneesh Agrawala en février 2023, et est rapidement devenu populaire dans le domaine de la diffusion stable. communauté.
En règle générale, une image à diffusion stable est créée à l’aide d’une invite de texte (appelée text2image) ou d’une invite d’image (img2img). ControlNet introduit des conseils supplémentaires qui peuvent prendre la forme d’informations extraites d’une image source, notamment la détection de pose, le mappage de profondeur, le mappage normal, la détection de contours et bien plus encore. Grâce à ControlNet, quelqu’un qui génère des illustrations d’IA peut reproduire de manière beaucoup plus fidèle la forme ou la pose d’un sujet dans une image.
En utilisant ControlNet et des invites similaires, il est facile de reproduire le travail d’Ugleh, et d’autres l’ont fait avec un effet amusant, notamment des personnages d’anime en damier, une animation, une « chèvre » de village médiéval (étonnamment sûre pour le travail) et une version de village médiéval de « Une fille avec une boucle d’oreille. »
Malgré l’attention massive et les nombreuses offres visant à transformer les œuvres d’art en NFT, Ugleh a choisi de faire profil bas pour le moment. Sur X, il a déclaré : « J’apprécie tous les retours positifs sur l’art de l’IA, je n’ai pas l’intention de gagner de l’argent avec mes dernières générations et je ne ferai aucune interview officielle. Je suis juste un nerd normal et féru de technologie en IA qui expérimenté une nouvelle technique ControlNet.
Si vous souhaitez expérimenter ControlNet, ce site propose un bon didacticiel. Ugleh a également publié un flux de travail étape par étape, comprenant les fichiers de modèles en spirale et en damier, sur Imgur.
Bien que l’œuvre d’art soit remarquable, la politique américaine actuelle en matière de droits d’auteur suggère que les images ne répondent pas aux normes pour bénéficier de la protection par le droit d’auteur et qu’elles peuvent donc appartenir au domaine public. Alors que les œuvres d’art générées par l’IA restent un sujet controversé pour beaucoup sur des bases éthiques et juridiques, les passionnés de création continuent de repousser les limites de ce qui est possible pour un praticien non qualifié ou non formé utilisant ces nouveaux outils. On ne sait toujours pas si et comment la loi reconnaîtra un jour l’étincelle d’inspiration humaine nécessaire qui rend possibles des œuvres comme celles-ci.