La diffusion stable devient publique et Internet panique
Bienvenue à La longue vueoù nous parcourons l’actualité de la semaine et la réduisons à l’essentiel. Entraînons-nous ce qui compte vraiment.
Cette semaine : une Diffusion stable Spécial
À moins que vous n’ayez vécu sous un rocher la semaine dernière, vous aurez vu quelque chose à propos de la diffusion stable. C’est le nouveau modèle d’apprentissage automatique open source pour créer des images à partir de texte et même d’autres images.
Analyse : l’open source est la clé
Comme DALL-E et Midjourney, vous lui donnez une invite textuelle et il génère des images étonnantes (ou parfois des ordures totales). Contrairement à ces autres modèles, son open source, donc voyaient déjà un explosion de l’innovation.
Mark Hachman l’appelle ‘La nouvelle application qui tue’
Affinez votre art algorithmique
L’art de l’IA est fascinant. Entrez une invite et l’algorithme générera une image selon vos spécifications. Généralement, tout cela se passe sur le Web, avec des algorithmes comme DALL-E. [But] Stability.Ai et son modèle Stable Diffusion ont brisé ce moule avec un modèle accessible au public et peut fonctionner sur des GPU grand public.
Pour l’instant, Stability.Ai vous recommande d’avoir un GPU avec au moins 6,9 Go de RAM vidéo. Malheureusement, seuls les GPU Nvidia sont actuellement pris en charge. [But] Si vous possédez un PC puissant, vous pouvez prendre tout le temps que vous souhaitez pour affiner votre art algorithmique et proposer quelque chose de vraiment impressionnant.
De la bouche des chevaux, son Emad Mostaque : Publication publique de diffusion stable
Utilisez ceci de manière éthique, morale et légale
C’est avec plaisir que nous vous annonçons la sortie publique de la diffusion stable. Au cours des dernières semaines, nous avons tous été submergés par la réponse et avons travaillé dur pour assurer une version sûre et éthique, en incorporant les données de nos tests de modèle bêta et de la communauté sur laquelle les développeurs peuvent agir.
Comme ces modèles ont été formés sur des paires image-texte à partir d’un vaste réseau Internet, le modèle peut reproduire certains préjugés sociétaux et produire un contenu dangereux, de sorte que des stratégies d’atténuation ouvertes ainsi qu’une discussion ouverte sur ces préjugés peuvent amener tout le monde à cette conversation. Nous espérons que tout le monde l’utilisera de manière éthique, morale et légale et contribuera à la fois à la communauté et au discours qui l’entoure.
Oui en effet. Avez-vous déjà été sur Internet ? Kyle Wiggers semble inquiet : Deepfakes pour tous
90% sont des femmes
Stable Diffusionest maintenant utilisé par des services générateurs d’art comme Artbreeder, Pixelz.ai et plus encore. Mais la nature non filtrée des modèles signifie que toute l’utilisation n’a pas été complètement au-dessus du bord.
D’autres systèmes générateurs d’art IA, comme OpenAIs DALL-E 2, ont mis en place des filtres stricts pour le matériel pornographique. De plus, beaucoup n’ont pas la capacité de créer l’art de personnalités publiques. Les femmes, malheureusement, sont de loin les plus susceptibles d’en être les victimes. Une étude réalisée en 2019 a révélé que, sur les 90 à 95 % de deepfakes non consensuels, environ 90 % sont des femmes.
Pourquoi est-ce si important ? Demandez simplement à Simon Willison :
La science-fiction est réelle
La diffusion stable est un très gros problème. Si vous n’avez pas prêté attention à ce qui se passe, vous devriez vraiment l’être. C’est similaire à des modèles comme Open AIs DALL-E, mais avec une différence cruciale : ils ont tout sorti.
En quelques jours, il y a eu une explosion d’innovation autour de lui. Les choses que les gens construisent sont absolument étonnantes. Générer des images à partir de texte est une chose, mais générer des images à partir d’autres images est un tout nouveau jeu de balle. Imaginez avoir un artiste conceptuel à la demande qui peut générer tout ce que vous pouvez imaginer et qui peut itérer avec vous vers votre résultat idéal.
La science-fiction est réelle maintenant. Les modèles génératifs d’apprentissage automatique sont là, et la vitesse à laquelle ils s’améliorent est irréelle. Cela vaut la peine d’y prêter une réelle attention.
Comment se compare-t-il au DALL-E ? Demandez simplement à Beyondo :
Personnellement, une diffusion stable est préférable. OpenAI donne l’impression d’avoir créé le Saint Graal des modèles de génération d’images, mais leurs images n’impressionnent personne qui a utilisé la diffusion stable.
@fabianstelzer fait un tas de tests comparatifs:
Ces synthés d’images sont comme des instruments, c’est incroyable que nous en ayons autant, chacun avec un « son » unique. DALL-E est vraiment génial pour les expressions faciales. [Midjourney] essuie le sol avec les autres lorsqu’il s’agit d’invites visant des détails de texture. DALL-E est généralement mon choix pour les scènes impliquant 2 « acteurs » clairs ou plus. DALL-E et SD étant meilleurs en photosStable Diffusion peut faire des photos incroyables mais vous devez faire attention à ne pas « surcharger » la scène.
Au moment où vous mettez «art» dans une invite, Midjourney devient fou. Les imperfections de DALL-E semblent très numériques, contrairement à celles de MJ. Lorsqu’il s’agit de copier des styles spécifiques, SD est absolument [but] DALL-E ne vous laissera pas faire une peinture Botticelli de Trump.
Et qu’en est-il des données d’entraînement ? Voici Andy Baio :
L’une des plus grandes frustrations des modèles d’IA de génération de texte en image est qu’ils ressemblent à une boîte noire. Nous savons qu’ils ont été formés sur des images extraites du Web, mais lesquelles ? L’équipe derrière Stable Diffusion a été très transparente sur la façon dont leur modèle est formé. Depuis sa sortie publique la semaine dernière, Stable Diffusion a explosé en popularité, en grande partie à cause de sa licence libre et permissive.
Simon Willison [and I] a saisi les données de plus de 12 millions d’images utilisées pour former Stable Diffusion. [It] a été formé à partir de trois ensembles de données massifs collectés par LAION. Tous les ensembles de données d’images LAION sont construits à partir de Common Crawl, [which] récupère des milliards de pages Web chaque mois et les publie sous forme d’ensembles de données massifs. Près de la moitié des images, soit environ 47 %, provenaient de seulement 100 domaines, le plus grand nombre d’images provenant de Pinterest. Les blogs hébergés par WordPress sur wp.com et wordpress.com représentaient 6,8 % de toutes les images. Parmi les autres sites de photos, d’art et de blogs, citons SmugmugBlogspotFlickrDeviantArtWikimedia500px et Tumblr.
En attendant, comment ça marche ? Il lui est facile de dire pour Letitia Parcalabescu :
Comment fonctionnent les modèles de diffusion latente ? Si vous voulez des réponses à ces questions, nous sommes là pour vous !
La morale de l’histoire:
Quels imbéciles sont ces mortels
Vous avez luLa longue vueparRichiJennings. Vous pouvez le contacter au@RiCHiou[email protected].
Image : Stable Diffusion, via Andy Baio (Creative ML OpenRAIL-M ; nivelé et recadré)