Le logiciel d’IA appelé DALL-E transforme vos mots en images

Le logiciel DALL-E Mini d’un groupe de développeurs open source n’est pas parfait, mais parfois il propose effectivement des images qui correspondent aux descriptions textuelles des gens.

Capture d’écran

En faisant défiler vos flux de médias sociaux ces derniers temps, il y a de fortes chances que vous ayez remarqué des illustrations accompagnées de légendes. Ils sont populaires maintenant.

Les images que vous voyez sont probablement rendues possibles par un programme de conversion de texte en image appelé DALL-E. Avant de publier les illustrations, les gens insèrent des mots, qui sont ensuite convertis en images grâce à des modèles d’intelligence artificielle.

Par exemple, un utilisateur de Twitter a posté un tweet avec le texte « Être ou ne pas être, rabbin tenant un avocat, sculpture en marbre ». La photo ci-jointe, qui est assez élégante, montre une statue en marbre d’un homme barbu en robe et chapeau melon, tenant un avocat.

Les modèles d’IA proviennent du logiciel Imagen de Google ainsi que d’OpenAI, une start-up soutenue par Microsoft qui a développé DALL-E 2. Sur son site Web, OpenAI appelle DALL-E 2 « un nouveau système d’IA capable de créer des images réalistes et de l’art à partir de une description en langage naturel. »

Mais la plupart de ce qui se passe dans ce domaine provient d’un groupe relativement restreint de personnes partageant leurs photos et, dans certains cas, générant un fort engagement. En effet, Google et OpenAI n’ont pas rendu la technologie largement accessible au public.

Bon nombre des premiers utilisateurs d’OpenAI sont des amis et des parents d’employés. Si vous souhaitez y accéder, vous devez vous inscrire sur une liste d’attente et indiquer si vous êtes un artiste professionnel, un développeur, un chercheur universitaire, un journaliste ou un créateur en ligne.

« Nous travaillons dur pour accélérer l’accès, mais cela prendra probablement un certain temps avant d’atteindre tout le monde ; au 15 juin, nous avons invité 10 217 personnes à essayer DALL-E », a écrit Joanne Jang d’OpenAI sur une page d’aide sur la société. site Internet.

Un système accessible au public est DALL-E Mini. il s’appuie sur le code open source d’une équipe de développeurs peu organisée et est souvent surchargé de demande. Les tentatives d’utilisation peuvent être accueillies par une boîte de dialogue indiquant « Trop de trafic, veuillez réessayer ».

Cela rappelle un peu le service Gmail de Google, qui a attiré les gens avec un espace de stockage de courrier électronique illimité en 2004. Les premiers utilisateurs ne pouvaient entrer que sur invitation au début, laissant des millions de personnes attendre. Aujourd’hui, Gmail est l’un des services de messagerie les plus populaires au monde.

La création d’images à partir de texte ne sera peut-être jamais aussi répandue que le courrier électronique. Mais la technologie connaît certainement un moment, et une partie de son attrait réside dans l’exclusivité.

Le laboratoire de recherche privé Midjourney demande aux utilisateurs de remplir un formulaire s’ils souhaitent expérimenter son robot de génération d’images à partir d’un canal sur l’application de chat Discord. Seul un groupe restreint de personnes utilise Imagen et en publie des images.

Les services de synthèse texte-image sont sophistiqués, identifiant les parties les plus importantes des invites d’un utilisateur, puis devinant la meilleure façon d’illustrer ces termes. Google a formé son modèle Imagen avec des centaines de ses puces IA internes sur 460 millions de paires image-texte internes, en plus des données externes.

Les interfaces sont simples. Il y a généralement une zone de texte, un bouton pour démarrer le processus de génération et une zone en dessous pour afficher les images. Pour indiquer la source, Google et OpenAI ajoutent des filigranes dans le coin inférieur droit des images de DALL-E 2 et Imagen.

Les entreprises et les groupes qui construisent le logiciel s’inquiètent à juste titre de voir tout le monde prendre d’assaut les portes en même temps. La gestion des requêtes Web pour exécuter des requêtes avec ces modèles d’IA peut coûter cher. Plus important encore, les modèles ne sont pas parfaits et ne produisent pas toujours des résultats qui représentent fidèlement le monde.

Les ingénieurs ont formé les modèles sur de vastes collections de mots et d’images provenant du Web, y compris des photos publiées sur Flickr.

OpenAI, qui est basée à San Francisco, reconnaît le potentiel de préjudice qui pourrait provenir d’un modèle qui a appris à créer des images en parcourant essentiellement le Web. Pour essayer de réduire le risque, les employés ont supprimé le contenu violent des données de formation, et il existe des filtres qui empêchent DALL-E 2 de générer des images si les utilisateurs soumettent des invites susceptibles de violer la politique de l’entreprise contre la nudité, la violence, les complots ou le contenu politique.

« Il y a un processus continu d’amélioration de la sécurité de ces systèmes », a déclaré Prafulla Dhariwal, chercheur à OpenAI.

Les biais dans les résultats sont également importants à comprendre et représentent une préoccupation plus large pour l’IA. Boris Dayma, un développeur du Texas, et d’autres qui ont travaillé sur DALL-E Mini ont expliqué le problème dans une explication de leur logiciel.

« Les professions démontrant des niveaux d’éducation plus élevés (comme les ingénieurs, les médecins ou les scientifiques) ou un travail physique élevé (comme dans l’industrie de la construction) sont principalement représentées par des hommes blancs », ont-ils écrit. « En revanche, les infirmières, les secrétaires ou les assistantes sont généralement des femmes, souvent blanches également. »

Google a décrit des lacunes similaires de son modèle Imagen dans un article universitaire.

Malgré les risques, OpenAI est enthousiasmé par les types de choses que la technologie peut permettre. Dhariwal a déclaré que cela pourrait ouvrir des opportunités créatives pour les particuliers et pourrait aider avec des applications commerciales pour la décoration intérieure ou l’habillage de sites Web.

Les résultats devraient continuer à s’améliorer avec le temps. DALL-E 2, qui a été introduit en avril, crache des images plus réalistes que la version initiale annoncée par OpenAI l’année dernière, et le modèle de génération de texte de l’entreprise, GPT, est devenu plus sophistiqué à chaque génération.

« Vous pouvez vous attendre à ce que cela se produise pour beaucoup de ces systèmes », a déclaré Dhariwal.

REGARDEZ: Ancien Prés. Obama s’attaque à la désinformation et dit que cela pourrait empirer avec l’IA

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite