L’IA génère des scènes 3D photoréalistes et vous permet également de les éditer
L’intelligence artificielle qui crée des images tridimensionnelles réalistes pourrait être exécutée sur un ordinateur portable et rendre plus rapide et plus facile la création de films d’animation
Technologie
22 juin 2022
Les modèles d’intelligence artificielle pourraient bientôt être utilisés pour créer ou éditer instantanément des scènes tridimensionnelles quasi photoréalistes sur un ordinateur portable. Les outils pourraient aider les artistes travaillant sur des jeux et CGI dans des films ou être utilisés pour créer des avatars hyperréalistes.
Les IA sont capables de produire des images 2D réalistes depuis un certain temps, mais les scènes 3D se sont avérées plus délicates en raison de la puissance de calcul nécessaire.
Maintenant, Eric Ryan Chan de l’Université de Stanford en Californie et ses collègues ont créé un modèle d’IA, EG3D, qui peut générer des images aléatoires de visages et d’autres objets en haute résolution avec une structure géométrique sous-jacente.
C’est parmi les premiers [3D models] pour obtenir une qualité de rendu proche du photoréalisme, explique Chan. En plus de cela, il génère des formes 3D finement détaillées et est suffisamment rapide pour fonctionner en temps réel sur un ordinateur portable.
EG3D et ses prédécesseurs utilisent un type d’apprentissage automatique appelé réseau antagoniste génératif (GAN) pour produire des images. Ces systèmes opposent deux réseaux de neurones en utilisant l’un pour générer des images et l’autre pour juger de leur exactitude. Ils répètent ce processus plusieurs fois jusqu’à ce que le résultat soit réaliste.
L’équipe Chans a utilisé les fonctionnalités des GAN 2D haute résolution existants et a ajouté un composant capable de convertir ces images pour l’espace 3D. En décomposant l’architecture en deux parties, nous résolvons deux problèmes à la fois : l’efficacité des calculs et la rétrocompatibilité avec les architectures existantes, explique Chan.
Visages 3D générés par l’intelligence artificielle EG3D Jon Eriksson/Laboratoire d’imagerie informatique de Stanford
Cependant, alors que des modèles comme EG3D peuvent produire des images 3D proches du photoréalisme, ils peuvent être difficiles à éditer dans un logiciel de conception, car bien que le résultat soit une image que nous pouvons voir, la façon dont les GAN la produisent est un mystère.
Un autre nouveau modèle pourrait être en mesure d’aider ici. Yong Jae Lee de l’Université du Wisconsin-Madison et ses collègues ont créé un modèle d’apprentissage automatique appelé GiraffeHD, qui tente d’extraire les caractéristiques manipulables d’une image 3D.
Si vous essayez de générer une image d’une voiture, vous voudrez peut-être contrôler le type de voiture, explique Lee. Cela pourrait également vous permettre de déterminer la forme et la couleur, ainsi que l’arrière-plan ou le paysage dans lequel la voiture se trouve réellement.
GiraffeHD est formé sur des millions d’images d’un type spécifique, comme une voiture, et recherche des facteurs latents cachés dans l’image qui correspondent à des catégories, telles que la forme de la voiture, la couleur ou l’angle de la caméra. La façon dont notre système est conçu permet au modèle d’apprendre à générer ces images d’une manière où ces différents facteurs deviennent séparés, comme des variables contrôlables, dit Lee.
Ces fonctionnalités contrôlables pourraient éventuellement être utilisées pour éditer des images générées en 3D, afin que les utilisateurs puissent modifier des fonctionnalités précises pour les scènes souhaitées.
Les détails de ces modèles seront dévoilés cette semaine lors de la conférence Computer Vision and Pattern Recognition à la Nouvelle-Orléans, en Louisiane.
EG3D et Giraffe HD font partie d’un mouvement plus large vers l’utilisation des IA pour créer des images 3D, déclare Ivor Simpson de l’Université de Sussex, au Royaume-Uni. Cependant, il reste encore des problèmes à résoudre en termes d’applicabilité plus large et de biais algorithmique. Ils peuvent être limités par les données que vous entrez, dit Simpson. Si un modèle est formé sur les visages, alors si quelqu’un a une structure de visage très différente qu’il n’a jamais vue auparavant, il se peut qu’il ne généralise pas aussi bien.