NeRF Research transforme les photos 2D en scènes 3D | Blog NVIDIA
Lorsque la première photo instantanée a été prise il y a 75 ans avec un appareil photo Polaroid, il était révolutionnaire de capturer rapidement le monde 3D dans une image 2D réaliste. Aujourd’hui, les chercheurs en IA travaillent à l’opposé : transformer une collection d’images fixes en une scène 3D numérique en quelques secondes.
Connu sous le nom de rendu inverse, le processus utilise l’IA pour approximer le comportement de la lumière dans le monde réel, permettant aux chercheurs de reconstruire une scène 3D à partir d’une poignée d’images 2D prises sous différents angles. L’équipe NVIDIA Research a développé une approche qui accomplit cette tâche presque instantanément, ce qui en fait l’un des premiers modèles de ce type à combiner une formation de réseau de neurones ultra-rapide et un rendu rapide.
NVIDIA a appliqué cette approche à une nouvelle technologie populaire appelée Neural Radiance Fields, ou NeRF. Le résultat, baptisé Instant NeRF, est la technique NeRF la plus rapide à ce jour, réalisant plus de 1 000 accélérations dans certains cas. Le modèle ne nécessite que quelques secondes pour s’entraîner sur quelques dizaines de photos fixes ainsi que des données sur les angles de caméra à partir desquels elles ont été prises et peut ensuite rendre la scène 3D résultante en quelques dizaines de millisecondes.
Si les représentations 3D traditionnelles telles que les maillages polygonaux s’apparentent à des images vectorielles, les NeRF sont comme des images bitmap : elles capturent de manière dense la façon dont la lumière rayonne à partir d’un objet ou dans une scène, explique David Luebke, vice-président de la recherche graphique chez NVIDIA. En ce sens, Instant NeRF pourrait être aussi important pour la 3D que les appareils photo numériques et la compression JPEG l’ont été pour la photographie 2D, augmentant considérablement la vitesse, la facilité et la portée de la capture et du partage 3D.
Présenté lors d’une session au NVIDIA GTC cette semaine, Instant NeRF pourrait être utilisé pour créer des avatars ou des scènes pour des mondes virtuels, pour capturer les participants à une vidéoconférence et leurs environnements en 3D, ou pour reconstruire des scènes pour des cartes numériques 3D.
En hommage aux premiers jours des images Polaroid, NVIDIA Research a recréé une photo emblématique d’Andy Warhol prenant une photo instantanée, la transformant en une scène 3D à l’aide d’Instant NeRF.
Qu’est-ce qu’un NeRF ?
Les NeRF utilisent des réseaux de neurones pour représenter et rendre des scènes 3D réalistes basées sur une collection d’entrée d’images 2D.
Collecter des données pour alimenter un NeRF, c’est un peu comme être un photographe de tapis rouge essayant de capturer une tenue de célébrités sous tous les angles. Le réseau de neurones nécessite quelques dizaines d’images prises à partir de plusieurs positions autour de la scène, ainsi que la position de la caméra de chacune d’entre elles. coups.
Dans une scène qui comprend des personnes ou d’autres éléments en mouvement, plus ces prises de vue sont rapides, mieux c’est. S’il y a trop de mouvement pendant le processus de capture d’image 2D, la scène 3D générée par l’IA sera floue.
À partir de là, un NeRF remplit essentiellement les blancs, entraînant un petit réseau de neurones pour reconstruire la scène en prédisant la couleur de la lumière rayonnant dans n’importe quelle direction, à partir de n’importe quel point de l’espace 3D. La technique peut même contourner les occlusions lorsque des objets vus dans certaines images sont bloqués par des obstructions telles que des piliers dans d’autres images.
Accélération 1 000x avec Instant NeRF
Alors qu’estimer la profondeur et l’apparence d’un objet sur la base d’une vue partielle est une compétence naturelle pour les humains, c’est une tâche exigeante pour l’IA.
La création d’une scène 3D avec des méthodes traditionnelles prend des heures ou plus, selon la complexité et la résolution de la visualisation. L’introduction de l’IA dans l’image accélère les choses. Les premiers modèles NeRF rendaient des scènes nettes sans artefacts en quelques minutes, mais prenaient encore des heures à s’entraîner.
Cependant, NeRF instantané réduit le temps de rendu de plusieurs ordres de grandeur. Il s’appuie sur une technique développée par NVIDIA appelée codage de grille de hachage multi-résolution, qui est optimisée pour fonctionner efficacement sur les GPU NVIDIA. En utilisant une nouvelle méthode de codage des entrées, les chercheurs peuvent obtenir des résultats de haute qualité en utilisant un minuscule réseau de neurones qui fonctionne rapidement.
Le modèle a été développé à l’aide de la boîte à outils NVIDIA CUDA et de la bibliothèque Tiny CUDA Neural Networks. Puisqu’il s’agit d’un réseau de neurones léger, il peut être formé et exécuté sur un seul GPU NVIDIA fonctionnant le plus rapidement sur des cartes avec NVIDIA Tensor Cores.
La technologie pourrait être utilisée pour entraîner des robots et des voitures autonomes à comprendre la taille et la forme d’objets du monde réel en capturant des images 2D ou des séquences vidéo d’eux. Il pourrait également être utilisé dans l’architecture et le divertissement pour générer rapidement des représentations numériques d’environnements réels que les créateurs peuvent modifier et développer.
Au-delà des NeRF, les chercheurs de NVIDIA étudient comment cette technique d’encodage d’entrée pourrait être utilisée pour accélérer de multiples défis d’IA, notamment l’apprentissage par renforcement, la traduction linguistique et les algorithmes d’apprentissage en profondeur à usage général.
Pour en savoir plus sur les dernières recherches de NVIDIA, regardez la rediffusion du discours d’ouverture du PDG Jensen Huangs au GTC ci-dessous.