La minuscule nouvelle IA de NVIDIA transforme les photos en scènes 3D complètes en quelques secondes
Il fut un temps où la conversion d’une vieille photo en une image numérique impressionnait les gens. De nos jours, nous pouvons faire un peu plus, comme donner vie à des photos vintage à la Harry Potter. Et cette semaine, le fabricant de puces NVIDIA a réalisé un autre tour de magie.
S’appuyant sur des travaux antérieurs, les chercheurs de NVIDIA ont montré comment un petit réseau de neurones formé sur quelques dizaines d’images peut restituer la scène photographiée en 3D intégrale. En tant que démo, l’équipe a transformé des images d’un modèle tenant un appareil photo Polaroid et une ode à Andy Warhol en une scène 3D.
L’œuvre se démarque pour plusieurs raisons.
Tout d’abord, c’est très rapide. Les modèles d’IA précédents prenaient des heures pour s’entraîner et des minutes pour rendre des scènes 3D. Le réseau de neurones de NVIDIA ne prend que quelques minutes pour s’entraîner et restitue la scène en quelques dizaines de millisecondes. Deuxièmement, l’IA elle-même est minuscule par rapport aux modèles de langage imposants d’aujourd’hui. Les grands modèles comme GPT-3 s’entraînent sur des centaines ou des milliers d’unités de traitement graphique (GPU). L’IA de rendu d’image de NVIDIA s’exécute sur un seul GPU.
Le travail s’appuie sur les champs de rayonnement neuronal (NeRF), une technique développée par des chercheurs de l’UC Berkeley, de l’UC San Diego et de Google Research, il y a quelques années. En bref, un NeRF prend un ensemble de données limité, par exemple 36 photographies d’un sujet capturé sous divers angles, puis prédit la couleur, l’intensité et la direction de la lumière rayonnant de quelconque point dans la scène. Autrement dit, le réseau neuronal comble les lacunes entre les images avec les meilleures estimations basées sur les données d’apprentissage. Le résultat est un espace 3D continu assemblé à partir des images originales.
La contribution récente de NVIDIA, décrite dans un article, place les NeRF sur les médicaments améliorant les performances. Selon l’article, la nouvelle méthode, baptisée Instant NeRF, exploite une approche connue sous le nom d’encodage de grille de hachage multi-résolution pour simplifier l’architecture de l’algorithme et l’exécuter en parallèle sur un GPU. Cette performance a augmenté de quelques ordres de grandeur, leur algorithme s’exécutant jusqu’à 1 000 fois plus vite, selon un article de blog NVIDIA sans sacrifier la qualité.
NVIDIA imagine que la technologie pourrait trouver sa place dans les robots et les voitures autonomes, les aidant à mieux visualiser et comprendre le monde qui les entoure. Il pourrait également être utilisé pour créer des avatars haute fidélité que les gens peuvent importer dans des mondes virtuels ou pour reproduire des scènes du monde réel dans le monde numérique où les concepteurs peuvent les modifier et les développer.
La vitesse et la taille des réseaux de neurones sont importantes dans de tels cas, car d’énormes algorithmes nécessitant une puissance de calcul prodigieuse ne peuvent pas être utilisés par la plupart des gens, et ils ne sont pas non plus pratiques pour les robots et les voitures sans connexions rapides et fiables au cloud.
La démo faisait partie de la conférence des développeurs de NVIDIA cette semaine. Parmi les autres points forts, citons un système pour les voitures autonomes qui vise à cartographier 300 000 miles de routes jusqu’à quelques centimètres d’ici 2024 et un supercalculateur d’IA qui, selon la société, sera le plus rapide au monde à sa sortie (une affirmation également faite par Meta récemment).
Tout cela s’intègre parfaitement dans un récit plus large. Le monde numérique saigne dans le monde réel, et vice versa. Et pas seulement des livres, de la musique, des photos, des documents et des paiements, mais des personnes, des lieux et des infrastructures. Étant donné que les puces de NVIDIA excellent dans l’IA et les graphismes, la société est bien placée pour participer à tout cela. En effet, non contente de créer des répliques numériques de scènes individuelles, la société a déclaré qu’elle construisait un jumeau numérique de la Terre aussi.
Certes, il devient de plus en plus difficile de faire la distinction entre les arguments marketing et commerciaux et les développements sérieux. Il n’est pas rare de voir des mashups de tous les principaux mots à la mode de la technologieNFT, le métaverse, l’IA, la blockchain dans un seul titre. Mais alors que la vision semble dépasser la capacité, il y a beaucoup d’indices que nous y arriverons tôt ou tard.
Une mini IA capable de transformer une pile de polaroïds en une scène 3D n’est que l’une d’entre elles.
Crédit d’image : NVIDIA
Vous cherchez des moyens de garder une longueur d’avance sur le rythme du changement ? Repensez ce qui est possible. Rejoignez une cohorte exclusive et hautement organisée de 80 cadres pour le programme exécutif phare de Singularitys (EP), un programme de transformation du leadership entièrement immersif de cinq jours qui perturbe les modes de pensée existants. Découvrez un nouvel état d’esprit, un nouvel ensemble d’outils et un réseau de collègues futuristes déterminés à trouver des solutions au rythme rapide des changements dans le monde. Cliquez ici pour en savoir plus et postulez dès aujourd’hui !