Google Lumiere rapproche la vidéo IA du réel à l’irréel

Les milliardaires vendent des actions Nvidia et achètent…

Le modèle d’IA de nouvelle génération vidéo de Google, Lumiere, utilise un nouveau modèle de diffusion appelé Space-Time-U-Net, ou STUNet, qui détermine où se trouvent les éléments dans une vidéo (espace) et comment ils se déplacent et changent simultanément (temps). Ars Technica rapporte que cette méthode permet à Lumiere de créer la vidéo en un seul processus au lieu de rassembler des images fixes plus petites.

Lumiere commence par créer un cadre de base à partir de l’invite. Ensuite, il utilise le framework STUNet pour commencer à approximer l’endroit où les objets dans cette image se déplaceront afin de créer davantage d’images qui s’enchaînent les unes dans les autres, créant ainsi l’apparence d’un mouvement fluide. Lumiere génère également 80 images, contre 25 images pour la diffusion vidéo stable.

Certes, je suis plus un journaliste de texte qu’un spécialiste de la vidéo, mais la bobine sizzle publiée par Google, accompagnée d’un article scientifique pré-imprimé, montre que les outils de génération et d’édition vidéo d’IA sont passés d’une vallée étrange à un niveau presque réaliste en seulement quelques minutes. années. Il établit également la technologie de Google dans l’espace déjà occupé par des concurrents comme Runway, Stable Video Diffusion ou Metas Emu. Runway, l’une des premières plateformes de texte-vidéo grand public, a lancé Runway Gen-2 en mars de l’année dernière et a commencé à proposer des vidéos plus réalistes. Les vidéos de Runway ont également du mal à décrire le mouvement.

Google a eu la gentillesse de mettre des clips et des invites sur le site Lumière, ce qui m’a permis de diffuser les mêmes invites via Runway à des fins de comparaison. Voici les résultats:

Oui, certains des clips présentés ont une touche d’artificialité, surtout si l’on regarde de près la texture de la peau ou si la scène est plus atmosphérique. Mais regardez cette tortue ! Il bouge comme une tortue le ferait réellement dans l’eau ! On dirait une vraie tortue ! J’ai envoyé la vidéo d’introduction de Lumière à un ami qui est monteur vidéo professionnel. Même si elle a souligné que vous pouvez clairement dire que ce n’est pas tout à fait réel, elle a trouvé impressionnant que si je ne lui avais pas dit que c’était de l’IA, elle penserait que c’était CGI. (Elle a également dit : Ça va me prendre mon travail, n’est-ce pas ?)

D’autres modèles assemblent des vidéos à partir d’images clés générées où le mouvement s’est déjà produit (pensez aux dessins dans un flip book), tandis que STUNet permet à Lumiere de se concentrer sur le mouvement lui-même en fonction de l’endroit où le contenu généré devrait se trouver à un moment donné dans la vidéo.

Google n’a pas été un acteur majeur dans la catégorie texte-vidéo, mais il a lentement publié des modèles d’IA plus avancés et s’est tourné vers une approche plus multimodale. Son grand modèle de langage Gemini apportera à terme la génération d’images à Bard. Lumiere n’est pas encore disponible pour les tests, mais il montre la capacité de Google à développer une plate-forme vidéo IA comparable et sans doute un peu meilleure que les générateurs vidéo IA généralement disponibles comme Runway et Pika. Et juste un rappel, c’était là où en était Google avec la vidéo AI il y a deux ans.

a: survol]:text-gray-63 [&>a:hover]:ombre-soulignement-noir foncé:[&>a:hover]:text-gray-bd foncé :[&>a:hover]:ombre-soulignement-gris [&>a]:ombre-soulignement-gris-63 foncé :[&>a]:text-gray-bd foncé :[&>a]:shadow-underline-gray »>Image : Google

Au-delà de la génération texte-vidéo, Lumiere permettra également la génération image-vidéo, la génération stylisée, qui permet aux utilisateurs de créer des vidéos dans un style spécifique, des cinémagraphes qui animent seulement une partie d’une vidéo et l’inpainting pour masquer une zone. de la vidéo pour changer la couleur ou le motif.

Le document Lumiere de Google souligne cependant qu’il existe un risque d’utilisation abusive pour créer du contenu faux ou nuisible avec notre technologie, et nous pensons qu’il est crucial de développer et d’appliquer des outils pour détecter les biais et les cas d’utilisation malveillants afin de garantir une utilisation sûre et équitable. . Les auteurs de l’article n’ont pas expliqué comment cela pouvait être réalisé.

www.actusduweb.com

Suivez Actusduweb sur Google News