L’avenir de la vidéo IA est là, avec des défauts super étranges et tout
C’est l’avenir de la vidéo IA.
Faites défiler pour continuer
Quand des vidéos comme celles-ci sont entièrement réalisées par l’intelligence artificielle.
Aucune de ces vidéos ne représente de vraies personnes, lieux ou événements.
Attention : ce graphique nécessite JavaScript. Veuillez activer JavaScript pour une meilleure expérience.
Au premier coup d’œil, les images étonnent et confondent : une femme marche dans une rue de la ville animée par des piétons et des néons. Une voiture soulève un nuage de poussière sur une route de montagne.
Mais en y regardant de plus près, des anomalies apparaissent : les panaches de poussière ne s’alignent pas toujours exactement avec les roues arrière des voitures. Et ces piétons traquent cette femme comme une étrange horde de zombies.
Il s’agit de Sora, un nouvel outil d’OpenAI qui peut créer des vidéos réalistes d’une minute à partir de simples invites textuelles. Lorsque l’entreprise l’a dévoilé le 15 février, les experts l’ont salué comme un moment majeur dans le développement de l’intelligence artificielle. Google et Meta ont également dévoilé de nouvelles recherches vidéo sur l’IA ces derniers mois. La course est lancée vers une ère où n’importe qui peut créer presque instantanément des vidéos réalistes sans outils ni expertise CGI sophistiqués.
Les chercheurs en désinformation sont déconcertés par cette perspective. L’année dernière, de fausses photos d’IA de l’ancien président Donald Trump fuyant la police sont devenues virales, et les électeurs des primaires du New Hampshire ont été ciblés en janvier avec un faux audio généré par l’IA du président Biden leur disant de ne pas voter. Il n’est pas difficile d’imaginer de fausses vidéos réalistes apparaître sur les réseaux sociaux et éroder davantage la confiance du public dans les dirigeants politiques, les institutions et les médias.
Pour l’instant, Sora est ouvert uniquement aux testeurs et aux cinéastes sélectionnés ; OpenAI a refusé de dire quand Sora sera disponible au grand public. Nous annonçons cette technologie pour montrer au monde ce qui nous attend, a déclaré Tim Brooks, chercheur scientifique chez OpenAI qui codirige le projet Sora.
Les vidéos qui apparaissent ici ont été créées par la société, certaines à la demande du Washington Post. Sora utilise une technologie similaire aux chatbots d’intelligence artificielle, tels que ChatGPT d’OpenAI, pour traduire les invites écrites par des humains en requêtes suffisamment détaillées pour produire une vidéo.
Certains sont incroyablement réalistes. Après qu’on ait demandé à Sora de créer une scène de la côte accidentée de Big Sur en Californie, le résultat des outils d’IA est époustouflant.
Bien que la plage de Garay Point ne soit pas un endroit réel, Sora a produit une vidéo presque impossible à distinguer de cette vraie vidéo de la côte de Big Sur, près des chutes Pfeiffer, prise par le photographe Philip Thurston. Au contraire, la fausse scène semble plus majestueuse que la vraie.
Les humains et les animaux sont plus durs. Mais ici aussi, Sora produit des résultats étonnamment réalistes. Jetez un œil à cette scène d’un chat exigeant un petit-déjeuner.
La texture de la fourrure du chat, les ombres complexes sur les couvertures et la façon dont le visage de la personne réagit à l’intrusion du chat sont tous réalistes. Mais jetez un autre coup d’œil à cette patte.
Sora semble avoir des problèmes avec les causes et les effets, alors lorsque le chat bouge sa patte avant gauche, un autre appendice pousse pour le remplacer. La main de la personne est rendue avec précision, un détail avec lequel les outils d’IA précédents ont eu du mal, mais elle se trouve dans un endroit étrange.
Une chose similaire se produit dans cette scène d’un festival de printemps Holi en Inde, produite par OpenAI à la demande de The Posts.
Sora produit une photo réaliste par drone de la célébration colorée, mais certaines personnes dans la foule se mélangent, tandis que d’autres font germer des clones.
Sora a été créé en entraînant un algorithme d’IA sur d’innombrables heures de vidéos sous licence d’autres sociétés et de données publiques récupérées sur Internet, a déclaré Natalie Summers, porte-parole du projet Sora. En ingérant toute cette vidéo, l’IA acquiert des connaissances sur ce à quoi ressemblent certaines choses et certains concepts. Brooks a comparé la croissance des modèles à la façon dont les humains parviennent intuitivement à comprendre le monde au lieu d’apprendre explicitement les lois de la physique.
Les versions successives du modèle se sont améliorées, a déclaré Bill Peebles, l’autre co-responsable du projet Sora. Les premières versions ne pouvaient même pas créer un chien crédible, a-t-il déclaré. Des jambes sortiraient d’endroits où il ne devrait pas y en avoir.
Cette vidéo montre que Sora a maîtrisé le truc canin. Mais ces louveteaux gris gambadants fusionnent et réapparaissent toujours avec une étrangeté fascinante.
Que diriez-vous d’une scène d’un film hollywoodien classique ? À la demande du Post, Sora a produit un acteur et une sensibilité qui semblent directement tirés d’un vrai film.
Mais Sora ne sait clairement pas comment allumer une cigarette. Il sait que le processus implique des mains, un briquet et de la fumée, mais il n’arrive pas à comprendre ce que font les mains ni dans quel ordre.
Il y a d’autres problèmes. Regardez attentivement le téléphone. Il comporte deux combinés et un cordon qui s’étire vers le haut pour faire partie de la lampe. D’autres objets sur le bureau semblent vaguement réels, mais on ne sait pas exactement ce qu’ils sont censés être.
Le modèle n’est certainement pas encore parfait, a déclaré Brooks.
D’autres vidéos montrent également des difficultés. Dans celui-ci, un homme court de manière réaliste sur un tapis roulant, sauf qu’il est tourné vers l’arrière.
Et même lorsque Sora réussit, des problèmes peuvent se cacher. Prenez cette vidéo que Sora a réalisée à partir d’un pigeon couronné Victoria. Le critique technique et auteur Brian Merchant a souligné que la vidéo ressemble beaucoup à une vraie vidéo du même oiseau filmée par un photographe dont les images sont disponibles sur Shutterstock.
Le domaine de l’IA est également confronté à d’autres problèmes. Sora et d’autres outils vidéo d’IA ne peuvent pas produire de son, par exemple. Même si les outils d’IA se sont rapidement améliorés au cours de l’année écoulée, ils restent imprévisibles et inventent souvent de fausses informations lorsqu’on leur demande des faits.
Pendant ce temps, les équipes rouges évaluent la propension de Sora à créer du contenu haineux et à perpétuer les préjugés, a déclaré Summers, porte-parole du projet.