OpenAI présente Sora, son modèle d’IA texte-vidéo
OpenAI lance un nouveau modèle de génération vidéo, appelé Sora. La société d’IA affirme que Sora peut créer des scènes réalistes et imaginatives à partir d’instructions textuelles. Le modèle texte-vidéo permet aux utilisateurs de créer des vidéos photoréalistes d’une durée maximale d’une minute, toutes basées sur les invites qu’ils ont écrites.
Sora est capable de créer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis sur le sujet et l’arrière-plan, selon le billet de blog d’introduction d’OpenAI. La société note également que le modèle peut comprendre comment les objets existent dans le monde physique, interpréter avec précision les accessoires et générer des personnages convaincants qui expriment des émotions vibrantes.
Le modèle peut également générer une vidéo basée sur une image fixe, ainsi que combler les images manquantes sur une vidéo existante ou l’étendre. Les démos générées par Sora incluses dans le billet de blog d’OpenAI incluent une scène aérienne de la Californie pendant la ruée vers l’or, une vidéo qui semble avoir été tournée depuis l’intérieur d’un train de Tokyo, et d’autres. Beaucoup présentent des signes révélateurs de l’IA, comme un sol en mouvement suspect dans une vidéo d’un musée et OpenAI affirme que le modèle peut avoir du mal à simuler avec précision la physique d’une scène complexe, mais les résultats sont globalement assez impressionnants.
Il y a quelques années, ce sont les générateurs de texte en image comme Midjourney qui étaient à l’avant-garde de la capacité des modèles à transformer des mots en images. Mais récemment, la vidéo a commencé à s’améliorer à un rythme remarquable : des sociétés comme Runway et Pika ont présenté leurs propres modèles impressionnants de conversion texte-vidéo, et Lumiere de Google figure également parmi les principaux concurrents d’OpenAI dans ce domaine. Semblable à Sora, Lumiere offre aux utilisateurs des outils de conversion texte-vidéo et leur permet également de créer des vidéos à partir d’une image fixe.
Sora n’est actuellement disponible que pour les équipes rouges qui évaluent le modèle pour détecter les dommages et les risques potentiels. OpenAI offre également l’accès à certains artistes visuels, designers et cinéastes pour obtenir des commentaires. Il note que le modèle existant pourrait ne pas simuler avec précision la physique d’une scène complexe et pourrait ne pas interpréter correctement certaines instances de cause à effet.