OpenAI se lance dans la mêlée texte-vidéo avec Sora, Challenging Meta, MidJourney et Pika Labs – Décrypter
OpenAI a dévoilé aujourd’hui Sora, un nouveau modèle d’intelligence artificielle capable de prendre des instructions textuelles et de créer de longues vidéos captivantes. Eh bien, des vidéos d’une minute.
Il s’agit actuellement d’une version bêta fermée disponible uniquement pour les développeurs invités et qui représente une entrée quelque peu tardive du leader mondial de l’IA. La conversion texte-vidéo n’est pas vraiment un territoire inexploré. Des sociétés comme RunwayML et Pika Labs sont dans le jeu depuis un certain temps et dominent actuellement la scène avec des modèles capables de créer des visuels époustouflants en quelques secondes.
Mais il y a toujours un hic : ces vidéos ont tendance à être courtes, l’histoire perdant son focus et sa cohérence à mesure qu’elles durent.
Avec Sora, OpenAI vise à assurer la cohérence, en générant des vidéos très détaillées d’une minute qui peuvent circuler et évoluer de manière transparente. Ce n’est pas un objectif simple, car les modèles d’IA improvisent efficacement chaque image à partir de zéro. Un petit défaut dans une seule image peut faire boule de neige et se transformer en une cascade d’hallucinations et d’images irréalistes.
OpenAI semble cependant avoir progressé, avec Sora démontrant des visuels fluides et captivants qui sont jusqu’à présent inégalés par les acteurs actuels du secteur. Des exemples de vidéos ont été mis en ligne par OpenAI et certaines ont été republiées officieusement sur YouTube.
OpenAI affronte d’autres sociétés d’IA qui testent également le terrain de la vidéo générative. Le générateur de texte en image populaire Midjourney a récemment annoncé qu’il travaillait sur un générateur de texte en vidéo, mais n’a pas proposé de date de sortie. De plus, Stability AI a récemment fait des vagues avec Stable Video Diffusion, son offre open source capable de générer des vidéos de 25 images à une résolution de 576×1024.
Même Meta présente son générateur vidéo EMU, dans le cadre de sa volonté d’intégrer l’IA dans les médias sociaux et le métaverse.
Sora, qui est pour l’instant en version limitée, avec OpenAI donnant accès aux artistes visuels, designers et cinéastes pour obtenir des commentaires, se distingue par la façon dont il comprend le langage. Il génère des images vibrantes et très détaillées tout en interprétant les nuances des invites écrites. Besoin d’un mouvement de caméra spécifique ? Plusieurs personnages avec des émotions réalistes ? Aucun problème.
Sora génère même des transitions fluides entre différents plans au sein de la même vidéo, imitant ce que font déjà certains outils d’édition vidéo aujourd’hui. Voici une autre vidéo passionnée publiée aujourd’hui sur YouTube :
Néanmoins, la créativité basée sur l’IA a ses bizarreries. Sora n’est pas encore un maestro du cinéma. En d’autres termes, des conflits avec la physique ou des relations de cause à effet complexes peuvent survenir et, bien qu’il s’agisse déjà de l’un des générateurs vidéo les plus cohérents, il n’atteint pas les niveaux de fidélité absolue, il faut donc s’attendre à des hallucinations.
De plus, venant d’OpenAI, Sora sera sans aucun doute un modèle fortement censuré. La société a mis l’accent sur les tests de sécurité et les outils de détection pour signaler les contenus potentiellement dangereux et trompeurs. OpenAI travaille avec son équipe rouge pour peaufiner son modèle et espère que sa stratégie de publication anticipée mènera à une collaboration pour créer une IA de plus en plus sécurisée dans les années à venir.
Aucune date de sortie immédiate n’a été annoncée pour une mise en œuvre plus large de Sora.
Édité par Ryan Ozawa.