Deux chiens qui enregistrent un podcast au sommet d’une montagne, des vagues qui s’écrasent sur des falaises filmées depuis un drone, des gens se promènent dans les rues enneigées de Tokyo... Après les outils de génération de textes avec ChatGPT et d’images avec Dall-e, OpenAI dévoile Sora. Ce dernier génère des vidéos à partir d’un texte.
De nombreux concurrents dans la course
Sam Altman, le CEO d’OpenAI, a même impliqué les gens sur les réseaux sociaux : il a demandé sur X (ex-Twitter) aux personnes le souhaitant de lui envoyer des idées de prompt, un texte qui explique à l’outil ce qu’il doit réaliser. Puis, il diffusait les vidéos générées par Sora à partir de ces prompts. Celles-ci se sont avérées assez longues, cohérentes et de bonne qualité. Si le résultat est bluffant, il est impossible de savoir dans quelles conditions Sora a précisément édité ces vidéos ni si plusieurs essais ont été faits.
«Par rapport à d’autres solutions existantes, Sora gère bien les changements de scène, les mouvements de caméras ou les mouvements complexes dans une scène», liste auprès de L’Usine Nouvelle Matthieu Cord, professeur à Sorbonne Université et chercheur spécialiste de l’IA pour la vision. Les vidéos créées par Sora peuvent faire jusqu’à une minute avec une bonne résolution, soit plus que les autres solutions proposées par la concurrence. Car OpenAI n’est pas le premier à proposer un tel outil. En 2022, les géants américains Meta et Google ont lancé leurs logiciels, respectivement Make-a-Video et Imagen, aujourd’hui remplacé par Lumiere. Runway, avec son outil éponyme, et Stability AI, avec Stable Video Diffusion, se sont aussi faits une place parmi les acteurs reconnus dans le domaine.
Un apprentissage sur d'immenses bases de données
Mais OpenAI semble surpasser ses concurrents. Comment fait-il ? «Ce n’est pas évident d’un point de vue scientifique d’analyser en détail le produit», poursuit Matthieu Cord. OpenAI a fait le choix de ne plus diffuser en open source les modèles utilisés. Comme pour ses autres outils, l’américain reprend des algorithmes sur étagère. Derrière, c'est sa capacité d’ingénierie à optimiser leur fonctionnement qui fait le travail.
OpenAI s’appuie sur des modèles de diffusion qui génèrent des images à partir d’un bruit. Une méthode qui nécessite plusieurs opérations successives de débruitage pour arriver au résultat escompté. L’ensemble repose sur une architecture Transformers. Ces algorithmes sont capables de sélectionner des détails précis pour y faire attention et ainsi contextualiser des données. Surtout, ils peuvent apprendre sur des bases de données immenses.«D’un point de vue formel, il n’y a pas de véritable rupture par rapport à ce qui se fait dans la génération d’images, assure Matthieu Cord. On retrouve les mêmes algorithmes, donc les mêmes performances en matière de spatialisation et de gestion des couleurs. La principale différence, c’est que s’ajoutent une notion de temporalité et des modules de compression pour que les fichiers vidéos ne soient pas trop lourds.» Ce qui demande derrière une puissance de calcul plus importante que pour la génération d’images.
OpenAI garde sa recette secrète
OpenAI est très secret sur sa base de données, il dit entraîner ses modèles sur des vidéos et des images d’une durée variable et de différentes qualités. Pour parvenir à ce résultat, il a dû accéder à des images et vidéos de bonne qualité. L’entreprise a noué un partenariat avec la banque d’images Shutterstock afin d’entraîner les modèles derrière Dall-e sur des images de qualité. Peut-être que ce partenariat a été étendu pour les vidéos. En s’appuyant uniquement sur des images et vidéos prises sur internet, le résultat n’aurait probablement pas été le même. «C’est la marque de fabrique d’OpenAI : les modèles très complexes couplés avec un volume de données d’entraînement très important et de qualité variable», résume le chercheur.
Sora pourrait bouleverser la création de contenu en ligne. Cela peut faciliter le travail des personnes créant du contenu vidéo en leur permettant d’accéder à une base de données quasiment illimitée. De tels outils peuvent aussi transformer les secteurs du marketing et de la communication en facilitant la création de vidéos. Même s'il ne faut pas oublier que c'est le prompt qui détermine ce qui doit être généré, un texte d’entrée pour lequel l’imagination humaine reste primordiale.
Attention à la désinformation et aux deepfakes
Sora semble aussi pouvoir être utilisé pour étendre une vidéo dans le temps avant, l’éditer en changeant un décor ou faire fusionner deux vidéos, liste OpenAI. L’entreprise met en avant le fait que Sora garde souvent la cohérence sur une personne ou un objet même s’il quitte le champ de la vidéo pendant un temps. Toutefois, l’outil se trompe sur pas mal de choses, reconnaît l'entreprise de Sam Altman. Il ne comprend pas certaines règles physiques de base – comme un verre qui se renverse puisque le liquide sort de dessous le verre et non pas de son ouverture – et certaines traces de morsures dans les aliments, comme pour un cookie, ne sont pas toujours visibles.
Pour l’instant, Sora est disponible uniquement en version bêta auprès de professionnels. Cela doit aider OpenAI à identifier les risques et les dérives possibles, notamment en matière de désinformation. Récemment, des deepfakes pornographiques de la chanteuse américaine Taylor Swift ont fait le tour du Web. Montrant à nouveau que ces technologies peuvent être utilisées à des fins malveillantes.



