{"id":1376337,"date":"2024-03-13T15:53:43","date_gmt":"2024-03-13T14:53:43","guid":{"rendered":"https:\/\/www.tomsguide.fr\/?p=1376337"},"modified":"2024-04-15T21:01:12","modified_gmt":"2024-04-15T19:01:12","slug":"sora-tout-savoir-sur-lia-capable-de-creer-des-videos-a-partir-de-texte","status":"publish","type":"post","link":"https:\/\/www.tomsguide.fr\/sora-tout-savoir-sur-lia-capable-de-creer-des-videos-a-partir-de-texte\/","title":{"rendered":"Sora OpenAI : tout savoir sur l’IA capable de cr\u00e9er des vid\u00e9os \u00e0 partir de texte"},"content":{"rendered":"
\n
\"Sora
\u00a9 OpenAI<\/figcaption><\/figure><\/div>\n\n\n

Les progr\u00e8s en mati\u00e8re d’IA avancent \u00e0 vitesse grand V, et ce n’est pas OpenAI qui dira le contraire. Apr\u00e8s le succ\u00e8s de ChatGPT, l’entreprise a r\u00e9cemment d\u00e9voil\u00e9 Sora. Son nouvel outil d’intelligence artificielle g\u00e9n\u00e9rative est capable de cr\u00e9er des vid\u00e9os ultra r\u00e9alistes \u00e0 partir d’un simple prompt textuel. Le g\u00e9n\u00e9rateur est pour le moment en mesure de r\u00e9aliser des extraits dont la dur\u00e9e n’exc\u00e8de pas une minute. S’il promet des possibilit\u00e9s in\u00e9dites en mati\u00e8re de cr\u00e9ation artistique, Sora laisse \u00e9galement pr\u00e9sager de nombreuses d\u00e9rives. En effet, l’outil offre des rendus tr\u00e8s r\u00e9alistes qui pourraient en faire un outil de d\u00e9sinformation tr\u00e8s efficace. Dans ce dossier, on vous dit tout ce qu’il y a \u00e0 savoir \u00e0 son sujet. <\/p>\n\n\n\n

\ud83e\ude84 Qu’est-ce que Sora ?<\/h2>\n\n\n\n

Sora est un mod\u00e8le d’IA capable de cr\u00e9er des vid\u00e9os r\u00e9alistes \u00e0 partir d’instructions textuelles. D\u00e9velopp\u00e9e par OpenAI, l’entreprise \u00e0 l’origine du chatbot ChatGPT<\/a> et du g\u00e9n\u00e9rateur d’images artificielles DALL-E<\/a>, Sora a \u00e9t\u00e9 d\u00e9voil\u00e9e le 15 f\u00e9vrier 2024<\/strong>. Les d\u00e9veloppeurs travaillent activement sur leur mod\u00e8le texte-vid\u00e9o. Afin de l’enrichir, ils collaborent notamment avec des experts de diff\u00e9rents secteurs : artistes, designers, cin\u00e9astes, etc.<\/p>\n\n\n\n

Bien que Sora ne soit pas encore tout \u00e0 fait au point, il produit d’ores et d\u00e9j\u00e0 des vid\u00e9os d’une qualit\u00e9 impressionnante, qui amincissent de plus en plus la fronti\u00e8re entre fiction et r\u00e9alit\u00e9. Les utilisateurs peuvent d\u00e9crire la sc\u00e8ne qu’ils souhaitent voir prendre vie. L’IA est alors en mesure de l’interpr\u00e9ter en tenant compte des interactions complexes entre objets et personnages. <\/p>\n\n\n

\n
\"Personnage
\u00a9 OpenAI<\/figcaption><\/figure><\/div>\n\n\n

Conscient des potentielles d\u00e9rives de son mod\u00e8le, notamment d’un point de vue \u00e9thique avec la cr\u00e9ation de deepfakes, OpenAI assure mettre tout en \u0153uvre pour prot\u00e9ger le monde contre ces risques<\/a>, en \u00e9laborant notamment des outils de d\u00e9tection.<\/p>\n\n\n\n

Un outil aussi puissant promet de r\u00e9volutionner la cr\u00e9ation artistique, notamment dans les domaines cin\u00e9matographiques, de l’animation 3D ou encore du jeu vid\u00e9o. OpenAI voit quant \u00e0 lui Sora comme une composante suppl\u00e9mentaire, qui lui permettra d’atteindre \u00e0 terme l’IAG (ou AGI en anglais) : Intelligence Artificielle G\u00e9n\u00e9rale<\/a><\/strong>. Selon Wikip\u00e9dia<\/a>, cette notion renvoie \u00e0 la capacit\u00e9 pour une IA “d’effectuer ou d’apprendre pratiquement n’importe quelle t\u00e2che cognitive propre aux humains ou autres animaux<\/em>“. Pour le moment, cela fait r\u00e9f\u00e9rence \u00e0 la science-fiction. Mais dans un futur plus ou moins proche, il pourrait s’agir de la forme d’intelligence qui animera de potentiels robots humano\u00efdes. <\/p>\n\n\n\n

\ud83d\uddbc\ufe0f Comment fonctionne Sora ?<\/h2>\n\n\n\n

Semblable aux autres mod\u00e8les GPT, Sora utilise une architecture de transformateur<\/strong>. Les vid\u00e9os g\u00e9n\u00e9r\u00e9es ne sont en rien l’\u0153uvre d’une entit\u00e9 pensante. Elles sont en r\u00e9alit\u00e9 la r\u00e9sultante de diff\u00e9rentes connexions op\u00e9r\u00e9es par de puissants algorithmes. Les mod\u00e8les de langage utilisent des jetons (tokens) qui permettent d’organiser un texte en petites unit\u00e9s plus simples \u00e0 analyser. C’est le m\u00eame principe pour Sora, qui utilise toutefois des patchs correctifs<\/strong>, semblables \u00e0 ceux utilis\u00e9s dans le domaine de la visualisation de donn\u00e9es.<\/p>\n\n\n\n

Pour bien comprendre le processus, il faut se repr\u00e9senter des millions de petites unit\u00e9s de donn\u00e9es, couvrant chacune diff\u00e9rentes notions. Ces donn\u00e9es renferment \u00e9norm\u00e9ment d’informations descriptives et visuelles. En piochant dans cette gigantesque base de donn\u00e9es, Sora est ensuite capable de reconstituer une vid\u00e9o en mettant en relation les diff\u00e9rentes notions qui ressortent dans l’invite. Ce qui permet d’obtenir un r\u00e9sultat fid\u00e8le aux instructions textuelles fournies par l’utilisateur. Le mod\u00e8le utilise en ce sens la m\u00eame technique de r\u00e9capitulation que le g\u00e9n\u00e9rateur d’images DALL-E 3.<\/p>\n\n\n

\n
\"Correctifs
\u00a9 OpenAI<\/figcaption><\/figure><\/div>\n\n\n

Cette repr\u00e9sentation bas\u00e9e sur des correctifs visuels permet \u00e0 Sora de s’entra\u00eener sur des vid\u00e9os et des images de r\u00e9solutions, dur\u00e9es et formats variables. En tant que transformateur de diffusion, Sora passe par plusieurs \u00e9tapes successives pour g\u00e9n\u00e9rer une vid\u00e9o. Comme on peut le voir dans la repr\u00e9sentation ci-dessous, le mod\u00e8le part d’un format brut, compos\u00e9 de bruit statique. La qualit\u00e9 des \u00e9chantillons augmente au fur et \u00e0 mesure. Ce qui a pour effet de supprimer le bruit et de laisser place \u00e0 une image propre, en haute r\u00e9solution. Pour en savoir plus, on vous invite \u00e0 consulter ce rapport technique d’OpenAI<\/a>, qui entre encore plus dans les d\u00e9tails.<\/p>\n\n\n

\n
\"Repr\u00e9sentation
\u00a9 OpenAI<\/figcaption><\/figure><\/div>\n\n\n

\u00c0 lire aussi :<\/strong> quels sont les meilleurs g\u00e9n\u00e9rateurs d’images propuls\u00e9s par l’IA ?<\/a><\/strong><\/p>\n\n\n\n

\u25b6\ufe0f De quoi est capable Sora ?<\/h2>\n\n\n\n

\u00c0 ce jour, Sora est capable de g\u00e9n\u00e9rer des vid\u00e9os d’une dur\u00e9e maximale d’une minute<\/strong>. Il peut reproduire des sc\u00e8nes complexes mettant en lumi\u00e8re plusieurs personnages, ainsi qu’une multitude de d\u00e9tails, qu’il s’agisse des sujets ou du d\u00e9cor. Il est par ailleurs \u00e0 m\u00eame de g\u00e9n\u00e9rer plusieurs plans au sein d’une m\u00eame vid\u00e9o, ou encore de reproduire des \u00e9motions complexes. Le mod\u00e8le assure d’autre part des transitions fluides, ainsi que le maintien de la coh\u00e9rence des personnages et des sc\u00e8nes.<\/p>\n\n\n\n

En plus de pouvoir g\u00e9n\u00e9rer une vid\u00e9o uniquement \u00e0 partir d’instructions textuelles, Sora est capable de g\u00e9n\u00e9rer une vid\u00e9o \u00e0 partir d’une image fixe<\/strong> existante. Pour ce faire, le mod\u00e8le va animer le contenu de l’image \u00e0 sa disposition, en pr\u00eatant attention aux petits d\u00e9tails. Sora peut \u00e9galement s’appuyer sur une vid\u00e9o existante afin de l’\u00e9tendre ou d’ajouter des images manquantes. \u00c0 l’occasion d’une interview donn\u00e9e \u00e0 The Wall Street Journal<\/em>, Mira Murati, la directrice technique chez OpenAI, a expliqu\u00e9 que l’outil se dotera \u00e9galement de fonctionnalit\u00e9s audio<\/strong>. Ce qui devrait offrir un rendu encore plus immersif. <\/p>\n\n\n

\n
\"Vid\u00e9o
\u00a9 OpenAI<\/figcaption><\/figure><\/div>\n\n\n

La vid\u00e9o ci-dessus \u00e0 \u00e9t\u00e9 g\u00e9n\u00e9r\u00e9e \u00e0 partir d’un simple prompt de quelques lignes seulement. Comme on peut le voir, elle respecte l’invite texte. L’IA a conf\u00e9r\u00e9 des traits asiatiques \u00e0 la femme, en se basant sur l’information “Tokyo”. Vous pouvez visionner le r\u00e9sultat sur le site officiel d’Open AI<\/a>. Une flopp\u00e9e d’autres vid\u00e9os sont disponibles. Les r\u00e9sultats sont bluffants, bien qu’il reste encore beaucoup de choses \u00e0 am\u00e9liorer. <\/p>\n\n\n

\n
\"\u0152il
\u00a9 OpenAI<\/figcaption><\/figure><\/div>\n\n\n

La photo ci-dessus est tir\u00e9e d’une vid\u00e9o partag\u00e9e sur le site d’OpenAI. Elle montre une fois de plus \u00e0 quel point le rendu et les d\u00e9tails sont d’une pr\u00e9cision extr\u00eame. Les cils, les grains de la peau, ou le reflet de la r\u00e9tine contribuent \u00e0 rendre l’image r\u00e9aliste. \u00c0 l’inverse, Sora permet aussi aux cr\u00e9atifs de laisser libre cours \u00e0 leur imagination en cr\u00e9ant des sc\u00e8nes totalement fantaisistes. Car c’est aussi \u00e7a la magie de l’IA.<\/p>\n\n\n

\n
\"Monde
\u00a9 OpenAI<\/figcaption><\/figure><\/div>\n\n\n

\ud83d\ude12 Quelles sont les limites de Sora ?<\/h2>\n\n\n\n

Malgr\u00e9 les prouesses de Sora, le mod\u00e8le est encore loin d’\u00eatre parfait. L’image ci-dessous montre encore qu’il reste du travail \u00e0 accomplir pour obtenir un rendu v\u00e9ritablement capable de tromper l’\u0153il. Si l’on s’attarde quelque peu sur les pattes du chat, on constate vite que quelque chose ne tourne pas rond. En effet, le chat a trois pattes avant. D’autre part, le nez de la femme semble \u00eatre dans une position particuli\u00e8rement inconfortable, pourtant blotti contre un gros oreiller.<\/p>\n\n\n

\n
\"Chat
\u00a9 OpenAI<\/figcaption><\/figure><\/div>\n\n\n

Ces quelques erreurs sont r\u00e9currentes sur les autres mod\u00e8les GPT. Si vous avez d\u00e9j\u00e0 utilis\u00e9 DALL-E 3<\/a> \u00e0 partir de ChatGPT Plus<\/a>, vous ne devriez pas \u00eatre surpris. En effet, il n’est pas rare que le mod\u00e8le g\u00e9n\u00e8re un troisi\u00e8me bras ou place un sujet dans une position peu r\u00e9aliste. <\/p>\n\n\n\n

Par ailleurs, Sora peut \u00e9galement avoir du mal \u00e0 simuler avec pr\u00e9cision la physique d’une sc\u00e8ne complexe, ainsi que certains cas sp\u00e9cifiques de cause \u00e0 effet. Par exemple, la photo ci-dessous montre une personne \u00e2g\u00e9e qui souffle sur les bougies de son g\u00e2teau d’anniversaire. Probl\u00e8me, celles-ci ne s’\u00e9teignent pas.<\/p>\n\n\n

\n
\"Grand
\u00a9 OpenAI<\/figcaption><\/figure><\/div>\n\n\n

Rappelons toutefois que la cr\u00e9ation de vid\u00e9o assist\u00e9e par IA n’en est qu’\u00e0 ses d\u00e9buts. Bien que la plupart des r\u00e9sultats actuels soient d\u00e9j\u00e0 tr\u00e8s satisfaisants, la marge de progression reste \u00e9norme. <\/p>\n\n\n\n

\u00c0 lire aussi : GPT-5 s’annonce beaucoup plus performant que GPT-4<\/strong>.<\/p>\n\n\n\n

\ud83d\udc80 Sora peut-il \u00eatre dangereux ?<\/h2>\n\n\n\n

Au vu de la vraisemblance des r\u00e9sultats obtenus avec ce g\u00e9n\u00e9rateur de vid\u00e9os, plusieurs menaces planent \u00e0 l’horizon. En effet, Sora, ainsi que d’autres technologies similaires posent un r\u00e9el d\u00e9fi soci\u00e9tal en mati\u00e8re de s\u00e9curit\u00e9 et d’\u00e9thique. La d\u00e9sinformation<\/strong>, d\u00e9j\u00e0 bien en place dans notre soci\u00e9t\u00e9, pourrait fortement \u00eatre accentu\u00e9e avec l’essor d’un tel syst\u00e8me. De plus et associ\u00e9e au clonage vocal, cette technologie pourrait pousser le deepfake<\/strong> \u00e0 un niveau encore jamais vu. <\/p>\n\n\n\n

On imagine sans trop de difficult\u00e9 le fait de pouvoir par exemple faire dire ou faire faire des choses \u00e0 des personnes, sans que cela n’ait r\u00e9ellement eu lieu. Cela est d’ailleurs d\u00e9j\u00e0 le cas sur TikTok<\/a>. Le droit \u00e0 l’image se retrouverait ainsi fortement menac\u00e9. Ceci soul\u00e8verait \u00e9galement de graves probl\u00e8mes face \u00e0 la justice, pour qui les vid\u00e9os sont consid\u00e9r\u00e9es aujourd’hui comme des preuves de tout premier ordre. D’autre part, des fraudeurs, hackers ou autres personnes malintentionn\u00e9es pourraient \u00e9galement se servir de cette technologie pour usurper l’identit\u00e9 d’autrui, voire pour demander une ran\u00e7on<\/a>. Quoi qu’il en soit, Sora et les autres mod\u00e8les du genre pourraient mettre l’humanit\u00e9 dans une bien mauvaise posture. Une situation \u00e0 laquelle elle n’avait jamais eu \u00e0 faire face jusqu’\u00e0 pr\u00e9sent. <\/p>\n\n\n\n

Pour le moment, et bien que les rendus soient d\u00e9j\u00e0 tr\u00e8s r\u00e9alistes, il est encore possible de d\u00e9celer d’\u00e9ventuelles erreurs. Mais qu’en sera t-il le jour o\u00f9 ces vid\u00e9os seront aussi vraies que natures, et qu’il ne sera plus possible de diff\u00e9rencier le vrai du faux ?<\/p>\n\n\n\n

\ud83d\udd12 Comment OpenAI compte garantir la s\u00e9curit\u00e9 de ses utilisateurs ?<\/h2>\n\n\n\n

Afin de s’inscrire dans une d\u00e9marche responsable, OpenAI a annonc\u00e9 d\u00e9velopper en parall\u00e8le des outils qui permettront de d\u00e9tecter les contenus vid\u00e9o trompeurs cr\u00e9\u00e9s par l’IA. Parmi eux, on compte notamment un classificateur de d\u00e9tection<\/strong>. La firme pr\u00e9voit \u00e9galement d’inclure des m\u00e9tadonn\u00e9es C2PA<\/strong>, qui permettront de v\u00e9rifier si une vid\u00e9o a \u00e9t\u00e9 cr\u00e9\u00e9e avec Sora ou non. En revanche, ces derni\u00e8res ne constituent pas une solution tr\u00e8s fiable, \u00e9tant donn\u00e9 qu’elles peuvent facilement \u00eatre retir\u00e9es.<\/p>\n\n\n\n

L’entreprise a \u00e9galement pr\u00e9vu d’exploiter les mesures de s\u00e9curit\u00e9 existantes, notamment utilis\u00e9es pour DALL-E 3. Il ne sera par exemple pas possible de saisir une invite qui enfreint les politiques d’utilisation d’OpenAI. \u00c0 savoir, pour cr\u00e9er par exemple un contenu \u00e0 caract\u00e8re sexuel, haineux, ou qui sugg\u00e8re une violence extr\u00eame. D’autre part, et afin de lutter contre les deepfakes, il ne sera pas non plus possible de cr\u00e9er des personnages qui ressemblent aux c\u00e9l\u00e9brit\u00e9s.<\/p>\n\n\n\n

OpenAI avertit que malgr\u00e9 toutes les mesures mises en place, il n’est \u00e0 ce stade pas possible de pr\u00e9dire toutes les utilisations, qu’elles soient b\u00e9n\u00e9fiques ou abusives. Ainsi, il faudra attendre la sortie du mod\u00e8le pour voir comment les gens l’utilisent, et prendre des mesures correctives si n\u00e9cessaire. Le but \u00e9tant bien entendu de proposer un syst\u00e8me de plus en plus s\u00fbr au fil du temps.<\/p>\n\n\n\n

\u00c0 lire aussi : comment reconna\u00eetre les images g\u00e9n\u00e9r\u00e9es par l’IA ?<\/a><\/strong><\/p>\n\n\n\n

\ud83d\udcc5 Quand Sora sera t-il disponible ?<\/h2>\n\n\n\n

L’outil n’est actuellement pas disponible pour le grand public<\/strong>. Il n’est donc pas possible d’essayer Sora pour le moment. En effet, OpenAI r\u00e9serve pour l’heure un acc\u00e8s privil\u00e9gi\u00e9 aux membres de l’OpenAI Red Teaming Network<\/strong>. \u00c0 l’instar de b\u00e9ta testeurs, ces derniers ont \u00e0 charge de tester l’outil et de faire remonter d’\u00e9ventuels probl\u00e8mes techniques, \u00e9thiques ou l\u00e9gaux. Cela dans le but de permettre un d\u00e9ploiement responsable de l’outil. <\/p>\n\n\n\n

Comme nous l’avons expliqu\u00e9 en d\u00e9but d’article, OpenAI accorde \u00e9galement un acc\u00e8s \u00e0 une poign\u00e9e d’artistes, cin\u00e9astes et designers<\/strong> tri\u00e9s sur le volet. En tant qu’experts dans leurs domaines respectifs, leurs retours, qu’ils soient positifs ou n\u00e9gatifs, vont permettre de faire avancer le mod\u00e8le dans la bonne direction. Quoi qu’il en soit, l’outil s’annonce d\u00e9j\u00e0 prometteur, et gr\u00e2ce \u00e0 cet apport, il pourrait l’\u00eatre encore plus \u00e0 sa sortie, qui n’a pas encore \u00e9t\u00e9 annonc\u00e9e<\/strong>. Toutefois, Mira Murati, la directrice technique d’OpenAI a r\u00e9cemment annonc\u00e9 que l’outil pourrait \u00eatre disponible d’ici quelques mois.<\/p>\n\n\n\n

\u00c0 lire aussi :<\/strong> tout savoir sur GPT-5 : date de sortie, nouveaut\u00e9s, etc<\/a><\/strong>.<\/p>\n\n\n\n

\ud83e\udd14 Sora arrivera t-il sur ChatGPT ?<\/h2>\n\n\n\n

On ne sait pas encore comment le grand public pourra acc\u00e9der \u00e0 Sora. Toutefois, si l’on se base sur le mode de distribution de DALL-E 3<\/a>, il est fort probable que le mod\u00e8le d’IA texte-vid\u00e9o soit lui aussi int\u00e9gr\u00e9 sous forme de plugin dans ChatGPT Plus<\/strong>. En effet, au vu de la puissance de l’outil, on doute qu’Open AI mette \u00e0 disposition son g\u00e9n\u00e9rateur de vid\u00e9o gratuitement. Si tel est le cas, il pourrait \u00eatre d\u00e9ploy\u00e9 sur GPT-5<\/a>.<\/p>\n\n\n

\n
\"ChatGPT
\u00a9 OpenAI<\/figcaption><\/figure><\/div>\n\n\n

\u00c0 lire aussi :<\/strong> les 10 meilleurs plugins \u00e0 utiliser sur ChatGPT<\/a><\/strong>.<\/p>\n\n\n\n

\ud83c\udd9a Quels sont les concurrents de Sora ?<\/h2>\n\n\n\n

La g\u00e9n\u00e9ration de vid\u00e9os assist\u00e9e par IA est un domaine en pleine expansion. Avec Sora, OpenAI doit faire face \u00e0 une concurrence rude, qui cherche \u00e9galement \u00e0 s’imposer sur le march\u00e9. Toutefois et au vu des r\u00e9sultats partag\u00e9s par tous les concurrents, Sora semble \u00eatre pour l’heure le plus puissant de tous les outils. Voici quelques-uns des acteurs les plus notables dans ce secteur : <\/p>\n\n\n\n

    \n
  • Google<\/strong> : connu pour \u00eatre en <\/strong>avance dans le domaine de l’IA, le g\u00e9ant am\u00e9ricain travaille lui aussi sur un mod\u00e8le de diffusion texte-vid\u00e9o. Baptis\u00e9 Lumi\u00e8re<\/strong>, il est non seulement capable de cr\u00e9er des vid\u00e9os \u00e0 partir de texte, mais \u00e9galement en se basant sur une image. Il est aussi possible de g\u00e9n\u00e9rer des vid\u00e9os en utilisant le style d’une image, mais \u00e9galement de styliser des vid\u00e9os d\u00e9j\u00e0 existantes, d’animer une r\u00e9gion sp\u00e9cifique d’une image, ou encore de rajouter des \u00e9l\u00e9ments sur une vid\u00e9o. Le mod\u00e8le semble toutefois \u00eatre pour l’heure moins puissant que Sora. La dur\u00e9e des vid\u00e9os ne pouvant exc\u00e9der 5 secondes. Et aussi moins r\u00e9aliste, comme en atteste la vid\u00e9o ci-dessous.<\/li>\n<\/ul>\n\n\n\n
    \n