Sora, Heygen, Emu, Lumiere : où en est-on des IA génératives vidéos ?

Épisode 1100 : La grosse annonce est tombée il y a quelques jours suivie de très près par un énorme choc visuel prénommé SORA

Quelle époque, mes aïeuls, quelle époque !

En un peu plus d’un an nous avons pu voir émerger les IA conversationnelles comme Chat GPT, les IA génératives d’images comme midJourney ou Dalle-E. Autant d’outils qui vont à jamais changer notre manière d’imaginer et de créer.

A peine le temps de comprendre comment marche réellement un prompt et nous voilà déjà en train e basculer dans une nouvelle Ère.

Celle des IA text-to-vidéo. Des outils d’intelligence artificielle capable de générer de la vidéo sur la base d’une commande texte.

C’est fou !

—

Sora, le nouveau modèle d’OpenAI, crée des vidéos impressionnantes

Il y a tout juste une semaine, Open Ai annonçait la sortie d’un tout nouveau modèle d’IA : Sora.

Sora est un modèle d’IA capable de créer des scènes vidéos réalistes et créatives à partir d’instructions textuelles.

Par exemple je vais pouvoir lui demander une vidéo représentant : « Une femme élégante qui marche dans une rue de Tokyo remplie de néons chaleureux et de panneaux urbains animés. Elle porte une veste en cuir noire, une longue robe rouge et des bottes noires. Elle marche avec assurance et nonchalance. »

La séquence vidéo générée est folle. Le réalisme est bluffant et surtout Sora a intégré toutes mes demandes dans la séquence. Bluffant !

—

Sora est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis concernant le sujet principal de la vidéo et l’arrière-plan.

https://www.instagram.com/reel/C3lqe8Bon5n/?utm_source=ig_web_copy_link&igsh=MzRlODBiNWFlZA==

Sora peut également créer plusieurs plans dans une seule vidéo générée. L’une des révolution tient notamment au fait que chacun de ces plans conservera avec précision les personnages et le style visuel. C’est une grande nouveauté pour les IA.

Sora peut générer aussi des vidéos avec plusieurs styles différents. Vidéo façon cinéma, vidéo tournée avec un objectif 35mm et même animation.

—

OpenAi annonce une résolution inégalée en matière d’IA text-to-vidéo

Il peut générer des vidéos avec une résolution allant jusqu’à 1920 x 1080.

A ce titre Open Ai se positionne loin devant les Ia des concurrents.

—

Sora propose aussi plusieurs cas d’usages très différents

vidéo à partir de texte : la première et la plus importante innovation du modèle.

vidéo à partir d’images : permettant l’animation à partir d’images statiques.

vidéo à partir d’une vidéo : On pourra ajouter des effets spéciaux, prolonger le film, combiner deux enregistrements existants ou modifier le style d’une vidéo.

—

Ce nouveau système est capable de générer des vidéos allant jusqu’à 60 secondes.

Sora est actuellement en version alpha. Elle est accessible uniquement à certains testeurs pour évaluer les risques, ainsi qu’à des artistes, des designers et des cinéastes pour recueillir leurs retours.

Si vous voulez vous faire kiffer go sur le compte Instagram de Sora

https://www.instagram.com/openaisora/reels/

——

Face à ses concurrents, Open Ai semble avoir pris une énorme longueur d’avance.

Pourtant tout le monde ou presque est sur le feu. C’est notamment le cas du groupe Meta qui travaille aussi sur ses propres outils.

Emu la solution IA vidéo de Meta

Emu a été présentée pour la première fois lors de l’ événement Meta Connect en septembre 2023.

Emu Video peut générer des vidéos basées sur du texte ou des images en langage naturel.

https://emu-video.metademolab.com/#/demo

Le Groupe Meta est pour l’instant très modeste sur son outil Emu Vidéo.

Il faut dire que les specificatiosn techniques avancées et les démos font pale figure face à Sora.

Les vidéos générées font max 4 secondes et ont une taille maximale de 512px. On est à la limite du Gif animé.

—

Mais la vraie innovation technique du côté de Meta est sans doute à aller chercher ailleurs.

DinoV2 : la reconnaissance vidéo en mode Black Mirror

C’est un modèle IA de vision par ordinateur.

Concrètement, Dino oV2 est en capacité d’analyser des images ou des vidéos et de décrire avec énormément de précision ce qu’il voit. Dans une scène de rue intégrant des personnes en mouvement, il peut isoler un sujet et donner des informations sur son genre, son activité, sa couleur de peau et de cheveux.

Ramené aux plateformes Social Media, cet outil permet de comprendre et lire les contenus et d’interpréter avec énormément de précision nos goûts et nos centres d’intérêt.

—

Heygen s’impose sur les avatars IA et le clonage de voix

HeyGen permet de générer des vidéos avec un avatar virtuel, à partir d’un script textuel.

Il est possible de produire son propre avatar, multilingue, en quelques minutes.

HeyGen a été créé par un ancien développeur de Snapchat et permet de générer des avatars réalistes en seulement cinq minutes à partir d’images de smartphones ou de vidéos de face cam.

https://app.heygen.com/share/3fd246c9e06e434bbb6af088e1b80fcb

Je me filme en train de lire un texte et HeyGen va ensuite pouvoir reconstituer mon visage, le son de ma voix et me permettre de générer des séquences vidéos avec mon avatar réaliste.

En gros je peux ensuite avoir une vidéo de moi qui raconte un truc sauf que ce n’est pas vraiment moi. Je peux lui taper un texte et mon avatar va lire de façon très réaliste mon texte. Il va meêm l’interpréter en rajoutant ma tonalité, mes tics visuels… C’est très réaliste.

On voit évidemment un peu qu’il s’agit d’une IA mais c’est tout à fait réussi.

Je peux aussi me faire parler dans une autre langue.

Heyygen va modéliser ma voix et me proposer une traduction de mes vidéos.

—

A la différence, d’OpenAi et Meta, HeyGen joue le pragmatisme dans son développement.

Un minimum de recherche et de beta test et une mise su rue marché immédiate. Ils se concentrent principalement sur le marché occidental en ciblant les besoins en vidéos des services marketing, des boites de formation et de didacticiels vidéos.

—

Google n’est pas en reste avec son IA vidéo : Lumiere

La course à l’innovation dans le domaine de l’intelligence artificielle se poursuit à un rythme effréné. Google présente Lumiere, une IA capable de générer des vidéos à partir d’une illustration fournie par l’utilisateur.

Le modèle n’a pas encore été rendu public mais les quelques vidéos de démo sont séduisantes.

. . .

Le Super Daily est le podcast quotidien sur les réseaux sociaux. Il est fabriqué avec une pluie d’amour par les équipes de Supernatifs. Nous sommes une agence social media basée à Lyon : https://supernatifs.com. Ensemble, nous aidons les entreprises à créer des relations durables et rentables avec leurs audiences. Ensemble, nous inventons, produisons et diffusons des contenus qui engagent vos collaborateurs, vos prospects et vos consommateurs.