La Chine dévoile Vidu, un générateur de vidéos basé sur l'IA destiné à concurrencer Sora d'OpenAI (traduction)

 

Lorsque l'OpenAI a annoncé Sora, un outil basé sur l'IA qui transforme un texte en vidéo, cet outil est rapidement devenu un phénomène mondial en raison des résultats époustouflants obtenus. Les concurrents les plus directs, Pika Labs et RunwayML, accusaient un retard considérable en termes de qualité et de cohérence dans l'invite textuelle.

L'une des raisons est peut-être que les générateurs de vidéos par IA nécessitent une puissance de calcul importante pour fonctionner. Sora a besoin de huit processeurs graphiques (GPU) NVIDIA A100 fonctionnant pendant plus de trois heures pour produire un clip d'une minute. Une unité NVIDIA A100 coûte plus de 10 000 USD.

Mais aujourd'hui, Sora pourrait enfin avoir un véritable concurrent : la Chine vient de dévoiler son outil d'IA de conversion de texte en vidéo, Vidu.

Qu'est-ce que Vidu ?

Vidu est un modèle d'IA de conversion de texte en vidéo développé par la startup chinoise d'IA ShengShu Technology et l'université de Tsinghua. Ce modèle a été annoncé le 27 avril 2024 et est conçu pour générer des vidéos haute définition de 16 secondes en résolution 1080p d'un simple clic.

Selon Zhu Jun, directeur scientifique de Shengshu, 

"Il est imaginatif, peut simuler le monde physique et produit des vidéos de 16 secondes avec des personnages, des scènes et une chronologie cohérents."

Voici quelques exemples tirés de la vidéo de démonstration.

 

Je ne suis cependant pas sûr à 100 % que les exemples de la vidéo de démonstration aient été réellement générés par Vidu et qu'ils n'aient pas été manipulés de quelque manière que ce soit.

Le modèle d'IA de Vidu repose sur une architecture propriétaire de modèle de transformation visuelle appelée Universal Vision Transformer (U-ViT), qui intègre deux modèles d'IA texte-vidéo : la Diffusion et le Transformateur.

Cette architecture permet de créer de très bonnes vidéos avec des mouvements de caméra dynamiques, des expressions faciales complexes et des effets d'éclairage et d'ombre réalistes. 

Est-il meilleur que Sora ?

Il est amusant de constater que la vidéo de démonstration contient des clips qui ressemblent à certaines vidéos de démonstration d'OpenAI pour Sora. Jetez un coup d'œil à l'exemple côte à côte ci-dessous :

Laquelle est la meilleure ? Pour être honnête, j'aime les deux vidéos. Mais les tons plus doux et plus chaleureux de la vidéo générée par Vidu lui donnent un aspect plus réaliste et naturel.

Il convient également de noter que Sora peut générer des vidéos d'une durée maximale de 60 secondes, tandis que Vidu ne peut générer que des vidéos d'une durée maximale de 16 secondes.

Comment y accéder ?

Vidu n'est actuellement pas disponible pour le grand public. Toutefois, une liste d'attente a été ouverte pour permettre un accès anticipé :

1. Allez sur www.shengshu-ai.com
2. Cliquez sur le bouton bleu en haut à droite de la page.
3. Remplissez le formulaire de demande d'accès.

La société prévoit également d'intégrer la capacité de génération de vidéos dans un outil d'intelligence artificielle appelé PixWeaver.

Conclusion

Les vidéos de démonstration de Vidu sont très impressionnantes, mais nous devons les prendre avec des pincettes jusqu'à ce que nous puissions vérifier la qualité et la vraisemblance des vidéos nous-mêmes.

La présentation de Vidu par la Chine est importante car elle montre que le pays dispose de la technologie et des ressources nécessaires pour rivaliser avec les meilleurs du monde en matière d'IA. J'ai hâte de mettre la main sur Vidu et de voir comment il se comporte par rapport à Sora.

Enregistrer un commentaire

Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.

Plus récente Plus ancienne