Le nouveau générateur de vidéos par IA de la Chine, « Kling », rivalise avec Sora d'OpenAI (traduction)

Dans l'un de mes précédents articles, j'ai présenté un générateur de vidéos par IA chinois appelé Vidu. Je l'ai qualifié de véritable concurrent de Sora en raison de l'impressionnante qualité de ses exemples de vidéos. Aujourd'hui, un autre outil de génération de vidéos par IA appelé Kling a été dévoilé, et il semble encore meilleur que Vidu.

Qu'est-ce que Kling ?

Kling est un nouveau générateur de vidéo IA développé par Kuaishou (« main rapide »), une entreprise à Pékin qui fait concurrence à TikTok.

Kling peut générer des vidéos d'une durée maximale de 120 secondes, à raison de 30 images par seconde, avec une résolution de 1080P et un rapport hauteur/largeur libre. Selon ses créateurs, ce modèle d'IA comprend mieux la physique et modélise avec précision les mouvements complexes.

Voici un fait amusant : Sora a besoin de huit processeurs graphiques (GPU) NVIDIA A100 fonctionnant pendant plus de trois heures pour produire un clip d'une minute. Un processeur NVIDIA A100 coûte plus de 10 000 USD. Kling aurait donc probablement besoin du double de cette puissance de calcul pour produire un résultat vidéo de 2 minutes.

Examinez cet exemple de vidéo : 


Invite : Un Chinois assis à une table, mangeant des nouilles avec des baguettes.

Vous pouvez constater la qualité de la cohérence temporelle sur cet exemple vidéo.

La cohérence temporelle dans les vidéos d'IA correspond à la capacité d'un modèle de génération vidéo à créer une séquence d'images cohérentes et logiquement connectées en termes de temps.

Cela signifie que le modèle doit être capable de maintenir une continuité visuelle, de conserver la même scène ou le même décor, et de s'assurer que les actions et les mouvements des objets au sein de la scène sont cohérents et plausibles dans le temps.

Vous pouvez explorer leur site web et être étonné par les exemples qu'ils contiennent. Vous pouvez également regarder les GIFs d'exemple que j'ai ajoutés ci-dessous. Kling est actuellement ouvert aux tests sur Kmovie, l'application de clips vidéo de Kuaishou.

Comment se comporte-t-il par rapport à Sora ?

Les simulations d'actions qui modifient l'état du monde font partie des simulations les plus difficiles auxquelles un générateur de vidéos d'IA doit faire face. Par exemple, un peintre peut laisser de nouveaux traits sur une toile qui persistent dans le temps, ou un homme peut manger un hamburger et laisser des empreintes de dents.

Sora et Kling en sont tous deux capables.

Faisons une comparaison. Voici un exemple de vidéo d'une personne mangeant un hamburger :

Kling :

Kling invite : Un jeune garçon chinois portant des lunettes ferme les yeux et déguste un délicieux cheeseburger dans un fast-food.

Sora :


Les deux résultats sont époustouflants. On pourrait facilement croire qu'il ne s'agit pas de vraies vidéos au premier coup d'œil.

Mais en regardant de plus près ces exemples, vous pouvez constater que le résultat de Sora comporte plus de détails sur le sujet et de meilleures conditions d'éclairage.

Cependant, Kling peut générer une vidéo de deux minutes, ce qui est deux fois plus long que ce que Sora est capable de faire.

Plus de vidéos de démonstration

J'ai remarqué que le site web ralentissait depuis hier, et certains utilisateurs signalent qu'il n'est pas accessible en raison d'une augmentation du nombre d'accès simultanés. J'ai donc joint quelques exemples ci-dessous :

Invite : Un panda géant jouant de la guitare au bord d'un lac :


Invite :  : Un poisson-ange empereur aux rayures jaunes et bleues nage dans un habitat sous-marin rocheux.


Invite : Un homme à cheval dans le désert de Gobi, avec un magnifique coucher de soleil derrière lui, une scène digne d'un film.


Vous pouvez également voir d'autres exemples dans ce sujet sur X.

Comment y accéder ?

Pour l'instant, le modèle d'IA ou l'application permettant de générer des vidéos n'est pas accessible au public. Il serait disponible via l'application Kwaiying pour les bêta-testeurs invités.

Pour obtenir des informations plus récentes sur sa disponibilité, vous pouvez consulter le site web officiel de l'entreprise, mais tous le texte est en chinois.

Un utilisateur de Reddit a affirmé que Kling serait disponible pour tous dans le courant de l'année ou l'année prochaine.

Outre le générateur de texte en vidéo, Kuaishou a également publié un outil permettant de générer une vidéo de danse à partir d'une simple image d'une personne.

Bien qu'il existe des applications capables de créer des vidéos générées par IA, Kling se distingue par la fluidité des transitions entre les images, ce qui lui confère un réalisme de haut niveau. La façon dont les vêtements interagissent avec les mouvements du sujet est également très réussie.

Conclusions

Dans l'ensemble, Kling est un modèle d'IA impressionnant d'après les exemples présentés par ses créateurs. Est-il meilleur que Sora ? Dans certains cas, oui. Mais Sora a été dévoilé il y a plusieurs mois et il est possible qu'il se soit amélioré depuis, ce qu'OpenAI n'a pas encore fait savoir.

Est-il meilleur que Veo de Google ? Oui.

Est-il meilleur que Pika Labs, RunwayML et StableVideo ? Il est bien meilleur.

Une ou deux versions de plus, et Kling risque de révolutionner l'ensemble de l'industrie du contenu vidéo. Les progrès rapides de la technologie de génération de vidéos par IA sont stupéfiants. À chaque nouvelle version, la frontière entre le contenu réellement produit et le contenu généré par l'IA s'estompe un peu plus.

Le public attend maintenant qu'OpenAI annonce des mises à jour concernant Sora.

source :

https://generativeai.pub/chinas-new-ai-video-generator-kling-challenges-openai-s-sora-13838d703e39

Enregistrer un commentaire

Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.

Plus récente Plus ancienne