Un outil d'IA de Microsoft peut transformer des photos en vidéos réalistes de personnes qui parlent et chantent (traduction)

Microsoft Research Asia a dévoilé un nouvel outil expérimental d'IA appelé VASA-1 qui peut transformer l'image fixe d'une personne - ou le dessin d'une personne - ainsi qu'un fichier audio existant en un visage qui parle de manière réaliste en temps réel. Cet outil est capable de générer des expressions faciales et des mouvements de tête pour une image fixe existante, ainsi que les mouvements des lèvres appropriés pour correspondre à un discours ou à une chanson. Les chercheurs ont téléchargé une multitude d'exemples sur la page du projet, et les résultats semblent suffisamment bons pour tromper les gens en leur faisant croire qu'ils sont réels.

Bien que les mouvements des lèvres et de la tête dans les exemples puissent encore sembler un peu robotiques et désynchronisés après un examen plus approfondi, il est clair que la technologie pourrait être utilisée à mauvais escient pour créer facilement et rapidement de fausses vidéos de personnes réelles. Les chercheurs eux-mêmes sont conscients de ce danger et ont décidé de ne pas publier "une démo en ligne, une API, un produit, des détails supplémentaires sur la mise en œuvre ou toute autre offre connexe" avant d'être sûrs que leur technologie "sera utilisée de manière responsable et conformément aux réglementations en vigueur". Ils n'ont toutefois pas précisé s'ils prévoyaient de mettre en œuvre certaines mesures de protection pour empêcher des personnes mal intentionnées de les utiliser à des fins répréhensibles, par exemple pour créer du deepfake porno ou des campagnes de désinformation.


 Les chercheurs estiment que leur technologie présente de nombreux bénéfices, malgré les risques d'utilisation abusive qu'elle comporte. Selon eux, elle peut être utilisée pour renforcer l'équité en matière d'éducation, ainsi que pour améliorer l'accessibilité pour les personnes ayant des difficultés de communication, peut-être en leur donnant accès à un avatar qui peut communiquer pour elles. VASA-1 pourrait également servir de compagnon et de soutien thérapeutique à ceux qui en ont besoin, suggérant que VASA-1 pourrait être utilisé dans des programmes qui offrent un environnement à des personnages d'IA avec lesquels les gens peuvent parler.

Selon l'article publié à l'occasion de l'annonce, VASA-1 a été entraîné sur l'ensemble de données VoxCeleb2, qui contient "plus d'un million de paroles provenant de 6 112 célébrités" et extraites de vidéos YouTube. Même si l'outil a été entraîné sur des visages réels, il fonctionne également sur des photos artistiques telles que la Joconde, que les chercheurs ont combinée de manière amusante avec un fichier audio de l'interprétation virale par Anne Hathaway de la chanson Paparazzi de Lil Wayne. C'est tellement charmant que cela vaut la peine de le regarder, même si vous doutez de l'utilité d'une telle technologie.

source :

https://www.engadget.com/microsofts-ai-tool-can-turn-photos-into-realistic-videos-of-people-talking-and-singing-070052240.html

Enregistrer un commentaire

Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.

Plus récente Plus ancienne