Les experts en cybersécurité avertissent que les deepfakes vocaux en temps réel existent désormais

Résumé : L'intelligence artificielle a franchi un seuil critique avec l'arrivée des deepfakes vocaux en temps réel, permettant de cloner des voix de manière convaincante avec une latence minimale, souvent moins d'une seconde, en utilisant simplement des outils open-source et du matériel courant. Cette avancée, baptisée « deepfake vishing », est hautement efficace : des tests ont montré que la combinaison de ces fausses voix en direct et de l'usurpation d'identité de l'appelant a réussi à tromper presque toutes les cibles, rendant les appels vocaux ordinaires vulnérables aux attaques d'ingénierie sociale sophistiquées. Bien que les deepfakes vidéo en temps réel n'aient pas encore le même niveau de sophistication, l'accessibilité croissante de l'usurpation d'identité par l'IA signifie que les entreprises et les individus ne peuvent plus se fier aux appels pour l'authentification. Les experts préconisent donc l'adoption de méthodes de vérification structurées, comme des codes secrets, pour confirmer l'identité de manière univoque lors des interactions à distance et se protéger de ces nouvelles menaces.

La société de cybersécurité NCC Group a démontré que la combinaison d'outils d'IA open source et de matériel standard permettait de générer des deepfakes vocaux en temps réel avec une latence très faible. Cette technique, baptisée « deepfake vishing », utilise des modèles d'IA entraînés à partir d'échantillons de la voix d'une cible pour produire des imitations en direct que les opérateurs activent via le bouton « Démarrer » d'une interface web personnalisée.

Le processus ne nécessite qu'une puissance de calcul modeste, bien que des processeurs graphiques haut de gamme améliorent les résultats. Les chercheurs ont testé le système sur un ordinateur portable équipé d'un GPU Nvidia RTX A1000 (une carte de gamme inférieure) et ont obtenu des délais de seulement une demi-seconde. Les échantillons audio montrent que le système peut produire des répliques vocales convaincantes même à partir d'enregistrements de mauvaise qualité, ce qui suggère qu'il pourrait fonctionner avec les microphones intégrés aux ordinateurs portables et smartphones courants, facilitant ainsi son utilisation à des fins malveillantes.

Les anciens services de deepfake vocal nécessitaient souvent plusieurs minutes de données d'entraînement et ne produisaient que des séquences préenregistrées, ce qui les rendait moins adaptables aux interactions improvisées en direct. La possibilité de modifier la voix en temps réel élimine les pauses et les hésitations naturelles qui auraient autrement révélé une tentative d'usurpation d'identité.

Pablo Alobera, consultant en sécurité chez NCC Group, a déclaré que lors de tests contrôlés réalisés avec le consentement des clients, la combinaison du deepfake vocal en temps réel et de l'usurpation d'identité de l'appelant a réussi à tromper les cibles dans presque toutes les tentatives. Cette avancée améliore considérablement la vitesse et le réalisme de la falsification vocale, exposant de nouveaux risques même dans les appels téléphoniques ordinaires.

Si les deepfakes vocaux ont fait des progrès notables, les deepfakes vidéo en temps réel n'ont pas encore atteint le même niveau de sophistication. Les exemples viraux récents utilisent des modèles d'IA de pointe tels que WAN 2.2 Animate d'Alibaba et Gemini Flash 2.5 Image (surnommé Nano Banana) de Google, qui peuvent transposer numériquement pratiquement n'importe qui dans des scènes vidéo réalistes.

Cependant, ces systèmes ont encore du mal à produire des vidéos de haute qualité en direct et présentent souvent des incohérences dans les expressions faciales, les émotions et la synchronisation de la parole. Trevor Wiseman, fondateur de la société de cybersécurité IA The Circuit, a déclaré à IEEE Spectrum que les incohérences entre le ton et les expressions faciales restent évidentes, même pour des observateurs non avertis.

La généralisation croissante de ces technologies a déjà eu des conséquences tangibles. Wiseman cite le cas d'une entreprise qui s'est fait piéger lors d'un processus de recrutement, envoyant un ordinateur portable à une adresse trompeuse après avoir été dupée par une vidéo deepfake. De tels cas montrent que les appels vocaux et vidéo ne sont pas fiables pour l'authentification.

Alors que l'usurpation d'identité par l'IA devient plus accessible, les experts avertissent que de nouvelles formes de vérification seront indispensables. Wiseman préconise l'adoption de signaux ou de codes uniques et structurés, similaires aux signes secrets utilisés dans les matchs de baseball, afin de confirmer sans équivoque l'identité lors d'interactions à distance. Sans de telles mesures, les individus et les organisations restent exposés à des attaques d'ingénierie sociale de plus en plus sophistiquées, alimentées par des deepfakes générés par l'IA.

traduction de :

https://www.techspot.com/news/110006-cybersecurity-experts-warn-real-time-voice-deepfakes-here.html

Les experts en cybersécurité avertissent que les deepfakes vocaux en temps réel existent désormais

Enregistrer un commentaire

NextDNS ajoute une option permettant de contourner la vérification de l'âge sur les sites web