IA : Pourquoi la voix est la nouvelle interface à la mode (traduction)

En 1962, Douglas Engelbart publiait un essai intitulé "Augmenter l'intelligence humaine".

Dans cet article, Douglas Engelbart soutenait que les ordinateurs numériques pouvaient constituer la méthode la plus rapide pour "accroître la capacité d'un homme à aborder une situation problématique complexe, à acquérir une compréhension adaptée à ses besoins particuliers et à trouver des solutions aux problèmes".

Considéré comme le père de l'interface graphique (GUI), Engelbart voyait les ordinateurs comme des outils permettant d'augmenter, et non de remplacer, l'intelligence humaine, posant ainsi les bases de l'interaction graphique homme-machine. Cette vision a conduit au développement des premières interfaces graphiques par l'Alto de Xerox PARC, puis affinées par le Macintosh OS d'Apple et Windows de Microsoft.

Depuis lors, l'interface graphique n'a cessé d'évoluer, incorporant divers éléments interactifs tels que des menus, des écrans tactiles et des interfaces à commande vocale.

Cependant, avec l'émergence de l'IA générative, un nouveau type d'interface commence à façonner l'interaction entre l'homme et l'ordinateur. 

Interfaces en Langage Naturel (ILN)

Si le concept d'Interfaces en Langage Naturel (ILN) (ndlr : en anglais Natural Language Interfaces (NLI)) existe depuis les premiers développements de l'IA, les modèles de langage dit "Large Language Models" les ont rendues incroyablement pertinentes et impactantes.

Le but des ILN est de permettre aux utilisateurs d'interagir avec les ordinateurs ou les systèmes en utilisant un langage courant (écrit ou parlé). En d'autres termes, il s'agit essentiellement d'interfaces conversationnelles.

"Les interfaces en langage naturel marquent l'aube d'une ère où l'interaction homme-machine est aussi naturelle qu'une conversation entre deux humains."

Naturellement, les chatbots à base d'IA sont désormais courants, et on les retrouve quasiment partout : canaux d'assistance, sites web, services et produits semblent tous intégrer un chatbot. De plus, tout le monde découvre des méthodes pour utiliser les chatbots afin d'accroître sa productivité.

Ainsi, bien que les chatbots textuels fonctionnent parfaitement pour des cas d'utilisation liés au codage, au brainstorming, à la recherche sur internet et à la relecture de copies, par exemple, la tendance se dirige vers une forme de communication plus naturelle.

De quoi s'agit-il ?

La voix générative par IA. 

Le Monde d'Her

Ce qui ressemblait à de la science-fiction il y a quelques années seulement devient réalité. Nous nous rapprochons d'assistants vocaux IA aussi proches et intelligents que celui présenté dans le film "Her".

Dans ce film, Theodore, le personnage principal, noue un lien profond et personnel avec une intelligence artificielle, démontrant un niveau d'interaction et d'engagement émotionnel qui semblait tiré par les cheveux à sa sortie.

Personnellement, j'utilise maintenant la fonction vocale de ChatGPT sur mon smartphone plus souvent que le texte, ce qui la rend de plus en plus courante pour moi. Après quelques minutes de conversation, j'oublie presque que je parle à une IA.

Des assistants virtuels comme Siri, Google Assistant et Alexa ont peut-être été les premières versions des interfaces vocales en langage naturel, mais ils sont loin de ce qui est possible aujourd'hui avec les interfaces alimentées par les grands modèles de langage.

Le seul problème qui doit encore être résolu avec la voix ChatGPT est le léger décalage de latence dans la réponse. Heureusement, on observe une avancée fulgurante de nouvelles technologies vocales qui convergent et feront passer la voix au niveau supérieur.

Progrès de la voix basée sur l'IA

Voici quelques avancées récentes qui rendent la voix de l'IA indistinguable d'une conversation humaine :

1. Processeurs d'inférence plus rapides : Les puces d'unité de traitement du langage (LPU) deviendront courantes (voir Groq), ce qui permettra de résoudre les problèmes de latence dans les réponses vocales de l'IA.

2. IA empathique : Les percées dans les grands modèles de langage empathiques (eLLM) comme EVI de Hume permettent de comprendre et d'imiter les tons de voix et l'emphase sur les mots, favorisant des réponses plus empathiques.

3. Clonage de la voix : Le développement par OpenAI d'un modèle de conversion de texte en voix appelé Voice Engine peut générer une parole à consonance naturelle qui ressemble étroitement à la voix d'un locuteur à partir d'un simple échantillon audio de 15 secondes.

4. Voix basées sur l'IA générative : Les progrès des modèles d'IA générative permettent la création de voix synthétiques hautement réalistes et personnalisables, élargissant les possibilités d'expériences vocales. Consultez ElevenLabs et Play.ht, des innovateurs dans ce domaine.

Ces technologies façonneront bientôt les tendances de consommation ainsi que celles des entreprises. Selon une enquête d'Opus Research, 13 % des répondants pensent que l'adoption généralisée est déjà en cours, tandis que 72 % anticipent une adoption massive des expériences vocales d'ici un à cinq ans.

La voix basée sur l'IA comme interface principale

Si les discussions et messages textuels ont leur place dans certains domaines professionnels et pour les usages nécessitant de l'écrit, la voix basée sur l'IA a des implications culturelles et générales plus profondes.

Tout d'abord, il existe un problème de solitude.


 Et la solitude signifie que les humains se tourneront vers d'autres moyens de compagnie, ce que nous constatons avec les compagnons virtuels basés sur l'IA.

"It appears that 20% of men on dating platforms are turning to AI to spark more engaging conversations. Is AI transforming the modern-day dating scene? For some, a virtual partner might be the closest to reality." - AIGirlfriend stats (source)

Le terme "petite amie virtuelle" (IA girlfriend) a connu une augmentation de plus de 200% en volume de recherche depuis le début de l'année, et les téléchargements d'applications de petites amies virtuelles comme AiGirlfriendreview ont augmenté de 500% au cours des 5 derniers mois.

Mais les petites amies virtuelles ne sont pas les seuls changements majeurs. On peut aussi envisager des assistants thérapeutiques à base d'IA pour le soutien en santé mentale, capables d'aider à surmonter des traumatismes et des problèmes sans crainte de jugement. Des tuteurs virtuels en IA pour l'éducation, des avatars de personnages IA parlants pour le divertissement, ou simplement des compagnons virtuels pour les interactions sociales personnelles.

Comme les conversations vocales basées sur l'IA sont plus naturelles que d'autres formes de communication et qu'elles deviennent de plus en plus crédibles, elles seront probablement omniprésentes : dans les appareils, les voitures, les téléphones portables, les maisons, etc. 

Défis de la voix basée sur l'IA

Évidemment, toute technologie de pointe s'accompagne de son lot de défis, et c'est également le cas des interfaces vocales à base d'IA.

L'un des défis majeurs concerne la protection des données vocales. Ces données étant très sensibles, il est crucial de les sauvegarder contre tout accès non autorisé ou usage abusif. Le nombre d'arnaques basées sur la reproduction vocale par intelligence artificielle (deepfakes vocaux) risque d'être colossal.

En plus des arnaques vocales, la désinformation propagée via le clonage vocal représente également un énorme problème. Générer des clones vocaux devient en effet de plus en plus simple.

Conclusion

L'évolution vers une IA intuitive, empathique et conversationnelle promet de redéfinir nos expériences numériques. La technologie deviendra ainsi plus accessible, plus personnelle et plus intégrée pour répondre aux besoins et aux défis humains.

La technologie vocale basée sur l'IA nous rapproche de la vision d'Engelbart : amplifier non seulement nos capacités intellectuelles, mais aussi enrichir notre expérience humaine.

source :

https://medium.com/the-generator/why-voice-is-the-hot-new-interface-11d64a675ec8#bypass

Enregistrer un commentaire

Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.

Plus récente Plus ancienne