Le créateur de la fonction vocale de ChatGPT veut développer la technologie du film « Her », mais sans le côté dystopique (traduction)

Résumé : Alexis Conneau, ancien membre d'OpenAI et Meta, a lancé WaveForms AI, une start-up dédiée à l'IA vocale émotionnellement intelligente, avec l'ambition de créer des produits audio innovants pour 2025. Inspiré par le film Her, il veut éviter les dérives dystopiques du film, où les relations humaines sont remplacées par des IA. WaveForms vise à rendre les interactions avec l'IA plus naturelles et humaines, tout en évitant l'addiction et les risques sociaux associés. Le projet, soutenu par Andreessen Horowitz, se concentre sur des modèles audio plus accessibles et rapides, offrant une expérience plus agréable sans nécessairement chercher à rendre l'IA plus "intelligente".

Alexis Conneau pense beaucoup au film « Her ». Depuis plusieurs années, il est obsédé par l'idée de faire de la technologie vocale fictive du film, Samantha, une réalité.

Conneau utilise même une photo du personnage de Joaquin Phoenix dans le film comme bannière sur Twitter.

Avec la fonction « Advanced Voice Mode » de ChatGPT, un projet que Conneau a lancé chez OpenAI après avoir effectué un travail similaire chez Meta, il a déjà quasiment réussi à le faire. Le système d'IA traite nativement la parole et répond comme un humain.

Aujourd'hui, il possède une nouvelle entreprise, WaveForms AI, qui tente de développer quelque chose de supérieur.

Conneau passe une bonne partie de son temps à réfléchir à un moyen d'éviter la dystopie présentée dans le film, a-t-il déclaré lors d'une interview accordée à TechCrunch. « Her » est un film de science-fiction sur un monde où les gens développent des relations intimes avec des systèmes d'intelligence artificielle plutôt qu'avec d'autres humains.

« Le film est une dystopie, n'est-ce pas ? Ce n'est pas un avenir dont nous voulons », a déclaré M. Conneau. « Nous voulons proposer cette technologie - qui existe et qui existera - et nous voulons la proposer pour de bon. Nous voulons faire exactement le contraire de ce que fait l'entreprise dans ce film.

Construire cette technologie, sans pour autant créer la dystopie qui l'accompagne, semble être une contradiction. Mais Conneau a l'intention de le faire quand même, et il est convaincu que sa nouvelle entreprise d'IA aidera les gens à « ressentir l'AGI » avec leurs oreilles.

Lundi, Conneau a lancé WaveForms AI, une nouvelle société de LLM audio qui forme ses propres modèles de base. Son objectif est de mettre sur le marché des produits audio d'IA en 2025, en concurrence avec les offres d'OpenAI et de Google. La startup a levé 40 millions de dollars en financement de démarrage, annoncé lundi, sous la direction d'Andreessen Horowitz.

M. Conneau explique que Marc Andreessen - qui a déjà déclaré que l'IA devrait faire partie de tous les aspects de la vie humaine - s'est intéressé personnellement à son projet.

Il convient de noter que l'obsession de Conneau pour le film « Her » a sans doute causé des problèmes à OpenAI à un moment donné. Scarlett Johansson a menacé de poursuites judiciaires la société de Sam Altman au début de l'année, obligeant OpenAI à retirer l'une des voix de ChatGPT qui ressemblait fortement à son personnage dans le film. OpenAI a nié avoir essayé de reproduire sa voix.

Mais il est indéniable que le film a influencé M. Conneau. « Her » était clairement de la science-fiction lorsqu'il est sorti en 2013 - à l'époque, Siri d'Apple était tout nouveau et très limité. Mais aujourd'hui, la technologie semble terriblement à portée de main.

Les plateformes de compagnonnage par l'IA comme Character.AI touchent chaque semaine des millions d'utilisateurs qui souhaitent simplement parler avec son chatbot. Le secteur est en train de devenir un cas d'utilisation populaire de l'IA générative, malgré des résultats parfois tragiques et inquiétants. On peut imaginer que quelqu'un qui écrit toute la journée sur un chatbot serait ravi de pouvoir lui parler, surtout s'il utilise une technologie aussi convaincante que le mode vocal avancé de ChatGPT.

Le PDG de WaveForms AI se méfie de ce secteur de l'IA comme compagnon, et ce n'est pas le cœur de sa nouvelle entreprise. S'il pense que les gens utiliseront les produits de WaveForms d'une nouvelle manière, par exemple en parlant à une IA pendant 20 minutes dans la voiture pour apprendre quelque chose, M. Conneau affirme qu'il souhaite que l'entreprise soit plus « horizontale ».

« L'IA de WaveForms peut être ce professeur qui inspire, vous savez, peut-être ce professeur que vous n'auriez pas dans votre vie, du moins dans votre vie physique », a déclaré le PDG.

À l'avenir, il pense que parler à l'IA générative sera un moyen plus courant d'interagir avec toutes sortes de technologies. Cela pourrait inclure le fait de parler à sa voiture ou à son ordinateur. WaveForms vise à fournir l'IA « émotionnellement intelligente » qui facilitera tout cela.

« Je ne crois pas à un avenir où l'interaction entre l'homme et l'IA remplacera l'interaction entre les hommes », a déclaré M. Conneau. « Il s'agira plutôt d'une complémentarité.

Selon lui, l'IA peut tirer des leçons des erreurs commises par les réseaux sociaux. Par exemple, il pense que l'IA ne devrait pas optimiser le « temps passé sur la plateforme », un indicateur de succès courant pour les applications de réseaux sociaux qui peut encourager des habitudes malsaines, comme le doomscrolling. De manière plus générale, il veut s'assurer que l'IA de WaveForms est en adéquation avec les intérêts des personnes, estimant qu'il s'agit là du « travail le plus important que l'on puisse faire ».

M. Conneau estime que le nom donné par OpenAI à son projet, « Advanced Voice Mode », ne rend pas vraiment justice à la différence entre la technologie et le mode vocal normal de ChatGPT.

L'ancien mode vocal consistait simplement à traduire votre voix en texte, à le faire passer par GPT-4, puis à reconvertir ce texte en parole. Il s'agissait d'une solution quelque peu bricolée. Cependant, avec le mode vocal avancé, Conneau explique que GPT-4o décompose en fait le son de votre voix en tokens (apparemment, chaque seconde de son équivaut à environ trois tokens) et fait passer ces tokens directement par un modèle de transformateur spécifique à l'audio. C'est ce qui permet au mode vocal avancé d'avoir une latence aussi faible.

L'une des affirmations qui revient souvent lorsque l'on parle de modèles audio d'IA est qu'ils sont censés « comprendre les émotions ». Tout comme les LLM textuels sont basés sur des modèles trouvés dans des ensembles de documents textuels, les LLM audio font la même chose avec des extraits audio de personnes en train de parler. Les utilisateurs qualifient ces extraits de « tristes “ ou d” » excités », de sorte que les modèles d'IA reconnaissent des modèles vocaux similaires lorsqu'ils vous entendent les prononcer, et répondent même par des intonations émotionnelles de leur choix. Il s'agit donc moins de « comprendre les émotions » que de reconnaître systématiquement les qualités audio que les humains associent à ces émotions.

Rendre l'IA plus humaine, et non plus intelligente

Conneau fait le pari que l'IA générative d'aujourd'hui n'a pas besoin d'être beaucoup plus intelligente que GPT-4o pour créer de meilleurs produits. Au lieu d'améliorer l'intelligence sous-jacente de ces modèles, comme le fait OpenAI avec o1, WaveForms essaie simplement de rendre l'IA plus agréable à utiliser.

« Il y aura un marché de personnes [utilisant l'IA générative] qui choisiront simplement l'interaction la plus agréable pour eux », a déclaré M. Conneau.

C'est pourquoi la startup est convaincue qu'elle peut développer ses propres modèles de base - idéalement, des modèles plus petits qui seront moins coûteux et plus rapides à exécuter. Ce n'est pas un mauvais pari, étant donné qu'il a été démontré récemment que les anciennes lois d'échelonnement de l'IA ralentissent.

Conneau explique que son ancien collègue d'OpenAI, Ilya Sutskever, lui parlait souvent d'essayer de « sentir l'AGI », c'est-à-dire d'utiliser son intuition pour évaluer si nous avions atteint l'IA superintelligente. Le PDG de WaveForms est convaincu que la réalisation de l'AGI sera davantage une sensation, plutôt que le fait d'atteindre une sorte de point de référence, et que les LLM audio seront la clé de cette sensation.

« Je pense que vous serez en mesure de ressentir l'AGI beaucoup plus lorsque vous pourrez lui parler, lorsque vous pourrez entendre l'AGI, lorsque vous pourrez parler au transformateur lui-même », a déclaré M. Conneau, répétant les observations qu'il a faites à Sutskever au cours d'un dîner.

Cependant, à mesure que les startups rendent l'IA plus facile à utiliser, elles ont clairement une responsabilité à assumer pour s'assurer que les gens n'en deviennent pas dépendants. Toutefois, Martin Casado, partenaire général d'Andreessen Horowitz, qui a participé à l'investissement dans WaveForms, estime que ce n'est pas nécessairement une mauvaise chose si les gens parlent plus souvent à l'IA.

« Je peux parler à une personne au hasard sur Internet, et cette personne peut m'intimider, elle peut profiter de moi... Je peux parler à un jeu vidéo qui peut être arbitrairement violent, ou je peux parler à une IA », a déclaré Casado lors d'une interview avec TechCrunch. « Je pense qu'il s'agit d'une question importante à étudier. Je ne serai pas surpris s'il s'avère que [parler à l'IA] est en fait préférable. »

Certaines entreprises pourraient considérer qu'une personne développant une relation amoureuse avec votre IA est un marqueur de réussite. Mais d'un point de vue sociétal, cela pourrait également être considéré comme un marqueur d'échec total, comme le film « Her » a tenté de le dépeindre. C'est sur cette corde raide que WaveForms doit désormais marcher.

source :

https://techcrunch.com/2024/12/09/the-creator-of-chatgpts-voice-wants-to-build-the-tech-from-her-minus-the-dystopia/

Le créateur de la fonction vocale de ChatGPT veut développer la technologie du film « Her », mais sans le côté dystopique (traduction)

Enregistrer un commentaire

Formulaire de contact