Une équipe mondiale de spécialistes examine des extraits audio afin d'aider l'assistant à commande vocale à répondre aux demandes.
Des dizaines de millions de personnes utilisent des enceintes intelligentes et leur logiciel vocal pour jouer à des jeux, trouver de la musique ou pour d'autres futilités. Des millions d'autres hésitent à introduire ces appareils et leurs puissants microphones chez eux par crainte que quelqu'un ne les écoute.
Parfois, quelqu'un est écouté.
Amazon.com Inc. emploie des milliers de personnes à travers le monde pour aider à améliorer l'assistant numérique Alexa qui alimente sa gamme d'enceintes Echo. L'équipe écoute les enregistrements vocaux enregistrés dans les maisons et les bureaux des propriétaires d'Echo. Les enregistrements sont retranscrits, annotés puis réintroduits dans le logiciel dans le but d'éliminer les lacunes dans la compréhension de la parole humaine par Alexa et de l'aider à mieux répondre aux demandes.
Le processus de vérification de la voix Alexa, est décrit par sept personnes qui ont travaillé sur le programme, souligne le rôle souvent négligé de l'humain dans la formation des algorithmes logiciels. Dans les documents marketing, Amazon dit qu'Alexa "vit dans le nuage et devient toujours plus intelligente". Mais comme beaucoup d'outils logiciels conçus pour apprendre des leçons avec l'expérience, les humains participent à cet enseignement.
L'équipe est composée de sous-traitants et d'employés à plein temps d'Amazon qui travaillent dans des antennes de Boston au Costa Rica, en Inde et en Roumanie, selon les employés, qui ont signé des accords de non-divulgation leur interdisant de parler publiquement de ce programme. Ils travaillent neuf heures par jour, chaque équipe analysant jusqu'à 1 000 clips audio par jour, selon deux employés du bureau d'Amazon à Bucarest, qui occupe les trois étages supérieurs de l'immeuble Globalworth dans le quartier en plein essor de Pipera, la capitale roumaine. L'installation moderne se démarque au milieu de l'infrastructure en ruine et ne porte aucune enseigne extérieure annonçant la présence d'Amazon.
Le travail est surtout routinier. Un travailleur de Boston a dit qu'il exploitait les données vocales accumulées pour des énoncés spécifiques tels que "Taylor Swift" et les annotait pour indiquer que l'utilisateur recherchait la chanteuse. Parfois, les employés d'Amazon entendent des choses que les propriétaires d'Echo préféreraient garder pour eux : une femme qui chante mal sous la douche, par exemple, ou un enfant qui crie à l'aide. Les équipes utilisent des forums de discussion internes pour partager des fichiers lorsqu'elles ont besoin d'aide pour analyser un mot confus ou pour trouver un enregistrement amusant.
Parfois, ils entendent des enregistrements qu'ils trouvent dérangeants, voire délictueux. Deux des travailleurs ont dit qu'ils avaient intercepté ce qu'ils croyaient être une agression sexuelle. Lorsqu'une telle chose se produit, ils peuvent partager leur expérience dans le forum de discussion interne comme moyen de soulager le stress. Amazon dit qu'elle a mis en place des procédures que les travailleurs peuvent suivre lorsqu'ils entendent quelque chose de pénible, mais deux employés basés en Roumanie ont déclaré qu'après avoir demandé des conseils pour de tels cas, on leur a dit que ce n'était pas à Amazon de s'en mêler.
"Nous prenons au sérieux la sécurité et la confidentialité des informations personnelles de nos clients ", a déclaré un porte-parole d'Amazon dans un communiqué électronique. "Nous n'annotons qu'un très petit échantillon d'enregistrements vocaux Alexa afin d'améliorer l'expérience client. Par exemple, ces informations nous aident à former nos systèmes de reconnaissance vocale et de compréhension du langage normal, afin qu'Alexa puisse mieux comprendre vos demandes et s'assurer que le service fonctionne bien pour tous".
"Nous avons des garanties techniques et opérationnelles strictes et une politique de tolérance zéro pour les abus de notre système. Les employés n'ont pas d'accès direct à l'information permettant d'identifier la personne ou le compte dans le cadre de ce flux de travail. Toutes les informations sont traitées avec la plus grande confidentialité et nous utilisons l'authentification multifactorielle pour restreindre l'accès, le chiffrement du service et les audits de notre environnement de contrôle pour le protéger".
Amazon, dans ses documents de marketing et de politique de confidentialité, ne dit pas explicitement que les humains écoutent des enregistrements de certaines conversations captées par Alexa. "Nous utilisons vos demandes à Alexa pour former nos systèmes de reconnaissance vocale et de compréhension du langage normal", explique la société dans une liste de questions fréquemment posées.
Dans les paramètres de confidentialité d'Alexa, Amazon donne aux utilisateurs la possibilité de désactiver l'utilisation de leurs enregistrements vocaux pour le développement de nouvelles fonctionnalités. L'entreprise affirme que les personnes qui se retirent de ce programme peuvent encore faire analyser leurs enregistrements manuellement dans le cours normal du processus d'examen. Une capture d'écran examinée par Bloomberg montre que les enregistrements envoyés aux examinateurs d'Alexa ne fournissent pas le nom et l'adresse complets d'un utilisateur mais sont qu'ils associés à un numéro de compte, ainsi qu'au prénom de l'utilisateur et au numéro de série du dispositif.
Dans le rapport divulgué plus tôt cette année, les employés d'Amazon ont identifié manuellement les véhicules et les personnes dans les vidéos capturées par les caméras de sonnette de l'entreprise, un effort pour mieux former le logiciel pour faire ce travail lui-même.
"Vous ne pensez pas nécessairement à un autre être humain qui écoute ce que vous dites à votre enceinte intelligente dans l'intimité de votre maison", a déclaré Florian Schaub, professeur à l'Université du Michigan qui a effectué des recherches sur les questions de protection de la vie privée liées aux enceintes connectées. "Je pense que nous avons été conditionnés par l'hypothèse que ces machines apprennent comme par magie. Mais le fait est qu'il y a toujours un traitement manuel."
"La question est de savoir s'il s'agit ou non d'un problème de protection de la vie privée qui dépend de la prudence d'Amazon et d'autres entreprises quant au type d'informations qu'elles ont traitées manuellement et quant à la façon dont elles présentent ces informations à quelqu'un", a-t-il ajouté.
Lorsque l'Echo a fait ses débuts en 2014, le haut-parleur cylindrique intelligent d'Amazon a rapidement popularisé l'utilisation d'un logiciel vocal à la maison. En peu de temps, Alphabet Inc. a lancé sa propre version, appelée Google Home, suivie de HomePod d'Apple Inc. Diverses entreprises vendent également leurs propres appareils en Chine. Au niveau mondial, les consommateurs ont acheté 78 millions de haut-parleurs intelligents l'an dernier, selon le chercheur Canalys. Des millions d'autres utilisent des logiciels vocaux pour interagir avec des assistants numériques sur leurs smartphones.
Le logiciel Alexa est conçu pour enregistrer en continu des bribes d'audio, à l'écoute d'un mot de réveil. C'est "Alexa" par défaut, mais les gens peuvent le changer en "Echo" ou "ordinateur". Lorsque le mot de réveil est détecté, l'anneau lumineux en haut de l'Echo devient bleu, indiquant que l'appareil enregistre et transmet une instruction aux serveurs Amazon.
La plupart des systèmes modernes de reconnaissance de la parole reposent sur des réseaux neuronaux modelés sur le cerveau humain. Le logiciel apprend au fur et à mesure, en repérant des modèles au milieu d'une grande quantité de données. Les algorithmes qui alimentent Echo et d'autres enceintes intelligentes utilisent des modèles de probabilité pour faire des prédictions précises. Si quelqu'un demande à Alexa s'il y a un endroit grec à proximité, les algorithmes savent que l'utilisateur cherche probablement un restaurant, pas une église ou un centre communautaire.
Mais parfois Alexa se trompe, surtout lorsqu'elle est aux prises avec un nouvel argot, des expressions familières régionales ou des langues autres que l'anglais. En français, avec sa, "avec son" ou "avec sa", peut faire croire au logiciel que quelqu'un utilise le mot de réveil Alexa. Hecho, l'espagnol pour désigner un fait ou un acte, est parfois interprété comme Echo. Et ainsi de suite. C'est pourquoi Amazon a recruté des assistants humains pour combler les lacunes des algorithmes.
Siri d'Apple a également des aides humaines qui évaluent si l'interprétation des demandes par l'assistant numérique correspond à ce que la personne a dit. Les enregistrements qu'ils examinent ne contiennent pas d'informations personnelles identifiables et sont conservés pendant six mois liés à un identifiant aléatoire, selon un livre blanc sur la sécurité Apple. Par la suite, les données sont dépouillées de leur information d'identification aléatoire, mais peuvent être conservées pendant de plus longues périodes afin d'améliorer la reconnaissance vocale de Siri.
Chez Google, certains examinateurs peuvent accéder à des extraits audio à partir de son assistant pour aider à former et à améliorer le produit, mais il n'est associé à aucune information personnelle identifiable et l'audio est déformé, dit la société.
Une offre d'emploi récente chez Amazon, à la recherche d'un responsable qualité pour Alexa Data Services à Bucarest, décrit le rôle que joue l'homme : "Chaque jour, elle [Alexa] écoute des milliers de personnes lui parler de différents sujets dans différentes langues, et elle a besoin de notre aide pour comprendre tout ça." L'annonce de recherche continue : "C'est une gestion de données comme vous ne l'avez jamais vue. Nous créons, étiquetons, conservons et analysons de grandes quantités de conversations sur une base quotidienne."
Le processus d'examen des données vocales d'Amazon commence lorsqu'Alexa extrait un petit échantillon aléatoire d'enregistrements vocaux de clients et envoie les fichiers audio aux employés et sous-traitants étrangers, selon une personne connaissant le processus du programme.
Certains examinateurs Alexa sont chargés de transcrire les commandes des utilisateurs, de comparer les enregistrements à la transcription automatisée d'Alexa, par exemple, ou d'annoter l'interaction entre l'utilisateur et la machine. Qu'est-ce que la personne a demandé ? Alexa a-t-elle fourni une réponse efficace ?
D'autres notent tout ce que micro capte, y compris les conversations de fond, même lorsque des enfants parlent. Parfois, les examinateurs entendent les utilisateurs discuter de détails privés tels que des noms ou des coordonnées bancaires ; dans ce cas, ils sont censés cocher une boîte de dialogue indiquant des "données critiques". Ils passent ensuite au fichier audio suivant.
Selon le site Web d'Amazon, aucun son n'est stocké sauf si Echo détecte le mot de réveil ou s'il est activé en appuyant sur un bouton. Mais parfois Alexa semble commencer à enregistrer sans y être invité, et les fichiers audio commencent avec le son bruyant d'une télévision ou par un bruit inintelligible. Que l'activation soit erronée ou non, les examinateurs sont tenus de la retranscrire. L'une des personnes a dit que les examinateurs transcrivaient chacun jusqu'à 100 enregistrements par jour alors qu'Alexa ne reçoit aucun ordre de réveil ou qu'elle est déclenchée par accident.
Dans les foyers du monde entier, les propriétaires d'Echo spéculent souvent sur les personnes qui les écoutent, d'après deux des examinateurs. "Travaillez-vous pour la NSA ?" demandent-ils. "Alexa, est-ce que quelqu'un d'autre nous écoute ?".
Par : Matt Day, Giles Turner et Natalia Drozdiak.
Sauce :
https://www.bloomberg.com/news/articles/2019-04-10/is-anyone-listening-to-you-on-alexa-a-global-team-reviews-audio