Est-ce que Chrome vous traque réellement en secret sur les sites Google en utilisant des numéros d'identification individuels ? (traduction)

Mise à jour : Google est potentiellement confronté à un énorme problème de confidentialité et de RGPD concernant l'envoi par Chrome de numéros d'identification spécifiques à chaque installation à la maison mère.

Mardi, Arnaud Granal, un développeur de logiciel impliqué dans un navigateur basé sur Chromium appelé Kiwi, a interpellé un ingénieur de Google dans un post GitHub Issues sur les implications en matière de vie privée des données d'en-tête de requête qui sont transmises par Chrome. Granal l'a qualifié d'identifiant unique et a suggéré qu'il puisse être utilisé, au moins par Google, pour suivre les personnes sur le web.

Lui et d'autres soutiennent que cela viole le règlement général sur la protection des données en Europe, car l'identifiant pourrait être considéré comme une donnée personnelle identifiable.

Google n'a pas répondu à une demande de commentaires, mais sa description de l'en-tête suggère qu'il en irait autrement.

Lorsqu'un navigateur souhaite joindre une page web sur un serveur, il envoie une requête HTTP pour cette page, une requête qui contient un ensemble d'en-têtes, qui sont des paires clé-valeur séparées par des deux points. Ces en-têtes décrivent les données pertinentes pour la requête. Par exemple, l'envoi de l'en-tête accept : text/html indique au navigateur quels types de médias il acceptera.

Depuis des années, depuis 2012 au moins, Chrome envoie un en-tête appelé X-client-data, anciennement connu sous le nom de X-chrome-variations, pour suivre les essais des fonctionnalités en cours de développement actives dans un navigateur donné. Google les active de manière aléatoire lors de la première installation du navigateur. Les essais actifs sont visibles si vous tapez chrome://version/ dans la barre d'adresse de Chrome. Sous l'étiquette Variations, vous verrez probablement une longue liste de nombres hexadécimaux similaires à 202c099d-377be55a.

Référencé sur la ligne 32 de ce fichier de code source Chromium, l'en-tête X-client-data envoie à Google une liste des essais disponibles pour l'utilisateur de Chrome.

"Cet en-tête Chrome-Variations (X-client-data) ne contiendra aucune information personnelle identifiable, et décrira uniquement l'état de l'installation de Chrome elle-même, y compris les variations actives, ainsi que les expériences côté serveur qui peuvent affecter l'installation", explique Google dans un document décrivant les capacités de Chrome.

Google suggère que le nombre de variations actives pour une installation donnée - si les statistiques d'utilisation et les rapports de crash sont désactivés - soit déterminé par un nombre de graines aléatoire compris entre 0 et 7 999, ce qui correspond à 13 bits d'entropie.

Moins d'entropie signifie que l'empreinte digitale du navigateur devient plus difficile, et plus d'entropie signifie le contraire. Mais les statistiques d'utilisation et les rapports de crash sont activés par défaut, de sorte que la plupart des utilisateurs de Chrome utilisent une entropie élevée pour ce point de données particulier.

Si les statistiques sont activées, alors l'ID est appelé "High entropy ID" dans le code source, et "déterminé par votre adresse IP, votre système d'exploitation, la version de Chrome et d'autres paramètres", et s'applique à votre installation", a expliqué M. Granal dans un courriel adressé à The Register.

Par exemple, si vous visitez YouTube en utilisant Chrome, l'en-tête peut inclure une chaîne de caractères comme celle-ci :

X-client-data: CIS2yQEIprbJAZjBtskBCKmdygEI8J/KAQjLrsoBCL2wygEI97TKAQiVtcoBCO21ygEYq6TKARjWscoB

"Avec cette longue ID, difficile de croire qu'il n'y a que 8 000 possibilités", observe Granal.

Les utilisateurs de Chrome peuvent s'en rendre compte par eux-mêmes en ouvrant les outils de développement du navigateur, en sélectionnant l'onglet Réseau et en chargeant une page Google comme YouTube ou en visitant https://ad.doubleclick.net/test. Dans le volet de droite des Outils pour les développeurs, divers en-têtes envoyés lors de la demande de chargement de la page devraient être visibles, y compris les données du client X.

"Lorsque vous installez Google Chrome, votre installation se voit attribuer un nombre aléatoire de 0 et 7999 et ce nombre est mélangé à un nombre donné par les serveurs de Google ("seed"), en fonction de votre pays, de votre adresse IP, et d'autres critères que Google décide (il pourrait s'agir d'un nombre aléatoire entre 0 et 10 milliards également, nous ne le saurions jamais)", a expliqué M. Granal.

"Cet identifiant est stocké sur votre ordinateur, et envoyé à chaque fois que votre Google Chrome communique avec les services Google *y compris* (et cela fait une énorme différence) avec DoubleClick (ciblage des publicités)".

Selon M. Granal, cet identifiant est envoyé à, et ne peut être lu que par, youtube.com, google.com, doubleclick.net, googleadservices.com, et d'autres domaines appartenant à Google - sauf en mode Incognito.

Cette question a déjà été soulevée. Elle a été discutée en 2018. Mais elle est à nouveau d'actualité car Google est en pleine révision de ses technologies web, notamment son code de navigation, sa plateforme d'extension et ses fonctionnalités web, afin de combler ses lacunes en matière de confidentialité et de sécurité tout en conservant la possibilité de diffuser des publicités ciblées.

L'un des objectifs déclarés des changements apportés par Google est de réduire l'efficacité de la prise d'empreintes digitales des navigateurs, en créant un identifiant unique pour les internautes, basé sur les capacités techniques de leur navigateur. En fait, le fil de discussion sur les problèmes dans lequel Granal s'est impliqué concernait le projet de Google de rendre la chaîne de texte envoyée dans l'en-tête User-Agent plus générique (moins d'entropie) et donc moins utile pour les empreintes digitales.

Il y a eu une certaine résistance parmi les spécialistes du marketing à propos de la perte de la capacité à suivre les personnes grâce aux empreintes digitales. La discussion GitHub inclut des personnes affiliées à des sociétés de technologie publicitaire qui craignent que la perte de données pour le suivi rende plus difficile la surveillance des fraudes publicitaires et amplifie l'avantage de Google en matière de données.

Dans un courriel adressé à The Register, Augustine Fou, chercheur en cybersécurité et en fraude publicitaire qui conseille les entreprises sur le marketing en ligne, a rejeté l'idée que moins d'empreintes digitales signifie plus de fraude publicitaire.

"La chaîne de caractères UA est totalement inutile pour détecter la fraude depuis le début, car tout robot digne de ce nom peut copier et coller une chaîne UA légitime et la transmettre à n'importe quel technicien de détection pour s'en sortir", a-t-elle déclaré. "La perte de la chaîne UA n'augmentera donc pas la fraude, à moins bien sûr de supposer que les chaînes UA étaient utiles pour détecter les robots, ce qui est faux.

Mais l'existence de l'identifiant des données du client X, même s'il n'est lisible que par Google, montre clairement que Google se concentre sur la protection de la vie privée vis-à-vis des tiers, plutôt que sur une défense contre elle-même.

Lukasz Olejnik, informaticien, chercheur indépendant sur la vie privée et consultant, a déclaré dans un courriel adressé à The Register que, bien que cette fonctionnalité existe depuis un certain temps et soit probablement destinée à aider à suivre les problèmes techniques, elle soulève des questions importantes.

"L'ID est plutôt non transparent, et sa gestion par l'utilisateur est loin d'être facile", a déclaré M. Olejnik. "J'imagine que la plupart des utilisateurs n'ont aucune idée de cette identification, de ce qu'elle fait et du moment où elle est utilisée. Un problème potentiel semble être que l'ID persistant n'est pas réinitialisé lorsque l'utilisateur efface les données du navigateur. En ce sens, il s'agit d'une empreinte digitale".

"Le risque en général est limité par le fait que cette identification n'est apparemment envoyée qu'à des sites contrôlés par une seule organisation", a-t-il ajouté, faisant référence à Google. "Il appartient alors à la partie destinataire de s'assurer que le traitement de ces données est effectué correctement, afin que les utilisateurs en soient informés, ou qu'il soit impossible d'utiliser l'identifiant pour isoler des individus".

Fou observe que Google a des utilisateurs connectés à divers services comme Chrome, Gmail, Google Maps, Google Docs et les appareils Android, pour n'en citer que quelques-uns, et qu'il peut donc déjà vous suivre de cette façon.

"Vous pouvez donc voir qu'avoir des chaînes User-Agent sur un satané navigateur est loin d'être sans importance pour Google, car il peut toujours identifier tous ceux qu'il veut (et il a Google Analytics, DoubleClick, Adsense, reCaptcha et d'autres codes sur presque tous les sites qui sont importants)", dit-elle. "Ainsi, tous ceux qui visitent un site, Google peut créer son propre cookie first-party pour les identifier".

Il peut également y avoir une faille de sécurité ici. M. Granal souligne que le code source de Chromium ne vérifie qu'une liste prédéfinie de domaines Google mais ne vérifie pas de domaines spécifiques, de sorte qu'un individu malveillant pourrait acheter un domaine comme youtube.vg et y créer un site web pour collecter des informations d'en-tête de données de clients X, au moins jusqu'à ce que la notification de refus arrive.

Mise à jour pour compléter

Dans une déclaration au Register après le début de cette histoire, un porte-parole de Google a nié que le géant du web utilise l'en-tête X-client-data pour identifier ou suivre les utilisateurs individuels.

"L'en-tête X-Client-Data est utilisé pour aider Chrome à tester de nouvelles fonctionnalités avant de les déployer auprès de tous les utilisateurs", a déclaré le porte-parole de Google.

"Les informations incluses dans cet en-tête reflètent les variations, ou les essais de nouvelles fonctionnalités, dans lesquels une installation de Chrome est actuellement inscrite. Ces informations nous aident à mesurer les paramètres côté serveur pour de grands groupes d'installations ; elles ne sont pas utilisées pour identifier ou suivre les utilisateurs individuels".

source :
https://www.theregister.co.uk/2020/02/05/google_chrome_id_numbers/

Est-ce que Chrome vous traque réellement en secret sur les sites Google en utilisant des numéros d'identification individuels ? (traduction)

Enregistrer un commentaire

NextDNS ajoute une option permettant de contourner la vérification de l'âge sur les sites web