Des chercheurs constatent que les données "anonymisées" sont encore moins anonymes qu'on ne le pensait (traduction)

L'automne dernier, Wladimir Palant, créateur d'AdBlock Plus, a révélé qu'Avast utilisait son populaire logiciel antivirus pour collecter et vendre des données sur les utilisateurs. Alors que les investigations ont finalement été interrompues, le PDG d'Avast, Ondrej Vlcek, a d'abord minimisé le scandale, en assurant au public que les données collectées avaient été "anonymisées" - ou dépouillées de tout identifiant évident comme les noms ou les numéros de téléphone.

"Nous n'autorisons absolument aucun annonceur ou tierce partie... à obtenir un accès par l'intermédiaire d'Avast ou à des données qui permettraient à la tierce partie de cibler cette personne en particulier", a déclaré M. Vlcek.

Mais l'analyse des étudiants de l'Université de Harvard montre que l'anonymat n'est pas la solution miracle comme les entreprises aiment le prétendre.

Dasha Metropolitansky et Kian Attari, deux étudiants de la John A. Paulson School of Engineering and Applied Sciences de Harvard, ont récemment construit un outil qui passe au peigne fin de vastes ensembles de données sur les consommateurs exposés à des violations pour un mémoire de classe qu'ils n'ont pas encore publié.

"Le programme prend une liste d'informations personnelles identifiables, comme une liste de courriels ou de noms d'utilisateurs, et recherche dans les fuites toutes les données d'identification qu'il peut trouver pour chaque personne", a déclaré M. Attari dans un communiqué de presse.

Ils ont dit à Motherboard que leur outil a analysé des milliers d'ensembles de données provenant de scandales de données allant du piratage d'Experian en 2015, aux piratages et aux brèches qui ont affecté les services de MyHeritage aux sites web pornographiques. Malgré le fait que beaucoup de ces données contiennent des données "anonymes", les étudiants disent que l'identification des utilisateurs réels n'a pas été si difficile.

"Une fuite individuelle est comme une pièce de puzzle", a déclaré à Motherboard Dasha Metropolitansky, chercheuse à Harvard. "En soi, elle n'est pas particulièrement puissante, mais lorsque plusieurs fuites sont réunies, elles forment une image étonnamment claire de nos identités. Les gens peuvent passer outre ces fuites, mais les pirates informatiques ont une longue mémoire".

Par exemple, alors qu'une entreprise peut ne stocker que des noms d'utilisateur, des mots de passe, des adresses électroniques et d'autres informations de base sur le compte, une autre entreprise peut avoir stocké des informations sur vos données de navigation ou de localisation. Indépendamment, elles peuvent ne pas vous identifier, mais globalement, elles révèlent de nombreux détails intimes que même vos amis les plus proches et votre famille peuvent ignorer.

Nous avons montré qu'un ensemble de données "anonymisées" provenant d'un endroit peut facilement être relié à un ensemble de données non anonymisées provenant d'un autre emplacement via une colonne qui apparaît dans les deux ensembles de données", a déclaré M. Metropolitansky. "Nous ne devrions donc pas supposer que nos informations personnelles sont en sécurité juste parce qu'une entreprise prétend limiter la quantité qu'elle collecte et stocke".

Les élèves ont déclaré à Motherboard qu'ils étaient "étonnés" par le volume total de données désormais disponibles en ligne et sur le web. Metropolitansky et Attari ont déclaré que même si les scandales liés à la vie privée sont désormais hebdomadaires, le public sous-estime considérablement l'impact sur la vie privée et la sécurité que ces fuites, piratages et violations ont au total.

Des études antérieures ont montré que même au sein de groupes de données anonymes individuelles indépendantes, l'identification des utilisateurs n'est pas si difficile.

Dans une étude britannique de 2019, les chercheurs ont pu développer un modèle d'apprentissage automatique capable d'identifier correctement 99,98 % des Américains dans n'importe quel ensemble de données anonymes en utilisant seulement 15 caractéristiques. Une autre étude du MIT sur les données anonymes des cartes de crédit a montré que les utilisateurs pouvaient être identifiés dans 90 % des cas en utilisant seulement quatre points d'information relativement imprécis.

Une autre étude allemande portant sur les données anonymes des véhicules des utilisateurs a révélé que 15 minutes de données sur l'utilisation de la pédale de frein pouvaient leur permettre d'identifier un bon conducteur, sur 15 points d'information, dans environ 90 % des cas. Une autre étude de Stanford et Princeton de 2017 a montré que la désanonymisation des données des réseaux sociaux des utilisateurs était également relativement simple.

Individuellement, ces violations de données sont problématiques - cumulativement, c'est un vrai cauchemar.

Metropolitansky et Attari ont également constaté que malgré les avertissements répétés, le public n'utilise toujours pas de mots de passe uniques ou de gestionnaires de mots de passe. Sur les 96 000 mots de passe contenus dans l'un des ensembles de données de sortie du programme, seuls 26 000 étaient uniques.

Le problème est aggravé par le fait que les États-Unis n'ont toujours pas de loi fondamentale sur la protection de la vie privée à l'ère d'Internet, en partie grâce au lobbying acharné d'une coalition intersectorielle d'entreprises désireuses de maintenir ce statu quo profitable. En conséquence, les sanctions pour violation de données et le laxisme en matière de sécurité sont souvent trop pathétiques pour susciter des changements significatifs.

Les chercheurs d'Harvard ont déclaré à Motherboard qu'une loi américaine sur la protection de la vie privée pourrait mettre en œuvre plusieurs restrictions pour atténuer les dommages, notamment en limitant l'accès aux données aux employés non autorisés, en améliorant la collecte et la conservation des données et en décentralisant le stockage des données (en ne conservant pas les données des entreprises et des consommateurs sur le même serveur).

D'ici là, nous devons nous en remettre aux promesses des entreprises qui ont prouvé à maintes reprises que leurs promesses en matière de protection de la vie privée ne valent pas grand-chose.

source :
https://www.vice.com/en_us/article/dygy8k/researchers-find-anonymized-data-is-even-less-anonymous-than-we-thought

Enregistrer un commentaire

Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.

Plus récente Plus ancienne