Les résultats indiquent qu'il est impossible pour les chercheurs de protéger entièrement les identités réelles dans les ensembles de données.
Les données " anonymisées " sont au cœur de tout, de la recherche médicale moderne aux recommandations personnalisées en passant par les techniques modernes d'IA. Malheureusement, d'après un article, il est pratiquement impossible d'anonymiser avec succès des données pour un ensemble complexe de données.
Un ensemble de données anonymisées est censé avoir été débarrassé de toutes les informations permettant d'identifier quelqu'un personnellement, tout en conservant un noyau d'informations utiles sur lequel les chercheurs peuvent opérer sans crainte d'une atteinte à la vie privée. Par exemple, un hôpital peut retirer les noms, adresses et dates de naissance des patients d'un ensemble de dossiers de santé dans l'espoir que les chercheurs puissent utiliser les grands ensembles de dossiers pour découvrir des liens cachés entre des maladies.
Mais dans la pratique, les données peuvent être déanonymisées de plusieurs façons. En 2008, un ensemble de données anonymisées de Netflix sur la classification des films a été dépersonnalisé en comparant les classements avec les scores publics sur le site Web du film IMDb en 2014 ; les adresses personnelles des chauffeurs de taxi de New York ont été découvertes dans un ensemble de données anonymes de voyages individuels dans la ville ; et une tentative du service de santé de l'Australie de proposer une facturation médicale anonyme pourrait être dé-anonymisées en faisant référence aux "faits ordinaires" tels que la date de naissance des mères âgées et leurs enfants ou pour des mères de nombreux enfants.
Des chercheurs de l'Université catholique de Louvain (UCLouvain) en Belgique et de l'Imperial College de Londres, ont maintenant construit un modèle pour estimer à quel point il serait facile de déanonymiser tout ensemble de données quelconque. Un ensemble de données avec 15 attributs démographiques, par exemple, "rendrait unique 99,98% des habitants du Massachusetts". Et pour les plus petites populations, c'est plus facile : si l'on inclut les données de localisation au niveau de la ville, par exemple, "il ne faudrait pas grand-chose pour réidentifier les personnes vivant à Harwich Port, Massachusetts, une ville de moins de 2 000 habitants".
Malgré cela, les courtiers en données comme Experian vendent des ensembles de données "désidentifiées" qui contiennent beaucoup plus d'informations par personne. Les chercheurs en mentionnent un, vendu par cette société à la société de logiciels informatiques Alteryx, qui contenait 248 attributs par ménage pour 120 millions d'Américains.
Les chercheurs, dirigés par Luc Rocher de l'UCLouvain, soutiennent que leurs résultats montrent que l'anonymisation ne suffit pas pour permettre aux entreprises de contourner des lois telles que la réglementation générale de protection des données (GDPR). "Nos résultats rejettent les allégations selon lesquelles, premièrement, la ré-identification ne constitue pas un risque pratique et, deuxièmement, l'échantillonnage ou la publication d'ensembles de données partiels fournissent une négation plausible.
"Pour l'avenir, ils se demandent si les pratiques actuelles de désidentification répondent aux normes d'anonymisation des lois modernes de protection des données, telles que le RGPD et CCPA (California consumer privacy act), et soulignent la nécessité d'aller, d'un point de vue juridique et réglementaire, au-delà du modèle de divulgation et d'oubli de la dés-identification ".
D'autres approches pour le traitement d'ensembles de données à grande échelle pourraient être plus conformes aux besoins modernes en matière de protection des données. La confidentialité différentielle, utilisée par des sociétés comme Apple et Uber, brouille délibérément chaque point de données individuel d'une manière qui fait la moyenne sur l'ensemble de données, empêchant la désonymisation en rapportant des informations techniquement incorrectes pour chaque personne.
Le chiffrement homomorphe consiste à chiffrer les données de sorte qu'elles ne puissent être lues mais qu'elles puissent être manipulées ; les résultats sont toujours chiffrés, mais peuvent être déchiffrés une fois renvoyés au contrôleur des données. Et à la fin, les ensembles de données synthétiques impliquent la formation d'une IA sur des informations réelles et identifiables, puis leur utilisation pour générer de nouveaux des faux points de données qui sont statistiquement identiques mais qui ne se rapportent à aucun individu réel.
La recherche est publiée dans la revue Nature Communications.
Par : Alex Hern
sauce :
https://www.theguardian.com/technology/2019/jul/23/anonymised-data-never-be-anonymous-enough-study-finds