Pourquoi les "données anonymisées" ne sont pas si anonymes ? (traduction)

En 2015, Latanya Sweeney, une chercheuse qui étudie l'anonymisation des données et la protection de la vie privée, a publié une recherche ciblant spécifiquement la dé-anonymisation des données protégées par la HIPAA à Washington. Dans cet état (et bien d'autres), il est possible pour les entreprises et les particuliers d'acheter des données de dossiers médicaux anonymes. Sweeney a acheté les données par les voies légales qui comprenaient, comme elle l'a noté, " presque toutes les hospitalisations survenues dans l'État au cours d'une année donnée " et une myriade de détails sur ces visites à l'hôpital, y compris les diagnostics, les procédures, le médecin traitant, un résumé des frais, comment la facture était réglée et plus. Les dossiers étaient anonymes en ce sens qu'ils ne contenaient pas le nom ou l'adresse des patients, mais ils comprenaient les codes postaux américains à cinq chiffres des patients.

Puis, en utilisant les archives des sources de nouvelles de l'État de Washington, Sweeney a cherché tout article imprimé en 2011 qui contenait le mot "hospitalisé". La recherche a permis de trouver 81 articles. En analysant les articles de journaux et l'ensemble de données rendues anonymes, Sweeney a " fait correspondre de façon unique et exacte les dossiers médicaux de la base de données de l'État pour 35 des 81 articles ", a-t-elle écrit. Ces reportages contenaient également le nom du patient, ce qui a eu pour effet d'annuler les efforts d'anonymisation de ces 35 patients.

Les données sont le moteur du monde moderne. Les données nous concernant contrôlent les informations, les films et les publicités que nous voyons. Les données déterminent quels messages de nos amis arrivent dans nos flux de médias sociaux. Les données informent des partenaires amoureux potentiels qui apparaissent dans nos applications de rencontres. La recherche scientifique, qui est depuis longtemps axée sur les données, continue d'aller encore plus loin dans le domaine de la big data. Les chercheurs compilent et traitent d'importants ensembles de données - et les plates-formes du capitalisme de surveillance sont à leurs côtés.

La plupart de ces données sont sensibles. La base de données de Google peut inclure l'historique complet de vos recherches dans le temps. Selon ce que vous recherchez, il peut révéler un épisode de dépression, un vice personnel, une condition médicale, et bien plus encore. La base de Facebook de notre comportement passé, de nos commentaires et de nos photos est très révélatrice pour beaucoup de gens. Peu d'entre nous seraient à l'aise de donner à une nouvelle connaissance l'historique complet de notre compte en banque. Nos données médicales sont protégées par l'HIPAA car nous en reconnaissons la sensibilité.

Alors, pourquoi donnons-nous nos informations les plus privées ? La plupart des gens tirent d'importants avantages de cette collecte de données. Les données de Google améliorent les résultats de recherche et aident Gmail à filtrer les spams. Votre historique de carte de crédit aide votre banque à détecter les achats frauduleux. L'historique des achats globaux peut aider les magasins à gérer leurs stocks et à réduire le gaspillage. Les données médicales aident les chercheurs et les médecins à inventer de nouveaux médicaments et de meilleurs programmes de traitement. En fait, presque toutes les formes de recherche scientifique s'appuient fortement sur les données pour faire et évaluer des affirmations.

Mais ces avantages ne sont pas sans risque. Les gouvernements, les entreprises et les instituts de recherche continuent de procéder à des collectes massives de données. Cette collecte n'est que le début du voyage de vos données. Les données sont reconditionnées, combinées avec des données provenant d'autres sources et vendues par l'intermédiaire de courtiers en données, légitimes ou non. Les données suivantes sont destinées à la vente par des canaux légaux ou illégaux - et souvent les deux.

* Votre position géographique, actuelle et passée.
* Vos transactions de carte de crédit.
* Votre historique de navigation Web.
* Vos identifiants de connexion pour des sites Web.
* Votre numéro de sécurité sociale.
* Vos antécédents médicaux.

Même si vous n'avez "rien à cacher", entre de mauvaises mains, cette information vous rend plus exploitable. Pour cette raison, il y a des efforts continus pour effacer les données des informations personnellement identifiables lors de leur stockage ou de leur vente. Dans certains cas, il existe des obligations légales d'anonymisation des données, telles que les exigences de l'HIPAA sur les données médicales (bien que les protections légales de l'HIPAA ne soient pas aussi fortes que la plupart des gens le pensent). De même, le nouveau Règlement général sur la protection des données (RGPD) de l'UE impose moins de restrictions à l'utilisation de données anonymes que de données contenant des informations permettant d'identifier une personne.

Dans d'autres cas, les entreprises s'efforcent d'anonymiser les données qu'elles recueillent dans le cadre de leur stratégie commerciale. Apple en est un bon exemple. Apple ne vend pas de données sur ses clients, et le fait d'avoir beaucoup de données pourrait faire de l'entreprise une cible pour les pirates informatiques. Au lieu de recueillir et de traiter des ensembles de données massifs comme Google et Facebook, Apple a réduit sa collecte de données, fait des efforts considérables pour anonymiser les données qu'elle recueille et a mis à profit ses efforts de protection de la vie privée dans ses documents de marketing.

Ces mesures sont courageuses et méritent d'être poursuivies. Malheureusement, la recherche a montré que de nombreuses tentatives d'anonymisation des données sont vulnérables aux tactiques de ré-identification, surtout lorsque d'autres sources de données sont disponibles avec un certain degré de chevauchement.

L'une des études de cas marquantes en matière de dé-anonymisation, publiée en 2008, concernait un ensemble de données sur les utilisateurs de Netflix et leurs audiences de films. L'ensemble de données a été rendu anonyme et publié dans le cadre d'un concours visant à améliorer le moteur de recommandation Netflix. Les tactiques d'anonymisation comprenaient la modification aléatoire de certaines des cotes et des dates de cotation pour les quelque 480 000 utilisateurs qui ont été inclus dans l'ensemble de données.

Malgré ces perturbations des données, les chercheurs ont conclu que " très peu d'information auxiliaire est nécessaire pour dé-anonymiser un dossier d'abonné moyen de l'ensemble de données des prix Netflix. Avec huit classements de films (dont deux peuvent être complètement faux) et des dates qui peuvent avoir une erreur de 14 jours, 99% des enregistrements peuvent être identifiés de façon unique dans l'ensemble des données." La recherche a montré que pour de nombreuses personnes, beaucoup moins d'informations sont nécessaires pour établir leur unicité : "Pour 68% [des utilisateurs], deux évaluations et dates (avec une erreur de trois jours) sont suffisantes."

Partant du résultat qu'une poignée de notations pouvaient être utilisées pour identifier une personne unique - mais non encore nommée -, les chercheurs se sont tournés vers les notations publiquement disponibles de l'IMDb pour prouver qu'ils pouvaient également démasquer des individus. Après avoir recueilli un échantillon d'évaluations auprès de 50 utilisateurs de l'IMDb, les chercheurs ont appliqué leurs méthodes de dés-anonymisation et ont pu identifier deux des 50 utilisateurs avec une très grande fiabilité.

Les évaluations de films peuvent sembler inoffensives - elles sont nettement moins sensibles que les dossiers médicaux - mais elles peuvent quand même être révélatrices. Les chercheurs ont donné cet exemple à partir de l'une des deux personnes identifiées : Plusieurs des films que cette personne a évalués sur Netflix n'ont pas été évalués par cette personne sur IMDb. La dé-anonymisation de l'ensemble de données Netflix a révélé des informations qui n'étaient pas déjà publiques. Parmi ces films, il y avait Power and Terror : Noam Chomsky in Our Times, Fahrenheit 9/11, Jésus de Nazareth, L'évangile de Jean, Bent, et Queer as Folk. Leur évaluation de ces six films pourrait révéler quelque chose au sujet des opinions politiques, de l'appartenance religieuse et de l'orientation sexuelle du sujet, qui sont toutes trois utilisées de diverses façons pour faire de la discrimination contre des personnes.

Évidemment, profiter (ou détester) un ou plusieurs films ne prouve rien de l'idéologie de quelqu'un, mais, surtout dans les régimes tyranniques, cela peut ne pas faire de différence. Au plus fort du maccarthysme, de nombreux Américains ont été accusés d'être communistes, inscrits sur une liste noire et même emprisonnés sur la base d'allégations non fondées. Les régimes autoritaires modernes ne sont pas non plus tenus de faire la preuve au-delà de tout doute raisonnable.

Le résultat est remarquable étant donné que les échantillons de Netflix et d'IMDb étaient aléatoires - il n'y avait aucune certitude que l'un des 50 utilisateurs de Netflix était même dans le jeu de données, surtout étant donné la taille relativement petite des échantillons des utilisateurs IMDb. D'une part, l'ensemble de données de Netflix comprenait les notations de plus de 480 000 abonnés, ce qui fait que la dés-anonymisation de deux d'entre eux ressemble à une goutte d'eau dans l'océan. Par contre, si les chercheurs avaient échantillonné 480 000 utilisateurs d'IMDb, ils auraient sûrement pu en identifier beaucoup plus.

Pour qu'une personne subisse un préjudice, seules ses données individuelles doivent être rendues anonymes, et non l'ensemble des données. Le fait de relier une personne en particulier à sa séropositivité, à son affiliation politique, à son orientation sexuelle ou à son identité sexuelle, entre autres choses, peut constituer une grave atteinte à sa vie privée et la mettre en danger. Il s'agit là d'un défi particulier dans notre société axée sur les données : Les données sont plus puissantes dans leur ensemble, mais plus nous en recueillons, plus il est facile d'identifier quelqu'un dans l'ensemble de données. Au fur et à mesure que de plus en plus de données nous concernant deviennent accessibles au public, ces stratégies de dés-anonymisation deviennent plus faciles. La raison pour laquelle les chercheurs ont scrutés les évaluations de seulement 50 utilisateurs d'IMDb était pour se conformer aux conditions d'utilisation de l'IMDb - mais tout le monde ne respecte pas les règles du jeu.

Les ensembles de données sont de plus en plus souvent divulgués et volés. La FEMA a divulgué des chiffres records sur 2,3 millions de personnes plus tôt cette année. Dans le tristement célèbre piratage d'Equifax, des informations sur plus de 145 millions de personnes ont été volées. Des bases de données sensibles sont parfois laissées sans sécurité, comme celle découverte par un chercheur en sécurité contenant des noms, des adresses et la supposée "disponibilité de la généalogie" de plus de 1,8 million de femmes chinoises.

Selon le Privacy Rights Clearinghouse, un organisme sans but lucratif qui tient à jour une liste des atteintes à la protection des données depuis 2005, 8 804 atteintes à la protection des données ont été relevées au cours de ces 14 années, exposant plus de 11,5 milliards de dossiers. Cela signifie que nous avons eu en moyenne 1,7 atteinte à la protection des données et 2,2 millions de dossiers exposés par jour depuis 2005. C'est exactement ce qui est disponible en raison de la criminalité et de la négligence. Lorsque des entités motivées commenceront à rassembler toutes ces données, chaque nouvel ensemble de données anonymisées sera de plus en plus sensible à ce type de corrélation.

Ces préoccupations ne sont pas nécessairement nouvelles pour les universitaires qui s'intéressent à la protection de la vie privée. En 2010, Paul Ohm, avocat spécialisé dans la protection de la vie privée, a publié un examen détaillé de ces questions pour la UCLA Law Review intitulé "Broken Promises of Privacy : Répondre à l'échec surprenant de l'anonymisation." Il y a près d'une décennie, Ohm soutenait que " bien qu'il soit vrai qu'un adversaire malveillant puisse utiliser des RPI [renseignements personnels identifiables] comme un nom ou un numéro de sécurité sociale pour relier des données à l'identité, il s'avère que l'adversaire peut faire la même chose avec des renseignements que personne ne classerait comme personnellement identifiable ".

Ohm fait référence à certaines recherches antérieures de Sweeney, où elle a constaté que 87 % des personnes recensées aux États-Unis en 1990 pouvaient être identifiées de façon unique par seulement deux éléments d'information : leur date de naissance (jour, mois et année) et leur code postal à cinq caractères. Ohm a également fait référence à la recherche sur la concurrence de Netflix et à d'autres exemples avant de conclure que " l'utilisation de techniques d'anonymisation traditionnelles, axées sur la publication et l'oubli, axées sur les RPI, permet d'éviter que des données, même minutieusement utiles, soient parfaitement anonymes et que de faibles gains en termes d'utilité entraînent des atteintes à la confidentialité".

La recherche continue de corroborer le résultat de base, à savoir qu'une quantité incroyablement petite d'information pourrait être une identification personnelle, surtout compte tenu de l'énorme quantité de données disponibles pour qu'un adversaire puisse les mettre en corrélation avec lui.

En 2013, les chercheurs ont constaté que les données de localisation sont très uniques, ce qui rend l'anonymat plus difficile. Les chercheurs ont constaté qu'avec un ensemble de données construit en enregistrant à quelle antenne de téléphonie cellulaire un téléphone était connecté une fois par heure, 95 % des dispositifs peuvent être identifiés de façon unique par seulement quatre points de données ; 50 % des dispositifs peuvent être identifiés de façon unique avec seulement deux sources de données. Si les données sont plus fines (suivi GPS au lieu de tours de téléphonie mobile, ou à la minute près plutôt qu'à l'heure), la concordance est plus facile.

En 2018, le New York Times a décrit comment les journalistes pouvaient légalement obtenir un ensemble de données de localisation " anonymisées " et identifier les personnes qui s'y trouvaient. Pour une personne figurant dans l'article du Times, l'ensemble de données comprenait un enregistrement de localisation une fois toutes les 21 minutes en moyenne. Il était suffisamment détaillé pour que les journalistes du Times puissent savoir quand elle est allée chez le médecin, combien de temps elle y est restée, quand elle a rendu visite à son ex-petit ami, quand elle est allée au gym, et plus encore.

Un grand nombre d'ensembles de données anonymes peuvent indirectement révéler votre emplacement, comme des achats par carte de crédit ou des visites à l'hôpital. Mais un adversaire pourrait facilement le faire à la vieille école aussi : Si vous savez où vit quelqu'un, vous pouvez rapidement filtrer un grand ensemble de données anonymes sur les seules personnes qui sont fréquemment à proximité le matin et le soir. Si vous savez où cette personne travaille, vous pouvez filtrer davantage. Pour un certain nombre de personnes dans un tel ensemble de données, ces deux faits suffiront à dés-anonymiser le reste de leurs données de localisation.

Les données de localisation peuvent être extrêmement révélatrices. Imaginez les cinq dernières années de vos données de localisation entre les mains d'un escroc, d'un extorqueur, d'un agent d'un régime oppressif ou même d'un recruteur peu scrupuleux. Y a-t-il des endroits que vous avez visités qui pourraient être utilisés contre vous ? Même dans les démocraties occidentales libérales comme les États-Unis, des gens ont été la cible de harcèlement, ont reçu des menaces de mort et ont même été tués simplement parce qu'ils étaient dans une structure de planning familial. Imaginez ce que les agents du dirigeant nord-coréen Kim Jong Un ou du président philippin Rodrigo Duterte pourraient faire aux dissidents avec de larges pans de données de localisation.

La partie la plus difficile de ce problème est que, malgré le potentiel d'abus, de bonnes données créent beaucoup de valeur sociale positive. Nous voulons que les chercheurs médicaux créent de nouveaux médicaments et traitements, et nous voulons qu'ils évaluent l'efficacité de ces traitements. Nous voulons que nos maisons régissent de façon optimale leur propre température afin d'accroître leur efficacité. Nous voulons que Google nous dise si il y a de la circulation sur la route que nous devons emprunter et que nous devrions changer de route. Nous voulons bénéficier de données importantes - sans les inconvénients de la dé-anonymisation.

Il n'y a pas de solution miracle. Nous devons faire des compromis. Nous avons déjà cédé une partie de notre vie privée et, selon toute vraisemblance, nous abandonnerons davantage à l'avenir, mais il existe des moyens de réduire le risque d'abus.

La sécurisation des données sensibles et la prévention de l'accès non autorisé aux bases de données doivent être une priorité pour tous ceux qui collectent des données. Malheureusement, les meilleures pratiques en matière de sécurité ont été envisagées après coup pour de nombreuses personnes qui recueillent des données personnelles. Il y aura plus d'atteintes à la protection des données, mais grâce à des engagements organisationnels en matière de sécurité, nous pouvons les rendre moins courantes, plus difficiles à exécuter et plus risquées pour les attaquants.

Les régulateurs devraient continuer à améliorer les droits à la confidentialité des données pour les citoyens du monde entier. Le RGPD incite les entreprises à stocker moins de données et à faire des efforts pour rendre anonymes les données qu'elles stockent - c'est une bonne chose même si ce n'est pas efficace à 100%. Si le piratage d'une base de données devient moins susceptible de produire immédiatement des données utiles, moins de personnes le feront. Les organismes de réglementation doivent également examiner de plus près les courtiers en données et prendre des mesures pour s'assurer que les données vendues sont bien anonymisées.

De même, tous ceux qui participent à la collecte et au stockage des données doivent se tenir au courant des dernières recherches sur l'anonymat. Des tactiques comme la confidentialité différenciée - où une certaine quantité de brouillage aléatoire est ajoutée aux ensembles de données avant leur publication - peuvent réduire l'efficacité des attaques par corrélation des données. Apple et Google ont tous deux déployé des efforts considérables pour adopter des stratégies différentes en matière de protection de la vie privée, et d'autres devraient faire de même.

Dans son enquête de 2010, Ohm a noté qu'il y avait un compromis fondamental entre l'utilité d'un ensemble de données et sa capacité à être rendu anonyme. En tant que société, nous devons avoir une conversation plus franche au sujet de ce compromis. La plupart d'entre nous voulons vraiment que le pouvoir de la big data soit libéré, parce qu'il peut réellement améliorer le monde - et notre propre vie. Néanmoins, la simple existence de quantités massives de données constitue en soi un risque pour la vie privée. Lorsque nous renonçons à trop d'intimité, la société se dégrade, et entre de mauvaises mains, de grosses données peuvent ravager nos libertés.

Par Tyler Elliot Bettilyon.
sauce :
https://onezero.medium.com/why-anonymized-data-isn-t-so-anonymous-535d2db75a2d

Enregistrer un commentaire

Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.

Plus récente Plus ancienne