Les données ne sont jamais effacées ! (traduction)

Un ami m'a récemment recommandé de regarder la série policière britannique Line of Duty, dont je suis devenu accro. Il s'agit sans aucun doute d'une série passionnante, mais il y a un défaut majeur que j'ai décelé presque immédiatement. Une séquence montre l'un des officiers de police supprimant délibérément des preuves compromettantes de l'ordinateur de la police. Si ces données avaient été disponibles, l'affaire de meurtre de cette première saison aurait pu être résolue en un clin d'œil. Mais non. Selon l'histoire, les données ont été perdues, ce qui a entraîné une enquête prolongée nécessitant l'intervention de la branche anti-corruption de la police.

Maintenant, dans le monde réel, je peux garantir à 99,99 % que ces données n'auraient pas été supprimées. Je dirai aussi ceci. Dans 99,99 % des cas, vos données stockées sur des systèmes commerciaux tiers (plates-formes de réseaux sociaux, banques, police, etc.) ne sont pas non plus supprimées, même si vous avez demandé à ce qu'elles le soient ou après un certain temps où il est stipulé, en termes de légalité, que les données doivent être supprimées. Cela s'applique non seulement à tous ces sites de réseaux sociaux, mais aussi aux mots de passe, car de nombreuses bases de données sont constituées de manière amateur, voire infâme, et les mots de passe sont conservés en texte clair ou facilement déchiffrables.

Les architectes de données, comme moi, font souvent partie de ces individus atypiques qui cherchent à déconstruire les pratiques informatiques des séries policières fictives à la télévision ou qui ont tendance à archiver tout ce qui est humainement possible afin de pouvoir accéder facilement à quelque chose dont nous pourrions, éventuellement, avoir besoin à l'avenir. La réalité est que la plupart de ce que nous archivons ne sera probablement jamais regardé ou utilisé, MAIS, il y a ce moment "précieux" où, comme par magie, nous avons besoin de quelque chose que la plupart des mortels auraient oublié depuis longtemps ou de redécouvrir quelque chose du passé comme si c'était quelque chose de tout nouveau. Nombreux sont ceux qui, dans la profession de la gestion des données, ont tendance à être des archivistes, une activité très proche de celle des gardiens et des conservateurs du savoir, comme les bibliothécaires. Les archivistes ont tendance à avoir une prédilection pour l'organisation ; cependant, ils transgressent souvent involontairement le monde des stockeurs, souvent au motif qu'ils ne veulent pas perdre de données. Par exemple, l'une des principales faiblesses de l'archiviste est l'accumulation de disques durs de sauvegarde (généralement empilés à divers endroits de la maison), l'amour de la création de listes pour tout et, bien sûr, l'excès de zèle pour s'assurer que tout ce qui peut être classé par ordre alphabétique l'est. Cependant, il y a un facteur coût. Le stockage, ou l'absence de stockage. Mon garage est rempli de choses dont je ne me servirai probablement plus jamais. Et puis je dois créer une liste ou une feuille de calcul pour me rappeler où se trouvent ces éléments. Les affaires dans le garage sont les données et la liste qui me montre où elles se trouvent, les métadonnées.

Cet état d'esprit me suggère une chose cruciale.

Les données ne sont JAMAIS supprimées !

Pourquoi ?

Il y a deux raisons principales et une troisième raison que j'évoquerai à la fin.

1. La peur de perdre les données.

2. Et l'entropie (je vais l'expliquer dans un instant).

Le premier point, la peur de perdre des données, est raisonnablement évident. Si le travail d'une personne consiste à garantir la sécurité des données, elle s'assure qu'un nombre suffisant de sauvegardes sont effectuées fréquemment. Cela signifie invariablement que de nombreuses sauvegardes de bases de données, de systèmes de fichiers, de fichiers de configuration ou de tout autre élément du domaine numérique seront stockées, souvent en de nombreux endroits différents. Il n'y a probablement aucun gestionnaire de données qui lancera la commande SQL "DROP" pour supprimer un objet sans en avoir préalablement créé une sauvegarde. Tout comme les collectionneurs n'aiment pas jeter des objets, les archivistes (et les bibliothécaires) n'aiment pas effacer ou supprimer quoi que ce soit.

Le deuxième point, l'entropie, est l'effet secondaire involontaire de la création de nombreuses sauvegardes, puis de leur oubli ou de leur duplication inutile, car il arrive souvent que la gestion de ces sauvegardes devienne un autre exercice d'organisation et de gestion des données, ou métadonnées, concernant les sauvegardes des données qui sont fréquemment sauvegardées ! Si vous êtes confus, je comprends parfaitement. En termes simples, la manière ordonnée dont les données sont organisées peut, et se révèle souvent, chaotique, si elle n'est pas régie par un contrôle strict. Et, malheureusement, dans la plupart des cas dans le monde réel, cela ne se produit pas. Il est probable qu'il existe quelque part une copie des données qui, dans certains cas, auraient peut-être dû être supprimées si elles étaient censées l'être.

Et ce, avant l'avènement de la popularité des conteneurs BLOB et des datalakes dans le nuage, qui ne font qu'aggraver la situation. Pour faire une analogie très grossière, ces conteneurs sont des bennes à ordures géantes dans lesquelles on jette tout ce qui est lié aux données et qu'on pourrait trouver utile, à la différence qu'il faut disposer des bons outils d'exploration des données et de l'expertise de la science des données pour les retrouver plus tard. Lorsque le stockage des données est bon marché, nombreux sont ceux qui ne sont pas aussi exigeants quant à ce qu'il faut jeter ou non dans la banque de données.

Il n'est pas difficile de visualiser à quel point le chaos peut facilement s'installer.

Je travaille dans un environnement dans lequel nous effectuons des sauvegardes quotidiennes de toutes nos bases de données opérationnelles, puis nous les stockons dans un entrepôt de données. Nous extrayons les données. Puis nous les chargeons et les transformons dans un entrepôt de données. Cela signifie que toutes les données, ou certainement toutes les données mises à jour, supprimées et ajoutées, sont ajoutées sous forme d'instantané dans un entrepôt de données, de sorte qu'à tout moment, nous pouvons revenir en arrière et visualiser les données telles qu'elles étaient à ce moment-là. Pensez-y comme à une base de données avec une dimension temporelle supplémentaire.

Tout cela semble très bien, surtout lorsqu'il existe des outils tiers pour gérer les sauvegardes de vos bases de données sur le serveur de fichiers. Mais qu'en est-il du serveur de fichiers ? Les sauvegardes du serveur de fichiers sont normalement effectuées par les équipes d'administration du système qui ne se préoccupent pas spécifiquement de ce qui est stocké dans les bases de données, mais de toutes les données stockées sur les serveurs. Et quand tout le stockage s'épuise ? Il suffit de le compresser et de mettre les plus anciennes dans un stockage froid ou même sur bande magnétique. Cela signifie essentiellement que, si, pour une raison quelconque, la sauvegarde d'une base de données n'a pas été effectuée un jour donné, il est souvent toujours possible d'obtenir des administrateurs système qu'ils récupèrent et restaurent une partie du système de fichiers dans lequel se trouvait la base de données.

Maintenant, on peut se demander ce qui se passe si les données sont supprimées dans une base de données avant d'être mises à jour dans l'entrepôt de données ? Les données sont-elles vraiment supprimées ? Probablement pas. Certes, dans les systèmes critiques pour l'entreprise ou dans lesquels les données sont de première importance, la plupart des bases de données opérationnelles bien conçues signalent la suppression d'un élément de données et le dissimulent aux utilisateurs. Parfois, ces données ne sont jamais supprimées, même après avoir été mises à jour dans l'entrepôt de données, mais même si elles le sont, un instantané des données peut être récupéré à tout moment.

Revenons donc à la série policière Line of Duty. La chose la plus simple à faire aurait été que le policier envoie un courriel aux informaticiens pour leur demander de récupérer les données perdues !

Il existe une troisième raison pour laquelle les données ne sont jamais supprimées, que j'ai promis de couvrir à la fin de cet article, et qui fait allusion à l'intention possible d'être malfaisant. Les données sont un pouvoir. Les données peuvent être achetées. Les données peuvent être utilisées pour des raisons sinistres comme le chantage ou la subversion. Pour prendre une analogie sombre non liée aux données, comment pouvons-nous être certains que la variole a été éradiquée ?

En tenant compte de ces trois raisons. La peur de perdre des données, l'entropie et la conservation à des fins néfastes. Les données ne sont jamais effacées. Ou, du moins, presque jamais.

source :

https://medium.com/ironkeel/data-is-never-deleted-361b91fa74f1

Enregistrer un commentaire

Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.

Plus récente Plus ancienne