Meta pourrait avoir piraté plus de 80 téraoctets de livres pour entraîner ses modèles d'IA (traduction)

 


Résumé : Selon de récentes révélations judiciaires, Meta fait face à des accusations graves concernant l'utilisation massive de livres électroniques piratés pour l'entraînement de ses modèles d'IA. Des emails internes dévoilés montrent que l'entreprise aurait sciemment téléchargé des dizaines de millions d'ouvrages via des sites comme Anna's Archive, Z-Library et LibGen, représentant des téraoctets de données. Malgré les avertissements de ses propres employés sur l'illégalité de ces pratiques, notamment de l'ingénieur Nikolay Bashlykov, et les tentatives présumées de dissimulation en utilisant des méthodes de torrent, ces activités se seraient poursuivies jusqu'en avril 2024. Cette affaire, qui soulève des questions sur l'implication potentielle de Mark Zuckerberg, pourrait établir des précédents importants pour l'industrie de l'IA et son utilisation de données protégées par le droit d'auteur.

La manière dont les modèles d'IA sont entraînés fait l'objet d'un débat depuis un certain temps déjà, et l'on s'intéresse notamment pour savoir si le contenu des réseaux sociaux publié publiquement est utilisable ou non. Un nouveau procès suggère que Meta a utilisé des livres électroniques piratés comme source de données.

Les courriels qui servent de preuves dans une affaire de droits d'auteur contre Meta semblent montrer que le propriétaire de Facebook a piraté des dizaines de téraoctets de données à partir d'un certain nombre de ressources en ligne. Parmi les sites mentionnés dans des courriers électroniques non expurgés récemment publiés figurent Anna's Archive, Z-Library et LibGen.

L'ampleur du piratage présumé est stupéfiante : des dizaines de millions de livres pourraient avoir été utilisés pour l'entraînement des modèles d'intelligence artificielle de Meta. L'entreprise a déjà admis avoir piraté certains contenus, mais la publication de courriels internes non expurgés a permis d'en savoir plus.

Dans un dossier judiciaire partagé par Ars Technica, les plaignants déclarent :

Meta a fourni plus de 2 000 documents, dont certaines des preuves les plus accablantes à ce jour : les aveux d'employés que LibGen est une base de données piratée et des instructions pour l'utiliser quand même, et les aveux que Meta a torrenté des dizaines de millions d'œuvres piratées tout en sachant que c'était illégal.


Meta est en outre accusé d'avoir tenté de dissimuler ses agissements, et des courriels font état de préoccupations concernant « l'utilisation des adresses IP de Meta “pour charger des contenus pirates par le biais de torrents” ». Malgré l'avertissement de Nikolay Bashlykov, ingénieur de recherche chez Meta, selon lequel « l'utilisation de torrents impliquerait le seed des fichiers, c'est-à-dire le partage du contenu à l'extérieur, ce qui pourrait être légalement inacceptable », Meta semble continuer à diffuser des torrents et à seeder du contenu tout en dissimulant cette réalité. 

Des preuves datant d'avril 2024 indiquent que l'activité se poursuivait malgré les inquiétudes exprimées à de nombreuses reprises.

Comme le souligne Ars Technica, la question se pose désormais de savoir dans quelle mesure Mark Zuckerberg était au courant de ce qui se passait. L'entraînement des modèles d'IA étant désormais extrêmement important, le dénouement de cette affaire pourrait créer plusieurs précédents.

0 Commentaires

Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.

Enregistrer un commentaire

Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.

Post a Comment (0)

Plus récente Plus ancienne