Résumé : Alors que les grands acteurs de l'IA ne proposent pas encore de véritable chiffrement de bout en bout, de nouvelles alternatives comme Confer, Lumo (Proton) et Venice émergent pour sécuriser les échanges avec les LLM. Confer mise sur l'attestation à distance et la transparence logicielle pour garantir l'intégrité de ses serveurs, tandis que Lumo utilise un système complexe de clés privées et Venice privilégie le stockage local sur l'appareil de l'utilisateur. Ces solutions techniques s'avèrent indispensables pour garantir une confidentialité réelle, car les options de retrait proposées par les géants du secteur comportent souvent des exceptions (modération, obligations légales) qui laissent les données vulnérables aux saisies judiciaires ou aux fuites.
Moxie Marlinspike, alias l'ingénieur qui a établi une nouvelle norme en matière de messagerie privée avec la création de Signal Messenger, souhaite désormais révolutionner les chatbots IA de la même manière.
Sa dernière création est Confer, un assistant IA open source qui garantit que les données des utilisateurs sont illisibles pour le gestionnaire de la plateforme, les pirates informatiques, les forces de l'ordre ou toute autre tierce partie autre que les détenteurs des comptes. Le service, y compris ses grands modèles linguistiques et ses composants back-end, fonctionne entièrement sur un logiciel open source dont les utilisateurs peuvent vérifier cryptographiquement la mise en place.
Les données et les conversations provenant des utilisateurs, ainsi que les réponses générées par les modèles linguistiques à grande échelle, sont chiffrées dans un environnement d'exécution sécurisé (TEE) qui empêche même les administrateurs de serveurs de les consulter ou de les altérer. Les conversations sont stockées par Confer sous la même forme chiffrée, à l'aide d'une clé qui reste en sécurité sur les appareils des utilisateurs.
À l'instar de Signal, le fonctionnement interne de Confer est élégant par sa conception et sa simplicité. Signal a été le premier outil de confidentialité destiné aux utilisateurs finaux à être facile à utiliser. Auparavant, l'utilisation du courrier électronique PGP ou d'autres options pour établir des canaux chiffrés entre deux utilisateurs était un processus fastidieux et facile à rater. Signal a brisé ce modèle. La gestion des clés n'était plus une tâche dont les utilisateurs devaient se soucier. Signal a été conçu pour empêcher les opérateurs de la plateforme d'accéder aux messages ou d'identifier les identités réelles des utilisateurs.
« Des collecteurs de données par nature »
Toutes les grandes plateformes sont obligées de transmettre les données des utilisateurs aux autorités judiciaires ou à des entités privées dans le cadre d'un procès lorsque celles-ci fournissent une assignation à comparaître valide. Même lorsque les utilisateurs refusent que leurs données soient stockées sur le long terme, les parties à un procès peuvent contraindre la plateforme à les conserver, comme le monde l'a appris en mai dernier lorsqu'un tribunal a ordonné à OpenAI de conserver tous les fichiers log des utilisateurs de ChatGPT, y compris les conversations supprimées et les conversations sensibles enregistrées via sa solution API. Sam Altman, PDG d'OpenAI, a déclaré que de telles décisions signifiaient que même les séances de psychothérapie sur la plateforme pourraient ne pas rester confidentielles. Autre exception à la désactivation : les plateformes d'IA telles que Google Gemini peuvent faire lire les conversations par des humains.
L'experte en confidentialité des données Em (qui ne divulgue pas son nom de famille sur Internet) a qualifié les assistants IA d'« ennemis jurés » de la confidentialité des données, car leur utilisation repose sur la collecte d'énormes quantités de données provenant d'une multitude de sources, y compris des particuliers.
« Les modèles d'IA sont des collecteurs de données par nature » a-t-elle déclaré à Ars. « Ils s'appuient sur la collecte de grandes quantités de données pour leur apprentissage, leur amélioration, leur fonctionnement et leur personnalisation. Le plus souvent, ces données sont collectées sans consentement clair et éclairé (de la part de sujets d'apprentissage inconscients ou d'utilisateurs de plateformes) et sont envoyées à une entreprise privée qui a tout intérêt à les partager et à les monétiser, et qui y a accès. »
L'absence de contrôle par l'utilisateur est particulièrement problématique compte tenu de la nature des interactions avec les LLM, explique M. Marlinspike. Les utilisateurs considèrent souvent la conversation comme une conversation confidentielle. Ils partagent leurs pensées, leurs craintes, leurs transgressions, leurs transactions commerciales et leurs secrets les plus intimes et les plus sombres, comme si les assistants IA étaient des confidents de confiance ou des journaux intimes. Ces interactions sont fondamentalement différentes des requêtes de recherche Web traditionnelles, qui suivent généralement un modèle transactionnel basé sur des mots-clés et des liens.
Il compare l'utilisation de l'IA à une confession dans un « lac de données ».
Se réveiller du cauchemar qu'est aujourd'hui le monde de l'IA
En réponse à cela, Marlinspike a développé et teste actuellement Confer. Tout comme Signal qui utilise le chiffrement pour rendre les messages lisibles uniquement par les personnes participant à une conversation, Confer protège les invites utilisateur, les réponses IA et toutes les données qu'elles contiennent. Et tout comme Signal, il n'y a aucun moyen de relier les utilisateurs individuels à leur identité réelle via leur adresse e-mail, leur adresse IP ou d'autres informations.
« La nature de l'interaction est fondamentalement différente, car il s'agit d'une interaction privée », a déclaré Marlinspike à Ars. « Il a été très intéressant, encourageant et étonnant d'entendre les témoignages de personnes qui ont utilisé Confer et ont eu des conversations qui ont changé leur vie, notamment parce qu'elles n'osaient pas inclure certaines informations dans leurs conversations avec des outils tels que ChatGPT ou parce qu'elles avaient des idées qu'elles n'osaient pas vraiment partager avec ChatGPT auparavant, mais qu'elles peuvent désormais partager dans un environnement tel que Confer. »
L'un des principaux ingrédients du chiffrement Confer est constitué par les clés d'accès. La clé standard utilisée dans l'ensemble du secteur génère une paire de clés de chiffrement de 32 octets unique pour chaque service auquel un utilisateur se connecte. La clé publique est envoyée au serveur. La clé privée est stockée uniquement sur l'appareil de l'utilisateur, dans un espace de stockage protégé auquel les pirates informatiques (même ceux qui ont un accès physique) ne peuvent pas accéder. Les clés d'accès fournissent une authentification à deux facteurs et peuvent être configurées pour se connecter à un compte à l'aide d'une empreinte digitale, d'un scan facial (qui restent tous deux en sécurité sur l'appareil) ou d'un code PIN ou d'un mot de passe de déverrouillage de l'appareil.
*
La clé privée permet à l'appareil de se connecter à Confer et de chiffrer toutes les entrées et sorties à l'aide d'un chiffrement largement considéré comme impossible à pirater. Les utilisateurs peuvent ainsi stocker leurs conversations sur les serveurs Confer en étant assurés qu'elles ne pourront être lues par personne d'autre qu'eux-mêmes. Le stockage permet de synchroniser les conversations sur les autres appareils appartenant à l'utilisateur. Le code qui permet tout cela peut être consulté par tout le monde.
Ce moteur interne robuste est doté d'une interface utilisateur d'une simplicité déconcertante. En seulement deux clics, l'utilisateur est connecté et toutes les conversations précédentes sont déchiffrées. Ces conversations sont alors accessibles depuis n'importe quel appareil connecté au même compte. De cette manière, Confer peut synchroniser les conversations sans compromettre la confidentialité. La clé de 32 octets permet de changer régulièrement la clé privée, une fonctionnalité qui garantit la confidentialité persistante, ce qui signifie qu'en cas de compromission d'une clé, un pirate ne peut pas lire les conversations précédentes ou futures.
L'autre élément principal de Confer est un TEE sur les serveurs de la plateforme. Les TEE chiffrent toutes les données et tous les codes transitant par le processeur du serveur, les protégeant ainsi contre toute lecture ou modification par une personne disposant d'un accès administratif à la machine. Le TEE de Confer fournit également une attestation à distance. L'attestation à distance est un certificat numérique envoyé par le serveur qui vérifie de manière cryptographique que les données et les logiciels s'exécutent bien à l'intérieur du TEE et répertorie tous les logiciels qui s'y exécutent.
Sur Confer, l'attestation à distance permet à quiconque de reproduire les sorties bit par bit qui confirment que le proxy et le logiciel d'image accessibles au public (et uniquement ces logiciels) fonctionnent sur le serveur. Afin de vérifier davantage que Confer fonctionne comme promis, chaque version est signée numériquement et publiée dans un journal de transparence.
La prise en charge native de Confer est disponible dans les versions les plus récentes de macOS, iOS et Android. Sous Windows, les utilisateurs doivent installer un authentificateur tiers. La prise en charge de Linux n'existe pas non plus, mais cette extension comble cette lacune.
Il existe d'autres LLM respectant la vie privée, mais aucun provenant d'acteurs majeurs
Lumo, fourni par Proton, une société européenne à l'origine du célèbre service de messagerie électronique chiffrée, est un autre LLM accessible au public qui offre le chiffrement de bout en bout (E2EE). Il utilise le même moteur de chiffrement que Proton Mail, Drive et Calendar. Le fonctionnement interne du moteur est considérablement plus complexe que celui de Confer, car il repose sur une série de clés symétriques et asymétriques. Le résultat final pour l'utilisateur est toutefois largement le même.
Une fois que l'utilisateur s'est authentifié sur son compte, explique Proton, toutes les conversations, données et métadonnées sont chiffrées à l'aide d'une clé symétrique dont seul l'utilisateur dispose. Les utilisateurs peuvent choisir de stocker les données chiffrées sur les serveurs Proton pour synchroniser leurs appareils ou de les effacer immédiatement après la fin de la conversation.
Venice est un troisième fournisseur de LLM qui promet la protection de la vie privée. Il stocke toutes les données localement, c'est-à-dire sur l'appareil de l'utilisateur. Aucune donnée n'est stockée sur le serveur distant.
La plupart des grandes plateformes LLM offrent aux utilisateurs la possibilité s'exclure leurs conversations et leurs données à des fins de marketing et de formation. Mais comme indiqué précédemment, ces promesses s'accompagnent souvent d'exceptions importantes. Outre l'examen sélectif par des humains, les données personnelles peuvent toujours être utilisées pour faire valoir les conditions d'utilisation ou à d'autres fins internes, même lorsque les utilisateurs ont choisi de ne pas les stocker par défaut.
Compte tenu du contexte juridique actuel, qui permet d'obtenir la plupart des données stockées en ligne sur simple demande judiciaire, et de la fréquence des fuites de données spectaculaires par des pirates informatiques, il est illusoire de penser que les données personnelles resteront confidentielles.
Il serait formidable que les grands fournisseurs proposent des protections par chiffrement de bout en bout, mais rien n'indique pour l'instant qu'ils envisagent de le faire. D'ici là, quelques alternatives plus modestes permettront de préserver les données des utilisateurs de ce lac de données en constante expansion.
traduction de :
https://arstechnica.com/security/2026/01/signal-creator-moxie-marlinspike-wants-to-do-for-ai-what-he-did-for-messaging/

Enregistrer un commentaire
Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.