Une analyse récente a révélé que près de 12 000 clés API, mots de passe et jetons d'authentification DeepSeek ont été exposés dans des données accessibles en ligne. Cette fuite met en lumière les failles de sécurité liées à l'entraînement des modèles d'intelligence artificielle sur des données issues de l'internet public.

Les fuites de données sont devenues une menace permanente dans le monde numérique. Mais lorsqu'elles concernent des modèles d'intelligence artificielle (IA) de grande envergure, le problème prend une ampleur encore plus inquiétante.
Récemment, une enquête a révélé que DeepSeek, une entreprise spécialisée dans l'IA, a exposé involontairement près de 12 000 clés API, mots de passe et autres informations sensibles lors de l'entraînement de son modèle sur des données issues du web public. Cette découverte soulève de sérieuses questions sur la manière dont les modèles d'IA sont entraînés et sur les failles de sécurité qui peuvent en résulter.
L'incident met en lumière une réalité inquiétante : les modèles d'IA, souvent présentés comme une avancée technologique majeure, peuvent également devenir des vecteurs de vulnérabilité. Les chercheurs ont découvert que ces informations confidentielles, contenues dans les données publiques de Common Crawl, ont été directement intégrées dans le modèle DeepSeek lors de son entraînement. Cette situation illustre un problème de sécurité fondamental : les données accessibles publiquement sur Internet ne sont pas toujours exemptes de failles, et leur absorption par des modèles d'IA peut entraîner une propagation massive de vulnérabilités.
Une fuite de grande ampleur
L'analyse réalisée s'est concentrée sur un jeu de données massif de Common Crawl, une bibliothèque publique qui stocke les copies de milliards de pages web. Le jeu de données analysé en décembre 2024 représentait un volume impressionnant de 400 téraoctets, issus de 47,5 millions d'hôtes et de 2,67 milliards de pages web.
Les résultats ont dépassé toutes les attentes. Près de 12 000 clés API et informations d'authentification valides ont été identifiées. Ces clés donnaient accès à des services stratégiques comme Amazon Web Services (AWS), Slack et Mailchimp. Certaines de ces informations se trouvaient directement dans le code source des pages HTML, exposées sans aucune protection.
Les chercheurs ont également découvert que 63 % des clés d'accès identifiées étaient réutilisées dans plusieurs domaines. Cette pratique de duplication des clés, courante dans le développement logiciel, aggrave considérablement le risque d'attaques en cascade. En effet, lorsqu'un attaquant met la main sur une clé réutilisée, il peut potentiellement accéder à plusieurs services ou plateformes à la fois, multipliant ainsi la portée de l'intrusion.
Un cas particulièrement révélateur concerne une clé API de WalkScore, qui a été retrouvée dans 1 871 sous-domaines différents, répliquée pas moins de 57 029 fois. Une telle diffusion d'une clé unique illustre le manque de contrôle dans la gestion des informations sensibles par certaines entreprises.
Des informations hautement sensibles à portée de main
Au-delà des clés API, les données exposées contenaient des informations d'une sensibilité alarmante. Les chercheurs ont trouvé des clés AWS directement intégrées dans le code source HTML des pages web, une pratique extrêmement risquée. Ils ont également identifié 17 webhooks Slack uniques, directement exposés dans le code JavaScript de certaines pages.
L'ampleur de la fuite concernant Mailchimp est également significative. Plus de 1 500 clés API de ce service d'emailing ont été retrouvées dans le jeu de données, la plupart d'entre elles étant directement insérées dans le code côté client. Cette pratique, bien que commode pour les développeurs, est un véritable cadeau pour les pirates informatiques. Une clé Mailchimp exposée permettrait à un attaquant d'envoyer des emails de phishing directement depuis le compte légitime de l'entreprise, augmentant ainsi considérablement le taux de réussite des campagnes malveillantes.
Les chercheurs de Truffle ont également révélé que certains sites web conservaient des informations de connexion root (administrateur) directement dans leur code accessible au public. Cette situation critique pourrait permettre à un attaquant d'obtenir un contrôle total sur le système cible, entraînant des conséquences potentiellement dévastatrices.
Les failles de l'entraînement des modèles d'IA
Cette fuite ne se limite pas à une simple erreur humaine. Elle met en lumière un problème structurel dans le développement des modèles d'intelligence artificielle. Les modèles comme DeepSeek sont entraînés sur de vastes ensembles de données issues de l'internet public. Ces données incluent souvent du code, des forums de développeurs, des bases de données publiques et du contenu accessible librement.
Le problème, c'est que ces ensembles de données contiennent également des informations sensibles insérées par inadvertance par des développeurs ou laissées accessibles par négligence. Lorsque le modèle absorbe ces données, il intègre également ces pratiques risquées dans son fonctionnement. Ainsi, un modèle entraîné sur des clés API exposées pourrait reproduire ce schéma en générant du code contenant lui-même des informations sensibles.
Les chercheurs ont démontré que certains modèles de langage proposent spontanément des clés API dans le code généré, simplement parce qu'ils ont appris ce comportement à partir des données d'entraînement. Cette capacité des modèles à "imiter" les failles de sécurité pose un défi majeur pour l'avenir du développement assisté par l'IA.
Des mesures de sécurité nécessaires
Face à ces risques, les experts en cybersécurité plaident pour une révision en profondeur des pratiques de développement liées à l'IA. Le Service Veille ZATAZ recommande d'intégrer des mécanismes de filtrage plus stricts dans les plateformes de développement basées sur l'IA, comme GitHub Copilot. L'idée serait d'empêcher automatiquement l'insertion de clés API ou de mots de passe dans le code généré par ces outils.
Il est également essentiel de renforcer les programmes de détection de secrets dans le code. Les développeurs doivent être en mesure d'identifier immédiatement toute tentative d'insertion d'une clé ou d'un jeton d'authentification dans un code public.
Enfin, il est crucial d'éduquer les développeurs aux bonnes pratiques de sécurité. La réutilisation des clés API sur plusieurs plateformes doit être strictement proscrite. Les clés doivent être régulièrement renouvelées et stockées dans des environnements sécurisés, loin du code source accessible au public.
Comments