Deepleak ?

En provoquant un coup de tonnerre sur le marché de l’intelligence artificielle, DeepSeek a attiré l’œil de tout le monde, dont celui de l’entreprise de sécurité informatique Wiz. Celle-ci a remarqué que la startup chinoise avait laissé une base de données accessible sur Internet sans aucune protection.
L’entreprise chinoise DeepSeek a connu un moment de mise en lumière mondiale comme on en connait peu et a provoqué une onde de choc importante dans le milieu de l’IA. Son modèle R1, qui se base comme o1 d’OpenAI sur de l’apprentissage par renforcement à grande échelle, peut en effet revendiquer de belles innovations notamment en matière d’optimisation des GPU, paradoxalement boostée par les restrictions américaines.
- DeepSeek : pourquoi une telle déflagration sur le marché de l’IA ?
- DeepSeek : la recherche chinoise paradoxalement boostée par les restrictions américaines
Mais comme souvent dans les success stories du numérique, la sécurité des données n’est pas la priorité des projets. Rappelons-nous, par exemple, de l’accumulation de failles de Zoom qui n’a pourtant pas empêché le succès de l’application de visioconférence.
Une base de données de DeepSeek accessible publiquement
Concernant DeepSeek, l’entreprise de sécurité informatique Wiz a découvert une base de données appartenant à la startup chinoise accessible publiquement. Dans un billet de blog publié mercredi 29 janvier, Wiz explique que cette base de données, gérée avec le logiciel ClickHouse développé par Yandex pour la haute performance, n’était pas sécurisée.
À Reuters, le directeur technique de Wiz, Ami Luttwak, a déclaré que DeepSeek avait rapidement réagi :« ils ont bloqué l’accès en moins d’une heure », ajoutant « mais c’était tellement simple à trouver que nous pensons que nous ne sommes pas les seuls ».
Un million d’entrées de logs avec historique de chat, secrets API et informations sensibles
Wiz explique que « cette base de données contenait un volume important d’historiques de chat, de données de backend et d’informations sensibles, y compris des flux de logs, des secrets d’API et des détails opérationnels ».
Et, en effet, la table de logs à laquelle ont pu accéder les chercheurs de Wiz contenait plus d’un million d’entrées, avec notamment des références à des points d’entrée de l’API interne de DeepSeek. Une autre colonne nommée « string.values » contenait les logs en plaintext incluant des historiques de chat, des clés d’API, etc.
L’entreprise de sécurité ajoute : « Plus grave encore, l’exposition a permis un contrôle total de la base de données et une escalade potentielle des privilèges au sein de l’environnement DeepSeek, sans aucun mécanisme d’authentification ou de défense vis-à-vis du monde extérieur ».
À Wired, l’entreprise explique que ses chercheurs n’ont vu que des prompts rédigés en chinois, mais pensent qu’il est possible que cette base de données contiennent des prompts dans d’autres langues. Ils assurent avoir procédé à une enquête minimale pour confirmer leurs conclusions sans compromettre inutilement la vie privée des utilisateurs.
Une faille digne d’un service laissé à l’abandon
Interrogé par nos confrères, le chercheur de Wiz Nir Ohfeld s’est étonné : « Habituellement, lorsque nous trouvons ce type d’exposition, c’est dans un service laissé à l’abandon que nous trouvons après des heures d’analyse. [Cette fois-ci], c’était à la porte d’entrée ». Il ajoute que « la difficulté technique de cette vulnérabilité est minime ».
« À mesure que l’IA s’intègre profondément dans les entreprises du monde entier, l’industrie doit reconnaître les risques liés à la manipulation de données sensibles et appliquer des pratiques de sécurité équivalentes à celles requises pour les fournisseurs de cloud public et les grands fournisseurs d’infrastructure », conclut l’entreprise dans son billet de blog.
Enquête lancée aux États-Unis sur l’obtention de GPU NVIDIA
Sur un autre tableau, DeepSeek fait l’objet d’une enquête américaine, explique Neowin. Le gouvernement américain cherche à savoir si l’entreprise a obtenu illégalement des GPU de NVIDIA via des intermédiaires situés à Singapour pour contourner les restrictions sur l’achat de puces comme les H100 de l’entreprise américaine.
Les chercheurs de DeepSeek ont pourtant expliqué avoir réussi à optimiser l’architecture d’entrainement de leur modèle pour n’utiliser que des GPU H800 de NVIDIA qui ne font pas partie des puces interdites d’export en Chine.
Rappelons aussi que la Garante per la protezione dei dati personali (GPDP, l’équivalent de la CNIL en Italie) considère qu’il existe un risque élevé pour les données de millions de personnes en Italie dans la mise à disposition du chatbot DeepSeek basé sur le modèle R1 dont le nom est sur toutes les lèvres actuellement. Elle a donc envoyé une demande d’informations à DeepSeek pour savoir si l’entreprise se conformait bien au RGPD. La CNIL a aussi annoncé qu’elle allait interroger la société chinoise.