Data leakage LLM — définition et prévention en entreprise en 2026

Le data leakage LLM (fuite de données via un LLM) regroupe toutes les situations où des informations sensibles fuitent à travers un modèle — par les données d’entraînement, par le contexte d’inférence, ou par la mémoire d’un agent. C’est l’un des trois principaux risques juridiques d’un projet IA en 2026 (avec AI Act et RGPD).

En pratique

Trois vecteurs principaux :

Training leakage : un fournisseur a entraîné son modèle sur vos données envoyées. Mitigé par contrat “no training” (Anthropic, OpenAI Enterprise, Mistral) — vérifier les clauses.
Cross-tenant leakage : un agent multi-utilisateurs réutilise du contexte d’un autre user. Cause typique : KV cache mal cloisonné, mémoire partagée.
Prompt-injected leakage : un attaquant injecte un prompt dans un document scrapé qui pousse l’agent à exfiltrer des données.

Plus subtil : un commercial colle un export CRM dans ChatGPT grand public — les données partent même avec un compte gratuit.

Pourquoi c’est important pour votre projet IA

RGPD : un data leak = obligation de notifier la CNIL sous 72h + risque de sanction (jusqu’à 4 % du CA mondial).
AI Act : tracer les données d’entrée/sortie sur les systèmes haut risque.
Mitigations 2026 : sandbox dédié par tenant, no-training contractuel, redaction PII en amont, monitoring de sortie.

Liens utiles

Souveraineté IA — définition
AI Act — définition
Prompt injection — définition
Guardrails IA — définition
Audit IA Kezify — auditer les risques de fuite sur vos agents.