Le red teaming IA est l’exercice qui consiste à attaquer délibérément un système LLM pour découvrir ses failles avant qu’un attaquant ou un utilisateur malveillant ne les exploite en production. C’est l’équivalent du pentest pour les systèmes à base de LLM.
En pratique
Un red team typique en 2026 cible cinq surfaces :
- Prompt injection : faire exécuter des instructions cachées dans un document uploadé.
- Jailbreak : contourner les guardrails (DAN, role-play, langues rares).
- Data leakage : extraire du contexte d’autres utilisateurs ou des secrets système.
- Hallucination ciblée : forcer des faits faux sur la marque.
- Tool abuse : détourner un agent pour appeler des outils non autorisés (envoi mail, exécution code).
Outils 2026 : Microsoft PyRIT, Garak, Lakera Red, Anthropic AISI suite.
Pourquoi c’est important pour votre projet IA
- AI Act (août 2026) : red teaming obligatoire pour les systèmes haut risque (RH, scoring, juridique).
- Une seule prompt injection sur un agent commercial peut envoyer vos prix aux concurrents.
- Coût d’un red team externe : 8 à 25 k€ pour 2 à 4 semaines. ROI immédiat dès qu’une faille critique est trouvée.
Liens utiles
- Jailbreak LLM — définition
- Prompt injection — définition
- AI Act — définition
- Audit IA Kezify — inclut un red team de base sur vos agents.
← Retour au glossaire
#red teaming#sécurité#AI Act#jailbreak