Glossaire IA · Lettre R

Red teaming IA — définition et méthode pour tester un LLM en 2026

Qu'est-ce que le red teaming d'un LLM ? Définition, méthode, attaques courantes (prompt injection, jailbreak), et obligation AI Act pour les systèmes à haut risque.

Le red teaming IA est l’exercice qui consiste à attaquer délibérément un système LLM pour découvrir ses failles avant qu’un attaquant ou un utilisateur malveillant ne les exploite en production. C’est l’équivalent du pentest pour les systèmes à base de LLM.

En pratique

Un red team typique en 2026 cible cinq surfaces :

  1. Prompt injection : faire exécuter des instructions cachées dans un document uploadé.
  2. Jailbreak : contourner les guardrails (DAN, role-play, langues rares).
  3. Data leakage : extraire du contexte d’autres utilisateurs ou des secrets système.
  4. Hallucination ciblée : forcer des faits faux sur la marque.
  5. Tool abuse : détourner un agent pour appeler des outils non autorisés (envoi mail, exécution code).

Outils 2026 : Microsoft PyRIT, Garak, Lakera Red, Anthropic AISI suite.

Pourquoi c’est important pour votre projet IA

  • AI Act (août 2026) : red teaming obligatoire pour les systèmes haut risque (RH, scoring, juridique).
  • Une seule prompt injection sur un agent commercial peut envoyer vos prix aux concurrents.
  • Coût d’un red team externe : 8 à 25 k€ pour 2 à 4 semaines. ROI immédiat dès qu’une faille critique est trouvée.

Liens utiles

← Retour au glossaire
#red teaming#sécurité#AI Act#jailbreak