Glossaire IA · Lettre G

Guardrails IA — définition et patterns pour sécuriser un LLM en 2026

Qu'est-ce que les guardrails LLM ? Définition, types (input, output, topical), bibliothèques (NeMo, Llama Guard), et cas concrets de protection en entreprise.

Les guardrails IA (garde-fous) sont des contrôles déterministes qui filtrent les entrées et les sorties d’un LLM pour bloquer ce qui est interdit, hors-sujet, ou dangereux. Ils s’exécutent autour du LLM, jamais à l’intérieur — c’est la dernière ligne de défense avant l’utilisateur final.

En pratique

Trois familles de guardrails en 2026 :

  • Input guardrails : détectent prompt injection, PII (SIRET, IBAN, NIR), insultes, jailbreak. Bloquent avant appel LLM.
  • Output guardrails : vérifient que la réponse n’invente pas de prix, ne cite pas les concurrents, n’expose pas de PII. Re-prompt si non conforme.
  • Topical guardrails : confinent l’agent à son scope. Un chatbot RH ne doit pas répondre sur des questions financières.

Bibliothèques : NeMo Guardrails (NVIDIA), Guardrails AI, Llama Guard 3, Lakera Guard.

Pourquoi c’est important pour votre projet IA

  • Un LLM seul ne peut pas s’auto-modérer fiablement (90 % de réussite, pas 100).
  • Les guardrails déterministes attrapent les 10 % restants — souvent les pires cas.
  • Obligation indirecte AI Act : un système haut risque doit prouver des contrôles de sortie documentés.

Liens utiles

← Retour au glossaire
#guardrails#sécurité#LLM#modération