Les guardrails IA (garde-fous) sont des contrôles déterministes qui filtrent les entrées et les sorties d’un LLM pour bloquer ce qui est interdit, hors-sujet, ou dangereux. Ils s’exécutent autour du LLM, jamais à l’intérieur — c’est la dernière ligne de défense avant l’utilisateur final.
En pratique
Trois familles de guardrails en 2026 :
- Input guardrails : détectent prompt injection, PII (SIRET, IBAN, NIR), insultes, jailbreak. Bloquent avant appel LLM.
- Output guardrails : vérifient que la réponse n’invente pas de prix, ne cite pas les concurrents, n’expose pas de PII. Re-prompt si non conforme.
- Topical guardrails : confinent l’agent à son scope. Un chatbot RH ne doit pas répondre sur des questions financières.
Bibliothèques : NeMo Guardrails (NVIDIA), Guardrails AI, Llama Guard 3, Lakera Guard.
Pourquoi c’est important pour votre projet IA
- Un LLM seul ne peut pas s’auto-modérer fiablement (90 % de réussite, pas 100).
- Les guardrails déterministes attrapent les 10 % restants — souvent les pires cas.
- Obligation indirecte AI Act : un système haut risque doit prouver des contrôles de sortie documentés.
Liens utiles
- Red teaming IA — définition — comment tester vos guardrails.
- Jailbreak LLM — définition
- AI Act — définition
- Audit IA Kezify — auditer les guardrails de vos agents en production.
← Retour au glossaire
#guardrails#sécurité#LLM#modération