Guardrails IA — définition et patterns pour sécuriser un LLM en 2026

Les guardrails IA (garde-fous) sont des contrôles déterministes qui filtrent les entrées et les sorties d’un LLM pour bloquer ce qui est interdit, hors-sujet, ou dangereux. Ils s’exécutent autour du LLM, jamais à l’intérieur — c’est la dernière ligne de défense avant l’utilisateur final.

En pratique

Trois familles de guardrails en 2026 :

Input guardrails : détectent prompt injection, PII (SIRET, IBAN, NIR), insultes, jailbreak. Bloquent avant appel LLM.
Output guardrails : vérifient que la réponse n’invente pas de prix, ne cite pas les concurrents, n’expose pas de PII. Re-prompt si non conforme.
Topical guardrails : confinent l’agent à son scope. Un chatbot RH ne doit pas répondre sur des questions financières.

Bibliothèques : NeMo Guardrails (NVIDIA), Guardrails AI, Llama Guard 3, Lakera Guard.

Pourquoi c’est important pour votre projet IA

Un LLM seul ne peut pas s’auto-modérer fiablement (90 % de réussite, pas 100).
Les guardrails déterministes attrapent les 10 % restants — souvent les pires cas.
Obligation indirecte AI Act : un système haut risque doit prouver des contrôles de sortie documentés.

Liens utiles

Red teaming IA — définition — comment tester vos guardrails.
Jailbreak LLM — définition
AI Act — définition
Audit IA Kezify — auditer les guardrails de vos agents en production.