Évaluation LLM (eval) — définition, métriques et outils 2026

L’évaluation LLM (souvent appelée eval) est le processus qui consiste à mesurer objectivement la qualité, la fiabilité et le coût d’un système LLM avant et pendant la mise en production. Sans eval, vous n’avez aucun moyen de savoir si une nouvelle version de prompt améliore ou casse le système. C’est l’équivalent des tests unitaires pour le code, mais pour des sorties non déterministes.

En pratique

Une eval typique en PME :

Constituer un dataset de 50 à 200 cas représentatifs (input → output attendu, ou critères de validation).
Faire tourner le système LLM sur chaque cas → collecte des sorties.
Scorer chaque sortie selon plusieurs métriques.
Comparer le score moyen avec la version précédente.

À chaque modification de prompt, de modèle, ou de RAG, on relance l’eval. C’est devenu un réflexe en prod sérieuse.

Métriques principales

Faithfulness : les affirmations sont-elles soutenues par le contexte injecté (RAG) ? Détecte les hallucinations.
Answer relevance : la réponse couvre-t-elle bien la question ? (rappel + précision)
Context precision : les passages RAG retournés sont-ils pertinents ?
Format adherence : respect du format attendu (JSON valide, sections présentes).
Latency : p50 et p95 du temps de réponse.
Cost per query : tokens × prix unitaire.
Refusal rate : taux de réponses “je ne sais pas” — utile pour calibrer le rappel.

Pour les eval qualitatives (ton, fluidité), le LLM-as-judge (un autre LLM qui note) est devenu standard, avec rubric explicite et calibration humaine sur 20-30 cas.

Outils 2026

Ragas — eval RAG, métriques faithfulness / context precision (open source).
Promptfoo — comparatif multi-prompts / multi-modèles, CI-friendly.
DeepEval — eval LLM Pythonique, intégrations CI.
LangSmith — eval + tracing dans l’écosystème LangChain.
Inspect AI (UK AISI) — eval rigoureuses, recherche.
Custom — pour 80 % des cas PME, un script Python sur 100 cas suffit.

Pour aller plus loin

Évaluation LLM en production — quelles métriques — guide approfondi.
Hallucination — définition — la principale chose à mesurer.
Prompt engineering — définition — l’eval guide les itérations.
Audit IA Kezify — mettre en place vos premières evals.

Vous voulez évaluer vos LLM en production ? Audit IA Kezify.