Latence LLM — définition, mesures TTFT/TPS et benchmarks en 2026

La latence d’un LLM est le temps écoulé entre l’envoi de la requête et la réception de la réponse complète. Elle se décompose en deux métriques distinctes qui ne pèsent pas pareil selon le cas d’usage.

En pratique

Trois métriques à séparer en 2026 :

TTFT (Time To First Token) : délai avant le premier mot. Critique pour le chat — au-delà de 2 secondes, l’utilisateur pense que ça plante. Cible : < 500 ms.
TPS (Tokens Per Second) : vitesse de génération une fois lancé. Critique pour les longues réponses. Cible : > 50 t/s pour rester fluide.
End-to-end : TTFT + (longueur réponse / TPS). Ce qui compte pour les agents (pas de streaming visible utilisateur).

Benchmarks indicatifs 2026 (modèles SaaS standard) :

Modèle	TTFT médian	TPS
Claude Haiku 4	250 ms	120 t/s
GPT-4o-mini	300 ms	90 t/s
Claude Sonnet 4.5	600 ms	65 t/s
Mistral Large 2	450 ms	80 t/s

Pourquoi c’est important pour votre projet IA

Un agent qui appelle 5 LLM en série à 2 s/appel = 10 secondes — inacceptable pour un chat.
Chunking + parallélisation + caching réduisent la latence end-to-end de 50 à 80 %.
Self-hosting quantizé (INT4) bat souvent les API SaaS sur TTFT (pas de réseau).

Liens utiles

Inference — définition
Tokens par seconde — définition
Quantization — définition
Audit IA Kezify — mesurer et optimiser la latence de vos agents.