La latence d’un LLM est le temps écoulé entre l’envoi de la requête et la réception de la réponse complète. Elle se décompose en deux métriques distinctes qui ne pèsent pas pareil selon le cas d’usage.
En pratique
Trois métriques à séparer en 2026 :
- TTFT (Time To First Token) : délai avant le premier mot. Critique pour le chat — au-delà de 2 secondes, l’utilisateur pense que ça plante. Cible : < 500 ms.
- TPS (Tokens Per Second) : vitesse de génération une fois lancé. Critique pour les longues réponses. Cible : > 50 t/s pour rester fluide.
- End-to-end : TTFT + (longueur réponse / TPS). Ce qui compte pour les agents (pas de streaming visible utilisateur).
Benchmarks indicatifs 2026 (modèles SaaS standard) :
| Modèle | TTFT médian | TPS |
|---|---|---|
| Claude Haiku 4 | 250 ms | 120 t/s |
| GPT-4o-mini | 300 ms | 90 t/s |
| Claude Sonnet 4.5 | 600 ms | 65 t/s |
| Mistral Large 2 | 450 ms | 80 t/s |
Pourquoi c’est important pour votre projet IA
- Un agent qui appelle 5 LLM en série à 2 s/appel = 10 secondes — inacceptable pour un chat.
- Chunking + parallélisation + caching réduisent la latence end-to-end de 50 à 80 %.
- Self-hosting quantizé (INT4) bat souvent les API SaaS sur TTFT (pas de réseau).
Liens utiles
- Inference — définition
- Tokens par seconde — définition
- Quantization — définition
- Audit IA Kezify — mesurer et optimiser la latence de vos agents.
← Retour au glossaire
#latence#TTFT#tokens per second#performance