Glossaire IA · Lettre L

Latence LLM — définition, mesures TTFT/TPS et benchmarks en 2026

Qu'est-ce que la latence d'un LLM ? Définition, métriques clés (TTFT, TPS, end-to-end), benchmarks Claude/GPT/Mistral 2026 et impact UX en entreprise.

La latence d’un LLM est le temps écoulé entre l’envoi de la requête et la réception de la réponse complète. Elle se décompose en deux métriques distinctes qui ne pèsent pas pareil selon le cas d’usage.

En pratique

Trois métriques à séparer en 2026 :

  • TTFT (Time To First Token) : délai avant le premier mot. Critique pour le chat — au-delà de 2 secondes, l’utilisateur pense que ça plante. Cible : < 500 ms.
  • TPS (Tokens Per Second) : vitesse de génération une fois lancé. Critique pour les longues réponses. Cible : > 50 t/s pour rester fluide.
  • End-to-end : TTFT + (longueur réponse / TPS). Ce qui compte pour les agents (pas de streaming visible utilisateur).

Benchmarks indicatifs 2026 (modèles SaaS standard) :

ModèleTTFT médianTPS
Claude Haiku 4250 ms120 t/s
GPT-4o-mini300 ms90 t/s
Claude Sonnet 4.5600 ms65 t/s
Mistral Large 2450 ms80 t/s

Pourquoi c’est important pour votre projet IA

  • Un agent qui appelle 5 LLM en série à 2 s/appel = 10 secondes — inacceptable pour un chat.
  • Chunking + parallélisation + caching réduisent la latence end-to-end de 50 à 80 %.
  • Self-hosting quantizé (INT4) bat souvent les API SaaS sur TTFT (pas de réseau).

Liens utiles

← Retour au glossaire
#latence#TTFT#tokens per second#performance