Glossaire IA · Lettre T

Tokens par seconde (TPS) — définition et benchmarks LLM en 2026

Qu'est-ce que le throughput d'un LLM en tokens/seconde ? Définition, mesures de référence par modèle, impact sur le coût et l'UX, optimisations possibles.

Le TPS (tokens par seconde) est la vitesse à laquelle un LLM génère sa réponse une fois que la génération a commencé. Métrique clé pour estimer le coût d’inférence et le débit possible d’un agent en production.

En pratique

Ordres de grandeur 2026 (modèles SaaS, single-stream) :

ModèleTPS médianTokens/min
Groq Llama 3.3 70B800 t/s48 000
Claude Haiku 4120 t/s7 200
Claude Sonnet 4.565 t/s3 900
Claude Opus 435 t/s2 100
GPT-4.170 t/s4 200
Mistral Large 280 t/s4 800

Pour du self-hosted en INT4 sur un RTX 4090 : ~50-90 t/s selon la taille du modèle (7B-70B).

Pourquoi c’est important pour votre projet IA

  • Pour un agent qui produit des rapports de 5000 tokens : Sonnet = 77 secondes, Haiku = 41 secondes. UX très différente.
  • Le throughput plafonne à débit batch — en production avec 100 utilisateurs concurrents, il faut benchmarker en charge réelle, pas single-stream.
  • Optimisations : streaming pour cacher la latence, modèles plus petits sur les étapes simples (model routing), quantization en self-hosting.

Liens utiles

← Retour au glossaire
#tokens per second#TPS#throughput#performance