Le TPS (tokens par seconde) est la vitesse à laquelle un LLM génère sa réponse une fois que la génération a commencé. Métrique clé pour estimer le coût d’inférence et le débit possible d’un agent en production.
En pratique
Ordres de grandeur 2026 (modèles SaaS, single-stream) :
| Modèle | TPS médian | Tokens/min |
|---|---|---|
| Groq Llama 3.3 70B | 800 t/s | 48 000 |
| Claude Haiku 4 | 120 t/s | 7 200 |
| Claude Sonnet 4.5 | 65 t/s | 3 900 |
| Claude Opus 4 | 35 t/s | 2 100 |
| GPT-4.1 | 70 t/s | 4 200 |
| Mistral Large 2 | 80 t/s | 4 800 |
Pour du self-hosted en INT4 sur un RTX 4090 : ~50-90 t/s selon la taille du modèle (7B-70B).
Pourquoi c’est important pour votre projet IA
- Pour un agent qui produit des rapports de 5000 tokens : Sonnet = 77 secondes, Haiku = 41 secondes. UX très différente.
- Le throughput plafonne à débit batch — en production avec 100 utilisateurs concurrents, il faut benchmarker en charge réelle, pas single-stream.
- Optimisations : streaming pour cacher la latence, modèles plus petits sur les étapes simples (model routing), quantization en self-hosting.
Liens utiles
- Latence LLM — définition
- Inference — définition
- Quantization — définition
- Cost per token — définition
- Audit IA Kezify — choisir le bon modèle selon vos besoins TPS.
← Retour au glossaire
#tokens per second#TPS#throughput#performance