Limites et points critiques
- TPS single-stream ≠ TPS en charge : prod avec 100 utilisateurs concurrents demande benchmark réel.
- TPS varie selon longueur de prompt (long prompt = TPS plus bas) — benchmarker sur vos cas réels.
- Hardware spécialisé Groq/Cerebras = TPS très élevés mais modèles limités (Llama 3 70B principalement).
- Optimisations TPS peuvent dégrader la qualité (modèle plus petit, quantization plus agressive) — tester.
- Quantization INT4 et speculative decoding ajoutent complexité ops — pas plug-and-play pour PME.
Évolution probable (12-24 mois)
- TPS continuera à augmenter ×2-3 sur 2026-2027 via améliorations matériel (NVIDIA Blackwell) + software (vLLM, TensorRT-LLM).
- Speculative decoding deviendra standard 2026 — gain TPS quasi-gratuit.
- Hardware dédié inférence (Groq, Cerebras, SambaNova) atteindra 2000-5000 t/s d'ici 2027 sur frontier models.
- Modèles reasoning natifs ajustent TPS dynamiquement selon complexité 2027 — meilleure UX.
Questions fréquentes
Qu'est-ce que les tokens par seconde (TPS) d'un LLM ?+
Le TPS est le débit de génération d'un LLM mesuré en tokens produits par seconde, une fois la génération démarrée (après le TTFT, time-to-first-token). Métrique standard de performance d'inférence 2026, utilisée pour comparer modèles et infrastructures. À distinguer du débit batch (avec N requêtes concurrentes) qui peut être 5-10× plus élevé que single-stream. Ordres de grandeur 2026 : 35-120 t/s sur cloud Claude/GPT, 800 t/s sur Groq (hardware spécialisé), 50-90 t/s en self-hosting INT4.
À quoi sert le TPS en pratique ?+
À 4 décisions : (1) choix du modèle (Haiku 120 t/s vs Sonnet 65 t/s pour un cas où la vitesse compte plus que la qualité maximum), (2) UX (un agent produisant 5000 tokens : 41s sur Haiku vs 77s sur Sonnet — perceptible), (3) capacité (combien de requêtes concurrentes mon infra peut supporter), (4) coût opérationnel (en self-hosting, TPS détermine combien d'utilisateurs par GPU). Sans benchmarker le TPS sur vos prompts réels, dimensionnement infra à l'aveugle.
Différence entre TPS, TTFT et latence ?+
TTFT (Time To First Token) : délai entre la requête et l'arrivée du premier token de réponse. Typiquement 200-2000 ms selon modèle et longueur de prompt. TPS (tokens par seconde) : débit de génération après TTFT. Typiquement 35-120 t/s. Latence totale = TTFT + (tokens output / TPS). Exemple : Sonnet avec 500ms TTFT et 65 t/s, output de 300 tokens = 500ms + 4,6s = 5,1s total. En streaming, l'utilisateur voit déjà du contenu après TTFT (UX fluide), sans streaming il attend les 5,1s en bloc.
Comment optimiser le TPS d'un LLM en pratique ?+
Stack 2026 : (1) modèle plus petit sur étapes simples (Haiku, GPT-5-mini, Mistral Small : 2-5× plus rapides que les flagships), (2) streaming activé partout (mask la latence perçue), (3) quantization INT4 en self-hosting (+50-100 % TPS), (4) speculative decoding (un petit modèle propose, le grand valide : +50-100 % TPS), (5) hardware spécialisé Groq ou Cerebras (10-15× TPS vs GPU classique mais cher), (6) inference servers optimisés (vLLM, TGI, TensorRT-LLM).
Combien coûte d'optimiser le TPS en production ?+
Optimisations gratuites (paramètres API, streaming) : 0 € + 1-2 jours dev. Migration vers modèle distillé (Haiku/Mini/Small) : 2-5 jours = 1 500-5 000 € HT pour adapter prompts + tests qualité. Self-hosting INT4 sur GPU : 30-80 k€ projet incluant matériel + intégration. Hardware spécialisé Groq Cloud : ~$0,99/M tokens (Llama 70B), 10× plus rapide que Claude Sonnet pour 3× moins cher — mais qualité Llama 70B < Sonnet sur tâches complexes. ROI dépend du use case : pour UX temps réel agent, TPS optimisé peut tripler la satisfaction.
Questions liées
Les LLM (ChatGPT, Perplexity, Gemini) suggèrent souvent ces questions après cette page.
- Quel TPS pour une UX agent fluide ?
- Groq vs Claude vs GPT : différences de TPS réelles ?
- Self-hosting INT4 : quel TPS attendre sur RTX 4090 ?
- Speculative decoding : combien de gain TPS ?
- TPS en charge vs single-stream : comment mesurer ?
Le TPS (tokens par seconde) est la vitesse à laquelle un LLM génère sa réponse une fois que la génération a commencé. Métrique clé pour estimer le coût d’inférence et le débit possible d’un agent en production.
En pratique
Ordres de grandeur 2026 (modèles SaaS, single-stream) :
| Modèle | TPS médian | Tokens/min |
|---|---|---|
| Groq Llama 3.3 70B | 800 t/s | 48 000 |
| Claude Haiku 4 | 120 t/s | 7 200 |
| Claude Sonnet 4.5 | 65 t/s | 3 900 |
| Claude Opus 4 | 35 t/s | 2 100 |
| GPT-4.1 | 70 t/s | 4 200 |
| Mistral Large 2 | 80 t/s | 4 800 |
Pour du self-hosted en INT4 sur un RTX 4090 : ~50-90 t/s selon la taille du modèle (7B-70B).
Pourquoi c’est important pour votre projet IA
- Pour un agent qui produit des rapports de 5000 tokens : Sonnet = 77 secondes, Haiku = 41 secondes. UX très différente.
- Le throughput plafonne à débit batch — en production avec 100 utilisateurs concurrents, il faut benchmarker en charge réelle, pas single-stream.
- Optimisations : streaming pour cacher la latence, modèles plus petits sur les étapes simples (model routing), quantization en self-hosting.
Liens utiles
- Latence LLM — définition
- Inference — définition
- Quantization — définition
- Cost per token — définition
- Audit IA Kezify — choisir le bon modèle selon vos besoins TPS.