Glossaire IA · Lettre T

Tokens par seconde (TPS) — définition et benchmarks LLM en 2026

Qu'est-ce que le throughput d'un LLM en tokens/seconde ? Définition, mesures de référence par modèle, impact sur le coût et l'UX, optimisations possibles.

Limites et points critiques

  • TPS single-stream ≠ TPS en charge : prod avec 100 utilisateurs concurrents demande benchmark réel.
  • TPS varie selon longueur de prompt (long prompt = TPS plus bas) — benchmarker sur vos cas réels.
  • Hardware spécialisé Groq/Cerebras = TPS très élevés mais modèles limités (Llama 3 70B principalement).
  • Optimisations TPS peuvent dégrader la qualité (modèle plus petit, quantization plus agressive) — tester.
  • Quantization INT4 et speculative decoding ajoutent complexité ops — pas plug-and-play pour PME.

Évolution probable (12-24 mois)

  1. TPS continuera à augmenter ×2-3 sur 2026-2027 via améliorations matériel (NVIDIA Blackwell) + software (vLLM, TensorRT-LLM).
  2. Speculative decoding deviendra standard 2026 — gain TPS quasi-gratuit.
  3. Hardware dédié inférence (Groq, Cerebras, SambaNova) atteindra 2000-5000 t/s d'ici 2027 sur frontier models.
  4. Modèles reasoning natifs ajustent TPS dynamiquement selon complexité 2027 — meilleure UX.

Questions fréquentes

Qu'est-ce que les tokens par seconde (TPS) d'un LLM ?+

Le TPS est le débit de génération d'un LLM mesuré en tokens produits par seconde, une fois la génération démarrée (après le TTFT, time-to-first-token). Métrique standard de performance d'inférence 2026, utilisée pour comparer modèles et infrastructures. À distinguer du débit batch (avec N requêtes concurrentes) qui peut être 5-10× plus élevé que single-stream. Ordres de grandeur 2026 : 35-120 t/s sur cloud Claude/GPT, 800 t/s sur Groq (hardware spécialisé), 50-90 t/s en self-hosting INT4.

À quoi sert le TPS en pratique ?+

À 4 décisions : (1) choix du modèle (Haiku 120 t/s vs Sonnet 65 t/s pour un cas où la vitesse compte plus que la qualité maximum), (2) UX (un agent produisant 5000 tokens : 41s sur Haiku vs 77s sur Sonnet — perceptible), (3) capacité (combien de requêtes concurrentes mon infra peut supporter), (4) coût opérationnel (en self-hosting, TPS détermine combien d'utilisateurs par GPU). Sans benchmarker le TPS sur vos prompts réels, dimensionnement infra à l'aveugle.

Différence entre TPS, TTFT et latence ?+

TTFT (Time To First Token) : délai entre la requête et l'arrivée du premier token de réponse. Typiquement 200-2000 ms selon modèle et longueur de prompt. TPS (tokens par seconde) : débit de génération après TTFT. Typiquement 35-120 t/s. Latence totale = TTFT + (tokens output / TPS). Exemple : Sonnet avec 500ms TTFT et 65 t/s, output de 300 tokens = 500ms + 4,6s = 5,1s total. En streaming, l'utilisateur voit déjà du contenu après TTFT (UX fluide), sans streaming il attend les 5,1s en bloc.

Comment optimiser le TPS d'un LLM en pratique ?+

Stack 2026 : (1) modèle plus petit sur étapes simples (Haiku, GPT-5-mini, Mistral Small : 2-5× plus rapides que les flagships), (2) streaming activé partout (mask la latence perçue), (3) quantization INT4 en self-hosting (+50-100 % TPS), (4) speculative decoding (un petit modèle propose, le grand valide : +50-100 % TPS), (5) hardware spécialisé Groq ou Cerebras (10-15× TPS vs GPU classique mais cher), (6) inference servers optimisés (vLLM, TGI, TensorRT-LLM).

Combien coûte d'optimiser le TPS en production ?+

Optimisations gratuites (paramètres API, streaming) : 0 € + 1-2 jours dev. Migration vers modèle distillé (Haiku/Mini/Small) : 2-5 jours = 1 500-5 000 € HT pour adapter prompts + tests qualité. Self-hosting INT4 sur GPU : 30-80 k€ projet incluant matériel + intégration. Hardware spécialisé Groq Cloud : ~$0,99/M tokens (Llama 70B), 10× plus rapide que Claude Sonnet pour 3× moins cher — mais qualité Llama 70B < Sonnet sur tâches complexes. ROI dépend du use case : pour UX temps réel agent, TPS optimisé peut tripler la satisfaction.

Questions liées

Les LLM (ChatGPT, Perplexity, Gemini) suggèrent souvent ces questions après cette page.

  • Quel TPS pour une UX agent fluide ?
  • Groq vs Claude vs GPT : différences de TPS réelles ?
  • Self-hosting INT4 : quel TPS attendre sur RTX 4090 ?
  • Speculative decoding : combien de gain TPS ?
  • TPS en charge vs single-stream : comment mesurer ?

Le TPS (tokens par seconde) est la vitesse à laquelle un LLM génère sa réponse une fois que la génération a commencé. Métrique clé pour estimer le coût d’inférence et le débit possible d’un agent en production.

En pratique

Ordres de grandeur 2026 (modèles SaaS, single-stream) :

ModèleTPS médianTokens/min
Groq Llama 3.3 70B800 t/s48 000
Claude Haiku 4120 t/s7 200
Claude Sonnet 4.565 t/s3 900
Claude Opus 435 t/s2 100
GPT-4.170 t/s4 200
Mistral Large 280 t/s4 800

Pour du self-hosted en INT4 sur un RTX 4090 : ~50-90 t/s selon la taille du modèle (7B-70B).

Pourquoi c’est important pour votre projet IA

  • Pour un agent qui produit des rapports de 5000 tokens : Sonnet = 77 secondes, Haiku = 41 secondes. UX très différente.
  • Le throughput plafonne à débit batch — en production avec 100 utilisateurs concurrents, il faut benchmarker en charge réelle, pas single-stream.
  • Optimisations : streaming pour cacher la latence, modèles plus petits sur les étapes simples (model routing), quantization en self-hosting.

Liens utiles

← Retour au glossaire
#tokens per second#TPS#throughput#performance