Tokens par seconde (TPS) — définition et benchmarks LLM en 2026

Le TPS (tokens par seconde) est la vitesse à laquelle un LLM génère sa réponse une fois que la génération a commencé. Métrique clé pour estimer le coût d’inférence et le débit possible d’un agent en production.

En pratique

Ordres de grandeur 2026 (modèles SaaS, single-stream) :

Modèle	TPS médian	Tokens/min
Groq Llama 3.3 70B	800 t/s	48 000
Claude Haiku 4	120 t/s	7 200
Claude Sonnet 4.5	65 t/s	3 900
Claude Opus 4	35 t/s	2 100
GPT-4.1	70 t/s	4 200
Mistral Large 2	80 t/s	4 800

Pour du self-hosted en INT4 sur un RTX 4090 : ~50-90 t/s selon la taille du modèle (7B-70B).

Pourquoi c’est important pour votre projet IA

Pour un agent qui produit des rapports de 5000 tokens : Sonnet = 77 secondes, Haiku = 41 secondes. UX très différente.
Le throughput plafonne à débit batch — en production avec 100 utilisateurs concurrents, il faut benchmarker en charge réelle, pas single-stream.
Optimisations : streaming pour cacher la latence, modèles plus petits sur les étapes simples (model routing), quantization en self-hosting.

Liens utiles

Latence LLM — définition
Inference — définition
Quantization — définition
Cost per token — définition
Audit IA Kezify — choisir le bon modèle selon vos besoins TPS.