Le cost per token est le prix unitaire facturé par les fournisseurs LLM, exprimé en $/million de tokens. Tous les coûts d’un projet IA en cloud se ramènent à ce chiffre — c’est la métrique FinOps de référence.
En pratique
Pricing public 2026 (input / output, $/M tokens) :
| Modèle | Input | Output | Cache (input) |
|---|---|---|---|
| Claude Haiku 4 | $0.80 | $4 | $0.08 |
| Claude Sonnet 4.5 | $3 | $15 | $0.30 |
| Claude Opus 4 | $15 | $75 | $1.50 |
| GPT-4.1 | $2 | $8 | $0.50 |
| GPT-4.1-mini | $0.40 | $1.60 | $0.10 |
| Mistral Large 2 | $2 | $6 | — |
| Gemini 2.5 Flash | $0.10 | $0.40 | $0.025 |
| Gemini 2.5 Pro | $1.25 | $10 | $0.31 |
L’output coûte 3 à 5× plus cher que l’input. Conséquence : raccourcir les sorties est plus rentable que raccourcir les entrées.
Pourquoi c’est important pour votre projet IA
- Un agent mal designé peut coûter 10× plus cher qu’optimisé pour la même tâche.
- Leviers majeurs en 2026 : prompt caching (-90 % sur les inputs répétés), model routing (Haiku sur 80 % des étapes), structured output (sorties courtes et bornées).
- Coût marginal d’un agent commercial bien réglé : 0.01 à 0.05 € par interaction utilisateur. Mal réglé : 0.30 à 1 €.
Liens utiles
- Token — définition
- Prompt caching — définition
- Tokens par seconde — définition
- LLM — définition
- Audit IA Kezify — réduire le coût par token de vos agents.
← Retour au glossaire
#cost per token#pricing LLM#ROI#FinOps