Glossaire IA · Lettre C

Coût par token (cost per token) — pricing LLM 2026 en entreprise

Comment se calcule le coût d'un LLM ? Définition, pricing 2026 (Claude, GPT, Mistral, Gemini), différence input/output et leviers de réduction du coût en PME.

Le cost per token est le prix unitaire facturé par les fournisseurs LLM, exprimé en $/million de tokens. Tous les coûts d’un projet IA en cloud se ramènent à ce chiffre — c’est la métrique FinOps de référence.

En pratique

Pricing public 2026 (input / output, $/M tokens) :

ModèleInputOutputCache (input)
Claude Haiku 4$0.80$4$0.08
Claude Sonnet 4.5$3$15$0.30
Claude Opus 4$15$75$1.50
GPT-4.1$2$8$0.50
GPT-4.1-mini$0.40$1.60$0.10
Mistral Large 2$2$6
Gemini 2.5 Flash$0.10$0.40$0.025
Gemini 2.5 Pro$1.25$10$0.31

L’output coûte 3 à 5× plus cher que l’input. Conséquence : raccourcir les sorties est plus rentable que raccourcir les entrées.

Pourquoi c’est important pour votre projet IA

  • Un agent mal designé peut coûter 10× plus cher qu’optimisé pour la même tâche.
  • Leviers majeurs en 2026 : prompt caching (-90 % sur les inputs répétés), model routing (Haiku sur 80 % des étapes), structured output (sorties courtes et bornées).
  • Coût marginal d’un agent commercial bien réglé : 0.01 à 0.05 € par interaction utilisateur. Mal réglé : 0.30 à 1 €.

Liens utiles

← Retour au glossaire
#cost per token#pricing LLM#ROI#FinOps