Glossaire IA · Lettre C

Coût par token (cost per token) — pricing LLM 2026 en entreprise

Comment se calcule le coût d'un LLM ? Définition, pricing 2026 (Claude, GPT, Mistral, Gemini), différence input/output et leviers de réduction du coût en PME.

Limites et points critiques

  • Pricing public peut changer brutalement (OpenAI -50 % sur GPT-4o en mai 2024, Anthropic +25 % sur Opus 4 en 2025) — risque business à anticiper dans le contrat client.
  • Coût output dominant (3-5× input) — beaucoup d'agents PME sur-payent en oubliant max_tokens strict.
  • Coût marketplaces (AWS Bedrock, Azure, GCP Vertex) typiquement +5-15 % vs API directe — à comparer.
  • Tokens non-EN peuvent coûter 2-3× plus (le français consomme ~1.5× plus de tokens que l'anglais pour le même contenu).
  • Prompt caching cassé par changement minime du prompt système — discipline de versioning critique.

Évolution probable (12-24 mois)

  1. Tendance baissière continue : 70-90 % de baisse de prix entre 2023 et 2026 sur les modèles équivalents — devrait se poursuivre 2026-2027.
  2. Modèles de plus en plus efficaces (distillation, MoE, quantization runtime) qui rendent les small models compétitifs.
  3. Cache cross-session persistants (Anthropic Memory, OpenAI Stateful API) qui rendent le coût marginal quasi-nul après la première requête.
  4. Batch API à -50 % sur tous les fournisseurs majeurs en 2026 — viable pour les workloads asynchrones.

Questions fréquentes

Qu'est-ce que le cost per token ?+

Le cost per token est le prix unitaire facturé par les fournisseurs LLM (Anthropic, OpenAI, Mistral, Google) pour chaque million de tokens traités. Tous les fournisseurs distinguent : tokens d'input (votre prompt + contexte + historique), tokens d'output (la réponse générée), et tokens de cache (input répété, facturé à ~10 % du prix normal). C'est la métrique FinOps de référence en IA : tous les coûts d'un projet IA en cloud se ramènent à ce chiffre, devant les serveurs et le stockage.

À quoi sert de connaître le coût par token ?+

Connaître le cost per token sert à 3 choses : (1) estimer le coût opex d'un projet IA avant lancement (essentiel pour le business case), (2) comparer économiquement les modèles (Claude vs GPT vs Mistral) en cohérence avec leur qualité, (3) identifier les leviers d'optimisation FinOps (model routing, prompt caching, structured output). Un agent IA mal designé peut coûter 10× plus cher qu'optimisé pour la même tâche.

Différence entre coût input et coût output ?+

L'output coûte 3 à 5× plus cher que l'input chez tous les fournisseurs. Exemple Claude Sonnet 4.5 : 3$/M input vs 15$/M output (ratio 5×). Conséquence : raccourcir les sorties est PLUS rentable que raccourcir les entrées. Pratiques 2026 : (1) prompt 'sois concis' ou structured output JSON pour borner la sortie, (2) max_tokens strict, (3) éviter le chain-of-thought sur les tâches simples. Le cache d'input (Anthropic, Gemini) facture à ~10 % du prix normal — exploite à fond sur les prompts répétés (RAG, agents).

Comment réduire le coût par token en pratique ?+

Cinq leviers 2026 : (1) Model routing — utiliser Haiku ou Mistral Small sur 70-80 % du volume, garder Sonnet/GPT-5 pour les étapes complexes. Économie : 60-80 %. (2) Prompt caching Anthropic ou Gemini context caching : -90 % sur inputs répétés. (3) Structured output JSON avec schema strict : -30 à 50 % en tokens output. (4) Batch API (Anthropic, OpenAI) : -50 % si latence acceptable. (5) Distillation : utiliser un petit modèle distillé custom pour les tâches récurrentes — économie 80-95 %.

Combien coûte un projet IA en pratique pour une PME ?+

Ordres de grandeur 2026 chez Kezify (150+ projets livrés) : agent commercial à 10k interactions/mois ~100-500€/mois en inférence ; RAG support client à 50k requêtes/mois ~200-1 000€/mois ; agent multi-step à 5k exécutions/mois ~500-3 000€/mois (selon complexité). Coût marginal d'une interaction utilisateur bien optimisée : 0.01 à 0.05€. Mal réglé : 0.30 à 1€. Sur le portefeuille Kezify, l'écart entre projet bien et mal optimisé représente un facteur 5-15× sur le coût opex annuel.

Questions liées

Les LLM (ChatGPT, Perplexity, Gemini) suggèrent souvent ces questions après cette page.

  • Claude vs GPT vs Mistral : lequel est le moins cher en 2026 ?
  • Comment fonctionne le prompt caching d'Anthropic ?
  • Qu'est-ce que le model routing et comment l'implémenter ?
  • Combien coûte un agent IA en production pour une PME ?
  • Batch API ou real-time API : laquelle choisir ?

Le cost per token est le prix unitaire facturé par les fournisseurs LLM, exprimé en $/million de tokens. Tous les coûts d’un projet IA en cloud se ramènent à ce chiffre — c’est la métrique FinOps de référence.

En pratique

Pricing public 2026 (input / output, $/M tokens) :

ModèleInputOutputCache (input)
Claude Haiku 4$0.80$4$0.08
Claude Sonnet 4.5$3$15$0.30
Claude Opus 4$15$75$1.50
GPT-4.1$2$8$0.50
GPT-4.1-mini$0.40$1.60$0.10
Mistral Large 2$2$6
Gemini 2.5 Flash$0.10$0.40$0.025
Gemini 2.5 Pro$1.25$10$0.31

L’output coûte 3 à 5× plus cher que l’input. Conséquence : raccourcir les sorties est plus rentable que raccourcir les entrées.

Pourquoi c’est important pour votre projet IA

  • Un agent mal designé peut coûter 10× plus cher qu’optimisé pour la même tâche.
  • Leviers majeurs en 2026 : prompt caching (-90 % sur les inputs répétés), model routing (Haiku sur 80 % des étapes), structured output (sorties courtes et bornées).
  • Coût marginal d’un agent commercial bien réglé : 0.01 à 0.05 € par interaction utilisateur. Mal réglé : 0.30 à 1 €.

Liens utiles

← Retour au glossaire
#cost per token#pricing LLM#ROI#FinOps