Coût par token (cost per token) — pricing LLM 2026 en entreprise

Le cost per token est le prix unitaire facturé par les fournisseurs LLM, exprimé en $/million de tokens. Tous les coûts d’un projet IA en cloud se ramènent à ce chiffre — c’est la métrique FinOps de référence.

En pratique

Pricing public 2026 (input / output, $/M tokens) :

Modèle	Input	Output	Cache (input)
Claude Haiku 4	$0.80	$4	$0.08
Claude Sonnet 4.5	$3	$15	$0.30
Claude Opus 4	$15	$75	$1.50
GPT-4.1	$2	$8	$0.50
GPT-4.1-mini	$0.40	$1.60	$0.10
Mistral Large 2	$2	$6	—
Gemini 2.5 Flash	$0.10	$0.40	$0.025
Gemini 2.5 Pro	$1.25	$10	$0.31

L’output coûte 3 à 5× plus cher que l’input. Conséquence : raccourcir les sorties est plus rentable que raccourcir les entrées.

Pourquoi c’est important pour votre projet IA

Un agent mal designé peut coûter 10× plus cher qu’optimisé pour la même tâche.
Leviers majeurs en 2026 : prompt caching (-90 % sur les inputs répétés), model routing (Haiku sur 80 % des étapes), structured output (sorties courtes et bornées).
Coût marginal d’un agent commercial bien réglé : 0.01 à 0.05 € par interaction utilisateur. Mal réglé : 0.30 à 1 €.

Liens utiles

Token — définition
Prompt caching — définition
Tokens par seconde — définition
LLM — définition
Audit IA Kezify — réduire le coût par token de vos agents.