Votre volume estimé
Saisissez vos volumes mensuels d'input et d'output (en millions de tokens). Si vous ne savez pas : 1 page A4 ≈ 500 tokens, 1 conversation type chatbot ≈ 2 000 tokens (input) + 800 tokens (output). Pour 10 000 conversations / mois → ~20 M input + 8 M output.
Prix au million de tokens (USD, mai 2026)
Tarifs publics affichés par chaque éditeur. Prix exprimés en USD par million de tokens (USD/MTok). Conversion EUR à 0,93 USD/EUR. Le coût mensuel est mis à jour en temps réel selon vos volumes.
| Modèle | Input (USD/MTok) | Output (USD/MTok) | Coût mensuel estimé |
|---|
Comment lire ce tableau
- Input = tout ce que vous envoyez au modèle (prompt système + contexte + question).
- Output = tout ce que le modèle vous renvoie. Souvent 2 à 3 fois plus cher que l'input.
- Les modèles "mini / haiku / flash" sont 10 à 30× moins chers que leurs grands frères, mais avec une qualité légèrement inférieure : à privilégier pour le tri, la classification, la pré-rédaction.
- Le routing intelligent (envoyer chaque requête au bon modèle selon sa difficulté) divise typiquement votre facture LLM par 3 à 5 — c'est ce qu'on déploie dans tous nos projets.
Les pièges à éviter en 2026
Sélectionner un modèle uniquement sur le prix au token est une erreur fréquente. Les vrais facteurs de coût mensuel sont, dans l'ordre :
- La taille moyenne de votre contexte — un RAG mal sizé peut envoyer 50 000 tokens par requête, multipliant votre facture par 10.
- Le ratio output/input — un agent qui rédige des rapports longs coûte 5× plus cher qu'un agent qui classe.
- Le caching — Anthropic et OpenAI proposent du cache prompt qui réduit l'input répétitif de 90 % (-2,25 USD/MTok pour Claude Sonnet).
- Le batch API — réduit jusqu'à 50 % le prix pour les workloads non temps-réel.
- La région — l'EU (zero data retention) ajoute parfois une prime, mais reste obligatoire pour les données personnelles.