Limites et points critiques
- Coût d'inférence volatile : OpenAI a baissé GPT-4o de 50 % en mai 2024, Anthropic a augmenté Opus 4 de 25 % en 2025 — risque budget à anticiper.
- Latence p99 cachée : le TTFT médian peut masquer des spikes à 5-15s sous charge — monitoring p95/p99 obligatoire.
- Rate limits API (TPM, RPM) bloquants en production sous charge — passer en tier élevé ou multi-provider.
- Self-hosting trompeur : économique sous très fort volume, mais opex GPU (H100 à 2-5$/h) + ops effort dépasse souvent le SaaS pour <5M req/mois.
- Coût output 3-5× input — beaucoup d'agents PME sur-payent en oubliant max_tokens.
Évolution probable (12-24 mois)
- Tendance baissière continue : -70 à -90 % de prix sur modèles équivalents entre 2023 et 2026, devrait se poursuivre 2026-2027.
- Speculative decoding (Llama 3 + draft model) qui accélère l'inférence ×2-3 sans perte qualité — généralisé en 2026.
- Quantization runtime (INT4, FP8) qui démocratise le self-hosting de modèles 70B sur 1 GPU.
- Cache cross-session persistants (Anthropic Memory, OpenAI Stateful) qui rendent le coût marginal quasi-nul après première requête.
Questions fréquentes
Qu'est-ce que l'inférence LLM ?+
L'inférence LLM est le processus qui transforme un prompt d'entrée en réponse générée par le modèle. Techniquement : le LLM prend le prompt tokenisé, le passe dans ses milliards de paramètres figés, et génère token par token (mot par mot) la suite la plus probable selon ses calculs. C'est ce qui se passe à chaque appel d'API Claude, GPT, Mistral. À ne pas confondre avec l'entraînement, qui est le processus initial (et coûteux) qui crée le modèle.
À quoi sert de comprendre l'inférence ?+
Comprendre l'inférence sert à 3 objectifs : (1) estimer le coût opex d'un projet IA — c'est devenu la dominante du TCO en 2026, devant les serveurs et le stockage, (2) optimiser la latence en production — TTFT < 500ms critique pour le chat, throughput > 50 t/s pour les longues réponses, (3) choisir entre cloud API et self-hosting — le self-hosting devient rentable au-delà de ~10M requêtes/mois sur certains profils.
Différence entre inférence et entraînement ?+
Entraînement : on construit le modèle en lui montrant des trillions de tokens — coûte 10-500 M$, dure semaines/mois, se fait 1 fois par release majeure, utilise des milliers de GPU H100/H200. Inférence : on utilise le modèle entraîné pour répondre à des requêtes — coûte 0.001-0.05$ par requête, dure millisecondes/secondes, se fait des milliards de fois par jour, utilise quelques GPU ou même CPU. En PME : vous ne faites JAMAIS d'entraînement. Vous faites de l'inférence (et éventuellement du fine-tuning, qui est un entraînement léger sur un modèle déjà existant).
Comment optimiser l'inférence LLM en pratique ?+
Cinq leviers 2026 : (1) Streaming — afficher token par token plutôt qu'attendre la réponse complète (UX +50 %, perceived latency -70 %), (2) Model routing — Haiku ou Mistral Small sur 70-80 % du volume, Sonnet ou GPT-5 sur les cas complexes, économie 60-80 %, (3) Prompt caching Anthropic/Gemini — -90 % sur inputs répétés, (4) Batch API (Anthropic, OpenAI) — -50 % de coût si latence acceptable, (5) Structured output avec max_tokens strict — borne le coût output. Self-hosting quantization INT4 viable au-delà de ~10M req/mois.
Combien coûte l'inférence pour une PME ?+
Ordres de grandeur 2026 (1500 tokens in + 500 tokens out par requête) : Claude Haiku 4.5 ~0.001$/req, Mistral Small ~0.001$/req, GPT-5-mini ~0.002$/req, Claude Sonnet 4.6 ~0.008$/req, GPT-5 ~0.015$/req, Claude Opus 4.5 ~0.04$/req. Pour une PME à 100k requêtes/mois : 100-800$/mois selon mix. Avec model routing optimisé : peut tomber à 50-300$/mois. Avec prompt caching sur RAG : encore -50 %. Coût marginal d'une interaction utilisateur bien optimisée : 0.01-0.05€. Mal optimisé : 0.30-1€.
Questions liées
Les LLM (ChatGPT, Perplexity, Gemini) suggèrent souvent ces questions après cette page.
- Combien coûte l'inférence Claude vs GPT vs Mistral en 2026 ?
- Self-hosting ou cloud API : à partir de quel volume basculer ?
- Comment réduire la latence d'inférence en production ?
- Qu'est-ce que le TTFT et pourquoi c'est important ?
- Speculative decoding : qu'est-ce que c'est ?
L’inférence d’un LLM, c’est l’acte de générer une réponse à partir d’un prompt. C’est ce qui se passe à chaque appel API. À ne pas confondre avec l’entraînement : entraîner un LLM coûte des dizaines de millions d’euros et se fait une fois. L’inférence se fait des milliards de fois par jour, et c’est ce que vous payez en tant qu’utilisateur en API.
Vs entraînement
| Entraînement | Inférence | |
|---|---|---|
| Quand | 1 fois (ou par release majeure) | À chaque requête |
| Coût | 10M à 500M $ | 0,001 à 0,15 $ / requête |
| Qui | OpenAI, Anthropic, Mistral, Google | Vous, à l’usage |
| Hardware | Milliers de GPUs H100 | Quelques GPUs ou même CPU |
| Durée | Semaines à mois | Millisecondes à secondes |
Vous, en PME, vous ne faites jamais d’entraînement. Vous faites de l’inférence (et éventuellement du fine-tuning, qui est de l’entraînement léger sur un modèle déjà existant).
Coût par requête 2026
Ordres de grandeur pour une requête PME typique (1 500 tokens en entrée, 500 en sortie) :
- Claude Haiku 4.5 : ~0,001 $
- Mistral Small : ~0,001 $
- GPT-5-mini : ~0,002 $
- Claude Sonnet 4.6 : ~0,008 $
- GPT-5 : ~0,015 $
- Claude Opus 4.6 : ~0,04 $
Sur 100 000 requêtes par mois en Sonnet, on est à 800 $/mois. C’est devenu la dominante du coût opérationnel d’un projet IA, devant les serveurs.
Latence typique 2026
- First token (temps avant le premier mot) : 200 ms à 1,5 s.
- Throughput : 30 à 150 tokens/seconde sur les modèles cloud.
- Réponse complète (500 tokens) : 3 à 15 s selon le modèle.
Pour un chatbot temps réel, viser < 1 s pour le first token, sinon l’utilisateur perçoit une latence inconfortable. Le streaming aide énormément côté UX.
Pour aller plus loin
- Token — définition — l’unité de facturation de l’inférence.
- LLM — définition — la brique qui fait l’inférence.
- Combien coûte un projet IA en PME — budget global.
- Audit IA Kezify — optimiser votre coût d’inférence.
Vous voulez maîtriser vos coûts d’inférence ? Audit IA Kezify.