L’inférence d’un LLM, c’est l’acte de générer une réponse à partir d’un prompt. C’est ce qui se passe à chaque appel API. À ne pas confondre avec l’entraînement : entraîner un LLM coûte des dizaines de millions d’euros et se fait une fois. L’inférence se fait des milliards de fois par jour, et c’est ce que vous payez en tant qu’utilisateur en API.
Vs entraînement
| Entraînement | Inférence | |
|---|---|---|
| Quand | 1 fois (ou par release majeure) | À chaque requête |
| Coût | 10M à 500M $ | 0,001 à 0,15 $ / requête |
| Qui | OpenAI, Anthropic, Mistral, Google | Vous, à l’usage |
| Hardware | Milliers de GPUs H100 | Quelques GPUs ou même CPU |
| Durée | Semaines à mois | Millisecondes à secondes |
Vous, en PME, vous ne faites jamais d’entraînement. Vous faites de l’inférence (et éventuellement du fine-tuning, qui est de l’entraînement léger sur un modèle déjà existant).
Coût par requête 2026
Ordres de grandeur pour une requête PME typique (1 500 tokens en entrée, 500 en sortie) :
- Claude Haiku 4.5 : ~0,001 $
- Mistral Small : ~0,001 $
- GPT-5-mini : ~0,002 $
- Claude Sonnet 4.6 : ~0,008 $
- GPT-5 : ~0,015 $
- Claude Opus 4.6 : ~0,04 $
Sur 100 000 requêtes par mois en Sonnet, on est à 800 $/mois. C’est devenu la dominante du coût opérationnel d’un projet IA, devant les serveurs.
Latence typique 2026
- First token (temps avant le premier mot) : 200 ms à 1,5 s.
- Throughput : 30 à 150 tokens/seconde sur les modèles cloud.
- Réponse complète (500 tokens) : 3 à 15 s selon le modèle.
Pour un chatbot temps réel, viser < 1 s pour le first token, sinon l’utilisateur perçoit une latence inconfortable. Le streaming aide énormément côté UX.
Pour aller plus loin
- Token — définition — l’unité de facturation de l’inférence.
- LLM — définition — la brique qui fait l’inférence.
- Combien coûte un projet IA en PME — budget global.
- Audit IA Kezify — optimiser votre coût d’inférence.
Vous voulez maîtriser vos coûts d’inférence ? Audit IA Kezify.