Inférence LLM — définition, coût et latence en 2026

L’inférence d’un LLM, c’est l’acte de générer une réponse à partir d’un prompt. C’est ce qui se passe à chaque appel API. À ne pas confondre avec l’entraînement : entraîner un LLM coûte des dizaines de millions d’euros et se fait une fois. L’inférence se fait des milliards de fois par jour, et c’est ce que vous payez en tant qu’utilisateur en API.

Vs entraînement

	Entraînement	Inférence
Quand	1 fois (ou par release majeure)	À chaque requête
Coût	10M à 500M $	0,001 à 0,15 $ / requête
Qui	OpenAI, Anthropic, Mistral, Google	Vous, à l’usage
Hardware	Milliers de GPUs H100	Quelques GPUs ou même CPU
Durée	Semaines à mois	Millisecondes à secondes

Vous, en PME, vous ne faites jamais d’entraînement. Vous faites de l’inférence (et éventuellement du fine-tuning, qui est de l’entraînement léger sur un modèle déjà existant).

Coût par requête 2026

Ordres de grandeur pour une requête PME typique (1 500 tokens en entrée, 500 en sortie) :

Claude Haiku 4.5 : ~0,001 $
Mistral Small : ~0,001 $
GPT-5-mini : ~0,002 $
Claude Sonnet 4.6 : ~0,008 $
GPT-5 : ~0,015 $
Claude Opus 4.6 : ~0,04 $

Sur 100 000 requêtes par mois en Sonnet, on est à 800 $/mois. C’est devenu la dominante du coût opérationnel d’un projet IA, devant les serveurs.

Latence typique 2026

First token (temps avant le premier mot) : 200 ms à 1,5 s.
Throughput : 30 à 150 tokens/seconde sur les modèles cloud.
Réponse complète (500 tokens) : 3 à 15 s selon le modèle.

Pour un chatbot temps réel, viser < 1 s pour le first token, sinon l’utilisateur perçoit une latence inconfortable. Le streaming aide énormément côté UX.

Pour aller plus loin

Token — définition — l’unité de facturation de l’inférence.
LLM — définition — la brique qui fait l’inférence.
Combien coûte un projet IA en PME — budget global.
Audit IA Kezify — optimiser votre coût d’inférence.

Vous voulez maîtriser vos coûts d’inférence ? Audit IA Kezify.