Glossaire IA · Lettre I

Inférence LLM — définition, coût et latence en 2026

Qu'est-ce que l'inférence d'un LLM ? Définition, différence avec l'entraînement, coût par requête et latence typique en 2026 pour une PME française.

L’inférence d’un LLM, c’est l’acte de générer une réponse à partir d’un prompt. C’est ce qui se passe à chaque appel API. À ne pas confondre avec l’entraînement : entraîner un LLM coûte des dizaines de millions d’euros et se fait une fois. L’inférence se fait des milliards de fois par jour, et c’est ce que vous payez en tant qu’utilisateur en API.

Vs entraînement

EntraînementInférence
Quand1 fois (ou par release majeure)À chaque requête
Coût10M à 500M $0,001 à 0,15 $ / requête
QuiOpenAI, Anthropic, Mistral, GoogleVous, à l’usage
HardwareMilliers de GPUs H100Quelques GPUs ou même CPU
DuréeSemaines à moisMillisecondes à secondes

Vous, en PME, vous ne faites jamais d’entraînement. Vous faites de l’inférence (et éventuellement du fine-tuning, qui est de l’entraînement léger sur un modèle déjà existant).

Coût par requête 2026

Ordres de grandeur pour une requête PME typique (1 500 tokens en entrée, 500 en sortie) :

  • Claude Haiku 4.5 : ~0,001 $
  • Mistral Small : ~0,001 $
  • GPT-5-mini : ~0,002 $
  • Claude Sonnet 4.6 : ~0,008 $
  • GPT-5 : ~0,015 $
  • Claude Opus 4.6 : ~0,04 $

Sur 100 000 requêtes par mois en Sonnet, on est à 800 $/mois. C’est devenu la dominante du coût opérationnel d’un projet IA, devant les serveurs.

Latence typique 2026

  • First token (temps avant le premier mot) : 200 ms à 1,5 s.
  • Throughput : 30 à 150 tokens/seconde sur les modèles cloud.
  • Réponse complète (500 tokens) : 3 à 15 s selon le modèle.

Pour un chatbot temps réel, viser < 1 s pour le first token, sinon l’utilisateur perçoit une latence inconfortable. Le streaming aide énormément côté UX.

Pour aller plus loin

Vous voulez maîtriser vos coûts d’inférence ? Audit IA Kezify.

← Retour au glossaire
#inférence#définition#LLM#coût