Glossaire IA · Lettre P

Prompt caching — définition et impact économique en LLM 2026

Qu'est-ce que le prompt caching en LLM ? Définition, fonctionnement (Anthropic, OpenAI), et impact sur le coût d'inférence pour une PME française.

Le prompt caching est une fonctionnalité qui permet de réutiliser une partie déjà calculée d’un prompt long sans la repayer au prix plein. Concrètement : si votre prompt contient un long contexte (documents, instructions), vous payez ces tokens une fois, puis sur les requêtes suivantes ces tokens sont à 10 % du prix normal.

En pratique

Cas typique : un agent customer support a un prompt système de 8 000 tokens (FAQ, politiques, ton de marque). Pour 1 000 requêtes/jour :

Sans cache :

  • 1 000 × 8 000 tokens × $3/M = $24/jour.

Avec cache (Anthropic) :

  • 1ère requête : 8 000 tokens × $3.75/M (cache write, +25 %) = $0.03.
  • 999 requêtes suivantes : 8 000 tokens × $0.30/M (cache read, -90 %) = $2.40.
  • Total : $2.43/jour. Économie : 90 %.

Sur un agent de production à 10k requêtes/jour avec 8k tokens de contexte stable, économie annuelle ~$80k.

Disponibilité 2026

  • Anthropic Claude : prompt caching natif, TTL 5 min ou 1 h, marquage explicite via cache_control.
  • OpenAI GPT : caching automatique sur les prompts >1024 tokens, TTL ~5-10 min, sans marquage explicite.
  • Mistral : caching disponible sur la Plateforme Mistral.
  • Bedrock, Azure OpenAI : caching disponible.

Bonnes pratiques

  1. Structurer les prompts : mettre la partie stable (instructions, contexte) AU DÉBUT, la partie variable (question utilisateur) à la FIN. Le cache ne marche que sur les préfixes.
  2. Identifier les prompts à fort volume : agents conversationnels, RAG avec contexte fixe, traitement batch.
  3. Mesurer : Anthropic et OpenAI exposent les métriques cache_read_tokens vs cache_write_tokens. Surveillez le hit rate.
  4. TTL : pour des bursts de 1k requêtes en 10 min, TTL 5 min suffit. Pour une charge constante, TTL 1 h.

Caching vs APC (Agentic Plan Caching)

Prompt caching cache des tokens. L’Agentic Plan Caching (paper NeurIPS 2025, implémenté par Kezify dans le projet nanobot-enterprise) cache des plans d’exécution d’agents. Si l’agent a déjà résolu une tâche similaire, on rejoue le plan au lieu de raisonner from scratch. Économie 50-90 % sur agents qui répètent des patterns.

Pour aller plus loin

Vous voulez optimiser vos coûts LLM avec du caching ? Audit IA Kezify.

← Retour au glossaire
#prompt caching#cache#coût LLM#définition