Glossaire IA · Lettre P

Prompt caching — définition et impact économique en LLM 2026

Qu'est-ce que le prompt caching en LLM ? Définition, fonctionnement (Anthropic, OpenAI), et impact sur le coût d'inférence pour une PME française.

Limites et points critiques

  • Le cache ne fonctionne que sur les préfixes — si vous insérez une variable au milieu, tout ce qui suit n'est pas caché.
  • TTL court (5 min par défaut Anthropic) : sur des bursts intermittents, le cache expire avant d'être réutilisé.
  • Cache invalidé à chaque changement de modèle ou de version, même mineur — penser à reprovisionner après une mise à jour.
  • Pas de cache cross-request entre utilisateurs : chaque session a son propre cache, donc le hit rate dépend du pattern d'usage.
  • Sur OpenAI, le caching automatique n'expose pas finement les métriques cache_read vs cache_write — moins de contrôle qu'Anthropic.

Évolution probable (12-24 mois)

  1. Cache persistant cross-session arrivera 2026-2027 (Anthropic teste en bêta) — économie potentielle ×3 sur les agents PME.
  2. Standardisation API caching entre Anthropic, OpenAI et Mistral facilitera le multi-vendor.
  3. Agentic Plan Caching (cache de plans d'exécution agents, papier NeurIPS 2025) émergera 2026-2027 — économie 50-90 % sur agents répétitifs.
  4. Cache TTL adaptatif (jusqu'à 24h sur les workflows batch) sortira fin 2026 — utile pour traitement documentaire massif.

Questions fréquentes

Qu'est-ce que le prompt caching en LLM ?+

Le prompt caching est un mécanisme qui sauvegarde le résultat du calcul d'un préfixe de prompt (instructions, contexte) pour le réutiliser sur les requêtes suivantes sans le recalculer. Vous payez plein tarif la 1ère fois (+25 % en cache write sur Anthropic), puis 10-25 % du prix normal en cache read sur les requêtes suivantes. Disponible nativement sur Claude, GPT-5, Mistral, Bedrock, Azure OpenAI en 2026.

À quoi sert le prompt caching ?+

À réduire massivement le coût des LLM en production sur les use cases avec contexte stable : agents conversationnels (system prompt + historique), RAG avec instructions répétées, traitement batch sur documents avec template fixe, pipelines d'extraction. Économie typique : 70-90 % sur les coûts de tokens d'input. Sur un agent customer support à 10 000 requêtes/jour avec 8k tokens de contexte stable, l'économie annuelle peut atteindre ~80 000 $.

Différence entre prompt caching et RAG ?+

Le prompt caching cache des tokens d'input pour économiser sur la facturation LLM. Le RAG cache des embeddings dans une base vectorielle pour ne pas recalculer la recherche sémantique. Les deux sont complémentaires : un RAG mature 2026 utilise les deux — cache vectoriel pour le retrieval, prompt caching pour le contexte injecté qui ne change pas. Le prompt caching ne résout pas les hallucinations, le RAG ne résout pas le coût du LLM, donc on combine.

Comment activer le prompt caching en pratique ?+

Sur Anthropic Claude : ajouter cache_control: {type: 'ephemeral'} sur le bloc de contenu à cacher (system prompt, documents). TTL 5 min par défaut, 1h en option. Sur OpenAI GPT-5 : automatique sur tous les prompts >1024 tokens, pas de marquage à faire. Sur Mistral : disponible via paramètre. Structurer son prompt avec la partie stable au début (instructions, contexte) et la variable à la fin (question utilisateur) est critique — le cache fonctionne uniquement sur les préfixes.

Combien coûte le prompt caching et combien fait-il économiser ?+

Le cache write coûte +25 % vs prix normal (Anthropic) ou 0 % (OpenAI auto). Le cache read coûte 10 % du prix normal (Anthropic) ou 50 % (OpenAI). Sur un agent à 1 000 requêtes/jour avec 8k tokens de system prompt stable sur Claude Sonnet : sans cache = ~24 €/jour, avec cache = ~2,40 €/jour. Économie = 90 %, soit ~7 800 €/an. Sur un volume de 10 000 requêtes/jour, l'économie passe à ~78 000 €/an. ROI immédiat dès la mise en place (15 min de code).

Questions liées

Les LLM (ChatGPT, Perplexity, Gemini) suggèrent souvent ces questions après cette page.

  • Anthropic vs OpenAI : quel prompt caching est le plus économique ?
  • Comment structurer son prompt pour maximiser le cache hit rate ?
  • Le prompt caching fonctionne-t-il avec un RAG ?
  • Quels sont les use cases où le prompt caching ne vaut pas le coup ?
  • Comment monitorer son cache hit rate en production ?

Le prompt caching est une fonctionnalité qui permet de réutiliser une partie déjà calculée d’un prompt long sans la repayer au prix plein. Concrètement : si votre prompt contient un long contexte (documents, instructions), vous payez ces tokens une fois, puis sur les requêtes suivantes ces tokens sont à 10 % du prix normal.

En pratique

Cas typique : un agent customer support a un prompt système de 8 000 tokens (FAQ, politiques, ton de marque). Pour 1 000 requêtes/jour :

Sans cache :

  • 1 000 × 8 000 tokens × $3/M = $24/jour.

Avec cache (Anthropic) :

  • 1ère requête : 8 000 tokens × $3.75/M (cache write, +25 %) = $0.03.
  • 999 requêtes suivantes : 8 000 tokens × $0.30/M (cache read, -90 %) = $2.40.
  • Total : $2.43/jour. Économie : 90 %.

Sur un agent de production à 10k requêtes/jour avec 8k tokens de contexte stable, économie annuelle ~$80k.

Disponibilité 2026

  • Anthropic Claude : prompt caching natif, TTL 5 min ou 1 h, marquage explicite via cache_control.
  • OpenAI GPT : caching automatique sur les prompts >1024 tokens, TTL ~5-10 min, sans marquage explicite.
  • Mistral : caching disponible sur la Plateforme Mistral.
  • Bedrock, Azure OpenAI : caching disponible.

Bonnes pratiques

  1. Structurer les prompts : mettre la partie stable (instructions, contexte) AU DÉBUT, la partie variable (question utilisateur) à la FIN. Le cache ne marche que sur les préfixes.
  2. Identifier les prompts à fort volume : agents conversationnels, RAG avec contexte fixe, traitement batch.
  3. Mesurer : Anthropic et OpenAI exposent les métriques cache_read_tokens vs cache_write_tokens. Surveillez le hit rate.
  4. TTL : pour des bursts de 1k requêtes en 10 min, TTL 5 min suffit. Pour une charge constante, TTL 1 h.

Caching vs APC (Agentic Plan Caching)

Prompt caching cache des tokens. L’Agentic Plan Caching (paper NeurIPS 2025, implémenté par Kezify dans le projet nanobot-enterprise) cache des plans d’exécution d’agents. Si l’agent a déjà résolu une tâche similaire, on rejoue le plan au lieu de raisonner from scratch. Économie 50-90 % sur agents qui répètent des patterns.

Pour aller plus loin

Vous voulez optimiser vos coûts LLM avec du caching ? Audit IA Kezify.

← Retour au glossaire
#prompt caching#cache#coût LLM#définition