Le prompt caching est une fonctionnalité qui permet de réutiliser une partie déjà calculée d’un prompt long sans la repayer au prix plein. Concrètement : si votre prompt contient un long contexte (documents, instructions), vous payez ces tokens une fois, puis sur les requêtes suivantes ces tokens sont à 10 % du prix normal.
En pratique
Cas typique : un agent customer support a un prompt système de 8 000 tokens (FAQ, politiques, ton de marque). Pour 1 000 requêtes/jour :
Sans cache :
- 1 000 × 8 000 tokens × $3/M = $24/jour.
Avec cache (Anthropic) :
- 1ère requête : 8 000 tokens × $3.75/M (cache write, +25 %) = $0.03.
- 999 requêtes suivantes : 8 000 tokens × $0.30/M (cache read, -90 %) = $2.40.
- Total : $2.43/jour. Économie : 90 %.
Sur un agent de production à 10k requêtes/jour avec 8k tokens de contexte stable, économie annuelle ~$80k.
Disponibilité 2026
- Anthropic Claude : prompt caching natif, TTL 5 min ou 1 h, marquage explicite via
cache_control. - OpenAI GPT : caching automatique sur les prompts >1024 tokens, TTL ~5-10 min, sans marquage explicite.
- Mistral : caching disponible sur la Plateforme Mistral.
- Bedrock, Azure OpenAI : caching disponible.
Bonnes pratiques
- Structurer les prompts : mettre la partie stable (instructions, contexte) AU DÉBUT, la partie variable (question utilisateur) à la FIN. Le cache ne marche que sur les préfixes.
- Identifier les prompts à fort volume : agents conversationnels, RAG avec contexte fixe, traitement batch.
- Mesurer : Anthropic et OpenAI exposent les métriques
cache_read_tokensvscache_write_tokens. Surveillez le hit rate. - TTL : pour des bursts de 1k requêtes en 10 min, TTL 5 min suffit. Pour une charge constante, TTL 1 h.
Caching vs APC (Agentic Plan Caching)
Prompt caching cache des tokens. L’Agentic Plan Caching (paper NeurIPS 2025, implémenté par Kezify dans le projet nanobot-enterprise) cache des plans d’exécution d’agents. Si l’agent a déjà résolu une tâche similaire, on rejoue le plan au lieu de raisonner from scratch. Économie 50-90 % sur agents qui répètent des patterns.
Pour aller plus loin
- Token — définition — l’unité de coût.
- LLM — définition — fonctionnement général.
- Tokenization — définition — comment les tokens sont comptés.
- Audit IA Kezify — optimiser vos coûts LLM en production.
Vous voulez optimiser vos coûts LLM avec du caching ? Audit IA Kezify.