Anthropic propose le cache le plus agressif (-90 % sur cache read), explicite et contrôlable. OpenAI fait un caching automatique invisible (-50 %) sans contrôle utilisateur. Pour des agents avec préfixes longs et stables, Anthropic est largement moins cher en réel — souvent l'inverse de ce que suggèrent les tarifs tête de gondole.
Verdict court
Le tarif tête de gondole ne reflète PAS le coût réel d’une production avec préfixes longs. Le cache prompt change tout.
- Anthropic : cache explicite via
cache_control. Cache read à -90 %. Cache write à +25 %. TTL 5 min ou 1 h. - OpenAI : cache automatique invisible. -50 % sur cache hits. Pas de contrôle utilisateur. TTL ~5-10 min.
Sur un agent typique avec 8k tokens de préfixe stable : Anthropic ~2× moins cher qu’OpenAI en réel — alors qu’OpenAI semble 20 % moins cher sans cache.
Comment ça marche
Anthropic
Vous marquez explicitement les blocs cachables :
messages = [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Ton long system prompt + RAG context (8000 tokens)...",
"cache_control": {"type": "ephemeral"} # cache 5 min
},
{
"type": "text",
"text": "Question utilisateur."
}
]
}
]
Premier appel : cache write (+25 % du tarif input). Appels suivants dans les 5 min : cache read (-90 % du tarif input).
OpenAI
Aucun marquage. OpenAI cache automatiquement les préfixes >1024 tokens. Si vous envoyez le même préfixe dans une fenêtre de 5-10 min, cache hit, -50 %.
messages = [
{"role": "system", "content": "Long system prompt + RAG (8000 tokens)..."},
{"role": "user", "content": "Question."}
]
# cache automatique, invisible
Plus simple côté code, moins de contrôle.
Comparaison économique réelle
Cas A — Agent customer support, 1000 requêtes/jour, 8k tokens préfixe stable
Sans cache :
| OpenAI GPT-5 | Claude Sonnet | |
|---|---|---|
| Input/jour | 8M tokens | 8M tokens |
| Output/jour | 1M tokens | 1M tokens |
| Coût/jour | $32 | $39 |
Avec cache :
| OpenAI GPT-5 | Claude Sonnet | |
|---|---|---|
| Cache hit rate | ~85 % | ~95 % (ttl 1h actif) |
| Input cache miss | 1.2M @ $2.50 = $3 | 0.4M @ $3 = $1.2 |
| Input cache hit | 6.8M @ $1.25 = $8.50 | 7.6M @ $0.30 = $2.28 |
| Output | 1M @ $12 = $12 | 1M @ $15 = $15 |
| Coût/jour | $23.50 | $18.48 |
Anthropic 21 % moins cher avec cache sur ce profil — alors que sans cache, Anthropic était 22 % plus cher.
Cas B — Pipeline batch nocturne, 10 000 requêtes en 1h, 12k préfixe identique
OpenAI cache TTL ~5-10 min : sur 1h de batch, beaucoup de cache misses si requêtes éparses.
Anthropic TTL 1h : cache rentable sur tout le batch.
| OpenAI | Anthropic (TTL 1h) | |
|---|---|---|
| Cache miss | 50 % | 1 % (la première écriture) |
| Coût input total | $300 | $36 |
Anthropic 8× moins cher sur ce profil batch.
Cas C — Chat conversationnel court, 1k tokens préfixe, cache peu pertinent
Ici, peu d’écart cache vs no-cache.
| OpenAI | Anthropic | |
|---|---|---|
| Coût/req sans cache | $0.012 | $0.015 |
| Coût/req avec cache | $0.011 | $0.013 |
OpenAI ~15 % moins cher dans tous les cas. Cache n’aide pas significativement.
Bonnes pratiques
Maximiser le cache hit rate
- Stabiliser le préfixe : system prompt + RAG context AVANT la question utilisateur. Le cache ne marche que sur les préfixes.
- Ordonner les éléments stables → variables : instructions globales > exemples few-shot > RAG context > question utilisateur.
- Anthropic — TTL 1h pour les batchs :
cache_control: {"type": "ephemeral", "ttl": "1h"}(depuis 2025). - Mesurer : Anthropic et OpenAI exposent
cache_read_input_tokensetcache_creation_input_tokens(Anthropic) /cached_tokens(OpenAI). Surveillez le hit rate.
Pièges
- Modifier 1 caractère du préfixe = invalidation totale. Évitez les timestamps dans le system prompt.
- Ordre des messages compte : Anthropic invalide le cache au moindre changement d’ordre.
- Variables interpolées en début de prompt = jamais cachable. Mettre les variables APRÈS les éléments stables.
Impact stratégique
Pour une PME en production sérieuse :
- Architecturer pour le cache dès le PoC, pas après. Un re-architecture du prompt coûte une journée et économise 50-90 % de la facture LLM.
- Préférer les fournisseurs qui exposent un cache contrôlable (Anthropic) si vos workloads ont des préfixes longs et stables.
- Le tarif tête de gondole est trompeur — toujours benchmarker avec votre profil de cache réel.
Pour aller plus loin
- Prompt caching — définition — concept général.
- Comparatif OpenAI vs Anthropic pricing — vue globale.
- Comparatif ChatGPT vs Claude — vue produit.
- Audit IA Kezify — optimiser vos coûts LLM.