Cache prompt OpenAI vs Anthropic — quel LLM est le moins cher avec cache

Verdict court

Le tarif tête de gondole ne reflète PAS le coût réel d’une production avec préfixes longs. Le cache prompt change tout.

Anthropic : cache explicite via cache_control. Cache read à -90 %. Cache write à +25 %. TTL 5 min ou 1 h.
OpenAI : cache automatique invisible. -50 % sur cache hits. Pas de contrôle utilisateur. TTL ~5-10 min.

Sur un agent typique avec 8k tokens de préfixe stable : Anthropic ~2× moins cher qu’OpenAI en réel — alors qu’OpenAI semble 20 % moins cher sans cache.

Comment ça marche

Anthropic

Vous marquez explicitement les blocs cachables :

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": "Ton long system prompt + RAG context (8000 tokens)...",
                "cache_control": {"type": "ephemeral"}  # cache 5 min
            },
            {
                "type": "text",
                "text": "Question utilisateur."
            }
        ]
    }
]

Premier appel : cache write (+25 % du tarif input). Appels suivants dans les 5 min : cache read (-90 % du tarif input).

OpenAI

Aucun marquage. OpenAI cache automatiquement les préfixes >1024 tokens. Si vous envoyez le même préfixe dans une fenêtre de 5-10 min, cache hit, -50 %.

messages = [
    {"role": "system", "content": "Long system prompt + RAG (8000 tokens)..."},
    {"role": "user", "content": "Question."}
]
# cache automatique, invisible

Plus simple côté code, moins de contrôle.

Comparaison économique réelle

Cas A — Agent customer support, 1000 requêtes/jour, 8k tokens préfixe stable

Sans cache :

	OpenAI GPT-5	Claude Sonnet
Input/jour	8M tokens	8M tokens
Output/jour	1M tokens	1M tokens
Coût/jour	$32	$39

Avec cache :

	OpenAI GPT-5	Claude Sonnet
Cache hit rate	~85 %	~95 % (ttl 1h actif)
Input cache miss	1.2M @ $2.50 = $3	0.4M @ $3 = $1.2
Input cache hit	6.8M @ $1.25 = $8.50	7.6M @ $0.30 = $2.28
Output	1M @ $12 = $12	1M @ $15 = $15
Coût/jour	$23.50	$18.48

Anthropic 21 % moins cher avec cache sur ce profil — alors que sans cache, Anthropic était 22 % plus cher.

Cas B — Pipeline batch nocturne, 10 000 requêtes en 1h, 12k préfixe identique

OpenAI cache TTL ~5-10 min : sur 1h de batch, beaucoup de cache misses si requêtes éparses.

Anthropic TTL 1h : cache rentable sur tout le batch.

	OpenAI	Anthropic (TTL 1h)
Cache miss	50 %	1 % (la première écriture)
Coût input total	$300	$36

Anthropic 8× moins cher sur ce profil batch.

Cas C — Chat conversationnel court, 1k tokens préfixe, cache peu pertinent

Ici, peu d’écart cache vs no-cache.

	OpenAI	Anthropic
Coût/req sans cache	$0.012	$0.015
Coût/req avec cache	$0.011	$0.013

OpenAI ~15 % moins cher dans tous les cas. Cache n’aide pas significativement.

Bonnes pratiques

Maximiser le cache hit rate

Stabiliser le préfixe : system prompt + RAG context AVANT la question utilisateur. Le cache ne marche que sur les préfixes.
Ordonner les éléments stables → variables : instructions globales > exemples few-shot > RAG context > question utilisateur.
Anthropic — TTL 1h pour les batchs : cache_control: {"type": "ephemeral", "ttl": "1h"} (depuis 2025).
Mesurer : Anthropic et OpenAI exposent cache_read_input_tokens et cache_creation_input_tokens (Anthropic) / cached_tokens (OpenAI). Surveillez le hit rate.

Pièges

Modifier 1 caractère du préfixe = invalidation totale. Évitez les timestamps dans le system prompt.
Ordre des messages compte : Anthropic invalide le cache au moindre changement d’ordre.
Variables interpolées en début de prompt = jamais cachable. Mettre les variables APRÈS les éléments stables.

Impact stratégique

Pour une PME en production sérieuse :

Architecturer pour le cache dès le PoC, pas après. Un re-architecture du prompt coûte une journée et économise 50-90 % de la facture LLM.
Préférer les fournisseurs qui exposent un cache contrôlable (Anthropic) si vos workloads ont des préfixes longs et stables.
Le tarif tête de gondole est trompeur — toujours benchmarker avec votre profil de cache réel.

Pour aller plus loin

Prompt caching — définition — concept général.
Comparatif OpenAI vs Anthropic pricing — vue globale.
Comparatif ChatGPT vs Claude — vue produit.
Audit IA Kezify — optimiser vos coûts LLM.