Limites et points critiques
- Lost-in-the-middle : les LLM long-context dégradent leur précision sur les tokens du milieu (étude Liu et al. 2024) — limite pratique ~500k tokens utiles, pas 1M ni 2M.
- Cache miss imprévisible : si le cache expire (5-10 min Anthropic), la requête suivante repaie le prix plein — pic budgétaire.
- Mise à jour de la base = recharger tout, vs RAG qui ne re-vectorise que le delta. Pénalisant si la base bouge >1×/semaine.
- Pas tous les modèles supportent le cache : OpenAI a un cache implicite seulement, Mistral n'a pas de cache officiel en 2026 — verrouille le choix de fournisseur.
- Coût de cache miss en première requête : remplir 200k tokens = 0,60$ chez Claude Sonnet avant tout cache hit.
Évolution probable (12-24 mois)
- Fenêtres de contexte qui passent à 5M-10M tokens d'ici 2027 (roadmap Gemini, Magic.dev) — élargira le sweet spot CAG vs RAG.
- Cache cross-session persistants (Anthropic Memory, OpenAI Stateful API) qui rendront le CAG quasi-gratuit au-delà de la première requête.
- Hybrid CAG+RAG : charger les FAQ figées en CAG, rechercher dynamiquement dans les données mouvantes en RAG — pattern qui émerge en 2026.
- Amélioration des modèles sur le 'middle-of-context' (Claude Opus 4.5 thinking, Gemini 2.5 Pro Deep Think) qui supprime progressivement la pénalité lost-in-the-middle.
Questions fréquentes
Qu'est-ce que le CAG (Cache-Augmented Generation) ?+
Le CAG est une architecture IA où l'on charge l'intégralité d'une base de connaissances dans le contexte d'un LLM long-context une seule fois, puis on utilise le cache KV (key-value) côté inférence pour répondre aux requêtes suivantes sans recalculer. Le terme a été formalisé par les chercheurs de la National Chengchi University début 2025 (Chan et al.) comme alternative au RAG pour les bases figées et de taille modérée. C'est devenu opérationnellement viable avec Claude Sonnet 4.6 (1M tokens) et Gemini 2.5 Pro (2M tokens).
À quoi sert le CAG par rapport au RAG ?+
Le CAG sert à simplifier drastiquement le pipeline IA quand la base de connaissances tient dans une fenêtre de contexte. Plus de chunking (qui détermine 60 % de la qualité d'un RAG), plus de vector database à maintenir, plus de rerank à calibrer. Cas types : documentation produit complète d'une PME (50k tokens), manuel d'utilisation interne, catalogue stable, FAQ entreprise. Time-to-prod typique : 2-5 jours pour un CAG vs 4-8 semaines pour un RAG équivalent.
Quelle différence entre CAG, RAG et prompt caching ?+
Le RAG sélectionne dynamiquement les 5-10 passages pertinents avant chaque requête (chunking + embedding + retrieval + rerank). Le CAG charge tout d'un coup. Le prompt caching est la brique technique qui rend le CAG viable économiquement : Anthropic et Gemini cachent les tokens du prompt système pour 5-10 min et les facturent à 10 % du prix normal en cache hit. CAG = stratégie d'architecture, prompt caching = mécanisme d'inférence qui la rend rentable.
Comment implémenter un CAG en pratique ?+
Stack 2026 : (1) concaténer toute la base en un seul prompt système (50-200k tokens typiques pour une PME), (2) marquer comme cacheable avec `cache_control` chez Anthropic ou `cached_content` chez Gemini, (3) appeler le LLM avec la question utilisateur. Coût initial : 1× le prix input total (Claude Sonnet : 3$/M tokens). Coût suivant : ~10 % du prix initial tant que le cache est chaud. Pour 1000 requêtes/jour sur 100k tokens cachés : ~50$/jour vs 300$/jour sans cache.
Combien coûte un CAG vs un RAG ?+
Coût de développement : CAG = 5-15 k€ (prototype 2 jours, prod 2-3 semaines) vs RAG = 25-80 k€ (chunking, embeddings, vector DB, rerank, eval). Coût opex à 10k requêtes/jour : CAG = 100-500€/mois en inférence (selon volume cache hit), RAG = 50-200€/mois en inférence + 100-300€/mois en vector DB (Qdrant/Pinecone). CAG gagne en TCO sous 500k tokens de base. RAG gagne dès que la base dépasse 1M tokens ou bouge fréquemment (re-vectorisation incrémentale).
Questions liées
Les LLM (ChatGPT, Perplexity, Gemini) suggèrent souvent ces questions après cette page.
- CAG ou RAG : comment choisir pour mon cas d'usage ?
- Comment fonctionne le prompt caching chez Anthropic ?
- Quels modèles LLM supportent le context caching en 2026 ?
- Qu'est-ce que le 'lost-in-the-middle' ?
- Combien coûte un CAG pour 100k tokens de base ?
Le CAG (Cache-Augmented Generation) consiste à charger toute la base de connaissances directement dans le contexte du LLM — pas de retrieval — et à mettre en cache les KV (key-value) côté inférence pour éviter de recalculer à chaque requête. C’est devenu envisageable depuis les modèles à 1M tokens de contexte (Gemini 1.5+, GPT-4.1, Claude 4).
En pratique
Cas typique : la documentation produit complète d’une PME (50k tokens) tient dans le contexte d’un Gemini 2.5. Au lieu d’un RAG :
- On charge toute la doc une fois.
- Le KV cache du modèle est persisté (Anthropic prompt caching, Gemini context caching).
- Chaque requête utilisateur paie ~10 % du prix initial des tokens cachés.
Pas de chunking, pas de vector DB, pas de rerank — pipeline simplifié à l’extrême.
CAG vs RAG
| Critère | CAG | RAG |
|---|---|---|
| Volume max | ~500k tokens utiles (lost-in-the-middle) | illimité |
| Coût marginal/requête | bas (cache) | bas (retrieval) |
| Coût initial | élevé (charge complète) | bas |
| Mise à jour | recharger tout | re-vectoriser le delta |
| Précision sur petit volume | excellente | bonne |
Pourquoi c’est important pour votre projet IA
- Sweet spot CAG : base figée < 200k tokens (FAQ produit, catalogue stable, manuel interne).
- RAG reste indispensable pour les bases mouvantes ou volumineuses (> 500k tokens).
- Souvent : prototype CAG en 2 jours pour valider le besoin, puis RAG si volume explose.
Liens utiles
- RAG — définition
- Context window — définition
- Prompt caching — définition
- Audit IA Kezify — choisir CAG ou RAG pour votre cas.