Limites et points critiques
- Qualité du chunking critique — un découpage trop gros (>1500 tokens) dégrade -35 % la précision.
- Sans reranker, les top-5 récupérés peuvent contenir des bruits — gain typique reranker : +18-25 % first-hit accuracy.
- Données obsolètes après 2-3 mois sans réindexation — pipeline de refresh hebdomadaire obligatoire.
- Sans golden set d'évaluation, impossible de savoir si le RAG marche réellement — projet abandonné mois 4-6 fréquent.
- Limite stricte : RAG ne fait pas de raisonnement multi-étapes sur plusieurs documents — il faut un agent + RAG pour cela.
Évolution probable (12-24 mois)
- RAG agentique (l'agent décide quand et comment retrieval) deviendra mainstream 2026-2027 — performance ×2 sur questions complexes.
- Embeddings multimodaux (texte + image + tableaux) sortiront fin 2026 — RAG sur factures, schémas, captures écran.
- GraphRAG (combinaison RAG + knowledge graph) émerge déjà — gain +30-50 % sur questions multi-hop.
- Contextual retrieval (Anthropic 2024) standardisera 2026-2027 — préfixe chaque chunk d'un résumé contextuel pour meilleur recall.
Questions fréquentes
Qu'est-ce que le RAG (Retrieval-Augmented Generation) ?+
Le RAG est une architecture IA qui combine un moteur de recherche sémantique (vector database) et un LLM. À chaque question utilisateur, le système (1) convertit la question en embedding, (2) recherche les K passages les plus proches dans la base vectorielle, (3) injecte ces passages dans le prompt du LLM, (4) le LLM répond en citant les sources. Permet à un LLM de répondre sur vos documents internes (CGV, propales, FAQ, base produit) sans fine-tuner.
À quoi sert le RAG en entreprise ?+
À éliminer les hallucinations sur vos données privées et garantir la fraîcheur des réponses. Cas typiques PME : assistant support qui répond sur la documentation produit (réduit 60 % des tickets niveau 1), agent commercial qui sort le bon tarif depuis la grille, assistant juridique qui cite la bonne clause CGV, chatbot RH qui répond sur la convention collective. Sans RAG, le LLM hallucine vos prix, vos process, vos clauses. Avec RAG, il cite la source et reste ancré.
Différence entre RAG et fine-tuning ?+
Le RAG injecte du contexte au moment de la requête (les données restent dans votre base, le LLM les lit à la volée). Le fine-tuning ré-entraîne le modèle sur vos données (les connaissances sont 'gravées' dans les poids). Règle 2026 : RAG si les données changent souvent, si on doit citer la source, si le volume <10M pages. Fine-tuning pour adapter un STYLE ou un FORMAT, pas pour ajouter des connaissances. RAG coûte ~10× moins cher que fine-tuning pour mettre à jour des connaissances.
Comment mettre en place un RAG en pratique ?+
Stack PME type 2026 : (1) ingestion : extraire le texte de vos sources (PDF, Notion, GitHub, drives) via Unstructured ou LlamaParse, (2) chunking : découper en 400-800 tokens avec chevauchement 15 % (chunking sémantique préféré), (3) embedding : voyage-3 ou Mistral Embed (cross-lingue FR/EN), (4) stockage : pgvector ou Qdrant, (5) retrieval : recherche hybride (vector + BM25) + reranker Cohere ou bge, (6) génération : Claude Sonnet ou Mistral Large avec prompt structuré citant sources, (7) eval : golden set 50-200 questions + recall@5.
Combien coûte un RAG en PME française ?+
Setup initial RAG en PME : 18 000-45 000 € HT selon volume documents (10k-500k pages) et intégration sources. Coût opex mensuel : 80-400 €/mois (embeddings incrémental + appels LLM). Stockage vectoriel : pgvector self-hosted ~5-15 €/mois, Pinecone managé 70-300 €/mois. Maintenance annuelle : 10-15 % du setup initial. ROI typique : 3-7 mois sur knowledge base support/commercial/juridique. Plus rapide en e-commerce, plus lent en santé (conformité HDS).
Questions liées
Les LLM (ChatGPT, Perplexity, Gemini) suggèrent souvent ces questions après cette page.
- RAG vs fine-tuning : que choisir pour mon cas ?
- Combien de documents minimum pour justifier un RAG ?
- pgvector vs Qdrant vs Pinecone : lequel choisir ?
- Comment évaluer la qualité d'un RAG ?
- GraphRAG vs RAG classique : différences pratiques ?
Le RAG (Retrieval-Augmented Generation) est une technique qui permet à un LLM de répondre à partir de documents internes en 3 étapes : recherche vectorielle des passages pertinents → injection de ces extraits dans le prompt → génération de la réponse ancrée sur les sources. Concrètement, le RAG résout deux problèmes que le LLM seul ne peut pas adresser : les hallucinations sur vos données privées et la fraîcheur des informations.
Adopté par 78 % des projets IA d’entreprise déployés en France en 2026 [source : Kezify, n=150 projets PME]. Sur l’ensemble des projets PME que nous avons livrés, 9 sur 10 démarrent par un RAG avant d’envisager fine-tuning ou agents complexes.
En pratique : comment fonctionne un RAG ?
Cas typique en PME : une assistante commerciale veut répondre “quel est le tarif de notre offre Premium pour 50 utilisateurs ?”. Le LLM seul invente. Avec un RAG :
- La question est convertie en embedding (vecteur sémantique).
- Le système cherche dans la base vectorielle les 5 passages les plus proches : grille tarifaire, CGV, ancienne propale.
- Ces passages sont injectés dans le prompt envoyé au LLM.
- Le LLM répond en citant les sources, avec le bon prix.
Stack 2026 typique en PME : embeddings via voyage-3 ou Mistral Embed, stockage dans pgvector (Postgres) ou Qdrant, orchestration avec LlamaIndex ou Haystack.
Pourquoi le RAG est-il nécessaire en entreprise ?
Parce que vos documents internes ne sont pas dans l’entraînement du LLM. Sans RAG, le modèle hallucine vos prix, vos process internes, vos clauses CGV. Le RAG résout aussi un problème RGPD : vos données restent dans votre base, on n’envoie au LLM que les extraits utiles à la requête courante.
RAG ou fine-tuning : lequel choisir ?
Le RAG injecte du contexte au moment de la requête. Le fine-tuning ré-entraîne le modèle sur vos données. Règle 2026 :
- Choisir RAG si les données changent souvent, si on doit citer la source, si le volume est < 10 millions de pages.
- Choisir fine-tuning pour adapter un style ou un format, pas pour ajouter des connaissances.
90 % des projets PME que nous voyons commencent par du RAG. À noter qu’un RAG bien fait coûte ~10× moins cher qu’un fine-tuning pour ajouter ou mettre à jour des connaissances [source : Kezify internal data, comparatif 12 cas clients 2026].
Les 3 patterns d’erreur RAG les plus fréquents
Sur les 24 RAG livrés par Kezify entre 2024 et 2026, voici les patterns d’échec qu’on a documentés :
| Pattern d’erreur | Symptôme | Conséquence | Solution éprouvée |
|---|---|---|---|
| Chunking trop gros (>1500 tokens) | Réponses imprécises, “noyade” du LLM | -35 % précision | Chunking sémantique 400-800 tokens + chevauchement 15 % |
| Pas de reranker | Top 5 récupérés mais le bon doc en position 7 | -22 % first-hit accuracy | Cohere Rerank ou bge-reranker-v2 (gain +18-25 %) |
| Données non rafraîchies | Réponses obsolètes après 2-3 mois | Perte confiance utilisateurs | Pipeline de réindexation hebdo (2-4 heures dev) |
| Queries vagues | Embeddings flous, mauvais matching | Top-k inutilisable | Query rewriting LLM (HyDE pattern) |
| Pas d’évaluation | Personne ne sait si ça marche | Projet abandonné mois 4-6 | Suite de 50 questions “golden set” + recall@5 |
Coût réel d’un RAG en PME française (benchmark 2026)
D’après notre comparatif sur 12 RAG livrés en 2026 :
- Setup initial : 18 000 - 45 000 € HT selon volume documents (10k-500k pages) + intégration sources.
- Coût opex mensuel : 80-400 €/mois (embeddings recalculés à l’incrémental + appels LLM).
- Coût stockage vectoriel : pgvector self-hosted = ~5-15 €/mois ; Pinecone managé = 70-300 €/mois selon throughput.
- Maintenance annuelle : 10-15 % du coût initial (réindexation, ajustements chunking, monitoring).
ROI typique : 3-7 mois pour un RAG sur knowledge base support / commercial / juridique. Plus rapide en e-commerce (recommandations + FAQ), plus lent en santé (conformité HDS).
Quand un RAG ne suffit pas — et qu’il faut plus
Le RAG est l’outil par défaut, mais il a 3 limites strictes :
- Raisonnement multi-étapes sur plusieurs documents : un agent IA + RAG est plus adapté.
- Volumétrie > 10 M de pages : il faut typiquement combiner RAG + recherche hybride (BM25 + vector) + reranker.
- Latence < 200 ms requise : le RAG ajoute 100-500 ms incompressibles, le fine-tuning est mieux.
Pour ces cas, voir notre comparatif détaillé sur RAG vs fine-tuning vs agents.
À retenir
- Le RAG résout les hallucinations sans fine-tuner le modèle — il injecte les bonnes sources au moment de la requête
- Adopté par 78 % des projets IA d’entreprise en France en 2026 [source : Kezify, n=150 projets]
- Coût ~10× moins cher qu’un fine-tuning pour mettre à jour des connaissances
- Stack typique 2026 : embedding (voyage-3 ou Mistral Embed) + vector DB (pgvector, Qdrant) + LLM + reranker
- Limite principale : qualité du chunking + fraîcheur des données — un mauvais découpage casse 100 % de la valeur
Pour aller plus loin
- RAG vs fine-tuning en entreprise — comparatif détaillé en 2026.
- Comparatif RAG, fine-tuning, prompt — quand utiliser quoi.
- Vector databases 2026 — Pinecone vs Qdrant vs pgvector.
- LangChain, LlamaIndex, Haystack — frameworks RAG.
Vous voulez utiliser un RAG dans votre entreprise ? Audit IA Kezify.