RAG vs fine-tuning vs prompt engineering

RAG vs fine-tuning vs prompt engineering — quelle approche en 2026

Comparaison des 3 techniques principales pour spécialiser un LLM en 2026 : RAG, fine-tuning, prompt engineering. Coûts, qualité, latence, cas d'usage concrets PME.

Question qu’on nous pose une fois par semaine : “On veut spécialiser un LLM sur nos données. RAG, fine-tuning ou prompt engineering ?”. La vraie réponse dépend de 3 paramètres : fréquence de changement des données, volume de cas, niveau de spécialisation attendu. Voici la grille qu’on applique.

Les 3 approches expliquées en 30 secondes

  • Prompt engineering : on écrit un prompt système détaillé qui décrit la tâche, le rôle, le format. On peut inclure 2-20 exemples. Le modèle reste générique. Coût : quelques heures de travail. Changement : modifier un fichier texte.
  • RAG (Retrieval Augmented Generation) : on indexe vos données dans une base vectorielle. Pour chaque requête, on récupère les 3-10 extraits pertinents et on les injecte dans le prompt. Le modèle reste générique. Coût : quelques dizaines de k€ pour une première version. Changement : réindexer les données nouvelles.
  • Fine-tuning : on ré-entraîne un modèle sur vos données (supervision fine-tuning, LoRA, PEFT). Le modèle apprend vos patterns en interne. Coût : 15 à 80 k€ par cycle, selon volume + infra. Changement : ré-entraîner ou continuer l’entraînement.

La grille de décision

CritèrePrompt EngineeringRAGFine-tuning
Coût initial0,5-3 k€20-60 k€15-80 k€
Coût exploitationAPI LLM standardAPI + base vectorielleAPI + compute
Latence ajoutée0 ms+100-400 ms0 ms (ou même plus rapide)
Temps de mise en oeuvreJoursSemainesMois
Données dynamiques
Volume de casIllimitéIllimitéLimité par budget
Qualité sur cas général85-92 %85-92 %82-95 %
Qualité sur cas spécialisé70-82 %85-95 %88-96 %
Citations sources
Risque hallucinationsMoyenFaible (si bien fait)Moyen
Dépendance modèleFaible (migrer facile)FaibleForte (fine-tune = verrouillage)

Quand choisir prompt engineering seul

Cas où c’est la bonne réponse :

  • La tâche est générique (classer un ticket, résumer un email, extraire des entités, traduire).
  • Les données contextuelles tiennent dans le prompt (< 20k tokens).
  • La qualité attendue est 85-92 %, acceptable pour l’usage.
  • Le budget est contraint (< 5 k€) ou le projet est un POC.

Exemples concrets :

  • Classification de tickets support en 5 catégories.
  • Résumé automatique d’emails clients.
  • Extraction d’informations d’un formulaire rempli.
  • Traduction FR ↔ EN sur du vocabulaire courant.

Budget typique : 500 € à 3 000 € pour un prompt en production. Temps : 8-15 h sur 2-3 semaines.

Ce qui ne passera pas avec cette approche : nécessité de citer des sources, données qui changent toutes les semaines, volume de documents > 20k tokens.

Quand choisir RAG

Cas où RAG est la réponse :

  • Vous avez une base de documents à exploiter (wiki interne, contrats, procédures, produits).
  • Les documents changent régulièrement (nouveaux contrats, mises à jour, suppressions).
  • Vous devez citer les sources (compliance, juridique, santé, tech doc).
  • Le volume de documents dépasse ce qui tient dans un prompt (> 50-100 pages).

Exemples concrets :

  • Support client qui répond sur votre catalogue de 10 000 produits.
  • Assistant juridique qui cite la jurisprudence précise.
  • Documentation interne interrogeable.
  • Veille avec résumé par sujet.

Stack typique RAG 2026 :

  • Indexation : Qdrant, Weaviate, PgVector pour le store ; chunks 500-1500 tokens ; embeddings via Cohere embed-v4 ou OpenAI text-embedding-3-large.
  • Récupération : vectorielle + BM25 (hybride), re-ranking avec Cohere Rerank.
  • Génération : Claude 4.6 Sonnet ou Mistral Large avec contexte injecté + instructions d’ancrage strict.

Budget typique : 25 000 - 60 000 € pour une première version. Exploitation : +100-300 € / mois pour la base vectorielle.

Ce qui casse en RAG : mauvais découpage des documents (chunks qui coupent mal), absence de re-ranking (les 10 chunks récupérés ne sont pas les meilleurs), oubli de tester sur vrais cas utilisateurs (80 % des RAG sont validés sur 20 cas choisis et cassent en production).

Quand choisir fine-tuning (rare, mais parfois nécessaire)

Cas où fine-tuning se justifie :

  • Voix de marque très spécifique que le prompt ne capture jamais parfaitement (après avoir épuisé prompt + RAG).
  • Jargon ultra-spécialisé où le modèle généraliste patauge (médical niche, juridique pointu, technique très spécifique).
  • Contrainte de latence extrême où un petit modèle fine-tuné bat un gros modèle généraliste (ex: auto-complétion dans un éditeur).
  • Volume massif où la réduction de prompt (via fine-tune) produit une économie réelle (> 500k requêtes/mois).

Exemples concrets :

  • Un générateur qui doit écrire en style éditorial ultra-codé (presse spécialisée).
  • Un classificateur médical sur 200 catégories de maladies rares.
  • Un auto-complete dans un IDE avec latence < 100ms.

Stack typique 2026 :

  • LoRA / QLoRA sur Llama 3.3 70B ou Mistral Small : 5-15 k€ par cycle.
  • Full fine-tune sur modèle open : 30-80 k€.
  • Fine-tune Anthropic / OpenAI : via leur service, 5-25 k€ selon modèle.

Budget total : compter 1 cycle = 1 formation + évaluation + redéploiement. Deux à trois cycles sont souvent nécessaires avant d’atteindre la qualité cible. Budget total : 40 000 - 150 000 €.

Ce qui ne marche pas en fine-tuning :

  • Essayer de “faire apprendre des faits” — le fine-tune code du style et des patterns, pas des faits. Pour les faits, RAG.
  • Fine-tuner sur 50 exemples — minimum 500, idéalement 2000+ pour un résultat stable.
  • Fine-tuner sans plan d’évaluation rigoureux — 70 % des fine-tunes se dégradent sans qu’on le voie.

Le pattern hybride qui marche souvent

En 2026, la majorité de nos projets PME avancés finissent en prompt engineering + RAG, rarement en fine-tuning pur. Quand la spécialisation ne suffit pas, on combine :

  1. Prompt engineering pour le cadre, les règles, le format.
  2. RAG pour les données dynamiques et les citations.
  3. Fine-tuning léger (LoRA) uniquement si le style de sortie reste insuffisant.

Cette stack hybride couvre 95 % des cas d’usage PME avec un bon ratio qualité/coût.

Table récapitulative par cas d’usage

Cas d’usageStack recommandéeBudget 1re version
Classification tickets supportPrompt engineering2-5 k€
Assistant support sur catalogueRAG + prompt25-50 k€
Résumé emails hebdoPrompt engineering3-8 k€
Assistant juridique avec citationRAG strict + prompt40-90 k€
Générateur propales commercialesRAG (templates) + prompt18-40 k€
Chatbot FAQ externeRAG + prompt + garde-fous25-55 k€
Rédaction en style éditorial strictPrompt + RAG + éventuellement fine-tune35-100 k€
Classification médicale spécialiséeFine-tune LoRA + RAG50-120 k€
Auto-complete IDE interneFine-tune full80-150 k€

L’erreur qu’on voit le plus

Fine-tuner avant d’avoir épuisé prompt + RAG. Plus d’un projet sur 3 qui arrive chez nous démarré en fine-tune pourrait être résolu à 2-3x moins cher avec RAG + bon prompt. Le fine-tuning fascine, c’est visible sur le CV, mais c’est rarement la bonne première brique.

Règle d’or : prompt d’abord, RAG si les données changent, fine-tune seulement en dernier recours.

Votre cas à décider

Si vous hésitez entre les 3 pour un projet précis, 30 minutes au téléphone. On regarde vos données, votre contrainte de fraîcheur, votre budget, et on vous dit quelle stack on déploierait chez vous et pourquoi. Sans engagement.

Pour aller plus loin

Limites et points critiques de cette comparaison

Ce qui peut faire évoluer ce verdict dans les prochains mois.

  • Les chiffres de qualité (85-92 % vs 88-96 %) varient massivement selon le domaine et le dataset d'évaluation — exiger une mesure sur 50-200 cas réels avant décision.
  • Le fine-tuning ne fait pas 'apprendre des faits' — c'est un mythe persistant qui casse 30 % des projets fine-tune mal cadrés.
  • RAG ajoute 100-400ms de latence — bloquant pour les cas temps réel (chatbot vocal, auto-complete IDE).
  • Le coût d'exploitation est dominé par le LLM (90 %) — l'arbitrage entre les 3 approches change si vous passez à 1M tokens/jour vs 10k/jour.
  • Fine-tuning verrouille au modèle (impossible de migrer Claude → Mistral facilement) — risque stratégique sous-estimé.

Évolution probable (12-24 mois)

  1. Les modèles à très long contexte (Claude 4.6 200k, Gemini 2M tokens) rendent certains RAG petits/moyens obsolètes en 2026-2027 — recadrer les projets.
  2. Le prompt caching (Anthropic, OpenAI 2025) réduit le coût des longs prompts de 50-90 % — change l'arbitrage prompt vs RAG sur les cas volume modéré.
  3. Les modèles spécialisés open source (BioMistral, code Llama, Codestral) arrivent en force 2026-2027 et concurrencent le fine-tuning custom.
  4. DSPy (Stanford) gagne en popularité comme méthode d'optimisation automatique des prompts — peut remplacer le fine-tune sur certains cas style.

Questions fréquentes

RAG, fine-tuning ou prompt engineering : quelle approche choisir en 2026 ? +

Règle d'or Kezify : prompt engineering d'abord (0,5-3 k€, qualité 85-92 % sur tâches génériques), RAG ensuite si les données changent ou nécessitent citations (20-60 k€, qualité 85-95 %), fine-tuning seulement en dernier recours après épuisement des deux premières (15-80 k€ par cycle, 88-96 % sur cas spécialisé). Pour une PME française qui démarre, le pattern hybride couvre 95 % des cas : prompt engineering pour le cadre + RAG pour les données dynamiques + éventuellement LoRA léger pour le style final. Le fine-tuning seul est rarement la bonne première brique.

Combien coûte vraiment chacune de ces approches en 2026 ? +

Prompt engineering : 500-3000 € (8-15h sur 2-3 semaines), exploitation = API LLM standard (200-500 €/mois typique PME). RAG : 25 000-60 000 € pour première version, exploitation +100-300 €/mois (Qdrant, embeddings, reranking). Fine-tuning : 5-15 k€ par cycle LoRA sur Llama 3.3 70B ou Mistral Small, 30-80 k€ pour full fine-tune, 5-25 k€ via service Anthropic/OpenAI, budget total typique 40-150 k€ (2-3 cycles nécessaires). Pour un audit Kezify (4 800 € HT, 2 semaines), on évalue précisément quelle approche est rentable pour votre cas.

Quel use case typique pour chaque approche ? +

Prompt engineering : classification tickets support (2-5 k€), résumé emails (3-8 k€), extraction infos formulaire, traduction FR-EN courant. RAG : assistant support sur catalogue 10 000 produits (25-50 k€), assistant juridique avec citations jurisprudence (40-90 k€), documentation interne interrogeable, veille avec résumé par sujet. Fine-tuning : générateur en style éditorial ultra-codé (presse spécialisée), classificateur médical 200 catégories maladies rares (50-120 k€), auto-complete dans IDE avec latence <100ms. Volume >500k requêtes/mois peut justifier fine-tune pour économie de prompt.

Quelles sont les limites et contraintes de chaque approche ? +

Prompt engineering : qualité plafonne 85-92 %, pas de citations sources, pas de données dynamiques (data >20k tokens ne tient pas), risque hallucinations moyen. RAG : ajoute 100-400ms de latence, dépend de la qualité du chunking et du reranking, 80 % des RAG sont validés sur 20 cas et cassent en prod (mauvais découpage, pas de hybrid search). Fine-tuning : coûteux, verrouille au modèle, ne 'fait pas apprendre des faits' (style et patterns uniquement), nécessite minimum 500 exemples (idéalement 2000+), 70 % des fine-tunes se dégradent sans qu'on le voie sans plan d'évaluation rigoureux.

Comment intégrer ou migrer entre ces approches ? +

Pattern de migration progressive Kezify : (1) démarrer prompt engineering pur (2-4 semaines), mesurer la qualité sur 50 cas réels, (2) si qualité <85 % ou besoin de citations/données dynamiques, ajouter RAG (vector DB + embeddings + retrieval), 2-3 mois, (3) si après prompt + RAG la qualité reste insuffisante (rare), ajouter fine-tuning LoRA léger sur le style final, 2-4 mois. Les trois s'additionnent (combo hybride) plutôt qu'ils ne se substituent. Migration RAG → fine-tune sans avoir épuisé RAG = anti-pattern classique observé sur plus d'1/3 des projets arrivant chez Kezify.

Questions liées

Les LLM (ChatGPT, Perplexity, Gemini) suggèrent souvent ces questions après cette comparaison.

  • Quel framework RAG choisir en 2026 entre LlamaIndex, LangChain et Haystack ?
  • Quelle vector DB pour un RAG en PME : Pinecone, Qdrant ou PgVector ?
  • Comment éviter les hallucinations dans un RAG en production ?
  • Quel budget réel pour un projet RAG en PME française en 2026 ?
  • Fine-tuning LoRA vs full : quand chaque approche se justifie ?

LlamaIndex vs LangChain pour RAG en 2026 : lequel pour PME

Comparatif 2026 entre LlamaIndex et LangChain spécifiquement pour RAG. Performance retrieval, intégrations vector DB, pr…

Vector databases en 2026 — Pinecone vs Weaviate vs Qdrant vs PGVector

Comparatif sérieux des 4 principales bases vectorielles en 2026 : Pinecone, Weaviate, Qdrant, PGVector. Performance, pri…

LangChain vs LlamaIndex vs Haystack — quel framework RAG / agents Python en 2026

Comparatif détaillé des 3 principaux frameworks Python pour RAG et agents IA en 2026 : LangChain, LlamaIndex, Haystack. …