RAG vs fine-tuning vs prompt engineering — quelle approche en 2026

Question qu’on nous pose une fois par semaine : “On veut spécialiser un LLM sur nos données. RAG, fine-tuning ou prompt engineering ?”. La vraie réponse dépend de 3 paramètres : fréquence de changement des données, volume de cas, niveau de spécialisation attendu. Voici la grille qu’on applique.

Les 3 approches expliquées en 30 secondes

Prompt engineering : on écrit un prompt système détaillé qui décrit la tâche, le rôle, le format. On peut inclure 2-20 exemples. Le modèle reste générique. Coût : quelques heures de travail. Changement : modifier un fichier texte.
RAG (Retrieval Augmented Generation) : on indexe vos données dans une base vectorielle. Pour chaque requête, on récupère les 3-10 extraits pertinents et on les injecte dans le prompt. Le modèle reste générique. Coût : quelques dizaines de k€ pour une première version. Changement : réindexer les données nouvelles.
Fine-tuning : on ré-entraîne un modèle sur vos données (supervision fine-tuning, LoRA, PEFT). Le modèle apprend vos patterns en interne. Coût : 15 à 80 k€ par cycle, selon volume + infra. Changement : ré-entraîner ou continuer l’entraînement.

La grille de décision

Critère	Prompt Engineering	RAG	Fine-tuning
Coût initial	0,5-3 k€	20-60 k€	15-80 k€
Coût exploitation	API LLM standard	API + base vectorielle	API + compute
Latence ajoutée	0 ms	+100-400 ms	0 ms (ou même plus rapide)
Temps de mise en oeuvre	Jours	Semaines	Mois
Données dynamiques	❌	✅	❌
Volume de cas	Illimité	Illimité	Limité par budget
Qualité sur cas général	85-92 %	85-92 %	82-95 %
Qualité sur cas spécialisé	70-82 %	85-95 %	88-96 %
Citations sources	❌	✅	❌
Risque hallucinations	Moyen	Faible (si bien fait)	Moyen
Dépendance modèle	Faible (migrer facile)	Faible	Forte (fine-tune = verrouillage)

Quand choisir prompt engineering seul

Cas où c’est la bonne réponse :

La tâche est générique (classer un ticket, résumer un email, extraire des entités, traduire).
Les données contextuelles tiennent dans le prompt (< 20k tokens).
La qualité attendue est 85-92 %, acceptable pour l’usage.
Le budget est contraint (< 5 k€) ou le projet est un POC.

Exemples concrets :

Classification de tickets support en 5 catégories.
Résumé automatique d’emails clients.
Extraction d’informations d’un formulaire rempli.
Traduction FR ↔ EN sur du vocabulaire courant.

Budget typique : 500 € à 3 000 € pour un prompt en production. Temps : 8-15 h sur 2-3 semaines.

Ce qui ne passera pas avec cette approche : nécessité de citer des sources, données qui changent toutes les semaines, volume de documents > 20k tokens.

Quand choisir RAG

Cas où RAG est la réponse :

Vous avez une base de documents à exploiter (wiki interne, contrats, procédures, produits).
Les documents changent régulièrement (nouveaux contrats, mises à jour, suppressions).
Vous devez citer les sources (compliance, juridique, santé, tech doc).
Le volume de documents dépasse ce qui tient dans un prompt (> 50-100 pages).

Exemples concrets :

Support client qui répond sur votre catalogue de 10 000 produits.
Assistant juridique qui cite la jurisprudence précise.
Documentation interne interrogeable.
Veille avec résumé par sujet.

Stack typique RAG 2026 :

Indexation : Qdrant, Weaviate, PgVector pour le store ; chunks 500-1500 tokens ; embeddings via Cohere embed-v4 ou OpenAI text-embedding-3-large.
Récupération : vectorielle + BM25 (hybride), re-ranking avec Cohere Rerank.
Génération : Claude 4.6 Sonnet ou Mistral Large avec contexte injecté + instructions d’ancrage strict.

Budget typique : 25 000 - 60 000 € pour une première version. Exploitation : +100-300 € / mois pour la base vectorielle.

Ce qui casse en RAG : mauvais découpage des documents (chunks qui coupent mal), absence de re-ranking (les 10 chunks récupérés ne sont pas les meilleurs), oubli de tester sur vrais cas utilisateurs (80 % des RAG sont validés sur 20 cas choisis et cassent en production).

Quand choisir fine-tuning (rare, mais parfois nécessaire)

Cas où fine-tuning se justifie :

Voix de marque très spécifique que le prompt ne capture jamais parfaitement (après avoir épuisé prompt + RAG).
Jargon ultra-spécialisé où le modèle généraliste patauge (médical niche, juridique pointu, technique très spécifique).
Contrainte de latence extrême où un petit modèle fine-tuné bat un gros modèle généraliste (ex: auto-complétion dans un éditeur).
Volume massif où la réduction de prompt (via fine-tune) produit une économie réelle (> 500k requêtes/mois).

Exemples concrets :

Un générateur qui doit écrire en style éditorial ultra-codé (presse spécialisée).
Un classificateur médical sur 200 catégories de maladies rares.
Un auto-complete dans un IDE avec latence < 100ms.

Stack typique 2026 :

LoRA / QLoRA sur Llama 3.3 70B ou Mistral Small : 5-15 k€ par cycle.
Full fine-tune sur modèle open : 30-80 k€.
Fine-tune Anthropic / OpenAI : via leur service, 5-25 k€ selon modèle.

Budget total : compter 1 cycle = 1 formation + évaluation + redéploiement. Deux à trois cycles sont souvent nécessaires avant d’atteindre la qualité cible. Budget total : 40 000 - 150 000 €.

Ce qui ne marche pas en fine-tuning :

Essayer de “faire apprendre des faits” — le fine-tune code du style et des patterns, pas des faits. Pour les faits, RAG.
Fine-tuner sur 50 exemples — minimum 500, idéalement 2000+ pour un résultat stable.
Fine-tuner sans plan d’évaluation rigoureux — 70 % des fine-tunes se dégradent sans qu’on le voie.

Le pattern hybride qui marche souvent

En 2026, la majorité de nos projets PME avancés finissent en prompt engineering + RAG, rarement en fine-tuning pur. Quand la spécialisation ne suffit pas, on combine :

Prompt engineering pour le cadre, les règles, le format.
RAG pour les données dynamiques et les citations.
Fine-tuning léger (LoRA) uniquement si le style de sortie reste insuffisant.

Cette stack hybride couvre 95 % des cas d’usage PME avec un bon ratio qualité/coût.

Table récapitulative par cas d’usage

Cas d’usage	Stack recommandée	Budget 1re version
Classification tickets support	Prompt engineering	2-5 k€
Assistant support sur catalogue	RAG + prompt	25-50 k€
Résumé emails hebdo	Prompt engineering	3-8 k€
Assistant juridique avec citation	RAG strict + prompt	40-90 k€
Générateur propales commerciales	RAG (templates) + prompt	18-40 k€
Chatbot FAQ externe	RAG + prompt + garde-fous	25-55 k€
Rédaction en style éditorial strict	Prompt + RAG + éventuellement fine-tune	35-100 k€
Classification médicale spécialisée	Fine-tune LoRA + RAG	50-120 k€
Auto-complete IDE interne	Fine-tune full	80-150 k€

L’erreur qu’on voit le plus

Fine-tuner avant d’avoir épuisé prompt + RAG. Plus d’un projet sur 3 qui arrive chez nous démarré en fine-tune pourrait être résolu à 2-3x moins cher avec RAG + bon prompt. Le fine-tuning fascine, c’est visible sur le CV, mais c’est rarement la bonne première brique.

Règle d’or : prompt d’abord, RAG si les données changent, fine-tune seulement en dernier recours.

Votre cas à décider

Si vous hésitez entre les 3 pour un projet précis, 30 minutes au téléphone. On regarde vos données, votre contrainte de fraîcheur, votre budget, et on vous dit quelle stack on déploierait chez vous et pourquoi. Sans engagement.

Pour aller plus loin

RAG ou fine-tuning ? Le choix technique qui change tout le TCO — Fine-tuner un modèle LLM ou monter un RAG sur votre
Prompt engineering pour entreprise en 2026 — la méthode qui marche vra… — Au-delà du ‘soyez précis’
Prompt engineering en entreprise 2026 — ce qui marche vraiment, ce qui… — Patterns concrets de prompt engineering testés en production chez nos
MCP servers en entreprise : le protocole qui change la donne — Model Context Protocol (MCP) permet enfin d’intégrer proprement Claude, GPT
Implémentation Claude / GPT / Mistral en production — projet clé en ma… — Nous cadrons, architecturons et implémentons votre premier projet IA en
Cas client — générateur de propales pour un cabinet de conseil (15 con… — Comment nous avons réduit le temps de production d’une proposition