Mise en œuvre

RAG ou fine-tuning ? Le choix technique qui change tout le TCO

Fine-tuner un modèle LLM ou monter un RAG sur votre documentation : nous comparons coût, maintenance, qualité et conformité sur 5 cas PME réels.

Quand un client nous demande “il faut fine-tuner un modèle chez vous ?”, la réponse est presque toujours non en 2026. Voilà pourquoi — et les trois cas où c’est l’inverse.

Les deux approches en une phrase

Fine-tuning : on prend un modèle LLM existant (Llama, Mistral, GPT) et on continue son entraînement sur vos données. Le modèle “absorbe” votre corpus. Résultat : un modèle custom.

RAG (Retrieval-Augmented Generation) : on garde un modèle générique, mais avant chaque réponse on lui injecte les extraits pertinents de vos données dans le prompt. Le modèle reste inchangé, votre corpus est indexé à côté.

La règle simple (90 % des cas)

Commencez par un RAG. Si au bout de 6 mois vous identifiez une limite qui ne peut pas être résolue autrement, alors envisagez le fine-tuning.

C’est contre-intuitif parce que les vendeurs de fine-tuning sont bruyants. Mais dans la réalité industrielle 2026, les ratios sont clairs :

CritèreRAGFine-tuning
Coût initial2-8 k€15-50 k€
Mise à jour des donnéesTemps réel (ré-indexation)Ré-entraînement (cher, lent)
Traçabilité de la sourceOui, par constructionNon — le modèle a “avalé” le corpus
Conformité RGPD (droit à l’oubli)Supprimer de l’indexRé-entraîner sans
Rotation du modèle base (nouveau Claude / GPT tous les 3-6 mois)GratuiteTout refaire
Performance sur style / ton très spécifiqueMoyenneMeilleure
Performance sur un domaine très niche avec peu de donnéesCorrectMeilleure

Les 3 cas où le fine-tuning est vraiment la bonne réponse

Cas 1 — Ton de marque ultra-spécifique non-généralisable

Vous avez un style éditorial reconnaissable (marque de luxe, rédaction juridique particulière, voix d’un auteur spécifique). Un prompt RAG avec “réponds comme X” atteint 70 % de ressemblance, le fine-tuning monte à 95 %. Quand les 25 % font la différence, fine-tunez.

Cas 2 — Domaine niche avec vocabulaire technique fermé

Analyse de pathologies rares, jurisprudence fiscale d’une zone géographique précise, chimie industrielle d’un secteur. Un modèle base ne connaît pas votre vocabulaire. Le RAG aide pour les définitions, mais le raisonnement reste faible. Fine-tuning sur 5 000-10 000 exemples annotés change la donne.

Cas 3 — Latence critique, volume très élevé

Vous traitez 100 000 requêtes / jour avec contrainte latence sub-seconde. Un modèle fine-tuné plus petit (Mistral 7B fine-tuné) peut battre un modèle large en RAG sur le rapport qualité/latence. Mais ce cas concerne < 5 % des PME.

Les 5 cas où les gens pensent avoir besoin de fine-tuning — à tort

  1. “Notre documentation est confidentielle” → RAG interne sur instance privée (AWS Bedrock, Azure OpenAI, Mistral on-prem). Vos données ne quittent pas votre périmètre. Pas besoin de fine-tuning.
  2. “Le modèle hallucine sur nos produits” → Typique d’un RAG mal paramétré. On ajuste la stratégie de retrieval (top_k, reranker, filtres) et les hallucinations tombent de 80 %.
  3. “On veut que ça parle comme nous” → Un bon prompt système de 400 tokens fait 80 % du boulot. Fine-tuning uniquement si les 20 % restants sont critiques (voir Cas 1).
  4. “On a 50 000 documents” → Tant mieux pour le RAG. C’est exactement son terrain.
  5. “On veut pas payer d’API” → Mistral 7B hébergé chez Scaleway coûte moins cher qu’un fine-tune dédié. Plus : vous gardez la capacité à switcher de modèle.

Le coût caché du fine-tuning que personne ne chiffre

Quand un nouveau modèle sort (Claude 5, GPT-6), votre modèle fine-tuné reste coincé sur l’ancien. Dans 12-18 mois, l’écart de performance devient visible. Deux choix :

  • Re-fine-tuner sur le nouveau modèle base → refaire le projet.
  • Rester sur l’ancien → accepter un retard capacitif croissant.

Avec un RAG, vous basculez de modèle en une journée en changeant la clé API. Cette liberté vaut plusieurs milliers d’euros par an en TCO.

L’architecture hybride qui marche

Pour les projets matures, nous déployons typiquement :

  • Un RAG en front sur toutes les requêtes (qualité + traçabilité).
  • Un modèle fine-tuné en fallback uniquement pour les 5-10 % de requêtes où le RAG sature (ton, domaine niche).

Cette architecture coûte ~20 % de plus qu’un RAG pur, mais capte les cas impossibles autrement.

Par où commencer

Si vous hésitez entre RAG et fine-tuning sur un projet concret, racontez-nous votre cas en 30 minutes. On vous dira honnêtement laquelle des deux est adaptée à votre réalité. Si c’est RAG : on peut vous le monter en 3-5 semaines. Si c’est fine-tuning : on vous cadre le projet et on vous dit s’il faut passer par Kezify ou par un labo spécialisé.

Pour aller plus loin

← Retour au blog
#RAG#fine-tuning#Claude#architecture