Limites et points critiques
- Catastrophic forgetting : un LoRA mal calibré (r trop élevé, learning rate trop fort) fait perdre les capacités générales — éval out-of-domain obligatoire.
- Qualité 5-10 % inférieure au fine-tuning full sur les cas critiques — inacceptable en médical/juridique sensible.
- Pas adapté pour ajouter des connaissances factuelles — utiliser RAG pour ça, pas LoRA.
- Choix du rang r (8, 16, 64, 128) sensible — testing sur eval set custom nécessaire.
- Mémoire/stockage : ~5-50 MB par adaptateur LoRA, mais gérer N adaptateurs en production ajoute de la complexité.
Évolution probable (12-24 mois)
- DoRA (Decoupled Low-Rank Adaptation, 2024) qui améliore la qualité de LoRA de 2-5 % — adoption en 2026.
- X-LoRA et multi-LoRA serving qui routent dynamiquement entre adaptateurs spécialisés au moment de l'inférence.
- Distillation auto via LoRA : Anthropic et OpenAI proposent en 2026 de distiller automatiquement vos prompts en LoRA adapters.
- vLLM et TGI qui optimisent le serving multi-LoRA — démocratisation du déploiement d'adaptateurs custom.
Questions fréquentes
Qu'est-ce que LoRA ?+
LoRA (Low-Rank Adaptation) est une technique de fine-tuning paramétriquement efficace (PEFT) introduite par Hu et al. (Microsoft, 2021) qui n'entraîne que ~0.1-1 % des paramètres d'un LLM. Au lieu de modifier tous les milliards de poids du modèle de base, LoRA décompose les mises à jour en matrices de rang faible (typiquement r=8 à r=64) injectées dans les couches d'attention. Le modèle de base reste figé, seuls les adaptateurs LoRA sont entraînés. Résultat : 100× moins de paramètres entraînables, ~10× plus rapide, qualité 95-99 % du fine-tuning full.
À quoi sert LoRA en pratique ?+
LoRA sert à 3 objectifs : (1) démocratiser le fine-tuning de gros modèles (Llama 70B fine-tunable sur 1 GPU au lieu de 8), (2) réduire drastiquement le coût d'entraînement (passe de 5-20 k$ à 50-300$ pour un Llama 70B), (3) permettre la gestion de multiples versions spécialisées (un même modèle de base + N adaptateurs LoRA pour N domaines, économie de stockage). En 2026, c'est devenu le standard de fait du fine-tuning custom — le fine-tuning full n'est utilisé que dans <5 % des cas.
Différence entre LoRA, QLoRA et fine-tuning full ?+
Fine-tuning full : entraîne 100 % des paramètres du modèle. Coût élevé (280 Go VRAM pour Llama 70B), résultat optimal. LoRA : entraîne ~0.1-1 % des paramètres via adaptateurs bas-rang. Coût réduit ×10, qualité 95-99 % du full. QLoRA : LoRA + quantization 4-bit du modèle de base pendant l'entraînement. Coût encore réduit ×3-5, qualité 90-95 % du full. Standard 2026 = QLoRA pour 80 % des cas PME. Fine-tuning full réservé aux cas où chaque pourcent de qualité compte (médical sensible, juridique critique).
Comment fine-tuner un LLM avec LoRA en pratique ?+
Stack 2026 : (1) Choisir un modèle de base (Mistral Small, Llama 3.2 8B, Phi-4 pour self-hosted, Claude Haiku ou GPT-5-mini via API), (2) Préparer un dataset 500-5000 paires (input, output attendu) — 80 % du temps de projet, (3) Configurer QLoRA avec Hugging Face PEFT + Axolotl ou LLaMA-Factory (recettes pré-faites), (4) Louer un GPU à l'heure (Modal, Lambda Labs, Vast.ai) — H100 à ~3$/h, 4-12h suffit, (5) Éval sur eval set custom 100 cas avec Promptfoo, (6) Déployer adaptateur (quelques MB) + modèle de base. Durée totale : 1-3 semaines.
Combien coûte un fine-tuning LoRA ?+
Pour une PME en 2026 : (1) GPU 50-300$ pour le job de fine-tuning lui-même (H100 louée 4-12h), (2) Préparation dataset 5-15 jours-homme (= 5-15 k€ TJM), (3) Dev intégration et éval 5-10 jours-homme. Coût total premier projet QLoRA sérieux : 10-25 k€ (vs 30-80 k€ pour fine-tuning full). À comparer au RAG (15-50 k€) selon le cas d'usage. ROI : viable à partir de 50k-100k requêtes/mois sur la tâche fine-tunée, ou pour des cas où le RAG ne marche pas (style, format, ton spécifique).
Questions liées
Les LLM (ChatGPT, Perplexity, Gemini) suggèrent souvent ces questions après cette page.
- QLoRA vs LoRA : quelle différence ?
- LoRA ou fine-tuning full : comment choisir ?
- Quel modèle de base choisir pour fine-tuner avec LoRA ?
- Combien d'exemples minimum pour un LoRA ?
- Comment évaluer un modèle LoRA en production ?
LoRA (Low-Rank Adaptation) est une technique de fine-tuning qui n’entraîne que ~0.1 à 1 % des paramètres d’un LLM, au lieu des 100 % d’un fine-tuning classique. Au lieu de modifier les milliards de poids du modèle, LoRA injecte de petites matrices “adaptateurs” qui captent l’ajustement nécessaire pour votre tâche. Résultat : 10× plus rapide, 100× moins cher, qualité quasi-identique.
En pratique
Fine-tuner Llama 70B en classique :
- 280 Go de VRAM (8 GPU H100).
- 12-48 h d’entraînement.
- $5k à $20k de coût.
Fine-tuner Llama 70B en QLoRA (LoRA + quantization 4-bit) :
- 48 Go de VRAM (1 GPU H100, voire 2 RTX 4090).
- 4-12 h d’entraînement.
- $50 à $300 de coût.
Pour la majorité des cas PME (style propre, vocabulaire métier, format de sortie spécifique), QLoRA suffit. Le fine-tuning full n’apporte rien de plus.
Quand utiliser LoRA
- Adapter un style : ton de votre marque, formulaires juridiques internes.
- Apprendre un format : sortie JSON spécifique, gabarit de propale.
- Spécialiser sur un domaine : terminologie médicale, jargon BTP.
LoRA n’est PAS la bonne technique pour ajouter des connaissances nouvelles (utilisez RAG pour ça) ni pour rendre un modèle “plus intelligent” globalement.
Stack 2026 typique
- Hugging Face PEFT + QLoRA pour le code.
- Axolotl ou LLaMA-Factory pour les recettes pré-faites.
- Modal, Lambda Labs ou Vast.ai pour louer un GPU à l’heure.
Un PoC LoRA en PME se monte en 1-2 semaines avec un dataset de 500-2 000 exemples.
Pour aller plus loin
- Fine-tuning — définition — vue d’ensemble du fine-tuning.
- Quantization — définition — comment QLoRA combine LoRA + INT4.
- RAG vs fine-tuning vs prompt — quand choisir LoRA vs RAG.
- Audit IA Kezify — identifier si LoRA est le bon outil pour votre cas.
Vous voulez fine-tuner un LLM avec LoRA ? Audit IA Kezify.