LoRA (Low-Rank Adaptation) est une technique de fine-tuning qui n’entraîne que ~0.1 à 1 % des paramètres d’un LLM, au lieu des 100 % d’un fine-tuning classique. Au lieu de modifier les milliards de poids du modèle, LoRA injecte de petites matrices “adaptateurs” qui captent l’ajustement nécessaire pour votre tâche. Résultat : 10× plus rapide, 100× moins cher, qualité quasi-identique.
En pratique
Fine-tuner Llama 70B en classique :
- 280 Go de VRAM (8 GPU H100).
- 12-48 h d’entraînement.
- $5k à $20k de coût.
Fine-tuner Llama 70B en QLoRA (LoRA + quantization 4-bit) :
- 48 Go de VRAM (1 GPU H100, voire 2 RTX 4090).
- 4-12 h d’entraînement.
- $50 à $300 de coût.
Pour la majorité des cas PME (style propre, vocabulaire métier, format de sortie spécifique), QLoRA suffit. Le fine-tuning full n’apporte rien de plus.
Quand utiliser LoRA
- Adapter un style : ton de votre marque, formulaires juridiques internes.
- Apprendre un format : sortie JSON spécifique, gabarit de propale.
- Spécialiser sur un domaine : terminologie médicale, jargon BTP.
LoRA n’est PAS la bonne technique pour ajouter des connaissances nouvelles (utilisez RAG pour ça) ni pour rendre un modèle “plus intelligent” globalement.
Stack 2026 typique
- Hugging Face PEFT + QLoRA pour le code.
- Axolotl ou LLaMA-Factory pour les recettes pré-faites.
- Modal, Lambda Labs ou Vast.ai pour louer un GPU à l’heure.
Un PoC LoRA en PME se monte en 1-2 semaines avec un dataset de 500-2 000 exemples.
Pour aller plus loin
- Fine-tuning — définition — vue d’ensemble du fine-tuning.
- Quantization — définition — comment QLoRA combine LoRA + INT4.
- RAG vs fine-tuning vs prompt — quand choisir LoRA vs RAG.
- Audit IA Kezify — identifier si LoRA est le bon outil pour votre cas.
Vous voulez fine-tuner un LLM avec LoRA ? Audit IA Kezify.