Glossaire IA · Lettre L

LoRA (Low-Rank Adaptation) — définition et usage en fine-tuning LLM 2026

Qu'est-ce que LoRA ? Définition de Low-Rank Adaptation, pourquoi c'est devenu le standard de fine-tuning LLM, et impact économique pour une PME française.

LoRA (Low-Rank Adaptation) est une technique de fine-tuning qui n’entraîne que ~0.1 à 1 % des paramètres d’un LLM, au lieu des 100 % d’un fine-tuning classique. Au lieu de modifier les milliards de poids du modèle, LoRA injecte de petites matrices “adaptateurs” qui captent l’ajustement nécessaire pour votre tâche. Résultat : 10× plus rapide, 100× moins cher, qualité quasi-identique.

En pratique

Fine-tuner Llama 70B en classique :

  • 280 Go de VRAM (8 GPU H100).
  • 12-48 h d’entraînement.
  • $5k à $20k de coût.

Fine-tuner Llama 70B en QLoRA (LoRA + quantization 4-bit) :

  • 48 Go de VRAM (1 GPU H100, voire 2 RTX 4090).
  • 4-12 h d’entraînement.
  • $50 à $300 de coût.

Pour la majorité des cas PME (style propre, vocabulaire métier, format de sortie spécifique), QLoRA suffit. Le fine-tuning full n’apporte rien de plus.

Quand utiliser LoRA

  • Adapter un style : ton de votre marque, formulaires juridiques internes.
  • Apprendre un format : sortie JSON spécifique, gabarit de propale.
  • Spécialiser sur un domaine : terminologie médicale, jargon BTP.

LoRA n’est PAS la bonne technique pour ajouter des connaissances nouvelles (utilisez RAG pour ça) ni pour rendre un modèle “plus intelligent” globalement.

Stack 2026 typique

  • Hugging Face PEFT + QLoRA pour le code.
  • Axolotl ou LLaMA-Factory pour les recettes pré-faites.
  • Modal, Lambda Labs ou Vast.ai pour louer un GPU à l’heure.

Un PoC LoRA en PME se monte en 1-2 semaines avec un dataset de 500-2 000 exemples.

Pour aller plus loin

Vous voulez fine-tuner un LLM avec LoRA ? Audit IA Kezify.

← Retour au glossaire
#LoRA#fine-tuning#QLoRA#définition