Glossaire IA · Lettre D

Distillation (model distillation) — définition et usage en LLM 2026

Qu'est-ce que la distillation d'un LLM ? Définition, principe (teacher/student), exemples (Haiku, Mistral Small, Phi-4), et cas d'usage en PME française.

La distillation est une technique où un grand modèle (“teacher”) entraîne un petit modèle (“student”) à reproduire son comportement. Le student ne voit pas seulement la bonne réponse, mais la distribution complète des probabilités du teacher. Résultat : un modèle 10 à 100× plus petit qui conserve 80-95 % des capacités du grand.

En pratique

Modèles distillés célèbres en 2026 :

  • Claude Haiku : distillé depuis Sonnet/Opus, ~80 % de qualité à ~10 % du coût.
  • GPT-5 Mini : distillé depuis GPT-5 full.
  • Mistral Small : distillé depuis Mistral Large.
  • Phi-4 (Microsoft) : 14B paramètres, distillé pour matcher des modèles 70B sur certaines tâches.
  • Llama 3.2 1B/3B : distillés depuis Llama 70B.

C’est ce qui permet d’avoir un modèle “petit” (≤14B params) qui performe presque comme un grand sur 80 % des cas.

Distillation vs fine-tuning

DistillationFine-tuning
Sourceun autre modèle (teacher)données annotées par humain
Coûtmoyenbas si LoRA, élevé si full
Bénéficecompresse un grand modèlespécialise un modèle
Quandcréer un petit modèle qualitéadapter à un domaine

Impact pour PME

Vous bénéficiez de la distillation sans avoir à la faire vous-même : utilisez Haiku, GPT-5 Mini ou Mistral Small là où un modèle full serait sur-dimensionné. C’est typiquement 5 à 15× moins cher.

Règle de routage 2026 : 70 % du volume sur un small model distillé, 25 % sur un large model standard, 5 % sur un reasoning model. Cette stratégie diminue de 60-80 % le coût total tout en maintenant 95 % de la qualité par rapport à “tout sur Sonnet” ou “tout sur GPT-5”.

Cas où distiller soi-même

  • Vous avez un domaine très spécifique (juridique fr, médical fr, terminologie BTP).
  • Vous voulez self-hoster un petit modèle qui matche un grand sur votre domaine.
  • Volume très élevé (>10M requêtes/mois) où l’économie justifie l’effort.

Sinon, prenez un modèle distillé clé en main.

Pour aller plus loin

Vous voulez optimiser le coût de vos LLM en routage ? Audit IA Kezify.

← Retour au glossaire
#distillation#teacher-student#modèle compact#définition