Distillation (model distillation) — définition et usage en LLM 2026

La distillation est une technique où un grand modèle (“teacher”) entraîne un petit modèle (“student”) à reproduire son comportement. Le student ne voit pas seulement la bonne réponse, mais la distribution complète des probabilités du teacher. Résultat : un modèle 10 à 100× plus petit qui conserve 80-95 % des capacités du grand.

En pratique

Modèles distillés célèbres en 2026 :

Claude Haiku : distillé depuis Sonnet/Opus, ~80 % de qualité à ~10 % du coût.
GPT-5 Mini : distillé depuis GPT-5 full.
Mistral Small : distillé depuis Mistral Large.
Phi-4 (Microsoft) : 14B paramètres, distillé pour matcher des modèles 70B sur certaines tâches.
Llama 3.2 1B/3B : distillés depuis Llama 70B.

C’est ce qui permet d’avoir un modèle “petit” (≤14B params) qui performe presque comme un grand sur 80 % des cas.

Distillation vs fine-tuning

	Distillation	Fine-tuning
Source	un autre modèle (teacher)	données annotées par humain
Coût	moyen	bas si LoRA, élevé si full
Bénéfice	compresse un grand modèle	spécialise un modèle
Quand	créer un petit modèle qualité	adapter à un domaine

Impact pour PME

Vous bénéficiez de la distillation sans avoir à la faire vous-même : utilisez Haiku, GPT-5 Mini ou Mistral Small là où un modèle full serait sur-dimensionné. C’est typiquement 5 à 15× moins cher.

Règle de routage 2026 : 70 % du volume sur un small model distillé, 25 % sur un large model standard, 5 % sur un reasoning model. Cette stratégie diminue de 60-80 % le coût total tout en maintenant 95 % de la qualité par rapport à “tout sur Sonnet” ou “tout sur GPT-5”.

Cas où distiller soi-même

Vous avez un domaine très spécifique (juridique fr, médical fr, terminologie BTP).
Vous voulez self-hoster un petit modèle qui matche un grand sur votre domaine.
Volume très élevé (>10M requêtes/mois) où l’économie justifie l’effort.

Sinon, prenez un modèle distillé clé en main.

Pour aller plus loin

Fine-tuning — définition — alternative.
Quantization — définition — autre technique de compression.
Comparatif Claude vs GPT vs Mistral — comparer les modèles distillés.
Audit IA Kezify — architecturer le routage smart-model.

Vous voulez optimiser le coût de vos LLM en routage ? Audit IA Kezify.