La distillation est une technique où un grand modèle (“teacher”) entraîne un petit modèle (“student”) à reproduire son comportement. Le student ne voit pas seulement la bonne réponse, mais la distribution complète des probabilités du teacher. Résultat : un modèle 10 à 100× plus petit qui conserve 80-95 % des capacités du grand.
En pratique
Modèles distillés célèbres en 2026 :
- Claude Haiku : distillé depuis Sonnet/Opus, ~80 % de qualité à ~10 % du coût.
- GPT-5 Mini : distillé depuis GPT-5 full.
- Mistral Small : distillé depuis Mistral Large.
- Phi-4 (Microsoft) : 14B paramètres, distillé pour matcher des modèles 70B sur certaines tâches.
- Llama 3.2 1B/3B : distillés depuis Llama 70B.
C’est ce qui permet d’avoir un modèle “petit” (≤14B params) qui performe presque comme un grand sur 80 % des cas.
Distillation vs fine-tuning
| Distillation | Fine-tuning | |
|---|---|---|
| Source | un autre modèle (teacher) | données annotées par humain |
| Coût | moyen | bas si LoRA, élevé si full |
| Bénéfice | compresse un grand modèle | spécialise un modèle |
| Quand | créer un petit modèle qualité | adapter à un domaine |
Impact pour PME
Vous bénéficiez de la distillation sans avoir à la faire vous-même : utilisez Haiku, GPT-5 Mini ou Mistral Small là où un modèle full serait sur-dimensionné. C’est typiquement 5 à 15× moins cher.
Règle de routage 2026 : 70 % du volume sur un small model distillé, 25 % sur un large model standard, 5 % sur un reasoning model. Cette stratégie diminue de 60-80 % le coût total tout en maintenant 95 % de la qualité par rapport à “tout sur Sonnet” ou “tout sur GPT-5”.
Cas où distiller soi-même
- Vous avez un domaine très spécifique (juridique fr, médical fr, terminologie BTP).
- Vous voulez self-hoster un petit modèle qui matche un grand sur votre domaine.
- Volume très élevé (>10M requêtes/mois) où l’économie justifie l’effort.
Sinon, prenez un modèle distillé clé en main.
Pour aller plus loin
- Fine-tuning — définition — alternative.
- Quantization — définition — autre technique de compression.
- Comparatif Claude vs GPT vs Mistral — comparer les modèles distillés.
- Audit IA Kezify — architecturer le routage smart-model.
Vous voulez optimiser le coût de vos LLM en routage ? Audit IA Kezify.