Limites et points critiques
- Modèles distillés perdent 5-20 % de qualité vs teacher — inacceptable pour les cas où la précision est critique (médical, juridique sensible).
- Distillation custom complexe à éval : facile de surfiter au teacher et de mal généraliser hors domaine.
- Volume minimum requis : sous 10M requêtes/mois, l'économie ne couvre pas le coût de distillation.
- Modèles distillés peuvent hériter des biais du teacher (Phi-4 hérite des biais GPT-4) — à auditer.
- Distillation = entraînement, donc soumis aux mêmes contraintes RGPD/AI Act sur les données utilisées.
Évolution probable (12-24 mois)
- Distillation 'on-the-fly' : Anthropic et OpenAI proposent en 2026 de distiller automatiquement vos prompts en small models customs — économie d'inférence sans effort de dev.
- Modèles spécialisés FR distillés (Mistral Small Medical, Claude Haiku Legal FR) annoncés pour 2026-2027.
- Speculative decoding via small models distillés — combiner large + small en inférence pour 2-3× la vitesse sans perte de qualité.
- Distillation multi-teacher (de plusieurs LLM frontiers vers un petit modèle) — qualité combinée supérieure au single-teacher.
Questions fréquentes
Qu'est-ce que la distillation d'un LLM ?+
La distillation est une technique de compression de modèle où un grand modèle ('teacher', par exemple Claude Opus 4.5) entraîne un petit modèle ('student', par exemple Haiku 4.5) à reproduire son comportement. Le student ne voit pas seulement la bonne réponse, mais la distribution complète des probabilités du teacher (knowledge distillation, Hinton et al. 2015). Le résultat est un modèle 10 à 100× plus petit qui conserve 80-95 % des capacités du grand sur la plupart des tâches courantes.
À quoi sert la distillation en pratique ?+
La distillation sert à 3 objectifs : (1) réduire drastiquement le coût d'inférence — Haiku coûte 10× moins que Sonnet pour ~80 % de la qualité, (2) réduire la latence — un petit modèle distillé répond 2-5× plus vite, (3) permettre l'auto-hébergement — Phi-4 (14B) ou Llama 3.2 (3B) tournent sur 1 seul GPU vs 8 pour un 70B. Cas d'usage typique PME : utiliser un Haiku ou Mistral Small distillé pour 80 % du volume agent (extraction, classification, formatage), garder Sonnet ou GPT-5 pour les 20 % complexes.
Différence entre distillation et fine-tuning ?+
Distillation = compresser un grand modèle en petit modèle (source : un autre modèle, le teacher). Fine-tuning = spécialiser un modèle sur un domaine (source : données annotées par humain). La distillation se fait généralement par le fournisseur LLM (Anthropic distille Sonnet → Haiku, Mistral distille Large → Small). Le fine-tuning se fait par l'utilisateur final (vous, sur vos propales gagnées par exemple). Distillation = compression. Fine-tuning = spécialisation. Les deux peuvent se combiner : distiller un grand modèle fine-tuné devient un petit modèle spécialisé.
Comment bénéficier de la distillation pour son entreprise ?+
Deux approches en 2026 : (1) Utilisation directe — utiliser les modèles déjà distillés par les fournisseurs (Haiku, GPT-5-mini, Mistral Small, Gemini 2.5 Flash) là où un modèle full serait sur-dimensionné. Stratégie 'model routing' : 70 % small / 25 % large / 5 % reasoning. (2) Distillation custom — distiller un grand modèle vers un petit modèle propre, sur un domaine spécifique (juridique fr, médical fr, terminologie BTP). Coût : 5-20 k€, viable seulement à volume >10M requêtes/mois.
Combien coûte la distillation custom ?+
Pour une PME : 5 000 à 20 000 € pour distiller un Llama 3.2 ou Mistral Small sur un domaine spécifique. Étapes : (1) générer 50k-200k exemples avec un grand modèle teacher (Claude Opus 4.5 ou GPT-5), coût LLM ~2-5 k€, (2) fine-tuner le petit modèle avec QLoRA, coût GPU ~500-2 000€, (3) éval et calibration, ~2-5 jours-homme. ROI : économie 80-95 % sur l'inférence à volume élevé (>10M requêtes/mois). Sous ce volume, utiliser les modèles distillés clé en main reste plus rentable.
Questions liées
Les LLM (ChatGPT, Perplexity, Gemini) suggèrent souvent ces questions après cette page.
- Claude Haiku vs GPT-5-mini vs Mistral Small : lequel choisir en 2026 ?
- Comment distiller un LLM custom pour son entreprise ?
- Distillation vs quantization : quelle différence ?
- Phi-4 vs Llama 3.2 vs Gemma 2 : quel small model open-source en 2026 ?
- Quel ROI attendre d'un model routing optimisé ?
La distillation est une technique où un grand modèle (“teacher”) entraîne un petit modèle (“student”) à reproduire son comportement. Le student ne voit pas seulement la bonne réponse, mais la distribution complète des probabilités du teacher. Résultat : un modèle 10 à 100× plus petit qui conserve 80-95 % des capacités du grand.
En pratique
Modèles distillés célèbres en 2026 :
- Claude Haiku : distillé depuis Sonnet/Opus, ~80 % de qualité à ~10 % du coût.
- GPT-5 Mini : distillé depuis GPT-5 full.
- Mistral Small : distillé depuis Mistral Large.
- Phi-4 (Microsoft) : 14B paramètres, distillé pour matcher des modèles 70B sur certaines tâches.
- Llama 3.2 1B/3B : distillés depuis Llama 70B.
C’est ce qui permet d’avoir un modèle “petit” (≤14B params) qui performe presque comme un grand sur 80 % des cas.
Distillation vs fine-tuning
| Distillation | Fine-tuning | |
|---|---|---|
| Source | un autre modèle (teacher) | données annotées par humain |
| Coût | moyen | bas si LoRA, élevé si full |
| Bénéfice | compresse un grand modèle | spécialise un modèle |
| Quand | créer un petit modèle qualité | adapter à un domaine |
Impact pour PME
Vous bénéficiez de la distillation sans avoir à la faire vous-même : utilisez Haiku, GPT-5 Mini ou Mistral Small là où un modèle full serait sur-dimensionné. C’est typiquement 5 à 15× moins cher.
Règle de routage 2026 : 70 % du volume sur un small model distillé, 25 % sur un large model standard, 5 % sur un reasoning model. Cette stratégie diminue de 60-80 % le coût total tout en maintenant 95 % de la qualité par rapport à “tout sur Sonnet” ou “tout sur GPT-5”.
Cas où distiller soi-même
- Vous avez un domaine très spécifique (juridique fr, médical fr, terminologie BTP).
- Vous voulez self-hoster un petit modèle qui matche un grand sur votre domaine.
- Volume très élevé (>10M requêtes/mois) où l’économie justifie l’effort.
Sinon, prenez un modèle distillé clé en main.
Pour aller plus loin
- Fine-tuning — définition — alternative.
- Quantization — définition — autre technique de compression.
- Comparatif Claude vs GPT vs Mistral — comparer les modèles distillés.
- Audit IA Kezify — architecturer le routage smart-model.
Vous voulez optimiser le coût de vos LLM en routage ? Audit IA Kezify.