Mixture of Experts (MoE) est une architecture LLM où le modèle est composé de plusieurs sous-réseaux (“experts”), et un router sélectionne dynamiquement les 2 à 8 experts pertinents à chaque token. Résultat : un modèle qui a 100B paramètres “totaux” mais n’en active que 12B par token. On a la qualité d’un grand modèle avec le coût d’inférence d’un petit.
En pratique
Modèles MoE célèbres en 2026 :
- Mixtral 8x22B (Mistral AI) : 8 experts × 22B = 176B totaux, ~39B actifs par token.
- DeepSeek-V3 : 671B totaux, 37B actifs.
- GPT-4 : architecture MoE confirmée fin 2023 (8 experts, ~220B actifs sur ~1.8T totaux).
- Llama 4 (2026) : architecture MoE adoptée.
L’architecture dense classique (tous les paramètres actifs à chaque token) reste utilisée par Claude 4.x et certains modèles d’inférence rapide.
Avantages MoE
- Coût d’inférence : 5 à 10× moins cher qu’un dense équivalent en qualité.
- Latence : plus rapide qu’un dense de même qualité (moins de calcul par token).
Inconvénients MoE
- VRAM : il faut charger TOUS les experts, donc la VRAM nécessaire est celle du modèle entier (176B pour Mixtral). Pas plus économe en mémoire qu’un dense.
- Routing : le router peut mal choisir et dégrader la qualité sur les cas hors distribution.
- Quantization : plus complexe à quantizer proprement qu’un dense.
Impact pour PME
Vous n’avez pas besoin de connaître l’architecture pour choisir un modèle. Mais comprendre MoE explique pourquoi DeepSeek-V3 a un tarif si bas (~$0.14/M tokens en input) malgré sa taille apparente : la majorité des paramètres ne sont pas activés à chaque appel.
Si vous self-hostez en 2026, MoE n’est généralement pas un bon choix : la VRAM nécessaire est élevée, l’opérationnel plus complexe. Pour self-hosted PME, un dense quantizé (Llama 70B INT4, Mistral Small) reste le sweet spot.
Pour aller plus loin
- LLM — définition — fonctionnement général.
- Inference — définition — où MoE optimise.
- Quantization — définition — combiner MoE + INT4.
- Audit IA Kezify — choisir l’architecture LLM adaptée.
Vous hésitez sur le bon modèle pour votre cas ? Audit IA Kezify.