Mixture of Experts (MoE) — définition et impact sur les LLM 2026

Mixture of Experts (MoE) est une architecture LLM où le modèle est composé de plusieurs sous-réseaux (“experts”), et un router sélectionne dynamiquement les 2 à 8 experts pertinents à chaque token. Résultat : un modèle qui a 100B paramètres “totaux” mais n’en active que 12B par token. On a la qualité d’un grand modèle avec le coût d’inférence d’un petit.

En pratique

Modèles MoE célèbres en 2026 :

Mixtral 8x22B (Mistral AI) : 8 experts × 22B = 176B totaux, ~39B actifs par token.
DeepSeek-V3 : 671B totaux, 37B actifs.
GPT-4 : architecture MoE confirmée fin 2023 (8 experts, ~220B actifs sur ~1.8T totaux).
Llama 4 (2026) : architecture MoE adoptée.

L’architecture dense classique (tous les paramètres actifs à chaque token) reste utilisée par Claude 4.x et certains modèles d’inférence rapide.

Avantages MoE

Coût d’inférence : 5 à 10× moins cher qu’un dense équivalent en qualité.
Latence : plus rapide qu’un dense de même qualité (moins de calcul par token).

Inconvénients MoE

VRAM : il faut charger TOUS les experts, donc la VRAM nécessaire est celle du modèle entier (176B pour Mixtral). Pas plus économe en mémoire qu’un dense.
Routing : le router peut mal choisir et dégrader la qualité sur les cas hors distribution.
Quantization : plus complexe à quantizer proprement qu’un dense.

Impact pour PME

Vous n’avez pas besoin de connaître l’architecture pour choisir un modèle. Mais comprendre MoE explique pourquoi DeepSeek-V3 a un tarif si bas (~$0.14/M tokens en input) malgré sa taille apparente : la majorité des paramètres ne sont pas activés à chaque appel.

Si vous self-hostez en 2026, MoE n’est généralement pas un bon choix : la VRAM nécessaire est élevée, l’opérationnel plus complexe. Pour self-hosted PME, un dense quantizé (Llama 70B INT4, Mistral Small) reste le sweet spot.

Pour aller plus loin

LLM — définition — fonctionnement général.
Inference — définition — où MoE optimise.
Quantization — définition — combiner MoE + INT4.
Audit IA Kezify — choisir l’architecture LLM adaptée.

Vous hésitez sur le bon modèle pour votre cas ? Audit IA Kezify.