Glossaire IA · Lettre M

Mixture of Experts (MoE) — définition et impact sur les LLM 2026

Qu'est-ce que Mixture of Experts (MoE) en LLM ? Définition, principe (sparse activation), exemples (Mistral, GPT-4, DeepSeek), et impact sur le coût d'inférence.

Mixture of Experts (MoE) est une architecture LLM où le modèle est composé de plusieurs sous-réseaux (“experts”), et un router sélectionne dynamiquement les 2 à 8 experts pertinents à chaque token. Résultat : un modèle qui a 100B paramètres “totaux” mais n’en active que 12B par token. On a la qualité d’un grand modèle avec le coût d’inférence d’un petit.

En pratique

Modèles MoE célèbres en 2026 :

  • Mixtral 8x22B (Mistral AI) : 8 experts × 22B = 176B totaux, ~39B actifs par token.
  • DeepSeek-V3 : 671B totaux, 37B actifs.
  • GPT-4 : architecture MoE confirmée fin 2023 (8 experts, ~220B actifs sur ~1.8T totaux).
  • Llama 4 (2026) : architecture MoE adoptée.

L’architecture dense classique (tous les paramètres actifs à chaque token) reste utilisée par Claude 4.x et certains modèles d’inférence rapide.

Avantages MoE

  • Coût d’inférence : 5 à 10× moins cher qu’un dense équivalent en qualité.
  • Latence : plus rapide qu’un dense de même qualité (moins de calcul par token).

Inconvénients MoE

  • VRAM : il faut charger TOUS les experts, donc la VRAM nécessaire est celle du modèle entier (176B pour Mixtral). Pas plus économe en mémoire qu’un dense.
  • Routing : le router peut mal choisir et dégrader la qualité sur les cas hors distribution.
  • Quantization : plus complexe à quantizer proprement qu’un dense.

Impact pour PME

Vous n’avez pas besoin de connaître l’architecture pour choisir un modèle. Mais comprendre MoE explique pourquoi DeepSeek-V3 a un tarif si bas (~$0.14/M tokens en input) malgré sa taille apparente : la majorité des paramètres ne sont pas activés à chaque appel.

Si vous self-hostez en 2026, MoE n’est généralement pas un bon choix : la VRAM nécessaire est élevée, l’opérationnel plus complexe. Pour self-hosted PME, un dense quantizé (Llama 70B INT4, Mistral Small) reste le sweet spot.

Pour aller plus loin

Vous hésitez sur le bon modèle pour votre cas ? Audit IA Kezify.

← Retour au glossaire
#MoE#mixture of experts#définition#architecture LLM