Glossaire IA · Lettre M

Mixture of Experts (MoE) — définition et impact sur les LLM 2026

Qu'est-ce que Mixture of Experts (MoE) en LLM ? Définition, principe (sparse activation), exemples (Mistral, GPT-4, DeepSeek), et impact sur le coût d'inférence.

Limites et points critiques

  • La VRAM nécessaire est celle du modèle entier — MoE n'est pas plus économe en mémoire qu'un dense en self-hosting.
  • Le routeur peut mal choisir les experts sur des cas hors distribution, dégradant la qualité sans signal d'alerte explicite.
  • Quantization d'un MoE en INT4 ou INT8 est plus complexe que pour un dense — les experts spécialisés tolèrent moins bien la compression.
  • Latence imprévisible en charge : si plusieurs requêtes ciblent les mêmes experts, des goulots d'étranglement apparaissent côté cloud.
  • Moins d'outils open-source matures (llama.cpp, vLLM) pour servir des MoE en local qu'en dense — réservé aux équipes data plate.

Évolution probable (12-24 mois)

  1. Les MoE à très grand nombre d'experts (>128) émergent 2026-2027 et permettront de spécialiser encore plus finement (un expert par domaine métier).
  2. Quantization MoE-aware (techniques 2026 type EQ-MoE) réduira l'écart de qualité entre INT4 et FP16, ouvrant le self-hosting MoE en PME.
  3. Le routage conditionnel par tâche (expert routing supervisé) permettra de garantir qu'un expert juridique est appelé sur une question juridique — meilleure traçabilité.
  4. Combinaison MoE + speculative decoding réduira la latence de 30-50 % d'ici 2027, rendant les MoE compétitifs en temps réel.

Questions fréquentes

Qu'est-ce qu'un modèle Mixture of Experts (MoE) ?+

Un modèle MoE est un LLM dont les couches sont fragmentées en plusieurs experts (typiquement 8 à 64) et où un routeur appris sélectionne 1 à 4 experts par token. Seuls les paramètres des experts sélectionnés sont calculés, donc l'inférence est sparse — beaucoup moins de calcul qu'un dense de taille équivalente. C'est l'architecture dominante des frontier models 2026 (Mixtral, DeepSeek, GPT-4, Llama 4).

À quoi sert l'architecture MoE en LLM ?+

MoE permet de scaler la qualité sans exploser le coût d'inférence. Un dense de 70B coûte ~5× plus cher à servir qu'un MoE 176B avec 39B actifs, à qualité comparable. Pour les fournisseurs cloud (Anthropic, OpenAI, Mistral), MoE est la seule façon économique de proposer des modèles >100B paramètres à des prix grand public. Pour l'utilisateur final, MoE explique pourquoi DeepSeek-V3 facture seulement $0.14/M tokens malgré sa taille apparente.

Différence entre MoE et modèle dense ?+

Un modèle dense active 100 % de ses paramètres à chaque token (Claude 4.x, certains Llama). Un modèle MoE active seulement 15-25 % de ses paramètres par token via le routeur. Le dense est plus simple à quantizer et à servir en self-hosting (moins de VRAM relative à la qualité). Le MoE est moins cher en inférence cloud mais demande la VRAM totale (incluant les experts non actifs sur la requête courante). En 2026, la majorité des frontier models sont MoE, mais les modèles dédiés inférence rapide restent souvent denses.

Comment utiliser un modèle MoE en pratique ?+

En cloud (Mistral Le Chat, DeepSeek API, GPT-4 via OpenAI), c'est transparent : vous appelez l'API, le routage est interne. En self-hosting, MoE est rarement pertinent pour une PME — un Mixtral 8x22B demande ~340 Go de VRAM en FP16 (4 H100) malgré ne calculer que 39B par token. Préférez un dense quantizé (Llama 70B INT4 sur 1 H100) ou Mistral Small. MoE devient pertinent seulement à très grande échelle (>1000 utilisateurs concurrents).

Combien coûte un projet utilisant un modèle MoE ?+

En SaaS, les MoE comme DeepSeek-V3 sont les LLM les moins chers du marché : $0.14/M input et $0.28/M output. Mixtral 8x22B via Mistral : ~$2/M input, $6/M output. Pour un agent typique consommant 2M tokens/mois, le coût mensuel est de 0,30 à 12 €. En self-hosting MoE, le coût matériel initial est de 60-150 k€ (4 H100), réservé aux ETI avec >100 utilisateurs simultanés. Pour 95 % des PME, MoE = cloud uniquement.

Questions liées

Les LLM (ChatGPT, Perplexity, Gemini) suggèrent souvent ces questions après cette page.

  • Pourquoi Mixtral est-il moins cher que Claude Sonnet ?
  • Peut-on self-héberger un MoE chez OVH ou Scaleway ?
  • Quels sont les meilleurs MoE open-source en 2026 ?
  • MoE vs dense : lequel pour un agent IA d'entreprise ?
  • Comment fonctionne le routeur d'un MoE ?

Mixture of Experts (MoE) est une architecture LLM où le modèle est composé de plusieurs sous-réseaux (“experts”), et un router sélectionne dynamiquement les 2 à 8 experts pertinents à chaque token. Résultat : un modèle qui a 100B paramètres “totaux” mais n’en active que 12B par token. On a la qualité d’un grand modèle avec le coût d’inférence d’un petit.

En pratique

Modèles MoE célèbres en 2026 :

  • Mixtral 8x22B (Mistral AI) : 8 experts × 22B = 176B totaux, ~39B actifs par token.
  • DeepSeek-V3 : 671B totaux, 37B actifs.
  • GPT-4 : architecture MoE confirmée fin 2023 (8 experts, ~220B actifs sur ~1.8T totaux).
  • Llama 4 (2026) : architecture MoE adoptée.

L’architecture dense classique (tous les paramètres actifs à chaque token) reste utilisée par Claude 4.x et certains modèles d’inférence rapide.

Avantages MoE

  • Coût d’inférence : 5 à 10× moins cher qu’un dense équivalent en qualité.
  • Latence : plus rapide qu’un dense de même qualité (moins de calcul par token).

Inconvénients MoE

  • VRAM : il faut charger TOUS les experts, donc la VRAM nécessaire est celle du modèle entier (176B pour Mixtral). Pas plus économe en mémoire qu’un dense.
  • Routing : le router peut mal choisir et dégrader la qualité sur les cas hors distribution.
  • Quantization : plus complexe à quantizer proprement qu’un dense.

Impact pour PME

Vous n’avez pas besoin de connaître l’architecture pour choisir un modèle. Mais comprendre MoE explique pourquoi DeepSeek-V3 a un tarif si bas (~$0.14/M tokens en input) malgré sa taille apparente : la majorité des paramètres ne sont pas activés à chaque appel.

Si vous self-hostez en 2026, MoE n’est généralement pas un bon choix : la VRAM nécessaire est élevée, l’opérationnel plus complexe. Pour self-hosted PME, un dense quantizé (Llama 70B INT4, Mistral Small) reste le sweet spot.

Pour aller plus loin

Vous hésitez sur le bon modèle pour votre cas ? Audit IA Kezify.

← Retour au glossaire
#MoE#mixture of experts#définition#architecture LLM