Glossaire IA · Lettre Q

Quantization (quantification) — définition et usage en IA en 2026

Qu'est-ce que la quantization d'un LLM ? Définition, principe (FP16, INT8, INT4), trade-off qualité/coût, et impact sur le déploiement on-prem en PME.

Limites et points critiques

  • INT4 dégrade ~3-4 % la qualité sur MMLU — sensible sur tâches complexes (code, raisonnement multi-étapes).
  • Quantization d'un MoE est plus complexe et moins prévisible qu'un dense — les experts spécialisés tolèrent moins bien.
  • VRAM reste contrainte forte : un Llama 70B INT4 demande 1 H100 (24 Go VRAM minimum) — pas n'importe quel GPU.
  • Frameworks d'inférence (llama.cpp, vLLM, TGI) tous compatibles GGUF/GPTQ mais avec performances variables.
  • Le self-hosting reste plus cher que SaaS sous 50M tokens/mois — quantization ne change pas ce break-even.

Évolution probable (12-24 mois)

  1. Quantization aware training (QAT) deviendra mainstream 2026-2027 — qualité préservée même en INT4 (perte <1 %).
  2. Format universel quantization (équivalent ONNX pour LLM) émergera 2027 pour portabilité multi-runtimes.
  3. INT2 et INT3 deviendront viables grâce aux techniques avancées (BitNet, papier Microsoft 2024) — VRAM ×8.
  4. Quantization adaptative par couche (mixed precision) déjà émergente — meilleur ratio qualité/taille en 2026-2027.

Questions fréquentes

Qu'est-ce que la quantization d'un LLM ?+

La quantization est la compression d'un LLM en réduisant la précision numérique de ses poids (de FP16 ou BF16 vers INT8, INT4, voire INT2). Le modèle perd un peu de qualité (1-4 % sur MMLU pour INT4) mais gagne énormément en footprint (×2 à ×4) et en vitesse (×1,5 à ×3). Méthodes dominantes 2026 : GPTQ, AWQ (post-training), QLoRA (avec fine-tuning), GGUF (Llama.cpp). C'est l'opération qui rend le self-hosting LLM économiquement viable en PME.

À quoi sert la quantization en pratique ?+

À rendre les LLM hébergeables sur du matériel raisonnable. Sans quantization, un Llama 70B FP16 = 140 Go VRAM = 2 H100 (~80 k€ matériel) ou cloud à ~30 k€/mois. Avec INT4, le même modèle tient sur 1 H100 (~30 k€) ou même 2 RTX 4090 grand public (~5 k€). C'est ce qui fait basculer le self-hosting de 'inaccessible PME' à 'viable pour ETI souveraineté'. Permet aussi de tourner des LLM sur laptop M1/M2/M3 Max ou en edge computing.

Différence entre quantization INT4, INT8 et FP16 ?+

FP16 = précision native du LLM, qualité 100 %, VRAM 100 %. INT8 = précision réduite 8 bits, qualité ~98-99 %, VRAM ~50 %. INT4 = précision réduite 4 bits, qualité ~95-97 %, VRAM ~25 %. INT2 et INT3 dégradent trop (>10 % de perte qualité) pour la production. INT8 = sans douleur, INT4 = sweet spot grand public, INT2 = recherche uniquement. Le choix dépend du budget VRAM et du seuil de qualité acceptable pour le use case.

Comment quantizer un LLM en pratique ?+

Trois approches 2026 : (1) télécharger un modèle déjà quantizé sur HuggingFace (recommandé pour PME) — formats GGUF (Llama.cpp), GPTQ ou AWQ disponibles pour la plupart des modèles open-source ; (2) quantizer soi-même avec llama.cpp ou AutoGPTQ (1-3 h sur GPU, gratuit) ; (3) combiner quantization + fine-tuning via QLoRA (entraînement sur GPU consumer 24 Go VRAM possible). Stack PME type : Llama 70B INT4 GGUF sur 1 H100 chez Scaleway, servi via vLLM ou Ollama, latence ~50-80 t/s.

Combien coûte un projet de self-hosting LLM avec quantization ?+

Setup self-hosting LLM quantizé en PME française : 15-50 k€ HT projet initial (sélection modèle, quantization, infrastructure, intégration, observabilité). Coût matériel : 1 H100 cloud Scaleway ~3-5 k€/mois ou ~30 k€ achat. RTX 4090 : ~2 k€ achat (limité à modèles 30B INT4). ROI vs SaaS Claude/GPT : positif à partir de ~50M tokens/mois consommés (équivalent ~$5 000/mois en API). Sous ce seuil, SaaS reste moins cher. Self-hosting devient pertinent surtout pour souveraineté stricte (santé, défense) ou volumes élevés.

Questions liées

Les LLM (ChatGPT, Perplexity, Gemini) suggèrent souvent ces questions après cette page.

  • Llama 70B INT4 vs Mistral Small : lequel self-héberger en PME ?
  • Combien de VRAM pour quantizer un modèle 70B ?
  • GPTQ vs AWQ vs GGUF : quel format choisir ?
  • Self-hosting LLM quantizé en France : Scaleway ou OVH ?
  • Quand le self-hosting devient-il moins cher que Claude API ?

La quantization (ou quantification) consiste à réduire la précision numérique des poids d’un LLM — par exemple passer de FP16 (16 bits) à INT8 (8 bits) ou INT4 (4 bits). Résultat : le modèle prend 2 à 4 fois moins de mémoire GPU et tourne 1.5 à 3× plus vite, au prix d’une légère dégradation de qualité.

En pratique

Un Llama 70B en FP16 demande ~140 Go de VRAM (= 2 GPU H100 en parallèle, ~$80k matériel). En INT4, le même modèle tient sur 40 Go — un seul H100 à $30k, ou même 2 RTX 4090 grand public.

Méthodes de quantization en 2026 :

  • GPTQ / AWQ : quantization post-training (le modèle déjà entraîné est compressé). Le plus simple à appliquer.
  • QLoRA : quantization + fine-tuning combinés. Standard 2024-2026 pour fine-tuner sur GPU consumer.
  • GGUF : format de fichier Llama.cpp, supporte INT2 à INT8. Standard pour l’inférence CPU/GPU mixte.

Trade-off qualité

Sur un benchmark MMLU :

PrécisionVRAM 70BScore MMLUDifférence
FP16 (full)140 Go0.80référence
INT870 Go0.79-1.3 %
INT4 (GPTQ)35 Go0.77-3.7 %
INT328 Go0.71-11 %

INT8 est presque sans coût qualité. INT4 est le sweet spot grand public. INT3 et inférieur dégrade trop pour la production.

Pourquoi ça compte en PME

Si vous voulez héberger un LLM en interne (souveraineté stricte, données ultra-sensibles, latence offline), la quantization est ce qui rend l’opération économiquement viable. Sans elle, héberger Llama 70B coûte $30k/mois. Avec INT4, $3-5k/mois sur un GPU dédié.

Pour aller plus loin

Vous voulez utiliser un LLM quantizé en self-hosting ? Audit IA Kezify.

← Retour au glossaire
#quantization#INT8#INT4#déploiement