Glossaire IA · Lettre Q

Quantization (quantification) — définition et usage en IA en 2026

Qu'est-ce que la quantization d'un LLM ? Définition, principe (FP16, INT8, INT4), trade-off qualité/coût, et impact sur le déploiement on-prem en PME.

La quantization (ou quantification) consiste à réduire la précision numérique des poids d’un LLM — par exemple passer de FP16 (16 bits) à INT8 (8 bits) ou INT4 (4 bits). Résultat : le modèle prend 2 à 4 fois moins de mémoire GPU et tourne 1.5 à 3× plus vite, au prix d’une légère dégradation de qualité.

En pratique

Un Llama 70B en FP16 demande ~140 Go de VRAM (= 2 GPU H100 en parallèle, ~$80k matériel). En INT4, le même modèle tient sur 40 Go — un seul H100 à $30k, ou même 2 RTX 4090 grand public.

Méthodes de quantization en 2026 :

  • GPTQ / AWQ : quantization post-training (le modèle déjà entraîné est compressé). Le plus simple à appliquer.
  • QLoRA : quantization + fine-tuning combinés. Standard 2024-2026 pour fine-tuner sur GPU consumer.
  • GGUF : format de fichier Llama.cpp, supporte INT2 à INT8. Standard pour l’inférence CPU/GPU mixte.

Trade-off qualité

Sur un benchmark MMLU :

PrécisionVRAM 70BScore MMLUDifférence
FP16 (full)140 Go0.80référence
INT870 Go0.79-1.3 %
INT4 (GPTQ)35 Go0.77-3.7 %
INT328 Go0.71-11 %

INT8 est presque sans coût qualité. INT4 est le sweet spot grand public. INT3 et inférieur dégrade trop pour la production.

Pourquoi ça compte en PME

Si vous voulez héberger un LLM en interne (souveraineté stricte, données ultra-sensibles, latence offline), la quantization est ce qui rend l’opération économiquement viable. Sans elle, héberger Llama 70B coûte $30k/mois. Avec INT4, $3-5k/mois sur un GPU dédié.

Pour aller plus loin

Vous voulez utiliser un LLM quantizé en self-hosting ? Audit IA Kezify.

← Retour au glossaire
#quantization#INT8#INT4#déploiement