Quantization (quantification) — définition et usage en IA en 2026

La quantization (ou quantification) consiste à réduire la précision numérique des poids d’un LLM — par exemple passer de FP16 (16 bits) à INT8 (8 bits) ou INT4 (4 bits). Résultat : le modèle prend 2 à 4 fois moins de mémoire GPU et tourne 1.5 à 3× plus vite, au prix d’une légère dégradation de qualité.

En pratique

Un Llama 70B en FP16 demande ~140 Go de VRAM (= 2 GPU H100 en parallèle, ~$80k matériel). En INT4, le même modèle tient sur 40 Go — un seul H100 à $30k, ou même 2 RTX 4090 grand public.

Méthodes de quantization en 2026 :

GPTQ / AWQ : quantization post-training (le modèle déjà entraîné est compressé). Le plus simple à appliquer.
QLoRA : quantization + fine-tuning combinés. Standard 2024-2026 pour fine-tuner sur GPU consumer.
GGUF : format de fichier Llama.cpp, supporte INT2 à INT8. Standard pour l’inférence CPU/GPU mixte.

Trade-off qualité

Sur un benchmark MMLU :

Précision	VRAM 70B	Score MMLU	Différence
FP16 (full)	140 Go	0.80	référence
INT8	70 Go	0.79	-1.3 %
INT4 (GPTQ)	35 Go	0.77	-3.7 %
INT3	28 Go	0.71	-11 %

INT8 est presque sans coût qualité. INT4 est le sweet spot grand public. INT3 et inférieur dégrade trop pour la production.

Pourquoi ça compte en PME

Si vous voulez héberger un LLM en interne (souveraineté stricte, données ultra-sensibles, latence offline), la quantization est ce qui rend l’opération économiquement viable. Sans elle, héberger Llama 70B coûte $30k/mois. Avec INT4, $3-5k/mois sur un GPU dédié.

Pour aller plus loin

Inference — définition — l’étape où la quantization joue.
Souveraineté IA — définition — quand quantizer pour héberger en France.
Comparatif Mistral vs Claude vs GPT — option self-hosted Mistral quantizé.
Audit IA Kezify — calculer si self-hosting est rentable pour vous.

Vous voulez utiliser un LLM quantizé en self-hosting ? Audit IA Kezify.