La quantization (ou quantification) consiste à réduire la précision numérique des poids d’un LLM — par exemple passer de FP16 (16 bits) à INT8 (8 bits) ou INT4 (4 bits). Résultat : le modèle prend 2 à 4 fois moins de mémoire GPU et tourne 1.5 à 3× plus vite, au prix d’une légère dégradation de qualité.
En pratique
Un Llama 70B en FP16 demande ~140 Go de VRAM (= 2 GPU H100 en parallèle, ~$80k matériel). En INT4, le même modèle tient sur 40 Go — un seul H100 à $30k, ou même 2 RTX 4090 grand public.
Méthodes de quantization en 2026 :
- GPTQ / AWQ : quantization post-training (le modèle déjà entraîné est compressé). Le plus simple à appliquer.
- QLoRA : quantization + fine-tuning combinés. Standard 2024-2026 pour fine-tuner sur GPU consumer.
- GGUF : format de fichier Llama.cpp, supporte INT2 à INT8. Standard pour l’inférence CPU/GPU mixte.
Trade-off qualité
Sur un benchmark MMLU :
| Précision | VRAM 70B | Score MMLU | Différence |
|---|---|---|---|
| FP16 (full) | 140 Go | 0.80 | référence |
| INT8 | 70 Go | 0.79 | -1.3 % |
| INT4 (GPTQ) | 35 Go | 0.77 | -3.7 % |
| INT3 | 28 Go | 0.71 | -11 % |
INT8 est presque sans coût qualité. INT4 est le sweet spot grand public. INT3 et inférieur dégrade trop pour la production.
Pourquoi ça compte en PME
Si vous voulez héberger un LLM en interne (souveraineté stricte, données ultra-sensibles, latence offline), la quantization est ce qui rend l’opération économiquement viable. Sans elle, héberger Llama 70B coûte $30k/mois. Avec INT4, $3-5k/mois sur un GPU dédié.
Pour aller plus loin
- Inference — définition — l’étape où la quantization joue.
- Souveraineté IA — définition — quand quantizer pour héberger en France.
- Comparatif Mistral vs Claude vs GPT — option self-hosted Mistral quantizé.
- Audit IA Kezify — calculer si self-hosting est rentable pour vous.
Vous voulez utiliser un LLM quantizé en self-hosting ? Audit IA Kezify.