La fenêtre de contexte (context window) d’un LLM est la quantité maximale de tokens qu’il peut traiter en une seule requête — instructions système, historique de conversation, documents injectés, et réponse comprise. Si vous dépassez, l’API renvoie une erreur ou tronque silencieusement. C’est la contrainte technique numéro un quand on travaille sur des documents longs.
Tailles 2026
Les fenêtres ont explosé en 2025-2026. État de l’art en mars 2026 :
| Modèle | Fenêtre |
|---|---|
| Claude Sonnet 4.6 (1M tier) | 1 000 000 tokens (≈ 600 000 mots français) |
| Claude Sonnet 4.6 standard | 200 000 tokens |
| Claude Haiku 4.5 | 200 000 tokens |
| GPT-5 | 200 000 tokens |
| Gemini 2.5 Pro | 2 000 000 tokens |
| Mistral Large | 128 000 tokens |
| Mistral Small | 32 000 tokens |
Pour rappel : 1M tokens en français ≈ 1 200 pages A4. On peut donner un contrat-cadre complet, l’intégralité d’un guide procédure, ou plusieurs années d’historique d’un client en une seule requête.
Coût d’une grosse fenêtre
Plus vous remplissez, plus vous payez en input. Exemple Claude Sonnet 4.6 (3 $ / 1M tokens en input) :
- 10 k tokens (~ 6 pages) injectés → 0,03 $.
- 200 k tokens (~ 120 pages) → 0,60 $.
- 1 M tokens (~ 600 pages) → 3,00 $ par requête.
Sur 1 000 requêtes/jour à 1M tokens, c’est 3 000 $/jour. D’où l’intérêt du RAG : injecter seulement les 5-10 passages pertinents, pas le corpus entier.
Quand utiliser une grosse fenêtre
- Analyse d’un long document one-shot (audit d’un contrat, synthèse d’un rapport annuel).
- Q&A sur un dossier client complet (tickets, mails, contrats).
- Tâches qui nécessitent de comprendre un contexte global, pas des fragments.
Quand préférer un RAG : recherche fréquente sur un grand corpus stable. Plus économique, plus rapide, moins d’hallucinations sur les détails.
Pour aller plus loin
- Token — définition — l’unité de mesure de la fenêtre.
- RAG — définition — l’alternative à charger tout le contexte.
- LLM — définition — les modèles et leurs fenêtres.
- Audit IA Kezify — choisir entre grosse fenêtre et RAG.
Vous voulez utiliser de longues fenêtres de contexte ? Audit IA Kezify.