Fenêtre de contexte — définition et tailles 2026

La fenêtre de contexte (context window) d’un LLM est la quantité maximale de tokens qu’il peut traiter en une seule requête — instructions système, historique de conversation, documents injectés, et réponse comprise. Si vous dépassez, l’API renvoie une erreur ou tronque silencieusement. C’est la contrainte technique numéro un quand on travaille sur des documents longs.

Tailles 2026

Les fenêtres ont explosé en 2025-2026. État de l’art en mars 2026 :

Modèle	Fenêtre
Claude Sonnet 4.6 (1M tier)	1 000 000 tokens (≈ 600 000 mots français)
Claude Sonnet 4.6 standard	200 000 tokens
Claude Haiku 4.5	200 000 tokens
GPT-5	200 000 tokens
Gemini 2.5 Pro	2 000 000 tokens
Mistral Large	128 000 tokens
Mistral Small	32 000 tokens

Pour rappel : 1M tokens en français ≈ 1 200 pages A4. On peut donner un contrat-cadre complet, l’intégralité d’un guide procédure, ou plusieurs années d’historique d’un client en une seule requête.

Coût d’une grosse fenêtre

Plus vous remplissez, plus vous payez en input. Exemple Claude Sonnet 4.6 (3 $ / 1M tokens en input) :

10 k tokens (~ 6 pages) injectés → 0,03 $.
200 k tokens (~ 120 pages) → 0,60 $.
1 M tokens (~ 600 pages) → 3,00 $ par requête.

Sur 1 000 requêtes/jour à 1M tokens, c’est 3 000 $/jour. D’où l’intérêt du RAG : injecter seulement les 5-10 passages pertinents, pas le corpus entier.

Quand utiliser une grosse fenêtre

Analyse d’un long document one-shot (audit d’un contrat, synthèse d’un rapport annuel).
Q&A sur un dossier client complet (tickets, mails, contrats).
Tâches qui nécessitent de comprendre un contexte global, pas des fragments.

Quand préférer un RAG : recherche fréquente sur un grand corpus stable. Plus économique, plus rapide, moins d’hallucinations sur les détails.

Pour aller plus loin

Token — définition — l’unité de mesure de la fenêtre.
RAG — définition — l’alternative à charger tout le contexte.
LLM — définition — les modèles et leurs fenêtres.
Audit IA Kezify — choisir entre grosse fenêtre et RAG.

Vous voulez utiliser de longues fenêtres de contexte ? Audit IA Kezify.