Tokenization — définition et impact sur le coût LLM 2026

La tokenization est l’étape qui découpe un texte en tokens (sous-mots) avant que le LLM ne le traite. Un mot français comme “transformation” peut devenir 1 ou 3 tokens selon le tokenizer. C’est invisible pour l’utilisateur mais critique pour le coût et la latence : on facture au token, pas au mot.

En pratique

Algorithme dominant en 2026 : BPE (Byte Pair Encoding) ou variantes (SentencePiece, tiktoken). Le tokenizer est entraîné sur un corpus et apprend les sous-mots fréquents.

Exemple :

Texte	GPT-4 tokens	Claude tokens
”Hello world”	2	2
”Bonjour monde”	4	4
”L’expert-comptable”	5	5
”Inflation à 2.7%“	6	6

Comptez environ 1 token = 0.75 mot anglais, mais 1 token = 0.55 mot français — le français est plus coûteux à tokenizer car les tokenizers sont entraînés majoritairement sur de l’anglais.

Impact économique

Un document de 1 000 mots :

En anglais : ~1 333 tokens.
En français : ~1 800 tokens. +35 % vs anglais.

Sur un volume mensuel de 10M tokens d’input à $3/M (Claude Sonnet) :

En anglais : $22 500/an pour ce volume.
En français : $30 375/an. +$8 000/an de surcoût simplement à cause du tokenizer.

C’est négligeable pour un projet de 10k requêtes/mois. C’est significatif au-delà de 1M requêtes/mois.

Comment optimiser

Utiliser des modèles français-friendly : Mistral (tokenizer entraîné sur du français) tokenize ~10-15 % moins que GPT en français. À volume élevé, justifie de l’évaluer.
Caching : caching de prompt pour ne payer qu’une fois la partie commune des prompts.
Compression de prompts : techniques comme LLMLingua peuvent réduire 30-50 % les tokens en gardant la sémantique.
Modèles distillés : un small model coûte 5-10× moins par token que le large. Routage smart-model.

Outils 2026

tiktoken : tokenizer GPT (open-source).
Anthropic exposé via client.beta.messages.count_tokens().
Tokenizer Mistral via la lib mistral-common.

Pour aller plus loin

Token — définition — l’unité résultat de la tokenization.
Context window — définition — la limite en tokens.
Comparatif Claude vs GPT vs Mistral — efficacité tokenizer comparée.
Audit IA Kezify — calculer le vrai coût en tokens.

Vous voulez calculer votre coût LLM réel en français ? Audit IA Kezify.