La tokenization est l’étape qui découpe un texte en tokens (sous-mots) avant que le LLM ne le traite. Un mot français comme “transformation” peut devenir 1 ou 3 tokens selon le tokenizer. C’est invisible pour l’utilisateur mais critique pour le coût et la latence : on facture au token, pas au mot.
En pratique
Algorithme dominant en 2026 : BPE (Byte Pair Encoding) ou variantes (SentencePiece, tiktoken). Le tokenizer est entraîné sur un corpus et apprend les sous-mots fréquents.
Exemple :
| Texte | GPT-4 tokens | Claude tokens |
|---|---|---|
| ”Hello world” | 2 | 2 |
| ”Bonjour monde” | 4 | 4 |
| ”L’expert-comptable” | 5 | 5 |
| ”Inflation à 2.7%“ | 6 | 6 |
Comptez environ 1 token = 0.75 mot anglais, mais 1 token = 0.55 mot français — le français est plus coûteux à tokenizer car les tokenizers sont entraînés majoritairement sur de l’anglais.
Impact économique
Un document de 1 000 mots :
- En anglais : ~1 333 tokens.
- En français : ~1 800 tokens. +35 % vs anglais.
Sur un volume mensuel de 10M tokens d’input à $3/M (Claude Sonnet) :
- En anglais : $22 500/an pour ce volume.
- En français : $30 375/an. +$8 000/an de surcoût simplement à cause du tokenizer.
C’est négligeable pour un projet de 10k requêtes/mois. C’est significatif au-delà de 1M requêtes/mois.
Comment optimiser
- Utiliser des modèles français-friendly : Mistral (tokenizer entraîné sur du français) tokenize ~10-15 % moins que GPT en français. À volume élevé, justifie de l’évaluer.
- Caching : caching de prompt pour ne payer qu’une fois la partie commune des prompts.
- Compression de prompts : techniques comme LLMLingua peuvent réduire 30-50 % les tokens en gardant la sémantique.
- Modèles distillés : un small model coûte 5-10× moins par token que le large. Routage smart-model.
Outils 2026
- tiktoken : tokenizer GPT (open-source).
- Anthropic exposé via
client.beta.messages.count_tokens(). - Tokenizer Mistral via la lib
mistral-common.
Pour aller plus loin
- Token — définition — l’unité résultat de la tokenization.
- Context window — définition — la limite en tokens.
- Comparatif Claude vs GPT vs Mistral — efficacité tokenizer comparée.
- Audit IA Kezify — calculer le vrai coût en tokens.
Vous voulez calculer votre coût LLM réel en français ? Audit IA Kezify.