Glossaire IA · Lettre T

Tokenization — définition et impact sur le coût LLM 2026

Qu'est-ce que la tokenization en LLM ? Définition, principe BPE, pourquoi le français consomme plus de tokens que l'anglais, et impact économique en PME.

La tokenization est l’étape qui découpe un texte en tokens (sous-mots) avant que le LLM ne le traite. Un mot français comme “transformation” peut devenir 1 ou 3 tokens selon le tokenizer. C’est invisible pour l’utilisateur mais critique pour le coût et la latence : on facture au token, pas au mot.

En pratique

Algorithme dominant en 2026 : BPE (Byte Pair Encoding) ou variantes (SentencePiece, tiktoken). Le tokenizer est entraîné sur un corpus et apprend les sous-mots fréquents.

Exemple :

TexteGPT-4 tokensClaude tokens
”Hello world”22
”Bonjour monde”44
”L’expert-comptable”55
”Inflation à 2.7%“66

Comptez environ 1 token = 0.75 mot anglais, mais 1 token = 0.55 mot français — le français est plus coûteux à tokenizer car les tokenizers sont entraînés majoritairement sur de l’anglais.

Impact économique

Un document de 1 000 mots :

  • En anglais : ~1 333 tokens.
  • En français : ~1 800 tokens. +35 % vs anglais.

Sur un volume mensuel de 10M tokens d’input à $3/M (Claude Sonnet) :

  • En anglais : $22 500/an pour ce volume.
  • En français : $30 375/an. +$8 000/an de surcoût simplement à cause du tokenizer.

C’est négligeable pour un projet de 10k requêtes/mois. C’est significatif au-delà de 1M requêtes/mois.

Comment optimiser

  1. Utiliser des modèles français-friendly : Mistral (tokenizer entraîné sur du français) tokenize ~10-15 % moins que GPT en français. À volume élevé, justifie de l’évaluer.
  2. Caching : caching de prompt pour ne payer qu’une fois la partie commune des prompts.
  3. Compression de prompts : techniques comme LLMLingua peuvent réduire 30-50 % les tokens en gardant la sémantique.
  4. Modèles distillés : un small model coûte 5-10× moins par token que le large. Routage smart-model.

Outils 2026

  • tiktoken : tokenizer GPT (open-source).
  • Anthropic exposé via client.beta.messages.count_tokens().
  • Tokenizer Mistral via la lib mistral-common.

Pour aller plus loin

Vous voulez calculer votre coût LLM réel en français ? Audit IA Kezify.

← Retour au glossaire
#tokenization#BPE#tokenizer#définition