Glossaire IA · Lettre C

Chunking (découpage) — définition et stratégies pour RAG en 2026

Qu'est-ce que le chunking en RAG ? Définition, stratégies de découpage (fixed, semantic, recursive), taille optimale, et impact sur la qualité des réponses LLM.

Le chunking est l’opération qui consiste à découper vos documents en morceaux (chunks) avant de les vectoriser dans un pipeline RAG. C’est l’étape la plus négligée et pourtant celle qui détermine 60 % de la qualité finale du système.

En pratique

Trois stratégies dominantes en 2026 :

  • Fixed-size chunking : 512 ou 1024 tokens par chunk avec un chevauchement de 10 à 20 %. Simple, rapide, mais coupe au milieu des phrases.
  • Recursive chunking : LangChain RecursiveCharacterTextSplitter. Coupe d’abord aux paragraphes, puis aux phrases, puis aux mots. Standard de fait.
  • Semantic chunking : utilise les embeddings pour détecter les frontières sémantiques. Plus coûteux mais 10-15 % de précision en plus sur du contenu structuré (CGV, policy, contrats).

Taille recommandée : 256-512 tokens pour du Q&A précis, 1024-2048 pour du raisonnement long.

Pourquoi c’est important pour votre projet IA

  • Trop petit : le chunk perd son contexte, le LLM hallucine.
  • Trop grand : la pertinence se dilue, le rerank est moins efficace.
  • Mauvais split : votre prix est dans le chunk N et la condition tarifaire dans le chunk N+1 — le LLM ne voit qu’une moitié.

Liens utiles

← Retour au glossaire
#chunking#RAG#découpage#retrieval