Le chunking est l’opération qui consiste à découper vos documents en morceaux (chunks) avant de les vectoriser dans un pipeline RAG. C’est l’étape la plus négligée et pourtant celle qui détermine 60 % de la qualité finale du système.
En pratique
Trois stratégies dominantes en 2026 :
- Fixed-size chunking : 512 ou 1024 tokens par chunk avec un chevauchement de 10 à 20 %. Simple, rapide, mais coupe au milieu des phrases.
- Recursive chunking : LangChain
RecursiveCharacterTextSplitter. Coupe d’abord aux paragraphes, puis aux phrases, puis aux mots. Standard de fait. - Semantic chunking : utilise les embeddings pour détecter les frontières sémantiques. Plus coûteux mais 10-15 % de précision en plus sur du contenu structuré (CGV, policy, contrats).
Taille recommandée : 256-512 tokens pour du Q&A précis, 1024-2048 pour du raisonnement long.
Pourquoi c’est important pour votre projet IA
- Trop petit : le chunk perd son contexte, le LLM hallucine.
- Trop grand : la pertinence se dilue, le rerank est moins efficace.
- Mauvais split : votre prix est dans le chunk N et la condition tarifaire dans le chunk N+1 — le LLM ne voit qu’une moitié.
Liens utiles
- RAG — définition — où le chunking intervient.
- Embedding — définition — étape post-chunking.
- Comparatif RAG vs fine-tuning
- Audit IA Kezify — diagnostiquer votre stratégie de chunking.
← Retour au glossaire
#chunking#RAG#découpage#retrieval