Le re-ranking (ou rerank) est l’étape qui réordonne les passages retournés par une recherche vectorielle pour ne garder que les plus pertinents avant de les envoyer au LLM. Concrètement, on récupère 50 candidats, puis un modèle plus précis (cross-encoder) les rescore et on garde les 5 meilleurs.
En pratique
Un retrieval vectoriel pur sort souvent des passages “thématiquement proches” mais qui ne répondent pas vraiment à la question. Un cross-encoder lit la question + le passage ensemble et produit un score de pertinence affiné.
Stack 2026 typique :
- Cohere Rerank 3 : SaaS, multilingue (FR natif), $1/1000 requêtes.
- BGE-reranker-v2 : open source, déployable on-prem.
- voyage-rerank-2 : recommandé en couplage avec voyage-3 embeddings.
Pourquoi c’est important pour votre projet IA
- +15 à +30 % de précision sur la qualité des réponses RAG en moyenne (mesuré sur MTEB FR).
- Réduit drastiquement les hallucinations : meilleurs passages = LLM mieux ancré.
- Coût marginal négligeable (~$0,001 par requête utilisateur).
Liens utiles
- RAG — définition — pipeline complet où le rerank intervient.
- Vector database — définition — l’étape avant le rerank.
- Comparatif RAG vs fine-tuning
- Audit IA Kezify — auditer la qualité de votre pipeline RAG.
← Retour au glossaire
#rerank#RAG#cross-encoder#retrieval