Glossaire IA · Lettre R

Rerank (re-ranking) — définition et usage en RAG en 2026

Qu'est-ce que le re-ranking dans un pipeline RAG ? Définition, principe, modèles cross-encoder, et impact concret sur la qualité des réponses LLM en entreprise.

Le re-ranking (ou rerank) est l’étape qui réordonne les passages retournés par une recherche vectorielle pour ne garder que les plus pertinents avant de les envoyer au LLM. Concrètement, on récupère 50 candidats, puis un modèle plus précis (cross-encoder) les rescore et on garde les 5 meilleurs.

En pratique

Un retrieval vectoriel pur sort souvent des passages “thématiquement proches” mais qui ne répondent pas vraiment à la question. Un cross-encoder lit la question + le passage ensemble et produit un score de pertinence affiné.

Stack 2026 typique :

  • Cohere Rerank 3 : SaaS, multilingue (FR natif), $1/1000 requêtes.
  • BGE-reranker-v2 : open source, déployable on-prem.
  • voyage-rerank-2 : recommandé en couplage avec voyage-3 embeddings.

Pourquoi c’est important pour votre projet IA

  • +15 à +30 % de précision sur la qualité des réponses RAG en moyenne (mesuré sur MTEB FR).
  • Réduit drastiquement les hallucinations : meilleurs passages = LLM mieux ancré.
  • Coût marginal négligeable (~$0,001 par requête utilisateur).

Liens utiles

← Retour au glossaire
#rerank#RAG#cross-encoder#retrieval