La recherche hybride combine recherche par mots-clés (BM25, lexicale) et recherche sémantique (vecteurs) en fusionnant leurs résultats. Elle attrape à la fois les correspondances exactes (références produit, codes erreur) et les correspondances sémantiques (paraphrases).
En pratique
Algorithme de fusion standard 2026 : Reciprocal Rank Fusion (RRF). Pour chaque document, on calcule un score de la forme Σ 1/(k + rang_dans_chaque_méthode). Simple, robuste, paramètre k=60 par défaut.
Cas typique PME : recherche dans une base de tickets support.
- Requête “erreur SAP-403 facturation” : la partie BM25 retrouve les tickets exacts mentionnant “SAP-403”. La partie sémantique retrouve les tickets qui décrivent le même problème sans le code (ex: “facture bloquée import compta”).
- L’hybride retourne les deux. Le LLM voit le code exact + des cas similaires sans code = meilleure réponse.
Pourquoi c’est important pour votre projet IA
- Vectoriel pur rate les références exactes (numéros pièces, codes ICD, articles légaux).
- BM25 pur rate les paraphrases.
- Hybride = +10 à +20 % sur les benchmarks RAG (BEIR, MTEB) par rapport au vectoriel seul.
Liens utiles
- Recherche sémantique — définition
- Vector database — définition
- Rerank — définition
- RAG — définition
- Audit IA Kezify — passer en recherche hybride.
← Retour au glossaire
#hybrid search#BM25#vectoriel#RAG