Limites et points critiques
- Embeddings figent la sémantique du modèle au moment de l'indexation — un nouveau modèle d'embedding (Voyage 4 attendu) requiert de tout réindexer (10-80€).
- Embeddings ratent les références exactes (codes erreur SAP, articles légaux, numéros pièces) — combiner avec BM25 (hybrid search).
- Embeddings multilingues dégradent en français de niche (médical, juridique) — modèles spécialisés FR comme Mistral Embed ou CamemBERT recommandés.
- Dimensions élevées (3072) coûtent 4× plus en stockage et 2× plus en latence de query — privilégier 768-1536 pour 80 % des cas.
- Pas de fenêtre de contexte infinie : la plupart des modèles d'embedding limitent à 512-8192 tokens par chunk — chunking obligatoire.
Évolution probable (12-24 mois)
- Modèles long-context (Jina v3 8k, Voyage Large 32k) qui permettent des chunks plus larges sans perte de qualité.
- Matryoshka embeddings (technique 2024) qui permettent de réduire dynamiquement les dimensions sans réindexer.
- Modèles spécialisés FR (CamemBERT-Embed, Mistral Embed v2) qui rattrapent les anglophones sur le français professionnel.
- Embeddings multimodaux (CLIP, Voyage Multimodal) qui indexent texte + image dans le même espace — émerge fin 2025.
Questions fréquentes
Qu'est-ce qu'un embedding en IA ?+
Un embedding est la transformation d'un texte (mot, phrase, paragraphe, document) en un vecteur numérique de 768 à 3072 dimensions selon le modèle utilisé. La propriété clé : deux textes sémantiquement proches produisent des vecteurs géométriquement proches dans l'espace, mesurable par distance cosinus (0 = orthogonal, 1 = identique). C'est ce qui rend la recherche sémantique possible : retrouver 'annuler souscription' même quand l'utilisateur tape 'résilier abonnement'.
À quoi sert un embedding ?+
Les embeddings servent à 4 cas d'usage majeurs : (1) recherche sémantique (RAG) — retrouver les passages pertinents même sans mots-clés exacts, (2) classification — clusteriser des textes par thématique sans labels prédéfinis, (3) déduplication intelligente — détecter les paraphrases dans une base, (4) recommandation — suggérer des contenus similaires. En PME, le cas dominant 2026 est le RAG sur documents internes : embedder votre base de connaissances pour permettre une recherche en langage naturel.
Différence entre embedding et recherche par mots-clés ?+
La recherche full-text classique (Elasticsearch, MeiliSearch sans hybrid) cherche les mots exacts. Si vous tapez 'annuler souscription', elle ne trouve pas 'résilier abonnement'. L'embedding capture le SENS, pas les mots. Inversement, l'embedding rate les références exactes (codes produit, numéros articles, identifiants techniques) — un BM25 les retrouve immédiatement. La stack 2026 optimale est hybride : combiner les deux (hybrid search avec fusion RRF) pour cumuler les forces.
Comment choisir un modèle d'embedding ?+
Critères 2026 : (1) Qualité — Voyage 3 Large et OpenAI text-embedding-3-large dominent les benchmarks MTEB (~64-66 score moyen), (2) Langue — Voyage et OpenAI sont bons en français, Mistral Embed est natif français, (3) Coût — 0.01€/M (OpenAI small) à 0.15€/M (Voyage Large), (4) Dimensions — 768 (compact, rapide) à 3072 (qualité max, stockage 4× plus lourd), (5) Self-hostable — Mistral Embed et Jina v3 sont open-source, Voyage et OpenAI sont SaaS only. Pour 80 % des PME : OpenAI text-embedding-3-small (1536 dims) est le défaut raisonnable.
Combien coûte un embedding en pratique ?+
Coût d'indexation initial : 0.01€ à 0.15€ par million de tokens selon le modèle. Une base de 100 000 documents internes (~50M tokens) coûte 10-80€ à indexer une fois. Coût de query (chaque recherche) : 0.0001€-0.001€. Coût de stockage : ~1 KB par vecteur 768 dims, ~4 KB par vecteur 3072 dims — 100k vecteurs = 100-400 MB. Sur pgvector ou Qdrant self-hosted : ~10€/mois VPS suffit. Pinecone ou Pinecone managed : 70-300€/mois selon volume.
Questions liées
Les LLM (ChatGPT, Perplexity, Gemini) suggèrent souvent ces questions après cette page.
- Voyage 3 vs OpenAI text-embedding-3 vs Mistral Embed : lequel choisir ?
- Combien de dimensions choisir pour un embedding ?
- Embedding ou BM25 : quelle stratégie de recherche ?
- Faut-il réindexer quand on change de modèle d'embedding ?
- Quel coût d'indexation pour une base de 1M documents ?
Un embedding est une représentation numérique d’un texte sous forme de vecteur (une liste de nombres). Deux textes proches sémantiquement produisent des vecteurs proches dans l’espace ; deux textes éloignés, des vecteurs éloignés. C’est la brique qui permet à un ordinateur de “comprendre” qu‘“avocat juriste” et “cabinet d’avocat” sont proches, même sans mot en commun.
En pratique
Un modèle d’embedding (voyage-3, OpenAI text-embedding-3, Mistral Embed, Cohere Embed) prend en entrée une phrase et retourne un vecteur de 768 à 3 072 dimensions selon le modèle. Exemple simplifié :
"Comment résilier mon abonnement ?"
→ [0.12, -0.04, 0.88, ..., 0.31] (1 536 dimensions)
"Annuler ma souscription"
→ [0.11, -0.05, 0.86, ..., 0.30] (vecteur très proche)
La distance cosinus entre les deux vecteurs donne un score de similarité (0 = orthogonal, 1 = identique). On stocke ces vecteurs dans une base vectorielle (pgvector, Qdrant, Pinecone) pour rechercher rapidement les passages les plus proches d’une requête.
Embeddings vs recherche par mots-clés
La recherche full-text classique (Elasticsearch, MeiliSearch sans hybrid) cherche les mots exacts. Si vous tapez “annuler souscription”, elle ne trouve pas “résilier abonnement”. L’embedding capture le sens, pas les mots. C’est ce qui rend la recherche sémantique utile pour un FAQ interne, une base de docs, une recherche client. La meilleure stack 2026 combine les deux : recherche hybride (mots-clés + embeddings).
Dimensions et coût
- 768 dimensions : modèles compacts, recherche rapide (Mistral Embed, MiniLM).
- 1 536 dimensions : standard (OpenAI text-embedding-3-small).
- 3 072 dimensions : haute qualité, plus cher en stockage (text-embedding-3-large, voyage-3-large).
Coût d’embedding 2026 : 0,01 € à 0,15 € par million de tokens. Une base de 100 000 documents internes coûte généralement 10 à 80 € à indexer une fois.
Pour aller plus loin
- RAG — définition — l’usage principal des embeddings.
- Base de données vectorielle — où stocker les embeddings.
- Vector databases 2026 — quelle base choisir.
- Audit IA Kezify — concevoir votre recherche sémantique interne.
Vous voulez utiliser des embeddings dans votre entreprise ? Audit IA Kezify.