A 3 termes
Agent IA — définition opérationnelle et niveaux d'autonomie
Qu'est-ce qu'un agent IA en 2026 ? Définition opérationnelle, différence avec un chatbot, les 4 niveaux d'autonomie réels en production en PME française.
Agentic workflow — définition et patterns en 2026
Qu'est-ce qu'un agentic workflow ? Définition, différence avec un agent autonome, patterns (orchestrator-workers, evaluator-optimizer) et cas d'usage entreprise.
AI Act européen — définition, dates clés et impact PME
Qu'est-ce que l'AI Act ? Définition du règlement européen sur l'IA, dates clés d'application, classes de risque et impact concret sur les PME françaises.
B 2 termes
Base de données vectorielle — définition et choix pour PME
Qu'est-ce qu'une base de données vectorielle ? Définition, rôle dans le RAG, exemples (Pinecone, Qdrant, pgvector) et critères de choix pour une PME française.
Benchmark LLM — définition et benchmarks de référence en 2026
Qu'est-ce qu'un benchmark LLM ? Définition, principaux benchmarks (MMLU, HumanEval, GSM8K, FR-spécifiques), limites et comment évaluer un LLM pour son entreprise.
C 5 termes
CAG (Cache-Augmented Generation) — définition et différence avec RAG en 2026
Qu'est-ce que le CAG ? Définition, principe (KV cache long-context), différence avec RAG, cas d'usage et limites en entreprise française.
Chain prompt (chaînage de prompts) — définition et patterns en 2026
Qu'est-ce que le chain prompt ? Définition, différence avec chain-of-thought, patterns de décomposition, frameworks (LangChain, DSPy) et cas d'usage entreprise.
Chain-of-thought — raisonnement étape par étape d'un LLM
Qu'est-ce que le chain-of-thought ? Définition simple du raisonnement étape par étape, quand l'utiliser, ses limites et son coût en tokens.
Chunking (découpage) — définition et stratégies pour RAG en 2026
Qu'est-ce que le chunking en RAG ? Définition, stratégies de découpage (fixed, semantic, recursive), taille optimale, et impact sur la qualité des réponses LLM.
Coût par token (cost per token) — pricing LLM 2026 en entreprise
Comment se calcule le coût d'un LLM ? Définition, pricing 2026 (Claude, GPT, Mistral, Gemini), différence input/output et leviers de réduction du coût en PME.
D 2 termes
Data leakage LLM — définition et prévention en entreprise en 2026
Qu'est-ce que la fuite de données dans un LLM ? Définition, vecteurs (training, contexte, mémoire), conformité RGPD/AI Act, et mitigations concrètes.
Distillation (model distillation) — définition et usage en LLM 2026
Qu'est-ce que la distillation d'un LLM ? Définition, principe (teacher/student), exemples (Haiku, Mistral Small, Phi-4), et cas d'usage en PME française.
E 2 termes
Embedding (vecteur sémantique) — définition et usage
Qu'est-ce qu'un embedding en IA ? Définition simple du vecteur sémantique, dimensions typiques, usage en recherche sémantique, vs recherche par mots-clés.
Évaluation LLM (eval) — définition, métriques et outils 2026
Qu'est-ce qu'une évaluation LLM ? Définition, métriques principales (faithfulness, relevance, latency, cost) et outils pour mesurer un LLM en production.
F 4 termes
Fenêtre de contexte — définition et tailles 2026
Qu'est-ce que la fenêtre de contexte d'un LLM ? Définition, tailles 2026 (1M chez Claude, 200k chez GPT), et coût d'une grosse fenêtre en pratique.
Few-shot learning — définition et usage avec un LLM en 2026
Qu'est-ce que le few-shot learning ? Définition, principe (exemples dans le prompt), différence avec zero-shot et fine-tuning, cas d'usage en entreprise.
Fine-tuning d'un LLM — définition, coût et quand l'utiliser
Définition simple du fine-tuning d'un LLM en 2026. Quand l'utiliser pour une PME, coût typique, durée, et pourquoi le RAG est souvent un meilleur choix.
Function calling — définition et usage en agents LLM 2026
Qu'est-ce que le function calling en LLM ? Définition, différence avec MCP, exemples concrets et bonnes pratiques pour des agents IA fiables en PME.
G 2 termes
Grounding — définition et impact anti-hallucination en LLM 2026
Qu'est-ce que le grounding en LLM ? Définition, lien avec RAG et citations, comment réduire les hallucinations en entreprise PME française.
Guardrails IA — définition et patterns pour sécuriser un LLM en 2026
Qu'est-ce que les guardrails LLM ? Définition, types (input, output, topical), bibliothèques (NeMo, Llama Guard), et cas concrets de protection en entreprise.
H 2 termes
Hallucination d'un LLM — définition, fréquence et solutions
Qu'est-ce qu'une hallucination d'IA ? Définition, fréquence en 2026, comment la réduire en entreprise (RAG, citations, évaluation) — guide concret.
Hybrid search (recherche hybride) — définition et usage en RAG 2026
Qu'est-ce que la recherche hybride ? Définition, principe (BM25 + vectoriel + RRF), gain mesuré sur la qualité RAG, et stack technique pour PME.
I 2 termes
Inférence LLM — définition, coût et latence en 2026
Qu'est-ce que l'inférence d'un LLM ? Définition, différence avec l'entraînement, coût par requête et latence typique en 2026 pour une PME française.
Instruct tuning (instruction tuning) — définition et impact en LLM 2026
Qu'est-ce que l'instruct tuning dans un LLM ? Définition, différence avec un modèle 'base', impact sur l'usage entreprise et exemples concrets.
J 1 terme
L 3 termes
Latence LLM — définition, mesures TTFT/TPS et benchmarks en 2026
Qu'est-ce que la latence d'un LLM ? Définition, métriques clés (TTFT, TPS, end-to-end), benchmarks Claude/GPT/Mistral 2026 et impact UX en entreprise.
LLM (Large Language Model) — définition simple pour entreprise
Qu'est-ce qu'un LLM en 2026 ? Définition claire, exemples (Claude, GPT, Mistral), différence avec un chatbot classique et usage concret en PME française.
LoRA (Low-Rank Adaptation) — définition et usage en fine-tuning LLM 2026
Qu'est-ce que LoRA ? Définition de Low-Rank Adaptation, pourquoi c'est devenu le standard de fine-tuning LLM, et impact économique pour une PME française.
M 4 termes
MCP (Model Context Protocol) — définition et enjeu 2026
Qu'est-ce que MCP en IA ? Définition du Model Context Protocol créé par Anthropic, pourquoi 2025-2026 c'est devenu un standard, et impact pour les PME.
Mixture of Experts (MoE) — définition et impact sur les LLM 2026
Qu'est-ce que Mixture of Experts (MoE) en LLM ? Définition, principe (sparse activation), exemples (Mistral, GPT-4, DeepSeek), et impact sur le coût d'inférence.
Système multi-agents — définition et frameworks 2026
Qu'est-ce qu'un système multi-agents IA ? Définition, différence avec un agent unique, exemples (CrewAI, AutoGen, LangGraph) et cas d'usage PME.
Multimodal — définition et usage en entreprise IA 2026
Qu'est-ce qu'un modèle multimodal en IA ? Définition, exemples concrets (Claude, GPT-5, Gemini), et cas d'usage réels en PME française en 2026.
O 1 terme
P 4 termes
Prompt caching — définition et impact économique en LLM 2026
Qu'est-ce que le prompt caching en LLM ? Définition, fonctionnement (Anthropic, OpenAI), et impact sur le coût d'inférence pour une PME française.
Prompt engineering — définition et techniques principales
Qu'est-ce que le prompt engineering en 2026 ? Définition, techniques principales (system prompt, few-shot, chain-of-thought) et différence avec un simple prompt.
Prompt injection — définition et risque sécurité en LLM 2026
Qu'est-ce que la prompt injection en IA ? Définition, exemples concrets d'attaques, impact business et bonnes pratiques de défense pour une PME française.
Prompt template — définition et bonnes pratiques en 2026
Qu'est-ce qu'un prompt template ? Définition, structure, variables, versioning, et frameworks (Jinja, LangChain, DSPy) pour industrialiser vos prompts en entreprise.
Q 1 terme
R 6 termes
RAG (Retrieval-Augmented Generation) — définition et usage en entreprise
Qu'est-ce que le RAG ? Définition, principe, pourquoi c'est nécessaire en entreprise française, et différence concrète avec le fine-tuning d'un LLM.
Recherche sémantique (semantic search) — définition et usage en 2026
Qu'est-ce que la recherche sémantique ? Définition, principe (embeddings + vector DB), différence avec la recherche par mots-clés, cas d'usage en entreprise.
Red teaming IA — définition et méthode pour tester un LLM en 2026
Qu'est-ce que le red teaming d'un LLM ? Définition, méthode, attaques courantes (prompt injection, jailbreak), et obligation AI Act pour les systèmes à haut risque.
Réflexion IA (self-reflection LLM) — définition et usage en agents 2026
Qu'est-ce que la réflexion IA en agent LLM ? Définition de la self-reflection, pattern Reflexion, et impact sur la qualité des agents en PME française.
Rerank (re-ranking) — définition et usage en RAG en 2026
Qu'est-ce que le re-ranking dans un pipeline RAG ? Définition, principe, modèles cross-encoder, et impact concret sur la qualité des réponses LLM en entreprise.
RLHF (Reinforcement Learning from Human Feedback) — définition LLM 2026
Qu'est-ce que le RLHF en IA ? Définition de Reinforcement Learning from Human Feedback, principe d'alignement, et impact sur les LLM commerciaux.
S 3 termes
Souveraineté IA — définition et fournisseurs souverains 2026
Qu'est-ce que la souveraineté IA ? Définition, pourquoi c'est important en France, et les fournisseurs souverains 2026 (Mistral, Scaleway, OVH, Outscale).
Structured output — définition et usage en LLM 2026
Qu'est-ce qu'une structured output (sortie structurée) en LLM ? Définition, JSON schema, mode strict, et bonnes pratiques pour intégrer un LLM en PME.
System prompt — définition et bonnes pratiques pour un LLM en 2026
Qu'est-ce qu'un system prompt ? Définition, rôle dans un LLM, différence avec un user prompt, structure type d'un agent en entreprise et erreurs courantes.
T 7 termes
Température LLM — définition et impact sur les réponses IA 2026
Qu'est-ce que la température dans un LLM ? Définition, plage de valeurs, impact concret sur les réponses, et bonnes pratiques en entreprise PME.
Token (LLM) — définition, ratio en français et coût 2026
Qu'est-ce qu'un token en IA ? Définition simple, ratio mots/tokens en français, coût par token en 2026 selon les modèles (Claude, GPT, Mistral).
Tokenization — définition et impact sur le coût LLM 2026
Qu'est-ce que la tokenization en LLM ? Définition, principe BPE, pourquoi le français consomme plus de tokens que l'anglais, et impact économique en PME.
Tokens par seconde (TPS) — définition et benchmarks LLM en 2026
Qu'est-ce que le throughput d'un LLM en tokens/seconde ? Définition, mesures de référence par modèle, impact sur le coût et l'UX, optimisations possibles.
Tool use (function calling) — définition et exemples concrets
Qu'est-ce que le tool use d'un LLM ? Définition du function calling, comment ça marche techniquement, et exemples concrets en entreprise PME française.
Top-p sampling (nucleus sampling) — définition et usage en LLM 2026
Qu'est-ce que le top-p sampling dans un LLM ? Définition de nucleus sampling, différence avec température et top-k, et bonnes pratiques en entreprise.
Tree of Thought — définition et usage en raisonnement LLM 2026
Qu'est-ce que Tree of Thought (ToT) en IA ? Définition, différence avec Chain of Thought, et cas d'usage concrets en entreprise PME française.