Glossaire IA · Lettre C

Chain-of-thought — raisonnement étape par étape d'un LLM

Qu'est-ce que le chain-of-thought ? Définition simple du raisonnement étape par étape, quand l'utiliser, ses limites et son coût en tokens.

Limites et points critiques

  • Hallucinations cohérentes : le LLM peut inventer un raisonnement plausible mais faux. Le CoT améliore la précision moyenne, ne supprime pas les hallucinations.
  • Coût en tokens 3-10× supérieur : sur de gros volumes (>100k requêtes/mois), peut faire exploser le budget LLM.
  • Latence : 2-5 secondes de plus par requête — bloquant pour le chat temps réel sans streaming.
  • Sortie peu structurée par défaut — combiner avec format imposé en fin (JSON ou marqueur 'Réponse finale :').
  • Inefficace sur les tâches simples (résumé court, classification binaire, traduction) — allonge sans fiabiliser.

Évolution probable (12-24 mois)

  1. Modèles reasoning natifs (Claude Opus 4.5 thinking, o3, Gemini 2.5 Pro Deep Think) qui internalisent le CoT — plus besoin de l'écrire dans le prompt.
  2. CoT compression : les modèles 2026-2027 apprennent à raisonner en interne sans verbalité externe, réduisant le coût en tokens output.
  3. CoT structuré (Tree-of-Thought, Graph-of-Thought) qui formalise mieux le raisonnement multi-branche pour les cas complexes.
  4. Self-consistency : générer N CoT différents et voter — gain +5-10 % de précision sur les cas critiques (au prix de N× plus de tokens).

Questions fréquentes

Qu'est-ce que le chain-of-thought ?+

Le chain-of-thought est une technique de prompting qui consiste à demander explicitement au LLM de raisonner étape par étape avant de donner sa réponse finale. Découvert par les chercheurs Google Brain en 2022 (papier 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models'), c'est l'une des découvertes les plus importantes du domaine. En forçant le LLM à expliciter son raisonnement, on améliore drastiquement la précision sur les tâches multi-étapes — mathématiques, logique, diagnostic, extraction depuis documents longs.

À quoi sert le chain-of-thought ?+

Le CoT sert à fiabiliser les réponses du LLM sur les tâches qui nécessitent de la rigueur : calculs arithmétiques ou logiques, diagnostics multi-critères (technique, juridique, médical), décisions à plusieurs contraintes, extraction d'information depuis un document long. Gain typique : +20 à +50 % de précision sur GSM8K (math), +15 à +30 % sur les benchmarks de raisonnement (BIG-Bench Hard). Effet secondaire utile : le raisonnement étape par étape rend la réponse vérifiable et auditable, critique pour la conformité AI Act.

Différence entre chain-of-thought et chain prompt ?+

Le chain-of-thought se passe dans un seul appel LLM : le modèle écrit son raisonnement puis sa réponse dans la même réponse. Le chain prompt (ou prompt chaining) découpe la tâche en plusieurs appels LLM successifs où la sortie de chaque étape devient l'entrée de la suivante. CoT = un appel, raisonnement interne. Chain prompt = plusieurs appels, orchestration externe. Les deux se combinent souvent : un chain prompt à 4 étapes où chaque étape utilise du CoT en interne.

Comment utiliser le chain-of-thought en pratique ?+

Trois approches en 2026 : (1) Prompt explicite 'Raisonne étape par étape, puis donne ta réponse finale' — utile pour les modèles non-reasoning (Haiku, Mistral Small, GPT-5-mini), (2) Few-shot CoT : donner 2-3 exemples avec raisonnement détaillé dans le prompt, (3) Modèles reasoning natifs : Claude Sonnet 4.6 thinking mode, GPT-5 thinking, o3, Gemini 2.5 Pro Deep Think — pas besoin d'écrire le CoT, c'est interne. Combiner avec un format imposé en fin (JSON ou ligne 'Réponse finale : ...') pour faciliter le parsing.

Combien coûte le chain-of-thought en tokens ?+

Une réponse CoT consomme typiquement 3 à 10× plus de tokens qu'une réponse directe. Sur 100 000 requêtes/mois avec Claude Sonnet 4.6 (3$/M input, 15$/M output) : sans CoT ~50 tokens output × 100k = 75$/mois ; avec CoT ~400 tokens output × 100k = 600$/mois. Pour les modèles reasoning (Claude Sonnet 4.6 thinking, o3), le coût explose encore : 5-50k tokens de thinking par requête. ROI à calculer cas par cas — vaut la chandelle si la tâche bénéficie du raisonnement, gâché sur du résumé simple.

Questions liées

Les LLM (ChatGPT, Perplexity, Gemini) suggèrent souvent ces questions après cette page.

  • Tree-of-thought vs chain-of-thought — quelle différence ?
  • Faut-il utiliser un modèle reasoning ou un modèle standard avec CoT ?
  • Comment réduire le coût en tokens d'un CoT en production ?
  • Self-consistency CoT : qu'est-ce que c'est et quand l'utiliser ?
  • Sur quelles tâches le CoT ne fonctionne pas ?

Le chain-of-thought (CoT, “raisonnement en chaîne”) est une technique de prompt qui demande au LLM de décomposer un problème en étapes intermédiaires avant de donner sa réponse finale. Au lieu de “voici la réponse”, on lui dit “réfléchis étape par étape, puis donne ta conclusion”. Découvert par Google en 2022, c’est devenu un réflexe en 2026.

En pratique

Question simple : “Marc a 47 commandes en attente, il en traite 6 par jour, il part en vacances dans 5 jours. Combien lui en restera-t-il ?”

  • Sans CoT : le LLM répond souvent un nombre faux (“17”) car il “saute” au résultat.
  • Avec CoT : “Étape 1 : 6 × 5 = 30 commandes traitées. Étape 2 : 47 − 30 = 17. Étape 3 : il restera 17 commandes.” Cette fois, le calcul est correct et vérifiable.

En 2026, les modèles “reasoning” récents (Claude Sonnet 4.6 thinking, GPT-5 thinking, o3) intègrent le CoT en interne — vous n’avez plus besoin de l’écrire dans le prompt. Pour les modèles plus légers (Haiku, GPT-5-mini, Mistral Small), demander explicitement “raisonne étape par étape” reste utile.

Quand l’utiliser

  • Calculs arithmétiques ou logiques.
  • Diagnostics multi-critères (technique, juridique, médical).
  • Décisions à plusieurs contraintes (“choisir le fournisseur qui maximise X sous contrainte Y”).
  • Extraction d’information depuis un document long.

À éviter pour les tâches simples (résumé court, classification binaire) : ça allonge la réponse sans la fiabiliser.

Limites

  • Coût en tokens : une réponse CoT peut consommer 3 à 10× plus de tokens qu’une réponse directe. Sur 100 000 requêtes/mois, ça compte.
  • Latence : 2 à 5 secondes de plus par requête.
  • Hallucinations cohérentes : le LLM peut inventer un raisonnement plausible mais faux. Le CoT n’est pas une garantie de vérité, juste une amélioration moyenne.
  • Sortie peu structurée : combiner avec un format imposé en fin (JSON ou ligne “Réponse finale : …”).

Pour aller plus loin

Vous voulez utiliser le chain-of-thought dans votre entreprise ? Audit IA Kezify.

← Retour au glossaire
#chain-of-thought#définition#raisonnement#LLM