Mise en œuvre

Prompt engineering en entreprise 2026 — ce qui marche vraiment, ce qui bluffe

Patterns concrets de prompt engineering testés en production chez nos clients : structure XML, few-shot ciblés, garde-fous, pièges à éviter. Avec exemples réels.

Le prompt engineering vend beaucoup de conférences LinkedIn. Dans la vraie vie, 7 patterns concrets couvrent 90 % des cas que nous rencontrons en production. Voici ce qui marche, ce qui ne marche plus, et les erreurs qui coûtent cher.

Les 7 patterns qui tiennent en 2026

1. Structure XML pour les prompts complexes

Claude 4.6 Sonnet, GPT-5 et Mistral Large 2.5 sont tous entraînés sur du XML. Plus le prompt est long, plus le XML améliore la fiabilité.

<role>
Vous êtes assistant juridique d'un cabinet d'avocats français, spécialisé droit du travail.
</role>

<context>
{contexte_client}
{historique_dossier}
</context>

<task>
Rédiger une conclusion de 800 mots sur la recevabilité de la demande.
</task>

<constraints>
- Citer uniquement les articles du Code du travail présents dans <sources>.
- Ne jamais inventer de jurisprudence.
- Répondre en français soutenu.
</constraints>

<sources>
{jurisprudence_pertinente}
</sources>

Gain mesuré sur 200 cas clients : +18 % de réponses conformes vs prompt en prose. Réduction des hallucinations de 34 %.

2. Few-shot ciblés (2-5 exemples), pas 20

Contrairement aux croyances, empiler 20 exemples dégrade souvent la qualité après un certain seuil. Ce qui marche :

  • 2-3 exemples pour les tâches de classification.
  • 3-5 exemples pour les tâches de rédaction.
  • 1-2 exemples pour les tâches de raisonnement (trop d’exemples tue la généralisation).

Les exemples doivent couvrir les cas limites, pas les cas faciles. Un bon exemple montre quoi faire quand c’est ambigu.

3. Chain-of-thought uniquement sur les tâches qui en ont besoin

“Réfléchissez étape par étape” fonctionne sur le raisonnement mathématique, l’analyse de code, les décisions multi-critères. Il est contre-productif sur les tâches d’extraction, de classification simple, de rédaction courte.

Règle pratique :

  • Tâche qui tient en 1 réponse courte → pas de CoT.
  • Tâche qui implique plusieurs décisions enchaînées → CoT explicite.

4. Garde-fous output au format structuré

Si vous attendez du JSON, exigez du JSON avec un schéma précis. Tous les modèles 2026 supportent nativement le structured output (Claude tool_use, OpenAI response_format, Mistral json_object).

{
  "category": "billing | shipping | returns | other",
  "urgency": 1-5,
  "customer_sentiment": "positive | neutral | negative",
  "required_context": ["order_id", "customer_email"],
  "suggested_response": "string, max 500 chars"
}

Gain mesuré : 0 % de sorties malformées en production, contre 4-8 % en prose libre. Économie downstream : énorme.

5. Ancrage systématique pour les faits

Pour toute tâche où les hallucinations coûtent cher, ancrer sur une source :

<instruction>
Pour chaque affirmation factuelle, citer entre crochets l'identifiant du document source.
Si une information demandée n'est pas présente dans les sources, répondre exactement :
"Information non disponible dans les documents fournis."
</instruction>

Sur un assistant d’analyse contractuelle chez un client industriel, ce pattern a fait passer le taux d’hallucinations de 11 % à 0,8 %.

6. System prompt court + context long

Le system prompt doit rester sous 500-800 tokens en production. Au-dessus, la qualité baisse sur tous les modèles. Le contexte variable (documents, historique, données) peut être long, c’est le system qui doit rester concis.

Mauvais pattern : system prompt de 4 000 tokens qui décrit 20 cas possibles. Bon pattern : system prompt de 500 tokens qui définit rôle + contraintes, puis routage conditionnel vers des prompts spécialisés par cas.

7. Prompt caching pour les parties stables

Claude et GPT supportent le prompt caching. Si votre system prompt + vos outils MCP ne changent pas entre deux requêtes, vous payez 10 % du prix input sur la partie cachée.

Gain réel sur un agent support avec 3k tokens de system stable + 500 tokens de contexte variable : -72 % de coût API. À activer dès la production.

Ce qui ne marche plus (ou n’a jamais marché)

“Agis comme si tu étais expert en…”

Pattern de 2023. Les modèles modernes n’ont pas besoin qu’on leur flatte l’égo. Ça n’améliore rien et ça mange 80 tokens inutiles. Remplacer par un <role> factuel.

”C’est très important que tu fasses ça bien”

Les menaces et les supplications ne marchent pas. Les études Anthropic / OpenAI de 2025 ont montré un impact nul à négatif. Le modèle fait toujours du mieux qu’il peut.

Les templates multi-paragraphes de 5 000 tokens

Plus le prompt est long, plus il dilue le signal. Au-delà de 1 500 tokens de system, chaque instruction ajoutée a un gain marginal proche de zéro. À un moment, ajouter une instruction efface une autre.

”Répète les instructions avant de répondre”

Technique populaire en 2024 pour forcer l’attention. Inutile avec Claude 4.6 et GPT-5 qui ont une bien meilleure adhérence aux instructions nativement. Gaspille des tokens output.

Les “ultimate master prompts” qui traînent sur LinkedIn

Prompts de 3 000 mots vendus 97 € qui “transforment votre productivité”. On les a testés. Performance identique ou inférieure à un prompt bien cadré de 300 mots sur tous nos cas production.

Les 5 erreurs classiques qui cassent la production

Erreur 1 : prompts stockés dans le code sans versioning. Un jour vous changez une virgule et la qualité chute de 15 %, personne ne sait pourquoi. Versionner les prompts dans un fichier dédié versionné git.

Erreur 2 : pas de tests de non-régression. Chaque modif prompt doit être testée sur les 50-100 cas de référence. Sans ça, chaque “petit ajustement” est un pari.

Erreur 3 : oublier les cas adversariaux. Un utilisateur qui écrit en majuscules, un ticket en 5 langues, un input vide, un input de 50 000 caractères. Tous doivent avoir une réponse gracieuse définie.

Erreur 4 : confondre “ça marche dans ChatGPT” et “ça marche en API”. ChatGPT web applique des transformations système invisibles. L’API est brute. 20 % des prompts qui marchent sur chat.openai.com cassent en API sans modification.

Erreur 5 : pas de plan de migration de modèle. Quand Claude 5 sort, combien de temps pour tester vos 40 prompts en production ? Si la réponse est “on sait pas”, vous êtes coincés sur un ancien modèle.

Le workflow prompt engineering qu’on applique chez nos clients

  1. Écrire le prompt v0 en 30 minutes sans surthink.
  2. Tester sur 20 cas manuels représentatifs.
  3. Identifier les 5 cas qui cassent le plus.
  4. Ajuster spécifiquement pour ces cas (jamais “en général”).
  5. Tester sur 100 cas de validation non vus.
  6. Mesurer : taux de succès, hallucinations, tokens consommés.
  7. Versionner, commenter, déployer.
  8. Réviser toutes les 6 semaines ou à chaque changement de modèle.

Temps typique pour un prompt mature en production : 8-15 heures, étalé sur 2-3 semaines avec retours utilisateurs. Pas 3 heures, pas 3 mois.

Les cas où on refuse d’optimiser le prompt

Nos lignes rouges :

  • Prompt destiné à contourner les garde-fous du modèle.
  • Tâche où la conformité légale exige une validation humaine (on ajoute la validation, on n’optimise pas le prompt).
  • Domaine où une hallucination coûte des vies (médical aigu, conduite autonome) : on refuse le LLM tout court dans la boucle de décision.

Votre cas précis ?

Si vous avez des prompts en production qui dérivent, ou si vous démarrez un projet et voulez éviter les erreurs de cette liste, 30 minutes au téléphone. On regarde vos prompts réels et on vous dit ce qui peut être durci.

Pour aller plus loin

← Retour au blog
#prompt engineering#Claude#GPT#production