RLHF (Reinforcement Learning from Human Feedback) — définition LLM 2026

RLHF (Reinforcement Learning from Human Feedback) est la technique d’alignement qui a rendu ChatGPT-3.5, Claude et tous les LLM commerciaux modernes utilisables. Au lieu de juste imiter du texte, le modèle apprend à générer des réponses qu’un humain note comme “bonnes” — utiles, polies, honnêtes, sans contenu toxique. C’est l’étape qui transforme un LLM “savant brut” en “assistant fiable”.

Pipeline RLHF classique

Pre-training : sur 10T tokens web. Modèle “base”.
SFT (Supervised Fine-Tuning) : sur 100k instructions humaines de qualité. Modèle “instruct”.
Reward model training : des annotateurs notent des paires de réponses. On entraîne un modèle “juge” (reward model) qui apprend leur préférence.
PPO (Proximal Policy Optimization) : l’instruct est ré-entraîné en RL pour maximiser le score du reward model. Modèle “RLHF aligné”.

Évolution 2024-2026 : DPO

DPO (Direct Preference Optimization, Rafailov et al. 2023) court-circuite le reward model. Au lieu d’entraîner un juge intermédiaire puis de faire du RL, DPO optimise directement le modèle sur les préférences humaines via un objectif math élégant. Plus simple, plus stable, qualité équivalente. Mistral, DeepSeek et beaucoup d’open-source utilisent DPO en 2026.

Constitutional AI (Anthropic)

Anthropic utilise une variante : Constitutional AI (Bai et al. 2022). L’IA s’auto-critique en suivant une “constitution” (principes éthiques explicites), ce qui réduit le besoin d’annotations humaines coûteuses. Claude est entraîné ainsi.

Impact pour PME

Vous bénéficiez du RLHF sans avoir à le faire — tous les modèles commerciaux sont alignés. Mais comprendre RLHF explique :

Pourquoi un modèle base open-source ne marche pas en l’état : il faut le RLHF/DPO ou prendre un instruct-tuned.
Pourquoi les modèles refusent parfois des requêtes légitimes : le RLHF peut sur-refuser. Pas un bug, un side-effect d’alignement.
Pourquoi les modèles sont parfois trop polis ou évasifs : RLHF récompense la prudence.

Cas où on RLHF custom

Domaines spécialisés (médical, juridique) où la “qualité” diffère du grand public.
Cas où l’alignement standard refuse trop de requêtes légitimes (sécurité informatique offensive, médecine).
Volume très élevé justifie l’investissement (quelques millions d’€).

Pour une PME standard, on n’aligne pas custom — on choisit un modèle existant qui correspond.

Pour aller plus loin

Fine-tuning — définition — l’étape parente.
Instruct tuning — définition — étape précédente.
LLM — définition — fonctionnement général.
Audit IA Kezify — choisir le bon LLM pour votre métier.

Vous voulez choisir le LLM optimal pour votre cas ? Audit IA Kezify.