Top-p sampling (nucleus sampling) — définition et usage en LLM 2026

Le top-p sampling (ou nucleus sampling) est un paramètre de génération LLM qui ne considère que les tokens dont la probabilité cumulée dépasse une valeur p (typiquement 0.9 ou 0.95). Plutôt que d’autoriser tous les mots possibles (ce qui rend le sampling sensible aux mots très improbables), top-p coupe la queue de la distribution.

En pratique

Imaginons que pour le mot suivant, le modèle a 10 000 candidats avec leurs probabilités. Si on trie par probabilité décroissante :

“le” : 0.40
“un” : 0.25
“ce” : 0.10
“mon” : 0.08
“votre” : 0.05
… (puis 9 995 mots à <0.01 chacun)

Top-p = 0.9 ne retient que les mots dont la somme des probas ≤ 0.9. Ici : “le”, “un”, “ce”, “mon”, “votre” (somme = 0.88) + un 6e qui fait passer au-dessus de 0.9. Les 9 994 autres sont rejetés.

Avantage : empêche le modèle de produire des sorties bizarres en piochant un mot ultra-improbable. Comparé à top-k (qui retient un nombre fixe de candidats), top-p s’adapte dynamiquement à la confiance du modèle.

Bonnes pratiques

Cas d’usage	Top-p	Température	Pourquoi
Extraction structurée	1.0	0	déterminisme
Code	0.95	0.1	quasi-déterministe
Conversation	0.95	0.7	naturel + cohérent
Créatif (marketing)	0.95	1.0	varié sans déraper
Brainstorming pur	0.99	1.2	très créatif, garde-fou minimal

Note : combiner top-p < 1.0 avec température basse est généralement redondant. Choisissez l’un OU l’autre, pas les deux serrés à la fois.

Top-p vs top-k vs température

Température : “lisse” la distribution.
Top-k : retient les k mots les plus probables (ex. k=40).
Top-p : retient un nombre dynamique de mots qui couvrent une probabilité cumulée p.

Top-p est devenu le standard parce qu’il gère mieux les cas où le modèle est “très sûr” (peu de candidats) vs “incertain” (beaucoup de candidats équivalents).

Évolution 2026

Sur les modèles reasoning natifs, top-p est rarement exposé. La sampling strategy est gérée en interne par le modèle.

Pour aller plus loin

Température LLM — définition — paramètre complémentaire.
LLM — définition — fonctionnement général.
Prompt engineering — définition — où le sampling compte.
Audit IA Kezify — calibrer le sampling pour vos use cases.

Vous voulez calibrer vos LLM en production ? Audit IA Kezify.