Le top-p sampling (ou nucleus sampling) est un paramètre de génération LLM qui ne considère que les tokens dont la probabilité cumulée dépasse une valeur p (typiquement 0.9 ou 0.95). Plutôt que d’autoriser tous les mots possibles (ce qui rend le sampling sensible aux mots très improbables), top-p coupe la queue de la distribution.
En pratique
Imaginons que pour le mot suivant, le modèle a 10 000 candidats avec leurs probabilités. Si on trie par probabilité décroissante :
- “le” : 0.40
- “un” : 0.25
- “ce” : 0.10
- “mon” : 0.08
- “votre” : 0.05
- … (puis 9 995 mots à <0.01 chacun)
Top-p = 0.9 ne retient que les mots dont la somme des probas ≤ 0.9. Ici : “le”, “un”, “ce”, “mon”, “votre” (somme = 0.88) + un 6e qui fait passer au-dessus de 0.9. Les 9 994 autres sont rejetés.
Avantage : empêche le modèle de produire des sorties bizarres en piochant un mot ultra-improbable. Comparé à top-k (qui retient un nombre fixe de candidats), top-p s’adapte dynamiquement à la confiance du modèle.
Bonnes pratiques
| Cas d’usage | Top-p | Température | Pourquoi |
|---|---|---|---|
| Extraction structurée | 1.0 | 0 | déterminisme |
| Code | 0.95 | 0.1 | quasi-déterministe |
| Conversation | 0.95 | 0.7 | naturel + cohérent |
| Créatif (marketing) | 0.95 | 1.0 | varié sans déraper |
| Brainstorming pur | 0.99 | 1.2 | très créatif, garde-fou minimal |
Note : combiner top-p < 1.0 avec température basse est généralement redondant. Choisissez l’un OU l’autre, pas les deux serrés à la fois.
Top-p vs top-k vs température
- Température : “lisse” la distribution.
- Top-k : retient les k mots les plus probables (ex. k=40).
- Top-p : retient un nombre dynamique de mots qui couvrent une probabilité cumulée p.
Top-p est devenu le standard parce qu’il gère mieux les cas où le modèle est “très sûr” (peu de candidats) vs “incertain” (beaucoup de candidats équivalents).
Évolution 2026
Sur les modèles reasoning natifs, top-p est rarement exposé. La sampling strategy est gérée en interne par le modèle.
Pour aller plus loin
- Température LLM — définition — paramètre complémentaire.
- LLM — définition — fonctionnement général.
- Prompt engineering — définition — où le sampling compte.
- Audit IA Kezify — calibrer le sampling pour vos use cases.
Vous voulez calibrer vos LLM en production ? Audit IA Kezify.