Le contexte
Un e-commerce maison & déco français (12 ans d’existence, ~32 M€ de CA, 70 collaborateurs, catalogue de 18 000 SKU) nous contacte en janvier 2026. Leur moteur de recommandations actuel (basé sur les règles métier — “si l’acheteur a regardé X, montre Y”) est en place depuis 4 ans et ses performances stagnent. La directrice e-commerce résume : “On a essayé 2 SaaS de reco IA en 2024-2025. Les deux ont fini en désinstallation : l’un parce que les recos étaient absurdes, l’autre parce que le coût mensuel a explosé sans amélioration mesurable. On veut quelque chose de sur mesure et de mesurable.”
Objectif : augmenter le panier moyen (AOV) sans dégrader la conversion.
Les 4 frictions trouvées en audit
L’audit (4 800 € HT, déduit du projet, 8 jours-homme sur 2 semaines) a identifié :
1. La data produit est riche mais sous-exploitée
Chaque SKU a 30+ attributs (matière, dimensions, style, prix, disponibilité, marge, taux de retour, photos). Le moteur de règles n’en exploitait que 4 (catégorie, prix, popularité, stock). 26 attributs dormaient dans la BDD.
2. Les règles métier ont été figées en 2022
Aucune re-évaluation depuis. Conséquence : promotion artificielle de produits qui n’étaient plus prioritaires (collection 2022 sortie en juillet 2024 mais encore poussée en 2026), et invisibilité de produits stratégiques (collections capsules, retours d’expérience client positif).
3. Pas de feature de saisonnalité
Le moteur ne sait pas qu’il pleut depuis 3 jours en Île-de-France ni que le Black Friday est dans 3 semaines. Conséquence : des recos décorrélées du contexte d’achat.
4. Aucune mesure de ce qui marche
Recos affichées sur 4 emplacements différents (page produit, panier, post-commande, email retargeting), mais aucune mesure de l’incrémentalité. Impossible de savoir si les ventes attribuées aux recos auraient eu lieu sans elles.
La solution déployée
Phase 2 (8 semaines) : un moteur de recommandations hybride combinant filtrage collaboratif classique (rapide, peu cher) et reranking sémantique par Claude (qualitatif, personnalisé) sur les emplacements à fort enjeu.
Architecture
-
Couche collaborative : modèle ALS (Alternating Least Squares) pré-calculé chaque nuit sur l’historique d’achats des 24 derniers mois. Sortie : top-50 produits candidats par utilisateur.
-
Couche reranking sémantique : Claude 4.5 Haiku (modèle économique) reçoit les 50 candidats + le contexte utilisateur (page courante, panier, historique récent, météo, saisonnalité) et reranke en top-6 avec une explication courte de la raison du choix.
-
Couche cas particuliers : Claude 4.6 Sonnet pour les utilisateurs à forte LTV ou à panier élevé (>200 €). Modèle plus puissant, prompt plus contexté, qualité reco mesurablement supérieure.
-
A/B testing systématique : chaque emplacement testé contre l’ancien moteur sur 4 semaines minimum, métriques d’incrémentalité claires (CTR, conversion, AOV uplift, marge).
Stack technique
- ALS : library
implicit(Python), entraîné sur leur cluster Spark existant. - Reranking : Claude 4.5 Haiku (98 % du trafic) + Claude 4.6 Sonnet (LTV élite, 2 % du trafic).
- Backend : FastAPI (latence p99 < 250 ms grâce au caching agressif des reranks par profil de visiteur).
- A/B testing : LaunchDarkly + tracking custom GA4 + leur DWH Snowflake.
- Observabilité : Langfuse pour traces LLM, Looker pour KPIs business.
Les chiffres avant / après
Mesurés sur 6 semaines en production complète (avril 2026), versus moteur précédent (test A/B 50/50 sur 4 semaines puis ramp-up) :
| Métrique | Avant | Après | Delta |
|---|---|---|---|
| Panier moyen (AOV) | 87 € | 97 € | +12 % |
| Taux de conversion | 2,8 % | 2,97 % | +6 % |
| Revenu / visiteur | 2,44 € | 2,88 € | +18 % |
| CTR sur les blocs reco | 4,2 % | 7,1 % | +69 % |
| Marge brute moyenne / commande | 38 % | 39,5 % | +1,5 point |
| Coût LLM / commande générée | — | 0,11 € | nouveau |
L’amélioration de la marge brute vient d’un effet inattendu : Claude est meilleur que le moteur règles pour pousser des produits à marge élevée quand ils sont pertinents, plutôt que de tomber automatiquement sur les promo / volume.
Ce qui a été difficile
La latence
L’expérience e-commerce ne tolère pas une page produit qui charge en 800 ms. On a passé 2 semaines à optimiser : caching agressif des reranks par profil de visiteur (~5 000 profils types couvrant 80 % du trafic), pré-warming des candidates à minuit, fallback sur le moteur règles si le LLM dépasse 350 ms. Latence finale p99 : 240 ms.
Le cold start utilisateur
Pour les nouveaux visiteurs (~40 % du trafic), pas d’historique → pas de candidate ALS. Solution : utilisation des signaux session (page d’entrée, source de trafic, device, premier produit consulté) comme features. Le LLM s’en sort très bien sur ces signaux faibles, c’est un de ses points forts.
La conformité Made in France
Le client tient à son positionnement “made in France” et voulait éviter de pousser des produits importés en première position systématiquement. On a ajouté une contrainte explicite dans le prompt système et un boost custom dans le scoring final pour les SKU made in France — décision business assumée, validée par la direction marketing.
Le ROI
- Coût projet : 56 000 € HT (audit + dev + intégration + A/B testing + 1 mois support)
- Coût d’exploitation LLM : 1 800 €/mois (Haiku 98 % + Sonnet 2 % sur ~700 commandes/jour)
- Gain net annuel : +18 % de revenu / visiteur × 12 M€ de CA front = +2,16 M€ de CA, dont marge nette estimée 890 k€/an (en retirant le coût LLM, le coût projet amorti, et l’impact sur les coûts logistiques).
- ROI atteint : mois 4
Ce que dit le client 3 mois après
“On était cyniques au départ — on avait déjà perdu de l’argent avec 2 SaaS reco. Cette fois, on a démarré par un audit qui nous a posé des questions qu’aucun éditeur SaaS n’avait posées (sur la marge, sur le made in France, sur le testing). Quand le moteur est arrivé, il faisait exactement ce qu’on avait décidé. Et il continue à s’améliorer parce qu’on l’a chez nous, pas chez un fournisseur.” — Directrice e-commerce.
Prochaine étape chez ce client
Phase 3 (cadrage juin 2026) : personnalisation des emails marketing (relance panier, post-commande, ré-engagement à 30 jours) avec Claude générant des sujets et corps d’email personnalisés. Budget estimé 24 000 €, ROI attendu sur le revenu attribué emails (estimé +15 %).
TODO Hugo
- Anonymisation revue OK avec direction marketing client
- Vérifier les chiffres exacts d’AOV (T2 2026)
- Demander vidéo témoignage si disponible
Pour vous ?
Si vous gérez un e-commerce français > 5 M€ de CA avec un catalogue > 5 000 SKU et un moteur reco à bout de souffle, le pattern est transposable. Conditions clés : data produit riche + historique d’achats > 12 mois + sponsor e-commerce engagé sur le testing.
Pour aller plus loin
- Cas client — personnalisation IA chez une marque DTC mode (+14 % AOV) — Cas voisin DTC mode.
- Cas client — triage support pour un e-commerce mode (180k tickets/an) — Autre cas e-commerce, côté support.
- L’IA pour un e-commerce français — ce qui marche vraiment en 2026 — Notre vue d’ensemble sur le secteur.