Data Science & Business Analytics · 2025 · E-commerce

De 1 million de commandes
à des décisions business mesurables

Comment réduire simultanément les retours, les retards et la dépense promotionnelle inefficace, sans freiner la croissance des ventes ? Ce projet analyse 24 mois de données e-commerce pour identifier les leviers actionnables sur les produits, les vendeurs et la logistique.

Commandes analysées

1 M

24 mois · 5 catégories

Médiane panier

3 791 €

Q1–Q3 : 1 706 → 10 384 €

Taux de retour

11,6 %

stable sur 24 mois

Taux de retard

29,5 %

délai moyen 3,17 j

Contexte & enjeu

1 million de lignes : une mine d'or ou une masse ingérable ?

Une plateforme e-commerce accumule des millions de transactions, mais rares sont celles qui en extraient une intelligence actionnable. Taux de retour, saisonnalité, performance vendeur, impact des remises : ces signaux existent dans les données, mais ils sont enfouis sous le volume. L'enjeu de ce projet est de passer de la donnée brute à des recommandations précises que chaque décideur (marketing, supply chain, catégorie manager) peut appliquer immédiatement.

Qui est concerné ?

Directeurs e-commerce, Heads of Marketing, Category Managers et Supply Chain Directors cherchant à optimiser simultanément la croissance, la satisfaction client et la logistique.

Ce que ça change concrètement

Identifier le creux de février (−10 % de commandes) avant qu'il arrive, repérer les vendeurs qui dégradent le NPS, et distinguer les produits à fort potentiel des best-sellers fragiles (note basse, fort retour).

Périmètre analysé

1 000 000 commandes sur 24 mois, 5 catégories de produits (Électronique, Beauty, Clothing, Books, Sports), modes de paiement, devices, villes, remises et délais.

Résultats clés

fichiers analytiques générés automatiquement : scores produits, scores vendeurs, tendances, segmentation, panier mensuel, classement clients

−10 %

de commandes en février vs mois adjacents — creux récurrent détecté sur les deux années, exploitable en campagne promotionnelle anticipée

3,83

note moyenne pour les remises > 50 % vs 3,97 pour les remises 5–10 % — signal clair d'une politique promo qui dégrade la satisfaction

0,54

AUC du modèle de prédiction de retour — résultat honnête : les données transactionnelles seules ne suffisent pas à prédire un retour

Méthodologie

Six axes d'analyse pour des recommandations actionnables

Audit qualité des données

Vérification systématique des types, valeurs manquantes, doublons et cohérences internes (prix brut / remise / prix final). Détection des outliers sur les prix, délais et notes. Le dataset de 1 000 000 lignes s'est révélé propre structurellement, ce qui est rare à cette échelle et permet une analyse directe sans étape de reconstruction lourde.

Exploration & segmentation multi-axes

Analyse des distributions sur toutes les variables clés : catégories, sous-catégories, marques, villes, devices, modes de paiement. Construction d'une carte des corrélations pour identifier les signaux forts avant de prioriser les analyses. La distribution des paniers est fortement asymétrique : médiane à 3 791 €, fourchette centrale Q1–Q3 de 1 706 à 10 384 €, P95 à 46 518 € : la moyenne brute (9 939 €) tire vers le haut et n'est pas représentative du client typique. La distribution des remises (surtout 30–50 %) a orienté l'analyse pricing.

Scoring produits composite

Un score produit a été construit pour dépasser la simple logique de volume ou de CA : Score = 0,5 × CA normalisé + 0,3 × Volume normalisé + 0,2 × Note normalisée. Ce score pondère la performance commerciale et la satisfaction client, avec un seuil minimum de commandes pour éviter de surclasser des produits niche. 31 livrables analytiques ont été générés automatiquement.

Analyse des tendances et saisonnalité

Suivi mensuel du CA, volume, taux de retour et taux de retard sur 24 mois (avril 2024 – mars 2026). Le signal le plus net : un creux de février récurrent (environ 10 % de commandes en moins par rapport aux mois adjacents, visible sur les deux années). Les taux de retour (≈ 11,6 %) et de retard (≈ 29,5 %) sont restés remarquablement stables d'un mois à l'autre, ce qui suggère des causes structurelles plutôt que conjoncturelles.

Retours, logistique & segmentation du risque

Décomposition du taux de retour par catégorie, ville, vendeur, mode de paiement et device. L'Électronique affiche le taux de retour le plus faible (11,3 %) et la meilleure note (4,21/5). Beauty et Clothing sont légèrement plus exposés. Les remises extrêmes (> 50 %) corrèlent avec une note plus basse (3,83 vs 3,97 pour les remises 5–10 %), signal d'une politique promo à affiner.

Scoring vendeurs, valeur client & modèles prédictifs

Score vendeur composite : CA normalisé + (1 − taux de retour) + note vendeur + (1 − taux de retard). Un classement de valeur client a également été produit sur l'ensemble des acheteurs, et le panier moyen mensuel suivi mois par mois (stable à ≈ 9 940 €, sans variation significative sur 25 mois). Un modèle de classification baseline (prédiction de retour) a été entraîné : AUC 0,54, à peine au-dessus du hasard. Résultat honnête : prédire un retour à partir des seules données transactionnelles est intrinsèquement difficile sans historique comportemental client.

Résultats

Chiffre d'affaires mensuel sur 24 mois

Le CA mensuel oscille autour de 415 M€ avec une remarquable stabilité. Signal clair : un creux de février récurrent (−10 % vs mois adjacents), visible en 2025 et 2026, qui suggère un effet saisonnier structurel à anticiper dans les plans de stocks et de promotions.

Retours & retards par catégorie

L'Électronique se distingue positivement : taux de retour le plus faible (11,3 %) et note client la plus élevée (4,21/5). Beauty et Clothing concentrent les retours les plus élevés. Le taux de retard est homogène à ≈ 29,5 % toutes catégories confondues, ce qui pointe vers un problème logistique global plutôt que spécifique à un segment.

Top 10 produits : score composite

Le score composite (CA 50 % · Volume 30 % · Note 20 %) dépasse la simple logique de CA brut : il identifie les produits qui combinent performance commerciale et satisfaction client. P96731 arrive en tête avec le meilleur équilibre : score 0,854, note 4,04, taux de retour à 7 % seulement.

Recommandations business

Calendrier promotionnel

Anticiper le creux de février avec des promotions ciblées : stock constitué en janvier, activation début février pour lisser le volume.

Politique de remise

Les remises supérieures à 50 % dégradent la note client (3,83 vs 3,97) sans réduire les retours. Plafonner les remises agressives sur les segments à risque.

Sélection vendeurs

Le score vendeur composite permet de prioriser les partenariats et d'identifier les vendeurs sous-performants avant qu'ils n'impactent le NPS global.

Logistique transverse

Le taux de retard de 29,5 % est homogène toutes catégories : le problème est structurel (capacité réseau, SLA transporteurs) et non lié aux produits.

Défis techniques

Ce qui rend ce projet techniquement exigeant

Volume : 1 million de lignes

Toute l'analyse est vectorisée (pandas, NumPy) — aucune boucle sur les lignes. Un traitement naïf sur 1 M de lignes avec 50+ colonnes rendrait l'exploration irréalisable en temps raisonnable.

Distribution asymétrique des paniers

La moyenne (9 939 €) est tirée vers le haut par les gros achats (P95 à 46 518 €). Utiliser la médiane (3 791 €) et les quartiles donne une image fidèle du client typique — un choix méthodologique qui change les recommandations marketing.

Honnêteté sur les limites du modèle

Un AUC de 0,54 sur la prédiction de retour aurait pu être "amélioré" artificiellement par surapprentissage. Reconnaître cette limite et l'expliquer (absence de données comportementales client) est en soi un livrable de qualité.

Pipeline de 31 livrables automatisé

L'architecture du projet génère tous les fichiers analytiques en une seule exécution. Chaque output est nommé, documenté et exporté dans un format prêt pour Power BI ou tout autre outil de visualisation.

Valeur ajoutée

Ce que ce type de projet apporte

Connaissance client et produit à 360°

Identifier les produits qui combinent ventes, satisfaction et faible retour — pas juste le meilleur CA brut. Le score composite change les priorités d'assortiment.

Saisonnalité exploitable

Détecter le creux de février avant qu'il arrive permet de préparer des campagnes ciblées plutôt que de subir la baisse. Un signal simple, mais invisible sans analyse systématique.

Pilotage vendeur objectif

Le score vendeur composite (CA + taux de retour + note + délai) offre un classement objectif pour prioriser les partenariats et identifier les vendeurs qui dégradent l'expérience globale.

Recommandations prêtes à appliquer

Pas un rapport à relire. Chaque section se conclut par une recommandation business directe : plafonner les remises > 50 %, renforcer la logistique de manière systémique, activer les promos en janvier pour lisser février.

"Un million de commandes n'est pas une contrainte : c'est la condition pour que les signaux soient statistiquement fiables. La valeur est dans la capacité à les extraire, les hiérarchiser et les traduire en actions mesurables."

Démarrer une mission

Prêt à transformer vos données
en décisions ?

Décrivez votre besoin, et je vous réponds sous 48h avec une première analyse de votre problématique et une proposition adaptée.

Démarrer une mission a.boufares@almetria.com

Réponse sous 48h

De 1 million de commandesà des décisions business mesurables