Retour aux projets
Data Science & Machine Learning · 2025 · Retail

Anticiper les ventes
d'un réseau de 45 magasins

Une chaîne de distribution dispose de 3 ans d'historique de ventes. L'enjeu : transformer cette donnée brute en prévisions fiables semaine par semaine sur un an, pour mieux piloter les stocks, les commandes et les ressources humaines sur l'ensemble du réseau.

Magasins couverts
45
3 types de points de vente
Horizon de prévision
52
semaines, soit 1 an
Historique analysé
3 ans
2010 → 2012
Volume traité
421 k
lignes de ventes par département
Contexte & enjeu

Piloter un réseau de 45 magasins sans visibilité sur l'avenir coûte cher

Sans prévisions fiables, la gestion des stocks est réactive : ruptures lors des pics saisonniers, surstocks en période creuse, commandes fournisseurs passées trop tard ou trop tôt. Sur un réseau de 45 points de vente, les écarts s'accumulent et se traduisent directement en marge perdue. L'enjeu n'est pas seulement de prévoir les ventes, c'est de transformer cette prévision en outil de pilotage opérationnel accessible à chaque responsable, sans compétences techniques particulières.

Qui est concerné ?

Direction Supply Chain, Direction Commerciale, Directeurs Régionaux souhaitant anticiper les semaines à fort enjeu (fêtes, promotions, rentrée).

Ce que ça change concrètement

Passer d'une lecture rétrospective du CA hebdomadaire à une projection 52 semaines en avant, par magasin et par département, disponible dans Power BI sans manipulation.

Données sources utilisées

3 ans d'historique Walmart (Kaggle), 45 magasins, facteurs externes : promotions, jours fériés, inflation CPI, prix du carburant, taux de chômage local, température.

Résultats clés
1 290 $

d'erreur pondérée (WMAE) par département par semaine — Random Forest, meilleur des 3 modèles testés

52

semaines de prévisions générées pour chacun des 45 magasins, sans historique futur disponible

+28 %

d'importance attribuée au lag 1 (ventes S-1) — le passé proche domine, l'effet saisonnier (lag 52) arrive en deuxième position

×5

pondération appliquée aux semaines de fêtes dans la métrique WMAE — les pics les plus critiques sont les mieux évalués

Méthodologie

Du fichier brut au dashboard opérationnel

01

Collecte des données

Extraction de 3 ans d'historique de ventes (2010–2012) couvrant 45 magasins et plus de 420 000 transactions hebdomadaires. Les données ont été croisées avec des indicateurs externes : prix du carburant, inflation, taux de chômage local et température, des facteurs qui influencent directement le comportement d'achat.

02

Nettoyage & préparation

Traitement des données manquantes (notamment sur les actions promotionnelles), correction des incohérences entre fichiers sources, et normalisation des formats. Chaque magasin a ensuite été caractérisé par son type (A, B ou C) et sa surface de vente.

03

Construction des variables prédictives

Pour qu'un modèle puisse apprendre les tendances, il faut lui donner du contexte temporel : ventes des semaines précédentes, moyennes récentes, effets saisonniers, périodes de fêtes. Ces variables ont été calculées pour chaque magasin individuellement, afin de respecter les dynamiques propres à chaque point de vente.

04

Validation rigoureuse sans fuite de données

Les 6 derniers mois ont été réservés exclusivement pour la validation, le modèle ne les a jamais vus pendant l'entraînement. Un point de vigilance important : les profils exogènes (température, carburant, CPI par magasin et semaine) ont été calculés uniquement sur les données d'entraînement, avant la coupure temporelle. Sans cette précaution, le modèle aurait eu accès à des informations futures, biaisant artificiellement les résultats. L'évaluation pondère les semaines de fêtes ×5 (WMAE) car ce sont les pics les plus critiques à anticiper.

05

Génération des prévisions

Le modèle retenu a produit des prévisions semaine par semaine pour les 52 prochaines semaines, pour chacun des 45 magasins. À chaque étape, les prévisions passées sont réinjectées pour calculer les suivantes, ce qui permet d'anticiper à un an sans historique futur disponible.

06

Livrable Power BI

L'ensemble des résultats (historique réel et prévisions) a été exporté dans un format directement exploitable par Power BI. Le dashboard final permet de filtrer par magasin, visualiser la continuité entre passé et futur, et consulter des indicateurs clés : pic hebdomadaire prévu, croissance estimée, contribution de chaque magasin au total du réseau.

Comparaison des modèles

Trois approches comparées : le plus précis retenu

La WMAE (erreur absolue pondérée) mesure la précision sur 26 semaines de validation. Les semaines de fêtes comptent 5 fois plus, car ce sont les périodes les plus critiques à anticiper. Plus la valeur est basse, meilleure est la prévision. Random Forest obtient la WMAE la plus faible : 1 290 $ d'erreur médiane par département par semaine.

Résultats

Ventes historiques & prévisions sur 1 an

Ventes hebdomadaires totales du réseau (en millions de dollars). La courbe teal prolonge l'historique avec les prévisions, on retrouve fidèlement les pics de fin d'année anticipés par le modèle.

Top 10 magasins par chiffre d'affaires prévu

Classement des 10 magasins les plus performants sur les 52 prochaines semaines, selon les prévisions du modèle.

Variables les plus influentes

Importance des variables mesurée sur le Random Forest final (top 15). Le passé proche (lag 1) est le prédicteur dominant : la vente de la semaine précédente explique près de 30 % de la variance. Le lag annuel (lag 52) capture la répétition saisonnière d'une année sur l'autre, notamment les pics de décembre. Avant de lancer les prévisions récursives, les tests de stationnarité ADF et KPSS ont été appliqués individuellement sur chacun des 45 magasins : toutes les séries sont stationnaires (p-value ≈ 0,0), ce qui garantit que les prévisions sur 52 semaines ne dérivent pas.

Défis techniques

Ce qui rend ce projet techniquement exigeant

Prévisions récursives sur 52 semaines

À chaque étape, la prévision de la semaine N alimente le calcul de N+1. L'incertitude s'accumule sur 52 itérations sans qu'aucune donnée future ne soit disponible — un défi de stabilité numérique que peu de modèles gèrent correctement à long terme.

Risque de fuite de données

Les profils exogènes (température, carburant, CPI) ont été calculés exclusivement sur les données d'entraînement, avant la coupure temporelle. Sans cette précaution, le modèle aurait accès à des informations futures, rendant les résultats de validation non transposables en production.

45 séries hétérogènes

Chaque magasin a ses propres dynamiques selon son type (A urbain, B périurbain, C rural) et sa superficie. Les variables prédictives ont été construites individuellement par magasin pour capturer ces spécificités locales sans surapprentissage.

Validation de stationnarité

Les tests ADF et KPSS ont été appliqués sur chacun des 45 magasins individuellement. Une série non stationnaire produirait des prévisions qui dérivent dans le temps — toutes les séries ont été confirmées stationnaires (p-value ≈ 0,0) avant lancement.

Le livrable : un dashboard Power BI opérationnel

Le résultat final n'est pas un simple fichier de chiffres : c'est un outil de pilotage. Le dashboard Power BI permet à n'importe quel responsable de magasin ou directeur régional de consulter les prévisions de son périmètre, comparer les performances entre points de vente, et anticiper les semaines à fort enjeu sans avoir à manipuler une seule ligne de données.

Filtre par magasin

Chaque responsable accède uniquement à son périmètre, avec l'historique et les prévisions sur la même vue.

Indicateurs clés

CA prévu, croissance estimée vs année précédente, semaine de pic, contribution au réseau.

Courbe historique / prévision

Visualisation continue du passé vers le futur pour évaluer la cohérence des prévisions avec les tendances observées.

Classement des magasins

Vue comparative pour identifier les magasins à fort potentiel et ceux qui nécessitent une attention particulière.

Valeur ajoutée

Ce que ce projet illustre

Méthodologie sans fuite de données

La rigueur de la validation temporelle est la condition minimale pour qu'un modèle soit réellement utilisable en production — pas seulement bon sur papier.

Livrable non-technique

Le dashboard Power BI est conçu pour un directeur régional, pas pour un data scientist. La valeur d'un modèle tient à son adoption opérationnelle, pas à sa sophistication théorique.

Explicabilité intégrée

L'importance des variables (top 15) est fournie avec le modèle : chaque responsable peut comprendre pourquoi le pic de décembre est anticipé et quels facteurs le déclenchent.

Pipeline réutilisable

L'architecture est transposable à tout réseau de points de vente avec historique hebdomadaire — en ajustant les features exogènes au secteur (météo, événements locaux, promotions).

"Ce projet montre comment transformer un fichier de chiffres hebdomadaires en outil de pilotage opérationnel : rigoureux sur la validation, accessible sur le livrable, transposable à tout réseau comparable."

Démarrer une mission

Prêt à transformer vos données en décisions ?

Décrivez votre besoin, et je vous réponds sous 48h avec une première analyse de votre problématique et une proposition adaptée.

Réponse sous 48h