Analyser 5 ans de marchés
boursiers à grande échelle
Face à des centaines de milliers de données boursières brutes, l'enjeu est de construire un pipeline complet qui transforme le bruit des marchés en informations exploitables : tendances, risques, signaux de trading et comportements anormaux, sur 491 entreprises en 5 ans.
603 000 lignes de données boursières : utiles seulement si elles sont exploitables
Un gestionnaire d'actifs, un analyste risque ou un développeur quantitatif dispose de données boursières brutes — mais sans pipeline structuré, ces données restent inexploitables à grande échelle. L'enjeu est de construire une infrastructure analytique qui transforme 491 séries temporelles sur 5 ans en signaux actionnables : tendances sectorielles, anomalies à surveiller, prédictions de direction, backtesting rigoureux.
Gestionnaires d'actifs, analystes risque, développeurs quantitatifs, family offices et tout acteur financier gérant un univers multi-actifs avec des données historiques à exploiter.
Automatiser la détection de 5 929 comportements atypiques (qui seraient invisibles à l'œil nu), identifier les signaux J+10/J+15 statistiquement validés, et obtenir 33 fichiers analytiques prêts pour Power BI.
Yahoo Finance — 491 entreprises (top capitalisations mondiales), cours OHLCV quotidiens, novembre 2018 à novembre 2023 (5 ans · 603 000 observations).
de rendement simulé sur la stratégie J+30, contre un portefeuille passif sur la même période (frais de transaction 10 pb inclus)
anomalies de marché détectées automatiquement (Isolation Forest + Z-score) sur 491 entreprises × 5 ans
signal de direction validé statistiquement à J+10 et J+15, confirmé sur ~97 000 observations (non dû au hasard)
fichiers analytiques générés : 20 analyses + 13 fichiers Power BI pré-modélisés, prêts à importer sans manipulation
De la donnée brute à l'insight de marché
Collecte & ingestion des données
Récupération de 5 ans de données boursières quotidiennes (2018–2023) pour les 500 plus grandes entreprises mondiales via Yahoo Finance : prix, volumes, dividendes et fractionnements d'actions. Le fichier brut contenait plus de 600 000 enregistrements dans un format non standard (séparateurs européens, formats de dates mixtes) qui nécessitait un traitement rigoureux avant tout usage.
Nettoyage & contrôle qualité
Standardisation des formats, suppression des doublons, tri chronologique par entreprise. Vérification systématique de la cohérence des données : prix dans les bons intervalles, volumes non négatifs, absence de tickers manquants. Résultat : 0 incohérence prix haut/bas, 0 volume négatif, 25 cas d'ouverture hors plage identifiés et tracés. Le jeu de données est globalement sain.
Vérification de la stationnarité des données
Avant toute modélisation, vérification que les données sont «stables» dans le temps, condition indispensable pour que les prédictions aient du sens. Résultat sur 491 entreprises : les prix bruts ne sont pas stables (attendu), mais les rendements journaliers le sont à 98 % (test ADF + KPSS). Cette validation confirme que le pipeline travaille sur les bonnes variables.
Construction des indicateurs de marché
Calcul de 30+ indicateurs techniques avec décalage temporel strict pour éliminer tout risque d'utiliser des données futures dans l'apprentissage (biais de look-ahead). Ces indicateurs (tendances, niveaux de surachat/survente, momentum, volatilité glissante) transforment une simple série de prix en un tableau de bord riche pour l'analyse et la prédiction.
Analyse des corrélations entre entreprises
Mesure de la manière dont les 491 entreprises évoluent ensemble au quotidien. L'analyse confirme des comportements sectoriels attendus : immobilier (AVB-EQR), assurance (MET-PRU), semi-conducteurs (AMAT-LRCX), paiements (MA-V), banques (BAC-JPM). Ces corrélations permettent d'identifier les opportunités de diversification et les risques de concentration dans un portefeuille.
Modélisation prédictive & sélection du meilleur signal
Comparaison de 8 approches (dont 2 références naïves) pour prédire la direction du cours à 6 horizons : le lendemain, dans 5, 10, 15, 30 ou 60 jours. Chaque approche est évaluée sur un jeu de test blind (données jamais vues, split 60/20/20). Résultat : J+10 et J+15 émergent comme les horizons les plus robustes, avec un signal statistiquement fort et stable confirmé par 3 tests indépendants.
Analyse des régimes de marché
Décomposition des performances selon 5 états du marché : tendance haussière, baissière, crise, faible volatilité, neutre. Le signal est particulièrement fort en marchés baissiers et neutres (ce sont souvent les périodes où anticiper la direction apporte le plus de valeur), et quasiment nul lors des phases calmes sans tendance.
Simulation de portefeuille avec frais réels
La stratégie J+30 a été simulée sur données historiques avec des frais de transaction de 10 points de base par opération. Le capital a augmenté de +97,9 % sur la période de test, résultat significatif à interpréter comme un indicateur directionnel et non comme un rendement cible en production.
Détection des comportements anormaux
Identification automatique des journées de trading atypiques (mouvements de prix inhabituels, pics de volume, comportements hors norme) sur l'ensemble des 491 entreprises. Au total, 5 929 anomalies détectées et classées par entreprise : un outil directement utile pour la surveillance du risque et l'alerte opérationnelle.
Livrable Power BI — Package complet
L'ensemble des résultats est exporté automatiquement dans un package Power BI structuré : 33 fichiers (20 analyses incluant les tests de stationnarité, l'importance SHAP et la permutation importance + 13 fichiers Power BI pré-modélisés avec tables dimensionnelles, faits, schéma de relations). Un dashboard importable directement dans Power BI Desktop, sans manipulation supplémentaire.
Simulation de portefeuille : évolution du capital
Valeur d'un portefeuille de départ normalisé à 1, stratégie à horizon 30 jours, sur données de test réelles avec frais de transaction (10 bps) inclus.
Le capital a progressé de +97,9 % sur la période de test (pic à ×2,36 en juillet 2023), avant un repli en fin de période, illustrant à la fois le potentiel et le risque de drawdown inhérent à ce type de stratégie.
Top 10 des actions les plus volatiles
Volatilité annualisée (en %) : une valeur élevée signifie que le cours de l'action fluctue fortement d'un jour à l'autre, signe d'un risque élevé mais aussi d'opportunités pour les stratégies actives.
Précision de la direction prédite
Le modèle prédit si le cours va monter ou baisser, pas sa valeur exacte. Une précision de 52–53 % sur de courtes prédictions peut sembler modeste, mais elle devient exploitable quand elle est confirmée sur des dizaines de milliers d'observations avec des tests rigoureux.
Post-corrections méthodologiques (v2.0) : J+10 et J+15 sont les horizons les plus robustes. J+1 et J+60 ne présentent pas de signal significatif.
| Horizon | Direction |
|---|---|
| Lendemain (J+1) | 49,7 % |
| Dans 5 jours (J+5) | 50,9 % |
| Dans 10 jours (J+10) | 52,7 % |
| Dans 15 jours (J+15) | 52,9 % |
| Dans 30 jours (J+30) | 49,4 % |
| Dans 60 jours (J+60) | 49,0 % |
Ce qui influence le plus les prédictions
Sur un horizon de 10 jours, la position du prix par rapport à sa moyenne des 50 derniers jours est de loin le signal le plus important, devant les indicateurs classiques. Le momentum long terme (3 mois, 12 mois) contribue également de façon décisive : c'est son ajout qui a multiplié la qualité du signal par 3 à 6.
Quand le modèle fonctionne le mieux
Les marchés ne se comportent pas tous de la même façon. Le modèle a été évalué séparément selon 4 états du marché, et les résultats sont très différents selon le contexte.
Signal fort : les baisses sont plus prévisibles
Meilleur contexte global pour le modèle
Signal modéré : les hausses sont plus aléatoires
Marché sans tendance, modèle peu fiable
Comparaison avec une stratégie passive
Sur la même période et le même panier d'actions, une stratégie d'achat-conservation simple (sans aucune prédiction) a produit +125 % de rendement cumulé, soit +18,7 % par an avec un Sharpe de 0,85. C'est un marché haussier structurellement difficile à battre.
Après corrections méthodologiques (v2.0), les horizons J+10 et J+15 produisent un signal fort et confirmé. J+1 et J+60 ne présentent pas de signal exploitable, ce qui est cohérent : le très court terme est quasi-aléatoire, le très long terme dépasse la capacité prédictive des indicateurs techniques.
Note méthodologique : Les résultats de simulation (J+30 : +97,9 %) correspondent à une stratégie long/short sans contrainte de capacité. Ces chiffres doivent être interprétés comme des indicateurs de signal directionnel, non comme des rendements cibles atteignables en production. La v2.0 du pipeline a corrigé les biais de sélection et de look-ahead présents dans la version initiale : les résultats sont plus conservateurs mais plus fiables.
Ce qui rend ce projet techniquement exigeant
491 entreprises × 5 ans de données quotidiennes OHLCV nécessitent un audit systématique : valeurs manquantes (jours fériés par marché), splits d'actions non ajustés, incohérences entre cours intraday et clôture. Sans cette étape, tous les indicateurs dérivés sont faux.
La v1.0 du pipeline présentait des biais classiques : utilisation d'informations futures dans les indicateurs techniques, sélection des entreprises sur leur succès passé (survivorship bias). La v2.0 a corrigé ces deux biais — les résultats sont plus conservateurs mais réellement valides.
Avec 97 000 observations, même un signal très faible peut être statistiquement significatif (p < 0,001) sans être économiquement exploitable. La distinction entre signification statistique et taille d'effet pratique est fondamentale pour ne pas sur-interpréter les résultats.
Définir "marché haussier" vs "baissier" vs "volatile" vs "crise" n'a pas de définition universelle. Le modèle a été évalué séparément sur 4 états de marché identifiés par clustering, révélant que les performances varient fortement selon le contexte macroéconomique.
Ce que ce type d'analyse apporte concrètement
Industrialiser la préparation et le contrôle qualité de données multi-actifs avant tout reporting ou analyse, avec traçabilité complète des transformations.
Détecter automatiquement les comportements de marché atypiques pour alerter les équipes risk management avant que l'incident ne s'aggrave.
Fournir une infrastructure data et ML solide, documentée et reproductible, pour itérer vers des modèles plus performants en production.
Exporter automatiquement un package structuré (31 fichiers, schéma de relations inclus), prêt à importer dans Power BI sans manipulation supplémentaire.
"Ce projet illustre ma capacité à livrer une chaîne analytique complète, de la qualité de donnée à la modélisation. Une approche rigoureuse, mesurable et orientée décision, applicable aussi à des contextes non financiers : ventes, opérations, IoT."
Prêt à transformer vos données
en décisions ?
Décrivez votre besoin, et je vous réponds sous 48h avec une première analyse de votre problématique et une proposition adaptée.