Data Science & Finance de marché · 2025 · Finance

Analyser 5 ans de marchés
boursiers à grande échelle

Face à des centaines de milliers de données boursières brutes, l'enjeu est de construire un pipeline complet qui transforme le bruit des marchés en informations exploitables : tendances, risques, signaux de trading et comportements anormaux, sur 491 entreprises en 5 ans.

Observations traitées

603k

données quotidiennes

Entreprises couvertes

491

top capitalisations mondiales

Anomalies détectées

5 929

comportements atypiques

Performance simulée

+98 %

stratégie J+30 vs marché passif

Contexte & enjeu

603 000 lignes de données boursières : utiles seulement si elles sont exploitables

Un gestionnaire d'actifs, un analyste risque ou un développeur quantitatif dispose de données boursières brutes — mais sans pipeline structuré, ces données restent inexploitables à grande échelle. L'enjeu est de construire une infrastructure analytique qui transforme 491 séries temporelles sur 5 ans en signaux actionnables : tendances sectorielles, anomalies à surveiller, prédictions de direction, backtesting rigoureux.

Qui est concerné ?

Gestionnaires d'actifs, analystes risque, développeurs quantitatifs, family offices et tout acteur financier gérant un univers multi-actifs avec des données historiques à exploiter.

Ce que ça change concrètement

Automatiser la détection de 5 929 comportements atypiques (qui seraient invisibles à l'œil nu), identifier les signaux J+10/J+15 statistiquement validés, et obtenir 33 fichiers analytiques prêts pour Power BI.

Données sources utilisées

Yahoo Finance — 491 entreprises (top capitalisations mondiales), cours OHLCV quotidiens, novembre 2018 à novembre 2023 (5 ans · 603 000 observations).

Résultats clés

+98 %

de rendement simulé sur la stratégie J+30, contre un portefeuille passif sur la même période (frais de transaction 10 pb inclus)

5 929

anomalies de marché détectées automatiquement (Isolation Forest + Z-score) sur 491 entreprises × 5 ans

p < 0,001

signal de direction validé statistiquement à J+10 et J+15, confirmé sur ~97 000 observations (non dû au hasard)

fichiers analytiques générés : 20 analyses + 13 fichiers Power BI pré-modélisés, prêts à importer sans manipulation

Méthodologie

De la donnée brute à l'insight de marché

Collecte & ingestion des données

Récupération de 5 ans de données boursières quotidiennes (2018–2023) pour les 500 plus grandes entreprises mondiales via Yahoo Finance : prix, volumes, dividendes et fractionnements d'actions. Le fichier brut contenait plus de 600 000 enregistrements dans un format non standard (séparateurs européens, formats de dates mixtes) qui nécessitait un traitement rigoureux avant tout usage.

Nettoyage & contrôle qualité

Standardisation des formats, suppression des doublons, tri chronologique par entreprise. Vérification systématique de la cohérence des données : prix dans les bons intervalles, volumes non négatifs, absence de tickers manquants. Résultat : 0 incohérence prix haut/bas, 0 volume négatif, 25 cas d'ouverture hors plage identifiés et tracés. Le jeu de données est globalement sain.

Vérification de la stationnarité des données

Avant toute modélisation, vérification que les données sont «stables» dans le temps, condition indispensable pour que les prédictions aient du sens. Résultat sur 491 entreprises : les prix bruts ne sont pas stables (attendu), mais les rendements journaliers le sont à 98 % (test ADF + KPSS). Cette validation confirme que le pipeline travaille sur les bonnes variables.

Construction des indicateurs de marché

Calcul de 30+ indicateurs techniques avec décalage temporel strict pour éliminer tout risque d'utiliser des données futures dans l'apprentissage (biais de look-ahead). Ces indicateurs (tendances, niveaux de surachat/survente, momentum, volatilité glissante) transforment une simple série de prix en un tableau de bord riche pour l'analyse et la prédiction.

Analyse des corrélations entre entreprises

Mesure de la manière dont les 491 entreprises évoluent ensemble au quotidien. L'analyse confirme des comportements sectoriels attendus : immobilier (AVB-EQR), assurance (MET-PRU), semi-conducteurs (AMAT-LRCX), paiements (MA-V), banques (BAC-JPM). Ces corrélations permettent d'identifier les opportunités de diversification et les risques de concentration dans un portefeuille.

Modélisation prédictive & sélection du meilleur signal

Comparaison de 8 approches (dont 2 références naïves) pour prédire la direction du cours à 6 horizons : le lendemain, dans 5, 10, 15, 30 ou 60 jours. Chaque approche est évaluée sur un jeu de test blind (données jamais vues, split 60/20/20). Résultat : J+10 et J+15 émergent comme les horizons les plus robustes, avec un signal statistiquement fort et stable confirmé par 3 tests indépendants.

Analyse des régimes de marché

Décomposition des performances selon 5 états du marché : tendance haussière, baissière, crise, faible volatilité, neutre. Le signal est particulièrement fort en marchés baissiers et neutres (ce sont souvent les périodes où anticiper la direction apporte le plus de valeur), et quasiment nul lors des phases calmes sans tendance.

Simulation de portefeuille avec frais réels

La stratégie J+30 a été simulée sur données historiques avec des frais de transaction de 10 points de base par opération. Le capital a augmenté de +97,9 % sur la période de test, résultat significatif à interpréter comme un indicateur directionnel et non comme un rendement cible en production.

Détection des comportements anormaux

Identification automatique des journées de trading atypiques (mouvements de prix inhabituels, pics de volume, comportements hors norme) sur l'ensemble des 491 entreprises. Au total, 5 929 anomalies détectées et classées par entreprise : un outil directement utile pour la surveillance du risque et l'alerte opérationnelle.

Livrable Power BI — Package complet

L'ensemble des résultats est exporté automatiquement dans un package Power BI structuré : 33 fichiers (20 analyses incluant les tests de stationnarité, l'importance SHAP et la permutation importance + 13 fichiers Power BI pré-modélisés avec tables dimensionnelles, faits, schéma de relations). Un dashboard importable directement dans Power BI Desktop, sans manipulation supplémentaire.

Résultats

Simulation de portefeuille : évolution du capital

Valeur d'un portefeuille de départ normalisé à 1, stratégie à horizon 30 jours, sur données de test réelles avec frais de transaction (10 bps) inclus.

Le capital a progressé de +97,9 % sur la période de test (pic à ×2,36 en juillet 2023), avant un repli en fin de période, illustrant à la fois le potentiel et le risque de drawdown inhérent à ce type de stratégie.

Top 10 des actions les plus volatiles

Volatilité annualisée (en %) : une valeur élevée signifie que le cours de l'action fluctue fortement d'un jour à l'autre, signe d'un risque élevé mais aussi d'opportunités pour les stratégies actives.

Précision de la direction prédite

Le modèle prédit si le cours va monter ou baisser, pas sa valeur exacte. Une précision de 52–53 % sur de courtes prédictions peut sembler modeste, mais elle devient exploitable quand elle est confirmée sur des dizaines de milliers d'observations avec des tests rigoureux.

Post-corrections méthodologiques (v2.0) : J+10 et J+15 sont les horizons les plus robustes. J+1 et J+60 ne présentent pas de signal significatif.

Horizon	Direction	Signal	Contexte
Lendemain (J+1)	49,7 %	Faible	Pas de signal significatif, le très court terme est quasi-aléatoire
Dans 5 jours (J+5)	50,9 %	Modéré	Signal émergent, statistiquement confirmé mais prudence requise
Dans 10 jours (J+10)	52,7 %	Fort ✓	Meilleur équilibre signal/horizon, confirmation forte (p < 0.001)
Dans 15 jours (J+15)	52,9 %	Fort ✓	Horizon le plus robuste, signal fort et stable
Dans 30 jours (J+30)	49,4 %	Faible	Pas de signal directionnel significatif sur cet horizon
Dans 60 jours (J+60)	49,0 %	Absent	Sous-performance : modèle non prédictif à très long terme

Ce qui influence le plus les prédictions

Sur un horizon de 10 jours, la position du prix par rapport à sa moyenne des 50 derniers jours est de loin le signal le plus important, devant les indicateurs classiques. Le momentum long terme (3 mois, 12 mois) contribue également de façon décisive : c'est son ajout qui a multiplié la qualité du signal par 3 à 6.

Quand le modèle fonctionne le mieux

Les marchés ne se comportent pas tous de la même façon. Le modèle a été évalué séparément selon 4 états du marché, et les résultats sont très différents selon le contexte.

Marché baissier +0.8 Sharpe

Direction correcte : 56.9 %

Signal fort : les baisses sont plus prévisibles

Marché neutre +0.91 Sharpe

Direction correcte : 58.6 %

Meilleur contexte global pour le modèle

Marché haussier +0.46 Sharpe

Direction correcte : 53.5 %

Signal modéré : les hausses sont plus aléatoires

Faible volatilité -0.49 Sharpe

Direction correcte : 45.5 %

Marché sans tendance, modèle peu fiable

Comparaison avec une stratégie passive

Sur la même période et le même panier d'actions, une stratégie d'achat-conservation simple (sans aucune prédiction) a produit +125 % de rendement cumulé, soit +18,7 % par an avec un Sharpe de 0,85. C'est un marché haussier structurellement difficile à battre.

Après corrections méthodologiques (v2.0), les horizons J+10 et J+15 produisent un signal fort et confirmé. J+1 et J+60 ne présentent pas de signal exploitable, ce qui est cohérent : le très court terme est quasi-aléatoire, le très long terme dépasse la capacité prédictive des indicateurs techniques.

Note méthodologique : Les résultats de simulation (J+30 : +97,9 %) correspondent à une stratégie long/short sans contrainte de capacité. Ces chiffres doivent être interprétés comme des indicateurs de signal directionnel, non comme des rendements cibles atteignables en production. La v2.0 du pipeline a corrigé les biais de sélection et de look-ahead présents dans la version initiale : les résultats sont plus conservateurs mais plus fiables.

Défis techniques

Ce qui rend ce projet techniquement exigeant

Qualité de données multi-sources

491 entreprises × 5 ans de données quotidiennes OHLCV nécessitent un audit systématique : valeurs manquantes (jours fériés par marché), splits d'actions non ajustés, incohérences entre cours intraday et clôture. Sans cette étape, tous les indicateurs dérivés sont faux.

Biais de look-ahead et de sélection

La v1.0 du pipeline présentait des biais classiques : utilisation d'informations futures dans les indicateurs techniques, sélection des entreprises sur leur succès passé (survivorship bias). La v2.0 a corrigé ces deux biais — les résultats sont plus conservateurs mais réellement valides.

Validation statistique rigoureuse

Avec 97 000 observations, même un signal très faible peut être statistiquement significatif (p < 0,001) sans être économiquement exploitable. La distinction entre signification statistique et taille d'effet pratique est fondamentale pour ne pas sur-interpréter les résultats.

Classification de régimes de marché

Définir "marché haussier" vs "baissier" vs "volatile" vs "crise" n'a pas de définition universelle. Le modèle a été évalué séparément sur 4 états de marché identifiés par clustering, révélant que les performances varient fortement selon le contexte macroéconomique.

Valeur ajoutée

Ce que ce type d'analyse apporte concrètement

Données financières fiables

Industrialiser la préparation et le contrôle qualité de données multi-actifs avant tout reporting ou analyse, avec traçabilité complète des transformations.

Surveillance du risque

Détecter automatiquement les comportements de marché atypiques pour alerter les équipes risk management avant que l'incident ne s'aggrave.

Base pour la modélisation

Fournir une infrastructure data et ML solide, documentée et reproductible, pour itérer vers des modèles plus performants en production.

Dashboard Power BI clé en main

Exporter automatiquement un package structuré (31 fichiers, schéma de relations inclus), prêt à importer dans Power BI sans manipulation supplémentaire.

"Ce projet illustre ma capacité à livrer une chaîne analytique complète, de la qualité de donnée à la modélisation. Une approche rigoureuse, mesurable et orientée décision, applicable aussi à des contextes non financiers : ventes, opérations, IoT."

Démarrer une mission

Prêt à transformer vos données
en décisions ?

Décrivez votre besoin, et je vous réponds sous 48h avec une première analyse de votre problématique et une proposition adaptée.

Démarrer une mission a.boufares@almetria.com

Réponse sous 48h