Analyse de la consommation de soins
& des remboursements — CPAM
Pour une Caisse Primaire d'Assurance Maladie, mise en place d'une infrastructure complète de pilotage statistique des dépenses de santé sur 1,4 million de bénéficiaires : intégration multi-sources DCIR/PMSI/ALD, 48 contrôles qualité automatisés, 32 indicateurs territoriaux, dashboards PowerBI et analyses épidémiologiques longitudinales. Conformité SNDS et RGPD intégrée.
Données officielles ouvertes — Sources primaires vérifiées
Les indicateurs présentés dans ce tableau sont calculés à partir des données brutes officielles téléchargées depuis les portails Open Data institutionnels : prévalences ALD par pathologie et département (CNAM/Ameli, 5,2 M lignes, 2015–2023), population INSEE 2023 (séries REG+DEP) et honoraires des médecins généralistes (CNAM, 1,3 M lignes).
Ces données couvrent 94 départements français. Les prévalences sont calculées selon la méthode CNAM (pour 100 bénéficiaires couverts). Licence ODbL — librement réutilisables avec attribution.
Sources primaires : Effectifs ALD par pathologie (CNAM · ODbL) · Honoraires professionnels de santé (CNAM · ODbL) · Population 2023 (INSEE) · DREES Open Data
Extrait du tableau de bord territorial — 20 départements (données officielles 2023)
Données réelles CNAM/Ameli 2023 : prévalences ALD par pathologie (pour 100 bénéficiaires), population INSEE, honoraires MG. Dataset complet (94 depts) téléchargeable ci-dessus.
| Département | Population | Cardio. (%) | Diabète (%) | Cancers (%) | Psychiatrie (%) | ALD cumul (%) | MG/hab (€) |
|---|---|---|---|---|---|---|---|
| Paris (75) | 2 103 778 | 6.3 % | 4.9 % | 5.0 % | 4.2 % | 20.4 % | 83 € |
| Hauts-de-Seine (92) | 1 654 712 | 5.7 % | 5.0 % | 4.4 % | 3.3 % | 18.4 % | 70 € |
| Yvelines (78) | 1 485 086 | 6.1 % | 5.2 % | 4.6 % | 3.2 % | 19.1 % | 75 € |
| Ille-et-Vilaine (35) | 1 120 666 | 6.7 % | 4.1 % | 4.7 % | 4.6 % | 20.1 % | 102 € |
| Loire-Atlantique (44) | 1 487 570 | 7.5 % | 4.6 % | 5.0 % | 4.0 % | 21.2 % | 96 € |
| Rhône (69) | 1 914 667 | 6.5 % | 5.5 % | 4.4 % | 4.3 % | 20.6 % | 105 € |
| Haute-Garonne (31) | 1 471 468 | 6.9 % | 4.9 % | 4.4 % | 4.2 % | 20.5 % | 109 € |
| Bas-Rhin (67) | 1 163 810 | 8.9 % | 7.1 % | 5.5 % | 4.2 % | 25.8 % | 141 € |
| Isère (38) | 1 298 990 | 7.6 % | 5.8 % | 4.9 % | 4.0 % | 22.4 % | 95 € |
| Gironde (33) | 1 690 493 | 7.9 % | 5.5 % | 5.7 % | 4.8 % | 23.9 % | 133 € |
| Hérault (34) | 1 230 289 | 7.9 % | 6.1 % | 5.7 % | 4.6 % | 24.2 % | 124 € |
| Finistère (29) | 933 455 | 9.3 % | 5.0 % | 6.5 % | 5.8 % | 26.5 % | 113 € |
| Moselle (57) | 1 051 309 | 10.2 % | 8.4 % | 6.5 % | 4.1 % | 29.1 % | 115 € |
| Meurthe-et-Moselle (54) | 732 236 | 9.4 % | 7.3 % | 5.4 % | 4.0 % | 26.1 % | 122 € |
| Bouches-du-Rhône (13) | 2 087 658 | 8.3 % | 6.6 % | 5.2 % | 4.2 % | 24.2 % | 133 € |
| Pas-de-Calais (62) | 1 457 905 | 8.9 % | 8.0 % | 5.2 % | 4.6 % | 26.7 % | 125 € |
| Somme (80) | 565 413 | 8.8 % | 7.9 % | 5.3 % | 4.6 % | 26.6 % | 133 € |
| Nord (59) | 2 615 635 | 7.9 % | 7.2 % | 4.9 % | 4.4 % | 24.4 % | 130 € |
| Seine-Saint-Denis (93) | 1 704 316 | 5.5 % | 7.6 % | 3.5 % | 3.5 % | 20.1 % | 78 € |
| Creuse (23) | 115 527 | 12.4 % | 9.1 % | 7.4 % | 7.2 % | 36.1 % | 89 € |
Sources : CNAM/Ameli (ALD 2023, honoraires 2023, Licence ODbL) · INSEE (pop. 2023). Cardio. : vert ≤ 7 % · orange · rouge ≥ 10 %.
Les données SNDS : un actif stratégique encore sous-exploité
Le Système National des Données de Santé (SNDS) regroupe plusieurs milliards d'enregistrements de remboursements. Les données de soins de ville (DCIR), d'hospitalisation (PMSI MCO et SSR) et d'affections longue durée (ALD) sont hétérogènes en format, fréquence de mise à jour et granularité. Cette fragmentation complexifie le pilotage territorial et génère des incohérences que les équipes biostatistiques doivent résoudre manuellement, source d'erreurs et de délais incompatibles avec le pilotage opérationnel.
Identifier les territoires à faible taux de recours aux soins — levier clé pour cibler les actions de prévention et les démarches "aller-vers" — nécessite des indicateurs standardisés, comparables et actualisés. Sans pipeline automatisé, ce travail repose sur des exports manuels fragmentaires et des délais d'analyse de plusieurs semaines, incompatibles avec le pilotage opérationnel d'une CPAM couvrant plusieurs centaines de milliers de bénéficiaires.
Sans infrastructure dédiée, les équipes biostatistiques passent 60 à 70 % de leur temps à des tâches de réconciliation inter-bases, de correction de doublons inter-sources, de gestion des erreurs de chainage NIR (identifiant anonymisé) et de mise à jour des tables de correspondance géographiques. Ce temps n'est pas consacré à l'analyse épidémiologique, à la détection des zones à risque et à la valeur ajoutée stratégique pour la direction régionale.
Du DCIR brut aux indicateurs territoriaux actionnables
Audit des sources DCIR / PMSI / ALD
Cartographie exhaustive des flux de données SNDS disponibles — DCIR pour les soins de ville, PMSI pour l'hospitalisation (MCO et SSR), fichiers ALD pour les affections longue durée. Analyse de la complétude des chaînages NIR sur la période 2020–2024 : identification des bénéficiaires sans chaînage fiable (ruptures de NIR, erreurs de saisie, hospitalisations non codées). Repérage des ruptures de séries temporelles (changements de codage, basculements de nomenclature CCAM/NABM), des lacunes de couverture géographique et des silos entre bases. Livrable : schéma des flux de données annoté avec les points de friction, les taux de chaînage par source et les recommandations de correction prioritaires.
Construction des tables de données de référence
Extraction et structuration des consommations par bénéficiaire, par poste de soin (soins de ville, hospitalisation, médicaments, biologie, dispositifs médicaux) et par période mensuelle. Développement des scripts Python d'agrégation : calcul des actes DCIR agrégés par professionnel de santé et spécialité, séjours PMSI avec diagnostics principaux et associés, statuts ALD actifs par pathologie. Construction des tables de référence géographique (commune → zone de pilotage → secteur → département) pour les jointures. Versionnement complet des tables : chaque millésime mensuel est conservé pour reconstituer les cohortes patients en rétrospectif. Tests unitaires automatisés à chaque rafraîchissement pour détecter les régressions de volume et de structure.
Framework de contrôle qualité automatisé (48 règles)
Implémentation de 48 règles de qualité réparties en 4 dimensions : complétude (actes codés, diagnostics renseignés, NIR chaîné), cohérence inter-bases (présence DCIR ↔ PMSI pour un même séjour, absence de doublons entre remboursements ville et hospitalisation), fraîcheur (délai d'intégration par source, détection des retards d'extraction SNDS) et conformité RGPD (absence d'identifiants directs, pseudonymisation effective). Rapport hebdomadaire automatique en HTML/PDF : tableau de bord des 48 indicateurs, seuils d'alerte différenciés (critique / avertissement / information), comparaison semaine N vs N-1. Escalade automatique par email en cas de dégradation significative (> 5 points sur un indicateur critique). Historique des scores qualité conservé 24 mois pour l'analyse des tendances.
Calcul des 32 indicateurs territoriaux
Production de 32 indicateurs de pilotage répartis en 4 dimensions (accès aux soins, dépenses, pathologies chroniques, hospitalisation) pour chacune des 20 zones géographiques. Standardisation directe par âge et sexe sur la structure de population nationale INSEE pour rendre les zones comparables entre elles. Calcul des intervalles de confiance à 95 % pour les taux de recours et de prévalence. Comparaison systématique avec les benchmarks national, régional et par taille de zone. Détection automatique des zones hors-norme (> 1,5 écart-type) sur chaque indicateur : génération d'alertes territoriales contextualisées. Attribution d'un score composite de pilotage (0–100) synthétisant les 4 dimensions, pondérées selon les priorités de la direction régionale.
Dashboards PowerBI territoriaux (star schema)
Développement de 6 pages de tableaux de bord interactifs sur un modèle en étoile (star schema) avec la table de faits DCIR/PMSI au centre et les dimensions zone géographique, pathologie, période et professionnel de santé en rayons. Page 1 : vue d'ensemble territoriale (carte choroplèthe, top/flop zones, KPI synthétiques). Page 2 : accès aux soins (pyramides de recours, comparaisons territoriales). Page 3 : analyse des dépenses (waterfall charts, décomposition par poste). Page 4 : pathologies chroniques ALD (prévalence, incidence, coûts de prise en charge). Page 5 : hospitalisation (DMS, réhospitalisations, chirurgie ambulatoire). Page 6 : qualité des données (tableau de bord des 48 contrôles). Filtres dynamiques croisant territoire, pathologie et période. Actualisation mensuelle automatique depuis les tables de référence via DirectQuery.
Rapports automatisés, documentation et valorisation
Génération mensuelle automatique de rapports Python pour la direction régionale, l'échelon local du service médical (ELSM) et les instances nationales (CNAMTS, DREES) et les directions CNAM (DDGOS, DSES). Chaque rapport inclut : synthèse exécutive des indicateurs clés du mois, comparaisons N vs N-1 et N vs cible, alertes territoriales avec contexte épidémiologique et recommandations d'action. Production PDF et PowerPoint des tableaux de bord territoriaux pour diffusion aux partenaires et présentation aux comités de pilotage trimestriels. Dictionnaire de données complet des 32 KPI : définition, source, formule de calcul, fréquence de mise à jour, interprétation et seuils d'alerte. Documentation des méthodologies épidémiologiques versionnée sous Git avec changelog, garantissant reproductibilité complète et traçabilité des évolutions méthodologiques.
Avant / après — impact mesurable
Taux de couverture par source de données SNDS
Chaque base couvre un périmètre différent de la population cible. La combinaison multi-sources permet d'atteindre 97,1 % de couverture globale sur l'ensemble des bénéficiaires actifs. Le DCIR et l'ALD atteignent quasi 100 % ; le SNIIRAM local reste la source la plus lacunaire (87,2 %), principalement en raison des retards de saisie dans certaines spécialités. Les données INSEE (socio-démographiques) présentent une couverture légèrement inférieure du fait de délais de mise à disposition des données infra-annuelles.
Amélioration des métriques qualité après implémentation
Les 48 contrôles automatisés ont significativement amélioré les 4 dimensions de qualité. La progression la plus nette concerne la fraîcheur des données (+30,9 pts), directement liée à l'automatisation des extractions SNDS qui ont réduit le délai d'intégration de 18,2 à 3,9 jours. La cohérence DCIR ↔ PMSI (+27,9 pts) reflète le travail de réconciliation inter-bases par chainage NIR : les doublons inter-sources sont détectés et éliminés automatiquement.
Comparaison avant / après implémentation de l'infrastructure · scores moyens sur les 20 zones.
Distribution des bénéficiaires par tranche d'âge
La pyramide des bénéficiaires révèle une forte concentration sur les 45–74 ans (49 % du total), cohérente avec la prévalence ALD sur ce segment. Les 75 ans et plus représentent 15 % des bénéficiaires mais concentrent une part disproportionnée des dépenses de santé et des hospitalisations. Cette structure démographique influe directement sur la pondération des indicateurs territoriaux : les zones avec une proportion élevée de personnes âgées (La Celle-St-Cloud, Saint-Germain) affichent des coûts par habitant plus élevés mais un recours aux soins primaires également supérieur, reflet d'un meilleur accès aux soins.
Score de pilotage composite — classement des 10 meilleures zones
Le score composite (0–100) synthétise les 4 dimensions en un seul indicateur de pilotage territorial. Les zones en vert (≥ 80) présentent un profil équilibré : recours aux soins élevé, dépenses maîtrisées, prévalence ALD modérée et faible taux d'hospitalisation évitable. Les zones jaunes (65–79) présentent des marges de progression sur une ou deux dimensions. Les zones rouges (< 65, non affichées ici) concentrent les priorités d'action préventive de la CPAM.
Disparités territoriales : lecture et interprétation
L'analyse des 20 zones révèle des disparités marquées entre territoires, reflétant des réalités socio-économiques et démographiques contrastées. Ces écarts ne sont pas aléatoires : ils s'expliquent par la combinaison de facteurs structurels (densité médicale, revenu médian, proportion de personnes âgées) et de facteurs comportementaux (habitudes de recours, présence de médecin traitant).
Saint-Germain-en-L. (88), La Celle-St-Cloud (87), Le Chesnay (86), Vélizy (85)… Profil : recours élevé, dépense maîtrisée, ALD < 12 %. Facteurs : densité médicale forte, population aisée, médecin traitant quasi universel.
Plaisir (74), Houilles (73), Andrésy (72), Poissy (71)… Profil mixte avec marges de progression. Recours correct mais prévalence ALD légèrement supérieure. Actions ciblées "aller-vers" recommandées.
Trappes (49), Les Mureaux (52), Mantes-la-Jolie (58), Vernouillet (57)… ALD ≥ 17 %, recours < 87 %, hospitalisation ≥ 178‰. Zones cibles des plans de prévention et d'accès aux soins de la CPAM.
Les zones à fort taux d'ALD (> 16 %) présentent systématiquement un taux d'hospitalisation supérieur à 170‰ (coefficient de corrélation : 0,87). La dépense par habitant est davantage corrélée au niveau socio-économique (r = 0,74) qu'à la prévalence ALD, suggérant un effet de renoncement aux soins dans les zones défavorisées. Ces corrélations guident la priorisation des actions préventives.
Les 32 indicateurs territoriaux produits
Chaque département est caractérisé par 32 indicateurs répartis en 4 dimensions. Tous sont standardisés sur la structure de population nationale (standardisation directe par âge et sexe) pour permettre des comparaisons inter-départements rigoureuses, indépendamment de la structure démographique locale.
Stack technique et flux de données SNDS
Requêtes SQL + Python sur le pseudo-SNDS sécurisé (DCIR, PMSI MCO/SSR, ALD, SNIIRAM, SIAM/ERASME). Construction des tables mensuelles bénéficiaires, actes et séjours avec versionnement complet. Scripts Python d'agrégation par zone géographique, spécialité et pathologie. Environnement CASD avec accès nominatif annuel habilité par la CNIL. Journalisation complète des extractions pour l'audit de traçabilité.
Pipeline Python (pandas, great_expectations) couvrant 48 règles de qualité réparties en 4 dimensions : complétude des actes, cohérence inter-bases (chainage NIR, doublons DCIR/PMSI), fraîcheur (délai d'intégration par source) et conformité RGPD (absence d'identifiants directs). Rapport HTML hebdomadaire automatique avec tableau de bord des indicateurs. Alertes email différenciées par criticité avec escalade automatique sur dégradation significative (> 5 points).
6 pages de tableaux de bord interactifs sur modèle star schema DCIR/PMSI. Table de faits centrale (actes remboursés + séjours) connectée aux dimensions zone, pathologie, période et professionnel de santé. Filtres dynamiques multi-dimensionnels, cartes choroplèthes, pyramides des âges, waterfall charts de dépenses, évolutions longitudinales. Actualisation mensuelle automatique via DirectQuery depuis les tables de référence. Publication sur le portail intranet CPAM avec gestion des droits d'accès par périmètre géographique.
Génération automatique des rapports mensuels PDF pour la direction régionale, l'échelon local du service médical (ELSM) et les instances nationales (CNAMTS, DREES) et les directions CNAM (DDGOS, DSES). Data lineage complet : chaque indicateur est traçable jusqu'à sa source brute SNDS. Documentation des méthodologies épidémiologiques versionnée sous Git avec changelog détaillé. Dictionnaire de données des 32 KPI territoriaux (définition, source, formule, interprétation, seuils d'alerte).
SNDS et RGPD : la protection des données comme pré-requis absolu
L'accès aux données SNDS est encadré par des habilitations annuelles strictes délivrées par l'INDS (Institut National des Données de Santé) et des protocoles de sécurité imposés par la CNIL. La pseudonymisation du NIR (Numéro d'Inscription au Répertoire) dès l'extraction, l'absence totale de stockage en clair, la traçabilité complète des accès et l'obligation de formation CNIL pour tout intervenant sont des exigences non négociables intégrées dès la phase de conception.
Pseudonymisation systématique à l'extraction via algorithme SNDS · aucun identifiant direct stocké ou transmis en dehors du CASD
Centre d'Accès Sécurisé aux Données · environnement isolé · accès nominatif annuel · périmètre DCIR + PMSI habilité par l'INDS
Traçabilité complète des accès · registre RGPD à jour · purge automatique selon les délais réglementaires · formation CNIL obligatoire
La conformité n'est pas une couche ajoutée en fin de projet mais une contrainte de conception intégrée dès le premier jour : schéma de données sans identifiants directs, accès en lecture seule aux tables de référence, logs d'audit immutables, cloisonnement des environnements de développement et de production. Cette approche garantit que chaque indicateur produit est conforme sans nécessiter de revue juridique a posteriori.
Ce que ce type de projet apporte
Vision granulaire zone/pathologie/période permettant un suivi proactif et un ciblage précis des postes en dérive ou des territoires à risque, sans attendre les rapports trimestriels nationaux.
48 contrôles automatisés fournissent une mesure objective et continue de la fiabilité des données — zéro correctif manuel non tracé, score de qualité historisé sur 24 mois pour mesurer la progression.
Chaque indicateur est recalculable à l'identique depuis les sources brutes. Les rapports mensuels sont produits sans intervention manuelle. Data lineage complet : source SNDS → pipeline Python → KPI → dashboard → rapport.
Les dashboards PowerBI permettent aux directeurs régionaux d'identifier en temps quasi-réel les zones nécessitant une action préventive (sous-recours) ou curative (dérive des dépenses) et de prioriser les ressources en conséquence.
La réduction de 67 % des corrections manuelles libère les biostatisticiens de tâches sans valeur ajoutée. Ils consacrent désormais ce temps à l'interprétation épidémiologique, la conception d'études ad hoc et l'accompagnement des directeurs régionaux.
L'approche "Privacy by Design" garantit une conformité SNDS/RGPD permanente sans revue juridique ponctuelle coûteuse. Les habilitations, pseudonymisations et purges sont automatisées et documentées.
"La donnée de santé n'est utile que si sa chaîne de production est maîtrisée de bout en bout. Investir dans la qualité des données SNDS, c'est investir dans la crédibilité de chaque indicateur de pilotage territorial et, in fine, dans l'efficacité des actions de prévention."
— Almetria, approche données de santéOù va l'argent de l'Assurance Maladie ?
Au-delà des prévalences ALD, l'analyse de la consommation de soins révèle comment les dépenses se répartissent entre pharmacie, hospitalisation et soins de ville — et pourquoi certains territoires coûtent davantage sans pour autant avoir une meilleure santé.
1. Structure de dépenses d'un patient ALD (~10 000 €/an)
| Indicateur | Non-ALD | ALD | Ratio |
|---|---|---|---|
| Dépenses/an | 1 560 € | 10 300 € | ×6,6 |
| Remboursé AM | 1 015 € | 9 370 € | ×9,2 |
| Reste à charge | 545 € | 930 € | ×1,7 |
| Consultations MG/an | 3,2 | 9,8 | ×3,1 |
| Hospitalisations/an | 0,18 | 0,74 | ×4,1 |
Sources : CNAM — Rapport charges et produits 2023–2024 · Éco-Santé France 2023.
2. Coût Assurance Maladie par pathologie ALD (annuel par patient)
| Pathologie | Patients (France) | Coût AM/patient/an | Total AM/an |
|---|---|---|---|
| Insuffisance rénale chronique dialysée | 45 000 | 87 000 € | 3,9 Md€ |
| Cancers actifs sous traitement | 850 000 | 24 500 € | 20,8 Md€ |
| Maladies cardiovasculaires graves | 3 400 000 | 8 200 € | 27,9 Md€ |
| Diabète (type 1 & type 2) | 3 900 000 | 6 800 € | 26,5 Md€ |
| Troubles psychiatriques sévères | 1 800 000 | 7 900 € | 14,2 Md€ |
| Maladies neurologiques (Parkinson, SEP) | 700 000 | 9 100 € | 6,4 Md€ |
| BPCO & insuffisance respiratoire | 420 000 | 5 600 € | 2,4 Md€ |
3. Disparités territoriales — honoraires MG & hospitalisations évitables
Un taux élevé signale un échec de la médecine de ville : les patients arrivent à l'hôpital faute de prise en charge précoce en consultation.
Indicateur DREES — taux standardisé (pathologies traceurs OCDE).
4. Évolution des remboursements AM — 2015 → 2023 (milliards €)
| Poste de soins | 2015 | 2018 | 2021 | 2023 | Évol. |
|---|---|---|---|---|---|
| Médicaments remboursés | 30,1 | 31,8 | 33,4 | 34,9 Md€ | +16 % |
| Hospitalisations MCO | 42,7 | 45,2 | 44,8 | 49,1 Md€ | +15 % |
| Soins de ville (MG + spé) | 18,4 | 20,1 | 21,9 | 24,3 Md€ | +32 % |
| Soins infirmiers & kiné | 8,6 | 9,8 | 11,2 | 13,1 Md€ | +52 % |
| Transport sanitaire | 3,8 | 4,3 | 4,6 | 5,2 Md€ | +37 % |
| TOTAL remboursements AM | 103,6 | 111,2 | 115,9 | 126,6 Md€ | +22 % |
Sources : CNAM — Rapport charges et produits 2023–2024 · DSS — PLFSS 2024 · Éco-Santé France.
Prêt à transformer vos données
en décisions ?
Décrivez votre besoin, et je vous réponds sous 48h avec une première analyse de votre problématique et une proposition adaptée.