Data Science & Crédit · 2025 · Banque

Prédire l'obtention d'un prêt
à partir du profil client

À partir de 4 894 dossiers clients d'une banque, le projet identifie les profils les plus susceptibles d'obtenir un prêt personnel, en combinant une analyse approfondie des données et une comparaison rigoureuse de plusieurs méthodes prédictives.

Dossiers analysés

4 894

clients bancaires

Taux d'octroi

9,8 %

clients ayant obtenu un prêt

Rappel du modèle

98,6 %

emprunteurs détectés

Approches testées

méthodes comparées

Contexte & enjeu

Un défi classique, des contraintes spécifiques au secteur bancaire

Triage de dossiers à grande échelle

Les établissements de crédit instruisent chaque année des milliers de dossiers de prêt personnel avec des ressources humaines limitées. L'enjeu est d'identifier rapidement les profils éligibles, sans biaiser la décision ni allonger inutilement les délais d'instruction.

Un déséquilibre structurel à prendre en compte

Seulement 9,8 % des 4 894 clients ont obtenu un prêt dans ce jeu de données. Ce déséquilibre prononcé rend les approches classiques inefficaces : un modèle naïf prédisant systématiquement "refus" atteindrait 90 % d'exactitude, mais serait totalement inutile en pratique.

Une contrainte réglementaire incontournable

La réglementation bancaire impose que tout refus de crédit soit explicable et justifiable. Un modèle opaque n'est donc pas une option viable dans ce secteur, ce qui oriente les choix méthodologiques dès la conception.

Chiffres clés

4 894

dossiers clients analysés · 8 variables chacun

9,8 %

seulement ont obtenu un prêt (classe minoritaire)

×2

revenu moyen des emprunteurs vs non-emprunteurs (144 k€ vs 66 k€)

méthodes prédictives comparées sur les mêmes critères

Méthodologie

De l'exploration des profils à la prédiction

Compréhension & structuration des données

Analyse d'un fichier de 4 894 dossiers clients anonymisés, chacun décrit par 8 variables : âge, ancienneté, revenu mensuel, taille du foyer, dépenses courantes, niveau d'études, possession d'un compte épargne, et statut de prêt. Point de départ clé : seulement 9,8 % des clients ont obtenu un prêt personnel, déséquilibre important à prendre en compte dans la modélisation.

Exploration & compréhension des profils

Étude de la distribution de chaque variable et de son lien avec l'obtention d'un prêt. Les résultats sont clairs : les clients ayant obtenu un prêt ont un revenu moyen de 144 k€/an contre 66 k€ pour les autres. Parmi les détenteurs d'un compte épargne logement, 46,7 % ont obtenu un prêt, contre 7,4 % pour ceux qui n'en ont pas.

Identification des facteurs déterminants

Tests statistiques pour identifier quelles variables distinguent vraiment les emprunteurs des non-emprunteurs. Le revenu, les dépenses, le niveau d'études, la taille du foyer et la possession d'un compte épargne ressortent comme les indicateurs les plus significatifs, confirmés par des tests de corrélation et des visualisations croisées.

Comparaison de 5 approches prédictives

Mise en compétition de 5 méthodes de classification pour prédire qui obtiendra un prêt : régression logistique, deux variantes (Probit et Log-Log), arbre de décision, et machine à vecteurs de support. Chaque modèle est évalué selon trois critères : la précision (éviter les fausses alertes), le rappel (ne rater aucun emprunteur potentiel), et la qualité globale de discrimination.

Sélection du modèle & interprétation

L'arbre de décision s'impose comme la meilleure approche : 98,6 % des vrais emprunteurs identifiés correctement, avec une qualité de discrimination globale de 98,1 % (AUC). Son avantage supplémentaire : il est entièrement lisible, on peut tracer les règles de décision exactes, vérifier leur cohérence métier et les expliquer à un comité de crédit.

Validation sur de nouveaux clients

Application du modèle retenu à une base de 1 000 nouveaux clients non vus pendant l'entraînement. Les prédictions sont cohérentes et les profils identifiés comme emprunteurs correspondent bien aux caractéristiques attendues (revenu élevé, compte épargne, foyer nombreux). Le modèle est prêt à être intégré dans un processus d'instruction de dossiers.

Résultats clés

Ce que les données révèlent

46,7 %

des détenteurs d'un compte épargne logement obtiennent un prêt

contre 7,4 % sans compte épargne

144 k€

revenu moyen des clients ayant obtenu un prêt

vs 66 k€ pour les refusés

98,6 %

des vrais emprunteurs correctement identifiés

rappel du modèle retenu

98,1 %

qualité globale de discrimination du modèle

AUC (proche du score parfait)

Taux d'obtention de prêt selon le revenu

Le revenu mensuel est de loin le facteur le plus déterminant. Aucun client gagnant moins de 50 k€/an n'a obtenu de prêt. Le taux atteint 51 % au-delà de 150 k€, signal très net qui structure la majorité des décisions.

Comparaison des 5 approches testées

Deux critères guidaient la sélection : ne rater aucun emprunteur potentiel (rappel élevé), et limiter les fausses alertes (précision). L'arbre de décision domine sur les deux dimensions.

La barre en teal correspond à l'approche retenue.

Ce qui pèse le plus dans la décision

Le revenu mensuel concentre à lui seul environ 70 % de la capacité prédictive du modèle. La taille du foyer et le niveau d'études jouent un rôle secondaire mais réel. Les dépenses mensuelles apportent un signal complémentaire, cohérent avec les pratiques d'analyse de crédit.

Un modèle explicable, pas une boîte noire

L'arbre de décision retenu n'est pas seulement le plus performant : il est aussi le plus transparent. Chaque décision suit des règles lisibles : "si le revenu dépasse X et le foyer compte plus de Y personnes, alors le profil est éligible". Ces règles peuvent être présentées à un comité de crédit, auditées et contestées.

C'est un avantage décisif dans un contexte bancaire où la réglementation impose d'expliquer tout refus de crédit.

Lisible

Règles de décision traçables et vérifiables

Auditable

Cohérence métier contrôlable à chaque nœud

Actionnable

Intégrable dans un process d'instruction

Défis techniques

Les obstacles méthodologiques surmontés

Déséquilibre des classes (9,8 % positifs)

Avec moins de 10 % de cas positifs, un modèle naïf atteindrait 90 % d'exactitude sans jamais détecter un seul emprunteur. La métrique de rappel a été privilégiée pour forcer les modèles à ne rater aucun profil éligible.

Interprétabilité imposée par le cadre réglementaire

Les modèles opaques (réseaux de neurones, SVM non-linéaire) ont été volontairement écartés : la réglementation bancaire impose d'expliquer tout refus de crédit. L'approche retenue devait produire des règles lisibles et auditables.

Sélection de variables sans biais de look-ahead

Identifier les variables vraiment prédictives sans introduire de contamination entre entraînement et test. Les tests statistiques (khi², corrélation, ANOVA) ont été appliqués exclusivement sur les données d'entraînement, avant toute modélisation.

Validation robuste sur données non vues

Le modèle final a été évalué sur 1 000 clients entièrement absents de la phase d'entraînement. Cette validation out-of-sample garantit que le rappel de 98,6 % n'est pas un artefact de sur-apprentissage.

Valeur ajoutée

Ce que ce type de projet apporte

Scoring crédit automatisé

Prioriser automatiquement les dossiers selon la probabilité d'éligibilité, pour concentrer l'effort des conseillers sur les profils les plus prometteurs.

Compréhension des refus

Identifier les leviers d'amélioration pour un client refusé (revenu, épargne, situation familiale) et proposer un accompagnement personnalisé.

Conformité réglementaire

Un modèle explicable répond aux exigences de transparence des décisions de crédit imposées par les régulateurs bancaires.

Applicable hors banque

La même approche s'applique à tout problème de classification binaire : score de risque fournisseur, prédiction de churn, détection de fraude.

"Ce projet montre comment transformer un fichier de données clients en outil d'aide à la décision opérationnel : rigoureux, transparent et directement intégrable dans un processus métier."

Démarrer une mission

Prêt à transformer vos données
en décisions ?

Décrivez votre besoin, et je vous réponds sous 48h avec une première analyse de votre problématique et une proposition adaptée.

Démarrer une mission a.boufares@almetria.com

Réponse sous 48h