Prédire l'obtention d'un prêt
à partir du profil client
À partir de 4 894 dossiers clients d'une banque, le projet identifie les profils les plus susceptibles d'obtenir un prêt personnel, en combinant une analyse approfondie des données et une comparaison rigoureuse de plusieurs méthodes prédictives.
Un défi classique, des contraintes spécifiques au secteur bancaire
Les établissements de crédit instruisent chaque année des milliers de dossiers de prêt personnel avec des ressources humaines limitées. L'enjeu est d'identifier rapidement les profils éligibles, sans biaiser la décision ni allonger inutilement les délais d'instruction.
Seulement 9,8 % des 4 894 clients ont obtenu un prêt dans ce jeu de données. Ce déséquilibre prononcé rend les approches classiques inefficaces : un modèle naïf prédisant systématiquement "refus" atteindrait 90 % d'exactitude, mais serait totalement inutile en pratique.
La réglementation bancaire impose que tout refus de crédit soit explicable et justifiable. Un modèle opaque n'est donc pas une option viable dans ce secteur, ce qui oriente les choix méthodologiques dès la conception.
De l'exploration des profils à la prédiction
Compréhension & structuration des données
Analyse d'un fichier de 4 894 dossiers clients anonymisés, chacun décrit par 8 variables : âge, ancienneté, revenu mensuel, taille du foyer, dépenses courantes, niveau d'études, possession d'un compte épargne, et statut de prêt. Point de départ clé : seulement 9,8 % des clients ont obtenu un prêt personnel, déséquilibre important à prendre en compte dans la modélisation.
Exploration & compréhension des profils
Étude de la distribution de chaque variable et de son lien avec l'obtention d'un prêt. Les résultats sont clairs : les clients ayant obtenu un prêt ont un revenu moyen de 144 k€/an contre 66 k€ pour les autres. Parmi les détenteurs d'un compte épargne logement, 46,7 % ont obtenu un prêt, contre 7,4 % pour ceux qui n'en ont pas.
Identification des facteurs déterminants
Tests statistiques pour identifier quelles variables distinguent vraiment les emprunteurs des non-emprunteurs. Le revenu, les dépenses, le niveau d'études, la taille du foyer et la possession d'un compte épargne ressortent comme les indicateurs les plus significatifs, confirmés par des tests de corrélation et des visualisations croisées.
Comparaison de 5 approches prédictives
Mise en compétition de 5 méthodes de classification pour prédire qui obtiendra un prêt : régression logistique, deux variantes (Probit et Log-Log), arbre de décision, et machine à vecteurs de support. Chaque modèle est évalué selon trois critères : la précision (éviter les fausses alertes), le rappel (ne rater aucun emprunteur potentiel), et la qualité globale de discrimination.
Sélection du modèle & interprétation
L'arbre de décision s'impose comme la meilleure approche : 98,6 % des vrais emprunteurs identifiés correctement, avec une qualité de discrimination globale de 98,1 % (AUC). Son avantage supplémentaire : il est entièrement lisible, on peut tracer les règles de décision exactes, vérifier leur cohérence métier et les expliquer à un comité de crédit.
Validation sur de nouveaux clients
Application du modèle retenu à une base de 1 000 nouveaux clients non vus pendant l'entraînement. Les prédictions sont cohérentes et les profils identifiés comme emprunteurs correspondent bien aux caractéristiques attendues (revenu élevé, compte épargne, foyer nombreux). Le modèle est prêt à être intégré dans un processus d'instruction de dossiers.
Ce que les données révèlent
Taux d'obtention de prêt selon le revenu
Le revenu mensuel est de loin le facteur le plus déterminant. Aucun client gagnant moins de 50 k€/an n'a obtenu de prêt. Le taux atteint 51 % au-delà de 150 k€, signal très net qui structure la majorité des décisions.
Comparaison des 5 approches testées
Deux critères guidaient la sélection : ne rater aucun emprunteur potentiel (rappel élevé), et limiter les fausses alertes (précision). L'arbre de décision domine sur les deux dimensions.
La barre en teal correspond à l'approche retenue.
Ce qui pèse le plus dans la décision
Le revenu mensuel concentre à lui seul environ 70 % de la capacité prédictive du modèle. La taille du foyer et le niveau d'études jouent un rôle secondaire mais réel. Les dépenses mensuelles apportent un signal complémentaire, cohérent avec les pratiques d'analyse de crédit.
Un modèle explicable, pas une boîte noire
L'arbre de décision retenu n'est pas seulement le plus performant : il est aussi le plus transparent. Chaque décision suit des règles lisibles : "si le revenu dépasse X et le foyer compte plus de Y personnes, alors le profil est éligible". Ces règles peuvent être présentées à un comité de crédit, auditées et contestées.
C'est un avantage décisif dans un contexte bancaire où la réglementation impose d'expliquer tout refus de crédit.
Règles de décision traçables et vérifiables
Cohérence métier contrôlable à chaque nœud
Intégrable dans un process d'instruction
Les obstacles méthodologiques surmontés
Avec moins de 10 % de cas positifs, un modèle naïf atteindrait 90 % d'exactitude sans jamais détecter un seul emprunteur. La métrique de rappel a été privilégiée pour forcer les modèles à ne rater aucun profil éligible.
Les modèles opaques (réseaux de neurones, SVM non-linéaire) ont été volontairement écartés : la réglementation bancaire impose d'expliquer tout refus de crédit. L'approche retenue devait produire des règles lisibles et auditables.
Identifier les variables vraiment prédictives sans introduire de contamination entre entraînement et test. Les tests statistiques (khi², corrélation, ANOVA) ont été appliqués exclusivement sur les données d'entraînement, avant toute modélisation.
Le modèle final a été évalué sur 1 000 clients entièrement absents de la phase d'entraînement. Cette validation out-of-sample garantit que le rappel de 98,6 % n'est pas un artefact de sur-apprentissage.
Ce que ce type de projet apporte
Prioriser automatiquement les dossiers selon la probabilité d'éligibilité, pour concentrer l'effort des conseillers sur les profils les plus prometteurs.
Identifier les leviers d'amélioration pour un client refusé (revenu, épargne, situation familiale) et proposer un accompagnement personnalisé.
Un modèle explicable répond aux exigences de transparence des décisions de crédit imposées par les régulateurs bancaires.
La même approche s'applique à tout problème de classification binaire : score de risque fournisseur, prédiction de churn, détection de fraude.
"Ce projet montre comment transformer un fichier de données clients en outil d'aide à la décision opérationnel : rigoureux, transparent et directement intégrable dans un processus métier."
Prêt à transformer vos données
en décisions ?
Décrivez votre besoin, et je vous réponds sous 48h avec une première analyse de votre problématique et une proposition adaptée.