Dans un contexte de démocratisation des comparateurs, les assurés cherchent le meilleur rapport qualité/prix de chacun des produits d’assurance dont la complémentaire santé. Tant sur des contrats individuels que collectifs, la détection des comportements conduisant à la résiliation est un véritable enjeu pour les assureurs car elle permet un pilotage optimisé du risque et de leur chiffre d’affaires.
Pourquoi et comment modéliser la résiliation en assurance santé ?
Aujourd’hui, la Data Science apporte de véritables solutions pour déterminer les facteurs de risques de la résiliation. Pour cela, il est important d’exploiter les informations disponibles pour une compagne d’assurance : prestations, cotisations, caractéristiques de l’assuré mais aussi les données de gestion, de contacts client, de multi-détention… Pour tenir compte de l’évolution du comportement des assurés, ces études sont généralement effectuées sur la dernière année complète à disposition.
Il faut souligner que les résiliations ne représentent en général qu’une faible partie du portefeuille (autour de 10-15% pour les contrats individuels). La modélisation doit ainsi tenir compte de ce contexte de données déséquilibrées. Les techniques de rééchantillonnage (SMOTE, ROSE, etc.) peuvent conduire à réduire ce déséquilibre, par exeple en dupliquant certaine données rares.
De la construction d’indicateurs à l’exploitation des modèles de machine learning
À partir des données relatives à un contrat santé, les algorithmes de Data Science (GLM, arbre, forêts aléatoires, XGBoost…) établissent une probabilité de résiliation propre à chaque assuré et identifient les variables discriminantes qualification la résiliation. Il est également possible d’ajouter certain indicateurs de consommation au modèle (part de reste-à-charge moyen, consommation des forfaits de soins …) afin de l’améliorer. Cette étape de Feature Engineering nécessite une expertise métier pour créer les indicateurs judicieux.
Les probabilités de résiliation obtenues par assuré permettent de définir un seuil à partir duquel on considère que l’assuré va résilier : la probabilité devient alors une règle de décision. Les courbes ROC et PR déterminent le seuil adapté au modèle. La matrice de confusion quant à elle sert à calibrer les différents modèles et à le comparer entre eux.
Process de prédiction des résiliations en assurance santé
Afin de relever ces défis, l’intégration de modèles de prédiction des résiliations avec des indicateurs de rentabilité s’avère être une stratégie essentielle. Cette approche permet aux assureurs de non seulement anticiper les résiliations potentielles, mais aussi de cibler de manière optimale les actions commerciales et de défense du portefeuille. Ainsi, un processus de prédiction de la résilience a été mis en place :
Ce document a été rédigé par notre expert :
Nabil RACHDI
Head of Data Science
Découvrez nos autres contenus dédiés à la Data Science
Data Insights | Pilotage de la sinistralité : visualisation et analyse interactive
Pilotage de la sinistralité : visualisation et analyse interactive – Découvrez notre nouvel Addactis Data Insights, rédigé par notre expert Nabil Rachdi
[Data Insights] Risque absentéisme et forecasting
Avec des objectifs de réduction des coûts liés aux absences pour les entreprises et des enjeux de réduction des risques pour les assureurs, l’absentéisme peut être étudié, modélisé et anticipé grâce à l’exploitation des données DSN.