Modeling automobile insurance claims using telematics data : machine learning approaches in classification and count regression

Duval, Francis (2024). « Modeling automobile insurance claims using telematics data : machine learning approaches in classification and count regression » Thèse. Montréal (Québec), Université du Québec à Montréal, Doctorat en mathématiques.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (6MB)

Résumé

Les produits d’assurance automobile ont traditionnellement été tarifés en fonction des attributs auto-déclarés fournis par les assurés. Ces attributs incluent généralement différents facteurs de risque tels que le sexe, l’âge, le lieu de résidence, le statut marital, l’utilisation du véhicule et l’historique des réclamations. Les assureurs se basent sur ces informations pour évaluer le niveau de risque associé à chaque contrat d’assurance et déterminer la prime appropriée. Récemment, les assureurs ont commencé à collecter des données sur la conduite de leurs assurés, ce qui ouvre de nouvelles possibilités en termes de tarification automobile et entraîne une véritable révolution dans le monde de l’assurance. Ces données télématiques comprennent des informations détaillées telles que la vitesse, l’accélération, le freinage, la distance parcourue et la position géographique. Une tarification basée sur ces données, connue sous le nom d’assurance basée sur l’usage, a été démontrée pour offrir de nombreux avantages. Cette approche permet une tarification plus précise et personnalisée en se basant sur les habitudes de conduite réelles de chaque assuré. Les avantages de l’assurance basée sur l’usage incluent également une meilleure équité dans la tarification, la promotion d’une conduite responsable, une amélioration de la sécurité routière et une réduction des émissions de gaz à effet de serre. Cependant, cette nouvelle source de données présente de nombreux défis. L’un de ces défis est lié à la gestion et au stockage de ces données, qui sont souvent volumineuses. Un autre défi majeur réside dans le traitement et l’analyse de ces données. Afin de tirer pleinement parti des avantages offerts par ce nouveau paradigme, il est essentiel de développer des algorithmes avancés permettant d’extraire des informations pertinentes à partir de ces données. Cela implique notamment le développement de nouveaux algorithmes de tarification capables d’utiliser de manière optimale les données télématiques. Il est également important de comprendre ces données, notamment les relations entre les différentes variables télématiques et le risque d’accident. En s’appuyant principalement sur des algorithmes d’apprentissage automatique, cette thèse a pour objectif d’améliorer les méthodes de tarification avec données télématiques en assurance automobile tout en approfondissant la compréhension du lien unissant les données télématiques et le niveau de risque des assurés. Au Chapitre 1, nous abordons la question de la quantité minimale de données télématiques requise pour obtenir une estimation précise du risque d’un assuré. En effet, il est dans l’intérêt d’un assureur de minimiser la quantité de données utilisées en raison de leur coût de stockage élevé et du temps de calcul considérable qu’elles exigent dans les algorithmes. Nous abordons cette question en utilisant un modèle de régression logistique avec régularisation lasso dans le contexte de la classification de réclamations, où le but est d’estimer la probabilité de réclamer pour chaque contrat d’assurance. Au Chapitre 2, nous développons une procédure basée sur des algorithmes non-supervisés de détection d’anomalies permettant d’extraire automatiquement des variables à partir des données télématiques. Cette méthode implique le calcul d’un score de « routine » et de « péculiarité » pour chaque trajet effectué par un véhicule. L’ensemble de ces scores constitue un profil de routine et de péculiarité pour chaque véhicule, à partir desquels des quantiles sont extraits pour être utilisés dans un algorithme de classification des réclamations. Nous proposons un modèle de classification incluant ces quantiles comme prédicteurs et utilisant une régularisation elastic-net, permettant une sélection automatique des variables. Enfin, au Chapitre 3, nous développons de nouveaux modèles de régression de comptage des réclamations utilisant des données télématiques. Notre approche repose sur une architecture de réseau neuronal spécifiquement conçue pour résoudre des problèmes actuariels, le Combined Actuarial Neural Network (CANN). Cette architecture combine un modèle de régression classique avec un réseau neuronal, offrant ainsi le meilleur des deux mondes. Alors que le modèle de régression classique fournit une base solide et interprétable, le réseau neuronal permet de capturer des relations complexes et des interactions non linéaires entre les variables. Cela signifie qu’il est capable d’extraire automatiquement des variables, ou représentation latentes, à partir des données télématiques dans ses couches cachées. Un aspect clé de ce chapitre est l’adaptation de l’architecture CANN à la spécification binomiale négative multivariée pour les données longitudinales.

Type: Thèse ou essai doctoral accepté
Informations complémentaires: Fichier numérique reçu et enrichi en format PDF/A.
Directeur de thèse: Boucher, Jean-Philippe
Mots-clés ou Sujets: Assurance-automobiles / Tarifs / Sinistres / Modélisation / Assurance basée sur l'usage / Télématique automobile / Risque / Algorithmes d'apprentissage / Modèles prédictifs
Unité d'appartenance: Faculté des sciences > Département de mathématiques
Déposé par: Service des bibliothèques
Date de dépôt: 07 juin 2024 13:19
Dernière modification: 07 juin 2024 13:19
Adresse URL : http://archipel.uqam.ca/id/eprint/17760

Statistiques

Voir les statistiques sur cinq ans...