Modélisation par copules des réponses binaires : régression multivariée, en présence de covariables mixtes et inférence robuste pour données déséquilibrées

Handi, Youssef (2026). « Modélisation par copules des réponses binaires : régression multivariée, en présence de covariables mixtes et inférence robuste pour données déséquilibrées » Thèse. Montréal (Québec), Université du Québec à Montréal, Doctorat en mathématiques.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (3MB)

Résumé

Dans plusieurs domaines d’application, tels que la médecine ou la finance, il est courant de chercher à modéliser un vecteur de réponses binaires en fonction de variables explicatives (covariables) afin de mieux prédire les résultats associés binaires à ces dernières. Une telle modélisation se fait, en général, à l’aide de modèles linéaires généralisés multidimensionnels (VGLM, de l’anglais "vector generalized linear models"). Toutefois, ces modèles présentent certaines limites lorsqu’il s’agit de capturer des dépendances non linéaires et complexes entre les variables étudiées. En effet, la relation entre les variables explicatives et les réponses ne peut souvent pas être décrite adéquatement par une simple structure de dépendance linéaire. Pour remédier à cette limite, nous faisons appel à la modélisation via les copules qui offrent la possibilité de modéliser une grande variété de formes de dépendances. Cette approche permet non seulement d’améliorer la précision des modèles, mais aussi d’affiner l’estimation des probabilités prédictives. Dans cette thèse, nous explorons de nouvelles approches pour la régression fondée sur les copules, afin de prédire simultanément plusieurs variables réponses binaires. Nous abordons d’abord le cas où les covariables sont continues, avant de généraliser notre méthodologie au cas plus complexe des covariables mixtes. Nous étudions également la régression binaire asymétrique dans le cadre particulier d’une seule variable réponse binaire. Premièrement, nous introduisons un modèle basé sur les copules afin d’estimer la probabilité conjointe d’un vecteur de variables binaires, conditionnellement à un vecteur de covariables continues. Dans notre approche, la distribution marginale de chaque variable réponse est modélisée à l’aide d’une approche de régression univariée basée sur les copules. Ces distributions marginales servent ensuite à représenter la dépendance entre les variables réponses par l’intermédiaire d’une deuxième copule appropriée. Pour pallier aux limitations associées à l’utilisation d’un paramètre unique, qui contrôlerait simultanément la dépendance entre les variables réponses et la relation entre une variable réponse binaire et les covariables, nous proposons une décomposition de copules en vignes. Cette dernière procure une flexibilité accrue dans la modélisation des structures de dépendance complexes. La méthode proposée repose sur l’estimation distincte des paramètres de la copule décrivant la relation entre chaque variable réponse et les covariables à l’aide d’une fonction de vraisemblance, séparément des paramètres de la copule caractérisant la dépendance entre les distributions marginales. Cette distinction garantit une robustesse accrue de l’estimation et permet un développement asymptotique rigoureux de l’estimateur proposé pour la probabilité conjointe de prédiction. Deuxièmement, nous développons une extension de notre première approche adaptée aux covariables mixtes, combinant à la fois des variables continues et discrètes. Cette généralisation implique la modélisation explicite des distributions marginales en tenant compte des covariables discrètes, avant d’appliquer les principes méthodologiques établis dans notre première approche. Finalement, nous proposons une nouvelle méthode pour estimer un prédicteur optimal dans le cadre de la régression binaire basée sur les copules. Cette méthode s’appuie sur l’adaptation de fonctions de perte asymétriques, telles que la fonction de Huber appliquée à la régression quantile et expectile, particulièrement utile en présence de données déséquilibrées. Ces fonctions de perte asymétriques attribuent des poids différents aux observations, permettant ainsi de balancer la contribution de la classe minoritaire par rapport à celle de la classe majoritaire dans l’ensemble du modèle. Nous introduisons ensuite un estimateur pour ce prédicteur optimal et établissons ses propriétés asymptotiques. Enfin, nous évaluons l’efficacité de l’estimateur à travers une application sur des données réelles.

Type: Thèse ou essai doctoral accepté
Informations complémentaires: Fichier numérique reçu et enrichi en format PDF/A.
Directeur de thèse: Oualkacha, Karim
Mots-clés ou Sujets: Copules / Analyse de régression / Dépendance (Statistique) / Modèles mathématiques / Données binaires multivariées
Unité d'appartenance: Faculté des sciences > Département de mathématiques
Déposé par: Service des bibliothèques
Date de dépôt: 16 avr. 2026 10:22
Dernière modification: 16 avr. 2026 10:22
Adresse URL : https://archipel.uqam.ca/secure/id/eprint/19933

Statistiques

Voir les statistiques sur cinq ans...