Algorithmes de sélection de confondants en petite et grande dimensions : contextes d’application conventionnels et pour l’analyse de la médiation

Baldé, Ismaïla (2022). « Algorithmes de sélection de confondants en petite et grande dimensions : contextes d’application conventionnels et pour l’analyse de la médiation » Thèse. Montréal (Québec, Canada), Université du Québec à Montréal, Doctorat en mathématiques.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (6MB)

Résumé

L'inférence causale cherche à déterminer les relations de causalité entre un ensemble de variables sur la base de données expérimentales ou d'observation. Alors que les études expérimentales de type randomisées sont idéales pour l'inférence causale, elles ne sont pas toujours réalisables pour des raisons logistiques, économiques ou éthiques. Il est donc particulièrement intéressant de déterminer la structure causale entre les variables sur la base de données d'observation. Dans cette thèse, nous nous intéressons aux algorithmes d’identification et de sélection des confondants basés sur les données observationnelles en trois différents projets. D’abord, nous abordons le problème des algorithmes de sélection des confondants en grande dimension pour estimer l’effet total de l’exposition sur la réponse. Dans un article récent et populaire, Shortreed et Ertefaie (2017) ont introduit l’algorithme « outcome-adaptive lasso (OAL) » pour cibler les variables désirables pour l’estimation basée sur une méthode par scores de propension. Alors que OAL est basé sur le lasso adaptatif pour assurer la sparsité du modèle, sa capacité de tenir compte adéquatement de la colinéarité entre variables est discutable, particulièrement en grande dimension. Nous proposons le « generalized outcome-adaptive lasso (GOAL) » qui combine les forces du lasso adaptatif pour garantir la sparsité et de l’elastic net pour faire face à la colinéarité. Nous avons comparé OAL et GOAL dans les mêmes scénarios de simulation que dans Shortreed et Ertefaie (2017). Alors que les approches OAL et GOAL étaient équivalentes avec des covariables indépendantes, GOAL était plus performant que OAL dans les problèmes en grande et petite dimensions avec des covariables corrélées. Ensuite, nous nous intéressons au sujet émergent des algorithmes de sélection des confondants pour l’analyse de médiation causale. Plus spécifiquement, nous construisons sur les algorithmes OAL et GOAL conçus pour l’estimation de l'effet total, afin de les utiliser chacun dans une procédure algorithmique en deux étapes qui permet l’estimation des effets direct et indirect qui sous-tendent l’analyse de médiation. Nous proposons ainsi le « outcome-adaptive regularization for causal mediation analysis (MOAR) » afin de sélectionner les covariables appropriées pour l'analyse de médiation causale. Nous utilisons des données simulées et des données réelles provenant de l’étude Harvard School of Public Health College Alcohol pour illustrer la performance de MOAR. Les résultats montrent que MOAR améliore l’estimation de l'effet direct comparativement aux algorithmes standards OAL et GOAL. Finalement, nous abordons le problème de l’identification des confondants pour l’analyse de médiation causale à partir du lasso graphique. Le lasso graphique, dit « glasso », est un algorithme très populaire et rapide qui a été introduit par Friedman, Hastie et Tibshirani (2008) pour estimer l’inverse de la matrice de variance-covariance basé sur des données normales multivariées observées. Alors que le glasso a été conçu pour estimer des graphes non dirigés, son utilité pour estimer des graphes de médiation causale est questionnable. Nous développons une nouvelle approche de régularisation, appelée « mglasso », qui permet de retrouver les liens pertinents entre variables dans un contexte de médiation causale sur la base d’une inférence par glasso. Une interface graphique basée sur l’application Shiny avec le logiciel statistique R est en voie de production; à terme, cette interface permettra aux utilisateurs de posséder un outil de visualisation des relations directes et indirectes probables entre l’ensemble des variables, incluant les confondants. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Algorithmes d'apprentissage statistique, Analyse de médiation, Analyse statistique de données de grande dimension, Approche graphique, Inférence causale, Sélection de variables.

Type: Thèse ou essai doctoral accepté
Informations complémentaires: Fichier numérique reçu et enrichi en format PDF/A.
Directeur de thèse: Lefebvre, Geneviève
Mots-clés ou Sujets: Inférence causale / Algorithmes d'apprentissage / Apprentissage statistique / Médiation statistique / Variables
Unité d'appartenance: Faculté des sciences > Département de mathématiques
Déposé par: Service des bibliothèques
Date de dépôt: 16 juin 2023 11:44
Dernière modification: 16 juin 2023 11:44
Adresse URL : http://archipel.uqam.ca/id/eprint/16698

Statistiques

Voir les statistiques sur cinq ans...