La régression expectile pour l'analyse des données longitudinales

Barry, Amadou Diogo (2019). « La régression expectile pour l'analyse des données longitudinales » Thèse. Montréal (Québec, Canada), Université du Québec à Montréal, Doctorat en mathématiques.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (6MB)

Résumé

La régression, au sens large, est l'une des méthodes d'inférence les plus utilisées en modélisation. La régression modélise la relation entre les régresseurs et la variable réponse. Cette modélisation se résume par l'estimation de l'influence des régresseurs sur la moyenne conditionnelle de la variable réponse. Alors que l'inférence sur la moyenne conditionnelle est généralement acceptable, il arrive que l'intérêt porte sur l'estimation des queues de la distribution de la variable réponse conditionnellement aux régresseurs. Dans ce contexte, la régression classique est inefficace et il faut aller au-delà de l'estimation de la moyenne conditionnelle. La littérature moderne offre des approches pour répondre à ce genre de problématique, notamment avec la régression asymétrique des moindres carrés pondérés. La régression asymétrique des moindres carrés pondérés ou régression expectile (RE) a récemment gagné en popularité, en partie grâce à ses propriétés statistiques et computationnelles attrayantes. La RE estime les fonctions expectiles/percentiles de la distribution de la variable réponse en fonction des régresseurs et de leur coefficient. Par conséquent, la RE permet d'examiner et d'analyser l'influence des régresseurs sur la distribution conditionnelle de la variable réponse, révélant ainsi une variété de formes d'hétérogénéité. De plus, la RE est très simple à mettre en oeuvre comparativement à son analogue, la régression quantile (RQ). Dans la présente thèse, nous introduisons la RE à l'analyse des données longitudinales. Nous étudions l'association de la RE au modèle GEE et au modèle linéaire avec effets-fixes (EF). Le modèle GEE et le modèle EF sont des modèles très réputés et communément utilisés en biostatistique et en économétrie. Les données longitudinales sont de loin les données observationnelles les plus appréciées. Les données longitudinales prennent en compte la dynamique, le développement et le changement de la population à l'étude et offrent une meilleure inférence des paramètres du modèle. Ensuite, nous présentons le plan de la thèse. Dans le chapitre préliminaire, Chapitre I, nous introduisons les statistiques asymétriques (quantile et expectile) et quelques-unes de leurs propriétés. Nous discutons leurs similarités et complémentarités. Par la suite, nous introduisons les modèles de la régression quantile (RQ) et de la régression expectile (RE) associés au modèle linéaire simple. Après l'introduction des modèles RQ et RE, nous présentons les propriétés asymptotiques de leur estimateur. Nous terminons le chapitre par la présentation succincte du modèle GEE, du modèle EF et du modèle linéaire avec effets-aléatoires (EA), ainsi que les propriétés asymptotiques de leur estimateur. Dans le second chapitre (Chapitre II), nous introduisons une nouvelle classe d'estimateurs qui découle de l'association de la régression des moindres carrés asymétriques pondérés et des équations d'estimation généralisées (GEE). Cette nouvelle classe estime l'expectile de la variable réponse en fonction des régresseurs et inclut une structure de corrélation hypothétique dans les équations d'estimation pour modéliser la dépendance des données. De plus, les structures de corrélation couramment utilisées avec le modèle GEE se généralisent et s'appliquent naturellement dans les équations d'estimation de cette nouvelle classe d'estimateurs. Cette dernière permettra au modèle GEE de capturer l'hétérogénéité des effets des régresseurs et de tenir compte de l'hétérogénéité non observée. Nous avons montré les propriétés asymptotiques de ces nouveaux estimateurs et avons proposé un estimateur robuste de leur matrice de variance-covariance. Les résultats des simulations exhaustives ont démontré leurs qualités favorables dans différents scénarios et leurs avantages par rapport à d'autres méthodes similaires. Finalement, nous avons étudié l'effet d'un nouveau traitement sur la douleur du travail pendant l'accouchement pour illustrer la méthode. Le troisième chapitre (Chapitre III) introduit le modèle de la régression expectile avec effets-fixes (ERFE). Le modèle ERFE hérite de propriétés attrayantes pour l'analyse des données longitudinales. D'abord comme extension du modèle EF, ie modèle ERFE, dans sa spécification, tient compte de la corrélation entre les régresseurs du modèle et les caractéristiques individuelles non-observées, comme les facteurs génétiques et environnementaux. Ensuite, grâce à l'approche de la régression des moindres carrés asymétriques pondérés, le modèle ERFE permet l'estimation et l'analyse de l'influence des régresseurs sur la localisation, l'échelle et la forme de la distribution conditionnelle de la variable réponse. Cela dit, le modèle ERFE pose aussi le problème lié au modèle EF désigné par les termes «incidental parameter problem». Nous montrons que !'estimateur ERFE est un «iterative within-transformation estimator ». Autrement dit, l'estimateur ERFE peut être dérivé en utilisant de manière itérative la stratégie de la «within-transformation» proposée dans le cadre du modèle EF pour résoudre le problème et éliminer le paramètre individuel. Nous établissons les propriétés asymptotiques de l'estimateur ERFE et suggérons un estimateur convergent et hétéroscédastique pour sa matrice de variance-covariance. Nous avons évalué les performances de l'estimateur ERFE à travers une simulation exhaustive et l'avons comparé au modèle de la régression quantile avec effets-fixes (QRFE). Les résultats sont mitigés, le modèle ERFE est compétitif et plus performant dans certains scénarios. Nous l'avons employé pour étudier le rendement scolaire sur le salaire avec les données réelles sur l'étude de la dynamique des revenus (PSID). Le dernier chapitre (Chapitre IV) porte sur une approche originale pour résoudre le «incidental parameter problem» dans le modèle ERFE. Cette approche, que nous désignons par PERFE, consiste à appliquer une pénalité au paramètre individuel. En plus de conserver les propriétés attrayantes du modèle ERFE, le modèle PERFE permet l'estimation des régresseurs invariants dans le temps. Nous avons appliqué la pénalité l1 afin de régulariser le paramètre individuel autour de la valeur zéro. Le degré de régularisation est contrôlé par le paramètre de régularisation et sa valeur optimale est choisie en s'appuyant sur le critère d'information bayésien (BIC). Nous appliquons également une astuce pour déterminer le chemin de la solution du paramètre de régularisation et réduire le temps de calcul. Les résultats de la simulation montrent que !'estimateur PERFE est plus performant que le modèle ERFE et le modèle QRFE avec pénalité (PQRFE). Nous appliquons le modèle PERFE aux données PSID pour étudier l'hétérogénéité du rendement scolaire. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Expectile regression, Quantile regression, Longitudinal data, Panel data, GEE, Working correlation, Fixed-effets, Within-transformation, Penalty method, shrinkage

Type: Thèse ou essai doctoral accepté
Informations complémentaires: La thèse a été numérisée telle que transmise par l'auteur.
Directeur de thèse: Oualkacha, Karim
Mots-clés ou Sujets: Régression expectile / Régression quantile / Méthode longitudinale
Unité d'appartenance: Faculté des sciences > Département de mathématiques
Déposé par: Service des bibliothèques
Date de dépôt: 23 juill. 2019 13:28
Dernière modification: 23 juill. 2019 13:28
Adresse URL : http://archipel.uqam.ca/id/eprint/12646

Statistiques

Voir les statistiques sur cinq ans...