Une nouvelle approche pour la sélection des variables dans le cas de modèles de discrimination en grandes dimensions

Kharoubi, Rachid (2016). « Une nouvelle approche pour la sélection des variables dans le cas de modèles de discrimination en grandes dimensions » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en mathématiques.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (6MB)

Résumé

Le Séparateur à Vaste Marge (SVM) est un algorithme d'apprentissage initialement défini pour la discrimination, c'est-à-dire, la prévision d'une variable qualitative binaire (ex. groupes malades et non-malades). Malgré son utilité dans plusieurs domaines d'applications, l'approche SVM standard ne permet pas la sélection des prédicteurs importants pour la discrimination, en particulier dans la présence d'un grand nombre de prédicteurs. Plusieurs régularisations de l'approche SVM ont été proposées dans la littérature. Parmi les plus importantes, on trouve l'approche de Wang et al. (2008). En imposant une contrainte de type ℓ1-ℓ2 sur la fonction de perte de la méthode SVM, cette approche favorise la parcimonie dans la sélection des prédicteurs et tient compte de la corrélation entre ces derniers. Yang et Zou (2013) proposent un algorithme de type descente par coordonnée qui est efficace et rapide. Dans certaines situations, les prédicteurs peuvent agir en groupes sur la variable réponse. Ainsi, l'exploitation de telle structure peut s'avérer très utile pour discriminer les deux classes de la variable réponse. Par exemple, dans le domaine de la génétique, les gènes opèrent en groupes pour la régularisation et la survie d'un organisme, et ils agissent de-même pour causer plusieurs maladies complexes comme les cancers. Dans ce mémoire, nous présentons une extension de la méthode SVM de Yang et Zou afin d'obtenir une meilleure discrimination de la variable réponse, dans le cas de données de grandes dimensions. Nous proposons un nouveau modèle pour ce type de données. Pour estimer les paramètres de notre modèle et remédier à plusieurs problèmes d'optimisation, nous proposons un algorithme d'estimation qui utilise les techniques de maximisation-minimisation et l'algorithme de descente par coordonnée. Ceci, afin d'accélérer la convergence de notre algorithme. Nous allons montrer que notre méthode favorise la parcimonie et tient compte de la structure de groupes des prédicteurs qui discriminent davantage les deux classes de la variable réponse. Nous illustrons la méthodologie proposée dans ce mémoire à l'aide des études de simulations. Finalement, nous analysons un jeu de données réelles contenant deux groupes de sujets, un groupe de patients atteints du cancer de la prostate et un groupe de sujets non-malades, et décrits par 6033 expressions de gènes (prédicteurs).

Type: Mémoire accepté
Informations complémentaires: Le mémoire a été numérisé tel que transmis par l'auteur.
Directeur de thèse: Oualkacha, Karim
Mots-clés ou Sujets: Apprentissage statistique / Analyse de régression / Analyse discriminante / CEN (Cluster Elastic Net) / HHSVM-EN (Huberized Hinge Support Vector Machines via Elastic Net)
Unité d'appartenance: Faculté des sciences > Département de mathématiques
Déposé par: Service des bibliothèques
Date de dépôt: 26 oct. 2016 17:35
Dernière modification: 26 oct. 2016 17:35
Adresse URL : http://archipel.uqam.ca/id/eprint/8948

Statistiques

Voir les statistiques sur cinq ans...