Nouvelles approches de classification binaire basées sur le séparateur à vaste marge pour les données de grande dimension

Kharoubi, Rachid (2024). « Nouvelles approches de classification binaire basées sur le séparateur à vaste marge pour les données de grande dimension » Thèse. Montréal (Québec), Université du Québec à Montréal, Doctorat en mathématiques.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (1MB)

Résumé

Le Séparateur à Vaste Marge (SVM) est un outil d’apprentissage statistique supervisé issu d’une généralisation des classificateurs linéaires. Il a suscité beaucoup d’intérêt dans l’analyse discriminante et le classement des données en raison de son pouvoir prédictif et sa capacité à résoudre les problèmes de classement binaire en présence des données de grande dimension. De nombreuses approches liées à ce classificateur ont été élaborées dans ce domaine de recherche très animé. Cette thèse propose des généralisations de l’apporche SVM pour le classement binaire en présence des données volumineuses. Les méthodes proposées visent l’amélioration de la prédiction, le classement des données et la sélection de variables. Nous proposons d’abord la méthode CCNSVM [de l’anglais Cluster Correlation-Network SVM]. Cette approche a pour but d’identifier/selectionner des groupes de prédicteurs importants pour une variable réponse binaire et d’estimer leurs coefficients de régression, de façon simultanée, dans un modèle SVM pénalisé. La méthode CCNSVM exploite la structure de corrélation entre les prédicteurs afin de les regrouper dans des groupes homogènes en se basant sur une mesure capturée dans une matrice de similarité, nomée TOM [de l’anglais Topological Overlap Matrix]. La pénalité CCN exploite de tels regrouprements des prédicteurs afin de selectionner les goupes des prédicteurs qui sont associés avec la variable réponse (c.-à-d. les groupes qui sont importants pour distinguer davantage les deux classes de la variable réponse binaire). Ensuite, nous proposons la fonction de perte BernSVM, basée sur les polynômes de Bernstein, qui est une approximation lisse de la fonction de perte SVM . En effet, la fonction de perte SVM n’est pas suffisamment dérivable, ce qui rend le problème d’optimisation sous-jacent difficile à résoudre. Ainsi, la fonction de perte BernSVM permet l’estimation des paramètres du modèle SVM pénalisé de façon éfficace en utilisant des techniques d’optimisation standard comme l’algorithme de la descente par coordonnée et/ou celui des moindres carrés repondérés itératifs (IRLS en anglais). Les propriétés de la fonction de perte BernSVM permettent aussi de développer le comportement (théorique) non asymptotique des estimateurs des paramètres de la méthode SVM régularisée. Nous proposons finalement la méthode SplitSVM qui modélise la relation entre la variable réponse et les prédicteurs via un ensemble de modèles SVM. En effet, SplitSVM consiste à employer plusieurs modèles BernSVM pénalisés au lieu d’en considérer un seul afin d’exploiter la diversité entre ces modèles, en prenant en compte différentes combinaisons des variables explicatives dans chaque modèle. Une fois tous les modèles estimés, ils sont agrégés dans un modèle final afin de mieux charactériser la relation/association entre la variable réponse et les prédicteurs. Les résultats des études de simulation et l’analyse des données réelles montrent la performance et l’efficacité des approches proposées dans les chapitres 2, 3 et 4, comparées aux compétiteurs existants dans ce domaine d’apprentissage supervisé.

Type: Thèse ou essai doctoral accepté
Informations complémentaires: Fichier numérique reçu et enrichi en format PDF/A.
Directeur de thèse: Oualkacha, Karim
Mots-clés ou Sujets: Séparateurs à vaste marge / Données de grandes dimensions / Classification binaire / Apprentissage supervisé
Unité d'appartenance: Faculté des sciences > Département de mathématiques
Déposé par: Service des bibliothèques
Date de dépôt: 04 sept. 2024 12:56
Dernière modification: 04 sept. 2024 12:56
Adresse URL : http://archipel.uqam.ca/id/eprint/17984

Statistiques

Voir les statistiques sur cinq ans...