Assani Amate, Ousmane (2026). « Comparaison de différentes approches de réduction de la dimensionnalité en vue de l'obtention d'un meilleur clustering » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.
Fichier(s) associé(s) à ce document :|
PDF
Télécharger (1MB) |
Résumé
La réduction de la dimension constitue une étape de prétraitement essentielle pour le clustering de données à haute dimension. Cependant, les évaluations exhaustives de son impact à travers des algorithmes de clustering variés et des types de données hétérogènes restent encore limitées. Dans ce travail, nous analysons de manière systématique l’influence de cinq techniques de réduction de dimension telles que l’Analyse en Composantes Principales (PCA), l’Analyse en Composantes Principales à Noyau (Kernel PCA), les Autoencodeurs Variationnels (VAEs), l’Isometric Mapping (Isomap) et le Multidimensional Scaling (MDS) sur les performances de quatre algorithmes de clustering : k-means, le clustering hiérarchique agglomératif (AHC), les mélanges gaussiens (GMM) et OPTICS. Les expériences sont menées sur 1 165 jeux de données synthétiques aux structures connues, ainsi que sur 20 jeux de données réels présentant une forte hétérogénéité. Les résultats sont évalués à l’aide de l’Adjusted Rand Index (ARI) sous différents niveaux de réduction de la dimension recommandés dans la littérature, y compris la réduction à k−1 dimensions (où k est le nombre de clusters ou classes), de même que 25 % et 50 % de la taille de la dimension initiale. Nos résultats montrent que les gains apportés par la réduction de la dimension sont réels et cohérents, mais dépendent fortement de l’interaction entre la géométrie de l’espace réduit et l’algorithme de clustering utilisé. Trois observations principales se dégagent. Premièrement, l’adéquation du couple – méthode de réduction de la dimension + algorithme de clustering – est déterminante; par exemple, Kernel PCA offre les améliorations les plus fiables pour les algorithmes de clustering basés sur les distances ou les centroïdes, Isomap apporte un avantage notable pour le GMM sur des structures non linéaires, tandis que les représentations issues des VAEs tendent à déstabiliser le clustering hiérarchique et les algorithmes basés sur la densité. Deuxièmement, les stratégies de réduction de dimensionnalité modérées (25 à 50%) surpassent systématiquement les stratégies plus agressives, telles que la réduction à k − 1 dimensions, car, dans la plupart des cas, elles parviennent à réduire le bruit et la redondance tout en préservant la structure discriminante des clusters présents dans les données. Troisièmement, les caractéristiques du domaine influencent fortement les performances : les gains diminuent sur les données réelles, bien que certains couplages ciblés, comme Kernel PCA avec OPTICS, restent bénéfiques, alors qu’un usage non maîtrisé de représentations profondes peut détériorer la topologie des voisinages. Ces résultats montrent que la réduction de la dimension ne doit pas être considérée comme une simple étape optionnelle, mais bien comme un paramètre clé dans la conception des pipelines non supervisés. Dans l’ensemble, cette étude fournit des recommandations pratiques et un cadre de comparaison reproductible pour aider les praticiens à choisir des stratégies de réduction adaptées à la géométrie de leurs données et aux objectifs de clustering.
| Type: | Mémoire accepté |
|---|---|
| Informations complémentaires: | Fichier numérique reçu en format PDF. |
| Directeur de thèse: | Makarenkov, Vladimir |
| Mots-clés ou Sujets: | Réduction de dimensionnalité / Agrégation (Intelligence artificielle) / Pré-traitement des données |
| Unité d'appartenance: | Faculté des sciences > Département d'informatique |
| Déposé par: | Service des bibliothèques |
| Date de dépôt: | 28 mai 2026 13:47 |
| Dernière modification: | 28 mai 2026 13:47 |
| Adresse URL : | https://archipel.uqam.ca/secure/id/eprint/20032 |
| Modifier les métadonnées (propriétaire du document) |
Statistiques |

