Conception d'attaques par inférence d'appartenance contre les données génomiques dans le modèle boîte noire

Bagheri, Mohadeseh (2025). « Conception d'attaques par inférence d'appartenance contre les données génomiques dans le modèle boîte noire » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (4MB)

Résumé

Avec l’apparition du séquençage à haut débit et l’intégration de l’intelligence artificielle, de nouvelles préoccupations liées à la vie privée ont émergé. Les données génétiques humaines, en particulier, révèlent des prédispositions aux maladies et des éléments héréditaires familiaux. Contrairement aux données classiques, les données génomiques sont uniques, immuables et personnelles. Cette spécificité les rend particulièrement vulnérables aux abus en cas de fuite ou de mauvaise gestion. Dans ce contexte, les attaques par inférence d’appartenance (membership inference attacks – MIA) représentent une menace croissante : elles permettent à un adversaire de déterminer si un échantillon spécifique a été utilisé pour entraîner un modèle d’apprentissage automatique, compromettant ainsi la confidentialité des données biomédicales. Ce mémoire s’inscrit dans une démarche de sensibilisation aux risques liés à la vie privée dans les applications d’apprentissage automatique sur des données génomiques. Il vise à évaluer la robustesse des modèles prédictifs lorsqu’ils sont exposés à des attaques d’inférence d’appartenance, en considérant deux méthodologies réalistes. La première repose sur la création de modèles d’ombre dans un espace de distribution similaire à celui du modèle cible, mais en s’appuyant sur des phénotypes biologiquement corrélés. Cette stratégie exploite la proximité fonctionnelle entre certains traits mesurés pour améliorer l’efficacité de l’attaque, tout en supposant un accès partiel à des données de même nature. La seconde méthodologie adopte une approche plus générique, fondée sur la généralisation des connaissances : des modèles d’ombre sont formés sur des jeux de données hétérogènes, sans similarité directe avec le modèle cible, ce qui reflète un scénario plus réaliste et contraint. La contribution principale de ce mémoire est la mise en oeuvre et l’évaluation de ces deux méthodologies d’attaque MIA appliquées aux données génétiques. Afin d’évaluer la pertinence et l’efficacité de ces approches, nous avons recours à un jeu de données génomiques de levure, en raison de sa disponibilité publique et de son usage en recherche génomique. Ce jeu de données permet de simuler des expériences reproductibles et représentatives tout en contrôlant les variables biologiques pertinentes. Les résultats expérimentaux obtenus mettent en évidence la faisabilité d’attaques par inférence d’appartenance même en l’absence totale d’informations sur les données d’entraînement du modèle cible. Les deux méthodologies proposées montrent des performances élevées, en particulier dans la détection des échantillons membres. Ces constats soulignent l’importance de développer des mécanismes de défense plus robustes et adaptés aux spécificités des données génomiques. Ils révèlent également que la sécurité des modèles d’apprentissage automatique dans le domaine biomédical ne peut être assurée uniquement par la limitation de l’accès aux données, mais qu’elle nécessite aussi des garanties algorithmiques.

Type: Mémoire accepté
Informations complémentaires: Fichier numérique reçu et enrichi en format PDF/A.
Directeur de thèse: Killijian, Marc-Olivier
Mots-clés ou Sujets: Attaques par inférence d’appartenance / Apprentissage automatique / Données génétiques / Protection des données
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 02 déc. 2025 09:18
Dernière modification: 02 déc. 2025 09:18
Adresse URL : http://archipel.uqam.ca/id/eprint/19310

Statistiques

Voir les statistiques sur cinq ans...