Génération de données synthétiques respectueuses de la vie privée par une approche basée sur les copules

Roy-Gaumond, Alexandre (2021). « Génération de données synthétiques respectueuses de la vie privée par une approche basée sur les copules » Mémoire. Montréal (Québec), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (6MB)

Résumé

La publication et la libération de données sont de plus en plus populaires ce qui rend accessibles des données potentiellement identifiantes pour les individus auprès desquels ces données ont été collectées. De plus, la multiplicité des données disponibles sur le Web facilite le croisement des données et augmente donc les possibilités d’attaque. Libérer des données permet toutefois aux chercheurs académiques et industriels de faire des nouvelles découvertes autrement inaccessibles. Le dilemme entre la publication des données et le respect de la vie privée est certes complexe, mais différentes techniques d’assainissement et d’anonymisation de données permettent de trouver un équilibre. Les modèles génératifs respectueux de la vie privée permettent de produire des données fidèles aux données originelles tout en mitigeant le risque de fuites d’informations personnelles. Un récent type de modèles génératifs pour le domaine de la vie privée est particulièrement prometteur : les copules. Les copules ont la qualité d’être des modèles interprétables et robustes et leur extension, les copules vignes, permettent la modélisation de données synthétiques de dimension arbitraire. L’application de la confidentialité différentielle est simple et garantie une protection individuelle, donc des modèles et des données respectueuses de la vie privée. Ce mémoire présente une nouvelle approche nommée COPULA-SHIRLEY basée sur les copules vignes permettant la génération de données synthétiques différentiellement privées. COPULA-SHIRLEY se base sur les fonctions de densités marginales bruitées pour construire une copule vigne à l’aide de l’algorithme de Dissmann. Le cadre d’utilisation de COPULA-SHIRLEY est simple, flexible, respectueux de la vie privée et peut être appliqué à tout type de données. Cette nouvelle approche est accompagnée de deux tests statistiques, trois tâches de classification et un test de protection. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : copule, copule vigne, modèle génératif, données synthétiques, vie privée, test de protection de la vie privée, test d’utilité, modèle statistique, confidentialité différentielle

Type: Mémoire accepté
Informations complémentaires: Fichier numérique reçu et enrichi en format PDF/A.
Directeur de thèse: Gambs, Sébastien
Mots-clés ou Sujets: Données synthétiques / Confidentialité des données / Copules / Protection de la vie privée
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 10 janv. 2025 14:08
Dernière modification: 10 janv. 2025 14:08
Adresse URL : http://archipel.uqam.ca/id/eprint/18179

Statistiques

Voir les statistiques sur cinq ans...