Roy-Gaumond, Alexandre
(2021).
« Génération de données synthétiques respectueuses de la vie privée par une approche basée sur les copules » Mémoire.
Montréal (Québec), Université du Québec à Montréal, Maîtrise en informatique.
Fichier(s) associé(s) à ce document :
Résumé
La publication et la libération de données sont de plus en plus populaires ce qui rend accessibles des données potentiellement identifiantes pour les individus auprès desquels ces données ont été collectées. De plus, la multiplicité des données disponibles sur le Web facilite le croisement des données et augmente donc les possibilités d’attaque. Libérer des données permet toutefois aux chercheurs académiques et industriels de faire des nouvelles découvertes autrement inaccessibles. Le dilemme entre la publication des données et le respect de la vie privée est certes complexe, mais différentes techniques d’assainissement et d’anonymisation de données permettent de trouver un équilibre. Les modèles génératifs respectueux de la vie privée permettent de produire des données fidèles aux données originelles tout en mitigeant le risque de fuites d’informations personnelles. Un récent type de modèles génératifs pour le domaine de la vie privée est particulièrement prometteur : les copules. Les copules ont la qualité d’être des modèles interprétables et robustes et leur extension, les copules vignes, permettent la modélisation de données synthétiques de dimension arbitraire. L’application de la confidentialité différentielle est simple et garantie une protection individuelle, donc des modèles et des données respectueuses de la vie privée. Ce mémoire présente une nouvelle approche nommée COPULA-SHIRLEY basée sur les copules vignes permettant la génération de données synthétiques différentiellement privées. COPULA-SHIRLEY se base sur les fonctions de densités marginales bruitées pour construire une copule vigne à l’aide de l’algorithme de Dissmann. Le cadre d’utilisation de COPULA-SHIRLEY est simple, flexible, respectueux de la vie privée et peut être appliqué à tout type de données. Cette nouvelle approche est accompagnée de deux tests statistiques, trois tâches de classification et un test de protection.
_____________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : copule, copule vigne, modèle génératif, données synthétiques, vie privée, test de protection de la vie privée, test d’utilité, modèle statistique, confidentialité différentielle
Type: |
Mémoire accepté
|
Informations complémentaires: |
Fichier numérique reçu et enrichi en format PDF/A. |
Directeur de thèse: |
Gambs, Sébastien |
Mots-clés ou Sujets: |
Données synthétiques / Confidentialité des données / Copules / Protection de la vie privée |
Unité d'appartenance: |
Faculté des sciences > Département d'informatique |
Déposé par: |
Service des bibliothèques
|
Date de dépôt: |
10 janv. 2025 14:08 |
Dernière modification: |
10 janv. 2025 14:08 |
Adresse URL : |
http://archipel.uqam.ca/id/eprint/18179 |