Identification des informations sensibles dans des sources de données hétérogènes

Zacharie, Sara Sofia (2019). « Identification des informations sensibles dans des sources de données hétérogènes » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (2MB)

Résumé

Afin de respecter les normes en vigueur, les entreprises et les organisations sont tenues de gérer et protéger les données produites par leurs employés. Cette obligation légale représente un réel défi en raison de la diversité et du volume conséquent de ces données. L'objectif du système proposé est de prévenir la diffusion inappropriée de données sensibles pour identifier automatiquement les violations de sécurité, en détectant ces données sensibles aux seins des documents. On s'assure ainsi que les documents qui circulent dans l'entreprise respectent les lois et règlements en vigueur tels la Loi sur la protection des renseignements personnels et les documents électroniques (LPRPDE, Canada), le Health Insurance Portability and Accountability Act (HIPAA, USA) ou encore le Règlement général sur la protection des données (RGPD, Europe). L'approche consiste tout d'abord à identifier la ou les thématiques des documents et à utiliser ces informations pour choisir les modèles de détection de données sensibles les mieux adaptés au contexte. Ces modèles sont issus de l'entraînement d'algorithmes d'apprentissage automatique sur des documents répertoriés comme appartenant à une ou des thématiques précises. Un travail d'annotation manuelle des données sensibles dans des documents dits «d'affaires» a été effectué afin de produire un corpus de référence. L'évaluation qui a pu être menée grâce à ce corpus a permis de déterminer si la détection du domaine en tant qu'étape préliminaire est bénéfique et si les modèles entraînés sont efficaces. Nous avons montré une amélioration dans la détection de certains types d'informations sensibles lorsque le modèle adéquat est appliqué sur les documents. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Protection de la vie privée, Législation, Apprentissage automatique, Reconnaissance des entités nommées, Détection de domaine, Données massives

Type: Mémoire accepté
Informations complémentaires: Le mémoire a été numérisé tel que transmis par l'auteur.
Directeur de thèse: Meurs, Marie-Jean
Mots-clés ou Sujets: Information sensible / Exploration de données / Apprentissage automatique / Données volumineuses / Droit à la vie privée
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 21 nov. 2019 08:55
Dernière modification: 21 nov. 2019 08:55
Adresse URL : http://archipel.uqam.ca/id/eprint/12922

Statistiques

Voir les statistiques sur cinq ans...