Briand, Antoine Jean Roger
(2019).
« Intégration de données massives dans un environnement en code ouvert » Mémoire.
Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.
Fichier(s) associé(s) à ce document :
Résumé
La gestion des données massives et leur exploitation sont des sujets importants de l'industrie et de la recherche. Leurs particularités ont nécessité la création de technologies et techniques spécialisées afin de faciliter leur exploitation. Toutefois, la tâche d'intégration des données massives est toujours complexe. Pour autant, les applications qui découlent de l'exploitation des données massives ont des impacts très importants sur le plan industriel, scientifique ou social. Afin d'encourager la création de projets relatifs aux données massives, nous présentons ici une infrastructure type, pour le traitement de données textuelles possédant toutes les caractéristiques des données massives : volume, vélocité, variété, véracité, valeur. Celle-ci a pour caractéristiques la simplification du passage à l'échelle, de la maintenance, ainsi que la maîtrise du coût. Cette infrastructure est entièrement construite sur des technologies libres. Nous verrons également comment il est possible d'utiliser une même plateforme pour plusieurs types d'applications, en mettant en œuvre une infrastructure en tant que service et en tant que code. Pour en démontrer l'efficacité, nous présenterons deux cas réels d'application. La première consiste à appuyer la protection de la vie privée par l'identification des données sensibles dans le cadre d'un projet de conformité réglementaire. Nous montrerons comment explorer au travers d'une masse de données non structurée afin d'en extraire par la suite les informations pertinentes. La seconde application consiste en la création d'un système de détection des utilisateurs potentiellement dépressifs sur un réseau social en se basant sur leur production textuelle. Nous verrons comment les approches à base d'apprentissage machine et de recherche d'information peuvent contribuer à résoudre ce problème. Puis, nous étudierons les possibilités offertes par ces techniques lorsqu'elles sont couplées à une infrastructure orientée données massives. Ce travail ayant été soumis à la conférence CLEF eRisk, nous comparons nos performances à celles des autres équipes ayant participé.
_____________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : code source ouvert, architecture distribuée, données massives, traitement automatique du langage naturel, indexation
Type: |
Mémoire accepté
|
Informations complémentaires: |
Le mémoire a été numérisé tel que transmis par l'auteur. |
Directeur de thèse: |
Meurs, Marie-Jean |
Mots-clés ou Sujets: |
Données massives / Exploration de données / Logiciels libres / Traitement réparti / Traitement automatique des langues naturelles / Indexation |
Unité d'appartenance: |
Faculté des sciences > Département d'informatique |
Déposé par: |
Service des bibliothèques
|
Date de dépôt: |
11 sept. 2020 09:42 |
Dernière modification: |
11 sept. 2020 09:42 |
Adresse URL : |
http://archipel.uqam.ca/id/eprint/13469 |