Classification supervisée de textes courts et bruités : application au domaine des médias sociaux

Belainine, Billal (2017). « Classification supervisée de textes courts et bruités : application au domaine des médias sociaux » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (6MB)

Résumé

Les données massives (Big data) possèdent un important potentiel scientifique, spécifiquement dans les domaines du forage de données, apprentissage machine et traitement des langues naturelles. Ce travail de recherche concerne l'analyse automatique de grandes masses de données non structurées et hautement bruitées, extraites des tweets, afin d'automatiser un système de classification de ces tweets. Notre première contribution concerne le filtrage par catégories grammaticales et le prétraitement de ce genre de données hautement bruitées et courtes, comportant 140 caractères au maximum pour chaque tweet. Notre deuxième contribution a trait à la reconnaissance des entités nommées (REN) dans les tweets, qui est une tâche très difficile. Ainsi, l'adaptation des outils linguistiques existants pour les langues naturelles, au langage bruité et non précis des tweets, est nécessaire. Notre troisième contribution implique une segmentation des hashtags ainsi qu'un enrichissement sémantique à l'aide d'une combinaison de relations de WordNet, ce qui a aidé la performance de notre système de classification, notamment en désambiguïsant les entités nommées, abréviations et acronymes. La théorie des graphes a été utilisée pour regrouper les mots extraits de WordNet et des tweets, en se basant sur les composantes connexes. Notre système automatique de classification concerne les quatre catégories suivantes : politique, économie, sport et le domaine médical. Nous avons évalué et comparé plusieurs systèmes de classification automatique et constaté que l'étape de filtrage par catégorie grammaticale ainsi que la reconnaissance des entités nommées augmentent considérablement la précision de la classification jusqu'à 77.3%. De plus, un système de classification incorporant une segmentation des hashtags ainsi qu'un enrichissement sémantique à l'aide des deux relations de synonymie et d'hyperonymie de WordNet augmentent la précision de la classification jusqu'à 83.4%. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Forage de données, classification, big data, médias sociaux, Twitter, WordNet, Hashtag.

Type: Mémoire accepté
Informations complémentaires: Le mémoire a été numérisé tel que transmis par l'auteur.
Directeur de thèse: Sadat, Fatiha
Mots-clés ou Sujets: Données volumineuses / Exploration de données / Classification automatique / Micromessages / Médias sociaux / Traitement automatique des langues naturelles
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 13 sept. 2017 14:00
Dernière modification: 13 sept. 2017 14:00
Adresse URL : http://archipel.uqam.ca/id/eprint/9944

Statistiques

Voir les statistiques sur cinq ans...