A Dirichlet mixture model-based approach for identifying spammers in online social networks

Fathaliani, Farnoosh (2015). « A Dirichlet mixture model-based approach for identifying spammers in online social networks » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (21MB)

Résumé

Ce mémoire propose d'étudier la problématique de l'identification automatique des utilisateurs malicieux (les spammeurs) dans les réseaux sociaux. Notre contribution consiste à développer un modèle probabiliste qui exploite le modèle de mélange de la distribution de Dirichlet pour détecter les spammeurs. Spécifiquement, dans notre méthode nous proposons d'estimer un vecteur de caractéristique pour chaque utilisateur d'un réseau social. En partant du fait que les spammeurs sont des utilisateurs avec des caractéristiques atypiques comparativement aux utilisateurs normaux, chaque valeur de ce vecteur relate ce que nous appelons le "degré d'anormalité" de chaque utilisateur, et ce, selon les différents modes d'interaction dans un réseau social. Les spammeurs devront avoir des valeurs de degrés d'anormalité très élevées comparativement aux utilisateurs normaux. Pour discriminer les spammeurs des utilisateurs légitimes, nous proposons un modèle probabiliste qui s'appuie sur l'utilisation des mélanges de distribution de Dirichlet pour estimer la fonction de densité de probabilité des vecteurs de caractéristiques. Le choix de la distribution de Dirichlet est principalement motivé par la grande capacité de cette distribution à modéliser des situations complexes et variées. L'approche proposée possède quatre mérites : (1) ne nécessite aucune intervention humaine dans le processus d'identification, (2) non supervisée et ne requière aucune connaissance a priori sur les données à analyser, (3) séparer automatiquement les spammeurs des utilisateurs légitimes, alors que les méthodes existantes nécessitent que l'utilisateur spécifie empiriquement un seuil de séparation, et (4) générale dans le sens que c'est une approche qui peut être appliqués à de différentes types de média sociaux, alors que certaines approches existantes sont exclusivement désignées à des applications spécifiques. Nous avons démontré empiriquement l'efficacité de l'approche proposée sur des données réelles extraites à partir de Instagram et Twitter. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Réseaux sociaux, détection des spammeurs, distribution de Dirichlet, maximum de vraisemblance, l'algorithme EM.

Type: Mémoire accepté
Informations complémentaires: Le mémoire a été numérisé tel que transmis par l'auteur.
Directeur de thèse: Bouguessa, Mohamed
Mots-clés ou Sujets: Médias sociaux / Pourriels / Détection de spammeurs / Loi de Dirichlet / Vraisemblance / Algorithmes EM
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 21 mars 2016 14:52
Dernière modification: 21 mars 2016 14:52
Adresse URL : http://archipel.uqam.ca/id/eprint/7921

Statistiques

Voir les statistiques sur cinq ans...