Approches d'apprentissage automatique pour la détection du Spam Web : exploration de diverses caractéristiques

Ait Mahammed, Fatima (2018). « Approches d'apprentissage automatique pour la détection du Spam Web : exploration de diverses caractéristiques » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (13MB)

Résumé

Face à l'augmentation de l'information disponible sur le Web, la quantité de données textuelles disponibles pour les utilisateurs est devenue très importante. Selon un dernier sondage[1], la taille du Web est d'au moins 4,8 milliards de pages, dont plusieurs sont, soit dupliquées soit du spam. Les pages qui trompent les algorithmes de classement dans les moteurs de recherche afin d'avancer leur classement dans les résultats des moteurs de recherche forment le Spam Web. Étant donné que les utilisations malveillantes dans le Web sont devenues massives, le besoin en techniques automatisées, capables d'analyser des données afin de détecter les sources malveillantes, est devenu primordial. L'application des techniques d'apprentissage automatique dans le contexte de la cybercriminalité est très prometteuse et commence à donner des résultats en termes d'applications conçues et d'articles publiés. Ces techniques sont de plus en plus accessibles et utilisées de manière intensive. De nombreux chercheurs travaillent à détecter les pages de spam. Cependant, il n'existe pas de technique efficace universelle jusqu'ici qui puisse détecter toutes les pages de spam. Ce travail est un effort dans cette direction. Nous proposons une approche basée sur le contenu pour identifier les pages spam. Dans ce travail, nous explorons des caractéristiques pour classer une page Web comme spam ou non-spam. Nous expérimentons quelques méthodes d'apprentissage automatique pour classer deux ensembles de données, l'un avec les attributs que nous avons extraits et l'autre avec une combinaison des meilleurs attributs explorés et des attributs existants pour détecter les hôtes spam. Nous avons utilisé pour cela, l'ensemble de données Web Spam UK-2007. Les résultats ont été comparés à certaines approches existantes. Un bon taux de F-mesure (0,968) et de surface sous la courbe ROC (AUC) démontre l'efficacité des méthodes d'apprentissage pour la détection de spam dans le Web. _______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Apprentissage automatique, détection de spam Web, préparation des données, extraction de caractéristiques à base de contenu, spam de contenu _______________________________________________________________________________ [1] http://www.worldwidewebsize.com

Type: Mémoire accepté
Informations complémentaires: La mémoire a été numérisée telle que transmise par l'auteur.
Directeur de thèse: Lounis, Hakim
Mots-clés ou Sujets: Spam Web / Apprentissage automatique / Sites Web -- Classification / Préparation des données
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 05 juill. 2018 13:46
Dernière modification: 05 juill. 2018 13:46
Adresse URL : http://archipel.uqam.ca/id/eprint/11402

Statistiques

Voir les statistiques sur cinq ans...