Système de segmentation automatique des références bibliographiques à base des champs aléatoires conditionnels

Aissa, Seifeddine (2020). « Système de segmentation automatique des références bibliographiques à base des champs aléatoires conditionnels » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (7MB)

Résumé

Vu l'évolution des technologies de l'information, il existe de nos jours une multitude de documents qui varient en format, syntaxe et niveau d'abstraction. Cette gigantesque hausse de la quantité d'informations complexifie la tâche d'extraction de données. Cette tâche permet de reconnaître, d'extraire et de structurer un ensemble d'informations spécifiques dans un corpus de documents donné. L'une des tâches les plus importantes dans l'extraction d'information est celle de l'étiquetage de séquences, qui consiste à trouver et étiqueter les segments à partir des données textuelles. Plusieurs méthodes d'apprentissage automatiques ont vu le jour pour lutter contre le problème d'extraction de données. Parmi elles, nous retrouvons les méthodes d'apprentissage supervisé telles que les champs aléatoires conditionnels (CRF) et les modèles de Markov cachés (HMM). D'autres approches d'apprentissage non-supervisées ont également été utilisées : parmi elles, la méthode On-Demand Unsupervised Learning for Information Extraction (ONDUX). Les techniques qui nous intéressent particulièrement sont celles se basant sur un apprentissage supervisé. Ces méthodes ont été utilisées dans plusieurs domaines, principalement lors de l'étiquetage de séquences. Dans le cadre de ce travail, nous livrons un système mettant à profit les champs aléatoires conditionnels (CRF) afin d'étiqueter n'importe quelle référence bibliographique. Nous nous basons sur une approche supervisée qui améliore d'une part les résultats de la littérature et d'une autre part généralise leur application pour donner naissance à un classifieur généralisé. Les CRF, que nous utiliserons ici, sont des modèles graphiques probabilistes qui permettent d'extraire et d'identifier différentes données telles que les auteurs, les titres d'articles ou de conférences, la date et le nombre de pages. Cette étude se limitera au problème d'extraction d'informations à partir des références bibliographiques. C'est donc dire que notre champ de recherche pourrait s'étendre à d'autres domaines liés à l'étiquetage de données. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Extraction d'information, Étiquetage de séquences, Apprentissage supervisé, Modèles graphiques probabilistes, Champs aléatoires conditionnels (CRF)

Type: Mémoire accepté
Informations complémentaires: Le mémoire a été numérisé tel que transmis par l'auteur.
Directeur de thèse: Salah, Aziz
Mots-clés ou Sujets: Exploration de données / Étiquetage de séquences / Systèmes de classeurs / Champ aléatoire conditionnel (CRF) / Apprentissage supervisé / Références bibliographiques
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 19 janv. 2021 17:03
Dernière modification: 29 mars 2021 11:50
Adresse URL : http://archipel.uqam.ca/id/eprint/13838

Statistiques

Voir les statistiques sur cinq ans...