Apport d'une approche hybride à base de réseaux de neurones et de statistiques pour la reconnaissance des entités nommées en domaines général et restreint

Dekhili, Ghaith (2020). « Apport d'une approche hybride à base de réseaux de neurones et de statistiques pour la reconnaissance des entités nommées en domaines général et restreint » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (2MB)

Résumé

La Reconnaissance des Entités Nommées (REN) est une sous-tâche de l’activité d’extraction d’information et du Traitement Automatique du Langage Naturel. Elle consiste à identifier certains objets textuels tels que les noms de personne, d’organisation et de lieu. Ce travail de maîtrise se concentre sur la tâche de REN pour un domaine restreint, celui de l’électronique, caractérisé par la disponibilité de peu de données annotées, tout en comparant à un domaine général où les données annotées de plus grande taille sont disponibles. En effet, cette tâche pose un certain nombre de difficultés et de défis qui sont inhérents aux caractéristiques du traitement de données d’un domaine particulier restreint et des deux tâches d’annotation et d’apprentissage machine pour la REN. Dans un premier temps, nous étudions les spécificités de la REN en utilisant trois approches : statistique, à base de réseaux de neurones et hybrides. Dans un second temps, nous proposons d’étudier une méthode d’apprentissage par transfert pour la REN depuis un domaine général pour un apprentissage vers un domaine restreint. Dans un troisième temps, nous étudions la contribution de l’emploi d’un graphe de connaissances basé sur le bon sens dans l’amélioration des performances d’un système REN. Nous utilisons dans notre architecture des couches du réseau récurrent bidirectionnel à mémoire court et long terme, combinées à une couche de Champ Aléatoire Conditionnel augmenté avec d’autres caractéristiques. Nous menons différents types d’expérimentations afin d’optimiser et d’évaluer les approches proposées. D’après les évaluations et résultats obtenus, nous constatons que le modèle basé sur l’apprentissage par transfert donne de meilleurs résultats et augmente les scores de la F-mesure de 15%, 6% et 5% par rapport au modèle statistique de base, au modèle statistique avec caractéristiques orthographiques et au modèle neuronal de base respectivement. Les résultats obtenus avec l’emploi d’un graphe de connaissances basé sur le bon sens ont montré également une amélioration de 2.86% dans la F-mesure du système global. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Traitement automatique des langues naturelles, reconnaissance des entités nommées, réseaux de neurones, Champ Aléatoire Conditionnel, apprentissage par transfert, plongements de mots

Type: Mémoire accepté
Informations complémentaires: Fichier numérique reçu et enrichi en format PDF/A.
Directeur de thèse: Sadat, Fatiha
Mots-clés ou Sujets: Reconnaissance des entités nommées / Exploration de données / Traitement automatique des langues naturelles / Réseaux neuronaux (Informatique)
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 15 mars 2021 13:28
Dernière modification: 13 mars 2023 10:46
Adresse URL : http://archipel.uqam.ca/id/eprint/14074

Statistiques

Voir les statistiques sur cinq ans...