Extraction des entitées nommées par projection cross-linguistique et construction de lexiques bilingues d'entités nommées pour la traduction automatique statistique

Deffaf, Fatima (2015). « Extraction des entitées nommées par projection cross-linguistique et construction de lexiques bilingues d'entités nommées pour la traduction automatique statistique » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (2MB)

Résumé

Ce mémoire présente une méthode d'extraction des entités nommées par projection cross-linguistique (projection inter langues ou d'une langue à une autre) en utilisant des corpus parallèles bilingues. Cette méthode consiste à automatiser la reconnaissance des entités nommées en une langue cible en exploitant des outils linguistiques d'une autre langue source. Notre intérêt porte sur une langue à morphologie complexe, l'arabe, qui présente de grands défis en traitement automatique des langues naturelles. La méthode de projection cross-linguistique proposée est basée sur un modèle de translittération (traduction phonétique) pour chaque entité nommée à partir de la langue source vers la langue cible. Cette méthode permet de construire des lexiques bilingues d'entités nommées. Pour tester la performance de notre proposition, nous avons appliqué notre méthode sur un corpus extrait de Wikipédia et sur le corpus des Nations Unies (UN). Les évaluations réalisées étaient basées dans un premier temps sur les métriques classiques, qui sont : la précision, le rappel et la F-mesure. La comparaison de nos résultats avec ceux de Google Translate montre l'utilité de la translittération des entités nommées de type nom de personne et nom de lieu. Dans un second temps, nous avons intégré les lexiques bilingues construits dans un système de traduction automatique statistique. L'évaluation a été faite par le calcul de la valeur de score BLEU et le taux des mots MHV (mot hors-vocabulaire). Les résultats ont montré une augmentation du score BLEU et une diminution du nombre des mots MHV, ce qui illustre la performance de la procédure de translittération dans la situation où les données de test contiennent un nombre important d'entités nommées qui correspondent aux mots MHV. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Traitement automatique du langage naturel, entité nommée, reconnaissance des entités nommées, annotation, projection cross-linguistique, translittération, lexique, traduction automatique statistique.

Type: Mémoire accepté
Informations complémentaires: Le mémoire a été numérisé tel que transmis par l'auteur.
Directeur de thèse: Sadat, Fatiha
Mots-clés ou Sujets: Traitement automatique des langues naturelles / Reconnaissance d'entités nommées / Traduction automatique -- Méthodes statistiques / Arabe (Langue) -- Traduction automatique / Arabe (Langue) -- Translittération française / Vocabulaire
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 14 déc. 2015 15:54
Dernière modification: 14 déc. 2015 15:54
Adresse URL : http://archipel.uqam.ca/id/eprint/7540

Statistiques

Voir les statistiques sur cinq ans...