Deffaf, Fatima
(2015).
« Extraction des entitées nommées par projection cross-linguistique et construction de lexiques bilingues d'entités nommées pour la traduction automatique statistique » Mémoire.
Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.
Fichier(s) associé(s) à ce document :
Résumé
Ce mémoire présente une méthode d'extraction des entités nommées par projection cross-linguistique (projection inter langues ou d'une langue à une autre) en utilisant des corpus parallèles bilingues. Cette méthode consiste à automatiser la reconnaissance des entités nommées en une langue cible en exploitant des outils linguistiques d'une autre langue source. Notre intérêt porte sur une langue à morphologie complexe, l'arabe, qui présente de grands défis en traitement automatique des langues naturelles. La méthode de projection cross-linguistique proposée est basée sur un modèle de translittération (traduction phonétique) pour chaque entité nommée à partir de la langue source vers la langue cible. Cette méthode permet de construire des lexiques bilingues d'entités nommées. Pour tester la performance de notre proposition, nous avons appliqué notre méthode sur un corpus extrait de Wikipédia et sur le corpus des Nations Unies (UN). Les évaluations réalisées étaient basées dans un premier temps sur les métriques classiques, qui sont : la précision, le rappel et la F-mesure. La comparaison de nos résultats avec ceux de Google Translate montre l'utilité de la translittération des entités nommées de type nom de personne et nom de lieu. Dans un second temps, nous avons intégré les lexiques bilingues construits dans un système de traduction automatique statistique. L'évaluation a été faite par le calcul de la valeur de score BLEU et le taux des mots MHV (mot hors-vocabulaire). Les résultats ont montré une augmentation du score BLEU et une diminution du nombre des mots MHV, ce qui illustre la performance de la procédure de translittération dans la situation où les données de test contiennent un nombre important d'entités nommées qui correspondent aux mots MHV.
______________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : Traitement automatique du langage naturel, entité nommée, reconnaissance des entités nommées, annotation, projection cross-linguistique, translittération, lexique, traduction automatique statistique.
Type: |
Mémoire accepté
|
Informations complémentaires: |
Le mémoire a été numérisé tel que transmis par l'auteur. |
Directeur de thèse: |
Sadat, Fatiha |
Mots-clés ou Sujets: |
Traitement automatique des langues naturelles / Reconnaissance d'entités nommées / Traduction automatique -- Méthodes statistiques / Arabe (Langue) -- Traduction automatique / Arabe (Langue) -- Translittération française / Vocabulaire |
Unité d'appartenance: |
Faculté des sciences > Département d'informatique |
Déposé par: |
Service des bibliothèques
|
Date de dépôt: |
14 déc. 2015 15:54 |
Dernière modification: |
14 déc. 2015 15:54 |
Adresse URL : |
http://archipel.uqam.ca/id/eprint/7540 |