Mallek, Fatma
(2017).
« Traduction automatique statistique et adaptation au domaine des médias sociaux » Mémoire.
Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.
Fichier(s) associé(s) à ce document :
Résumé
Le besoin de communiquer en plusieurs langues est devenu une nécessité dans un monde envahi par les nouvelles technologies de communication et les médias sociaux, comme les blagues, les wikis, les microblogues, etc. Ainsi, Twitter constitue une source continue et illimitée de données en langage naturel, qui est particulièrement non structurée et hautement bruitée, ce qui la rend difficile à traiter avec les approches classiques de Traitement Automatique du Langage Naturel (TALN). Ce travail de recherche consiste donc en l'élaboration d'un système de traduction automatique statistique à base de segments pour la traduction des tweets d'une langue à morphologie riche et complexe, l'arabe vers l'anglais. Notre premier intérêt est le prétraitement des tweets hautement bruités pour la langue source (arabe) et la langue cible (anglais). Cette phase comprend la normalisation, la segmentation des mots ainsi que l'adaptation des outils linguistiques existants pour le traitement de ces deux langues naturelles au domaine des médias sociaux. Notre deuxième intérêt est l'incorporation de données hors domaine lors de l'entraînement des deux modèles de traduction et de langue, afin de concevoir un système de traduction automatique statistique performant pour les tweets. Nos évaluations confirment notre thèse selon laquelle le prétraitement des langues source et cible améliore la performance du système de traduction automatique statistique. De plus, l'utilisation d'un système hybride du domaine et hors domaine pour l'entraînement des modèles de langues ainsi qu'une optimisation des poids du décodeur Moses avec un corpus de développement du domaine a donné un système de traduction automatique statistique plus efficace, pour les tweets de la langue arabe vers l'anglais.
______________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : médias sociaux, tweets, traduction automatique statistique à base de segments, modèle de langue, modèle de traduction, normalisation.
Type: |
Mémoire accepté
|
Informations complémentaires: |
Le mémoire a été numérisé tel que transmis par l'auteur. |
Directeur de thèse: |
Sadat, Fatiha |
Mots-clés ou Sujets: |
Traduction automatique statistique / Arabe -- Traduction automatique / Arabe -- Traduction en anglais / Micromessages / Médias sociaux / Traitement automatique des langues naturelles |
Unité d'appartenance: |
Faculté des sciences > Département d'informatique |
Déposé par: |
Service des bibliothèques
|
Date de dépôt: |
13 sept. 2017 13:42 |
Dernière modification: |
13 sept. 2017 13:42 |
Adresse URL : |
http://archipel.uqam.ca/id/eprint/9943 |