Recherche d'information translinguistique basée sur une traduction de requêtes directe et transitive utilisant l'encyclopédie en ligne Wikipédia

Chakour, Habiba (2015). « Recherche d'information translinguistique basée sur une traduction de requêtes directe et transitive utilisant l'encyclopédie en ligne Wikipédia » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (34MB)

Résumé

L'encyclopédie multilingue Wikipédia est devenue une ressource très utile pour la traduction des requêtes et la construction des ressources linguistiques, comme les dictionnaires et les ontologies. Dans cette étude, nous nous sommes intéressées à l'exploitation de Wikipédia pour la traduction des requêtes pour la recherche d'information translingue, et ce, pour la paire de langues arabe-anglais. Toutes les traductions candidates possibles sont extraites à partir des titres des articles Wikipédia, en s'appuyant sur les liens inter-langues arabe-anglais pour la traduction directe, ou en utilisant le français comme langue pivot pour fournir une traduction transitive. Un prétraitement et une segmentation de la requête en plusieurs unités lexicales peuvent être effectués, si aucune traduction ne peut être trouvée pour la requête entière. Une traduction transitive peut être également opérée, si aucun résultat n'est retourné suite à la traduction directe. Pour la segmentation de la requête, nous avons proposé une nouvelle méthode qui tient compte de la complexité morphologique de la langue arabe. De plus, elle peut être appliquée à d'autres langues sans aucune modification, comme par exemple l'anglais, le français, l'espagnol et l'allemand. Pour le chinois une légère adaptation est nécessaire, car il n'y a pas d'utilisation de l'espace en tant que séparateur entre deux mots ou groupes de mots. Afin de réduire la complexité de notre application, notre méthode de segmentation est basée sur l'application de deux formules destinées respectivement aux requêtes courtes et longues. Pour cela, deux seuils sont utilisés et peuvent être modifiés par l'utilisateur en fonction des performances de sa machine. Par ailleurs, nous avons utilisé la boite à outils externe MADA+TOKAN pour une analyse morphologique des requêtes arabes et nous avons étudié l'effet d'un tel prétraitement sur les performances de notre méthode de traduction. Les évaluations du système monolingue et translingue ont été effectuées selon quatre variantes, sans prétraitement, avec prétraitement, analyse morphologique avec MADA+TOKAN, et traduction transitive combinée à la traduction directe. La meilleure précision a été obtenue en appliquant le prétraitement. Néanmoins, comparativement à la variante sans prétraitement, le résultat de MADA+TOKAN est meilleur. En outre, la performance de la dite méthode de traduction a été comparée avec celles de Google Translate et Mymemory. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Wikipédia, Traduction de requêtes, Recherche d'information translingue.

Type: Mémoire accepté
Informations complémentaires: Le mémoire a été numérisé tel que transmis par l'auteur.
Directeur de thèse: Sadat, Fatiha
Mots-clés ou Sujets: Wikipédia, Recherche multilingue d'information, Recherche de l'information électronique, Traduction automatique, Arabe (Langue), Traitement automatique des langues naturelles, Recherche d'information translingue (RIT)
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 27 nov. 2015 19:21
Dernière modification: 27 nov. 2015 19:21
Adresse URL : http://archipel.uqam.ca/id/eprint/7496

Statistiques

Voir les statistiques sur cinq ans...