Ben Slimane, Fares
(2020).
« Sign language recognition and translation » Mémoire.
Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.
Fichier(s) associé(s) à ce document :
Résumé
Outre les gestes de la main, la langue des signes utilise simultanément différents composants pour transmettre un message. À titre d’exemple, l’orientation des doigts, les mouvements des bras ou du corps ainsi que les expressions faciales. Parfois, un composant spécifique peut jouer un rôle majeur dans la modification de la signification du signe ou peut ne pas être requis pour interpréter un signe. Pour cela, il est primordial pour un système de reconnaissance de n’utiliser que les informations pertinentes pour traduire un signe. Dans ce contexte, nous avons élaboré le Sign Transformer Network, un réseau attentionnel pour traiter les deux tâches de: Reconnaissance Continue de la Langue des Signes et la Traduction en Langue des Signes. Il prend en entrée une séquence d’images qui désigne le signe à traduire et produit une traduction textuelle cohérente dans une langue parlée. Notre système est basé sur la nouvelle architecture neuronale Transformer Network qui a la capacitée de découvrir et d’apprendre, efficacement, les informations spatio-temporelles des données continues. Nous montrons qu’en utilisant simplement l’auto-attention pour la modélisation temporelle, nous surpassons presque toutes les études précédentes, prouvant la supériorité de l’auto-attention sur les réseaux traditionnels basés sur la récurrence. Même si la langue des signes est multicanal (plusieurs canaux d’informations), les formes de mains représentent les entités centrales dans l’interprétation des signes. Afin d’interpréter correctement la signification d’un signe, les gestes de la main doivent être identifiés dans leur contexte approprié. En tenant compte de cela, nous utilisons le mécanisme d’auto-attention pour agréger efficacement les caractéristiques de la main avec leur contexte spatio-temporel approprié pour une meilleure reconnaissance des signes. Ainsi, notre modèle est capable d’identifier les composants essentiels de la langue des signes qui tournent autour de la main dominante et le visage. Nous testons notre modèle en utilisant la base de données RWTH-PHOENIX-Weather 2014 et sa variante RWTH-PHOENIX-Weather 2014T. Nous avons obtenu des résultats compétitifs sur les deux ensembles de données et surpassons de manière significative la plupart des approches existantes.
_____________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : Intelligence artificielle, Apprentissage profond, Vision par ordinateur, Reconnaissance de l’action, estimation de la pose, Reconnaissance de la langue des signes, Traduction en langue des signes, Traitement du langage naturel, Auto-attention, Réseau de transformateurs.
Type: |
Mémoire accepté
|
Informations complémentaires: |
Fichier numérique reçu et enrichi en format PDF / A. |
Directeur de thèse: |
Bouguessa, Mohamed |
Mots-clés ou Sujets: |
Langage par signes / Traduction automatique / Reconnaissance des formes (Informatique) / Traitement automatique des langues naturelles / Apprentissage profond / Intelligence artificielle |
Unité d'appartenance: |
Faculté des sciences > Département d'informatique |
Déposé par: |
Service des bibliothèques
|
Date de dépôt: |
24 mars 2021 11:29 |
Dernière modification: |
04 oct. 2021 14:31 |
Adresse URL : |
http://archipel.uqam.ca/id/eprint/13976 |