Sign language recognition and translation

Ben Slimane, Fares (2020). « Sign language recognition and translation » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :

Prévisualisation

PDF
Télécharger (4MB)

Résumé

Outre les gestes de la main, la langue des signes utilise simultanément différents composants pour transmettre un message. À titre d’exemple, l’orientation des doigts, les mouvements des bras ou du corps ainsi que les expressions faciales. Parfois, un composant spécifique peut jouer un rôle majeur dans la modification de la signification du signe ou peut ne pas être requis pour interpréter un signe. Pour cela, il est primordial pour un système de reconnaissance de n’utiliser que les informations pertinentes pour traduire un signe. Dans ce contexte, nous avons élaboré le Sign Transformer Network, un réseau attentionnel pour traiter les deux tâches de: Reconnaissance Continue de la Langue des Signes et la Traduction en Langue des Signes. Il prend en entrée une séquence d’images qui désigne le signe à traduire et produit une traduction textuelle cohérente dans une langue parlée. Notre système est basé sur la nouvelle architecture neuronale Transformer Network qui a la capacitée de découvrir et d’apprendre, efficacement, les informations spatio-temporelles des données continues. Nous montrons qu’en utilisant simplement l’auto-attention pour la modélisation temporelle, nous surpassons presque toutes les études précédentes, prouvant la supériorité de l’auto-attention sur les réseaux traditionnels basés sur la récurrence. Même si la langue des signes est multicanal (plusieurs canaux d’informations), les formes de mains représentent les entités centrales dans l’interprétation des signes. Afin d’interpréter correctement la signification d’un signe, les gestes de la main doivent être identifiés dans leur contexte approprié. En tenant compte de cela, nous utilisons le mécanisme d’auto-attention pour agréger efficacement les caractéristiques de la main avec leur contexte spatio-temporel approprié pour une meilleure reconnaissance des signes. Ainsi, notre modèle est capable d’identifier les composants essentiels de la langue des signes qui tournent autour de la main dominante et le visage. Nous testons notre modèle en utilisant la base de données RWTH-PHOENIX-Weather 2014 et sa variante RWTH-PHOENIX-Weather 2014T. Nous avons obtenu des résultats compétitifs sur les deux ensembles de données et surpassons de manière significative la plupart des approches existantes. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Intelligence artificielle, Apprentissage profond, Vision par ordinateur, Reconnaissance de l’action, estimation de la pose, Reconnaissance de la langue des signes, Traduction en langue des signes, Traitement du langage naturel, Auto-attention, Réseau de transformateurs.

Type:	Mémoire accepté
Informations complémentaires:	Fichier numérique reçu et enrichi en format PDF / A.
Directeur de thèse:	Bouguessa, Mohamed
Mots-clés ou Sujets:	Langage par signes / Traduction automatique / Reconnaissance des formes (Informatique) / Traitement automatique des langues naturelles / Apprentissage profond / Intelligence artificielle
Unité d'appartenance:	Faculté des sciences > Département d'informatique
Déposé par:	Service des bibliothèques
Date de dépôt:	24 mars 2021 11:29
Dernière modification:	04 oct. 2021 14:31
Adresse URL :	http://archipel.uqam.ca/id/eprint/13976

Modifier les métadonnées (propriétaire du document)

Statistiques

Voir les statistiques sur cinq ans...

RECHERCHER

PARCOURIR

Année

Auteur

Unité d'appartenance

LIBRE ACCÈS