Gender bias in the context of indigenous languages and natural language processing

Hansal, Oussama (2023). « Gender bias in the context of indigenous languages and natural language processing » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (1MB)

Résumé

Le Traitement Automatique du Langage Naturel (TALN) est un domaine qui combine la linguistique, les sciences cognitives, l’informatique notamment l’Intelligence Artificielle (IA) pour explorer l’interaction des systèmes informatiques avec le langage humain. Au cours des dernières années, les modèles de TALN ont été largement utilisés dans diverses applications du monde réel, allant de la traduction automatique aux outils de développement des langues en danger et/ou autochtones. Grâce aux récents progrès de l’apprentissage profond, les modèles de TALN jouent un rôle important dans la promotion de la diversité linguistique pour les langues à faibles ressources. Malgré la popularité et l’influence croissantes de ces modèles, ils sont toujours soumis à des préjugés sexistes, sociaux et implicites inhérents aux données d’entraînement. Ce travail de recherche explore l’inuktitut, une langue autochtone parlée par les communautés inuites du nord du Canada, caractérisée par sa grammaire, sa morphologie complexe et sa structure unique qui la rendent difficile à traiter informatiquement par rapport à l’anglais ou le français. Dans cette étude, nous nous concentrons sur la tâche de détection et d’atténuation des biais de genre en inuktitut, ce qui pose plusieurs difficultés et défis qui font partie intégrante des caractéristiques du traitement des données dans cette langue. Nous examinons les principaux défis linguistiques de l’inuktitut et nous nous concentrons sur la détection et l’atténuation du biais de genre dans cette langue. Dans un premier temps, nous utilisons des méthodes de regroupement et de WEAT pour quantifier les biais de genre en inuktitut. Ensuite, nous proposons d’atténuer le biais de genre existant dans le corpus de l’inuktitut à l’aide de trois méthodes importantes : le "HARD Debias", le "SENT Debias" et la projection itérative dans l’espace vide (INLP). Enfin, nous évaluons les performances de ces modèles dans des tâches en aval et expliquons comment les approches de détection et de réduction des biais de genre dans les embeddings anglais peuvent être transposées aux embeddings inuktitut en tenant compte des caractéristiques particulières de la langue. Nous avons mené différents types d’expériences pour optimiser et évaluer les approches proposées, car elles sont axées sur l’anglais ou d’autres langues européennes. Sur la base des évaluations et des résultats obtenus, nous constatons que le biais de genre est présent dans le corpus d’inuktitut que nous avons traité, et nous soulignons également que les techniques utilisées pour mesurer et réduire le biais de genre pour l’anglais peuvent être utilisées pour l’inuktitut. De plus, nous examinons l’impact des méthodes de débiaisage sur les tâches en aval, qui ne montrent pas d’effet significatif sur la performance. Enfin, nous présentons une liste des mots les plus biaisés détectés dans le corpus inuktitut. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Traitement Automatique du Langage Naturel, TALN, Inuktitut, Biais de genre, Apprentissage profond.

Type: Mémoire accepté
Informations complémentaires: Fichier numérique reçu et enrichi en format PDF/A.
Directeur de thèse: Sadat, Fatiha
Mots-clés ou Sujets: Traitement automatique des langues naturelles / Inuktitut (Langue) / Biais sexistes / Biais algorithmiques / Apprentissage profond
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 24 nov. 2023 14:13
Dernière modification: 24 nov. 2023 14:13
Adresse URL : http://archipel.uqam.ca/id/eprint/17185

Statistiques

Voir les statistiques sur cinq ans...