Vérification et correction orthographique automatique pour les langues parlées et très peu dotées : étude de cas sur le Wolof

Cissé, Thierno Ibrahima (2023). « Vérification et correction orthographique automatique pour les langues parlées et très peu dotées : étude de cas sur le Wolof » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (791kB)

Résumé

Au cours de la dernière décennie, le domaine du Traitement Automatique du Langage Naturel (TALN) a connu des avancées remarquables, principalement en raison des progrès technologiques. Une multitude d’outils linguistiques ont vu le jour, facilitant la recherche dans ce secteur. L’efficacité de ces outils découle de la disponibilité de vastes quantités de données, annotées ou non. Cependant, cette richesse concerne principalement les langues véhiculaires telles que l’Anglais (Ang) et le Français (Fr), et ne reflète pas la réalité de la majorité des langues du monde. Les langues peu dotées, ou Low-Resource Languages (LRLs), se distinguent par leur faible représentation dans le numérique. Elles souffrent d’un manque crucial de ressources, notamment les corpus textuels, essentiels au développement des systèmes de Correction Orthographique Automatique (COA). Ces contraintes posent des défis considérables au TALN pour les LRLs. Cette recherche s’articule autour du développement de systèmes de vérification et de COA pour le Wolof (Wol), langue largement parlée en Afrique de l’Ouest mais considérée comme à très faibles ressources en linguistique computationnelle. Pour combler ce manque, nous avons développé deux systèmes de COA et créé deux corpus de test spécifiques au Wol. Le premier système intègre la distance de Levenshtein pondérée, la programmation dynamique et la structure de données trie pour identifier et corriger les fautes orthographiques. Afin d’évaluer son efficacité, un corpus de mots Wol erronés, assortis de leurs corrections, a été conçu. La seconde approche utilise un modèle d’architecture encodeur-décodeur, entraîné sur un large corpus parallèle de phrases Wol, pour rectifier les erreurs orthographiques au niveau des phrases. Les résultats issus de cette recherche attestent de la contribution notable de ces systèmes à l’amélioration des textes en Wol. Ils forment une solide base pour les futures recherches en COA pour le Wol et pour d’autres langues à ressources limitées. Grâce à ces efforts, nous aspirons à faire progresser la recherche en TALN pour le Wol et à contribuer à la préservation du patrimoine linguistique des nations africaines, assurant la pérennité de leurs expressions culturelles uniques pour les générations futures. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Wolof, Traitement Automatique du Langage Naturel, Correction Orthographique Automatique, langues à faibles ressources, distance de Levenshtein, programmation dynamique, structure de données trie, architecture encodeur-décodeur.

Type: Mémoire accepté
Informations complémentaires: Fichier numérique reçu et enrichi en format PDF/A.
Directeur de thèse: Sadat, Fatiha
Mots-clés ou Sujets: Wolof (Langue) / Correction orthographique automatique / Traitement automatique des langues naturelles
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 29 janv. 2024 13:00
Dernière modification: 29 janv. 2024 13:00
Adresse URL : http://archipel.uqam.ca/id/eprint/17331

Statistiques

Voir les statistiques sur cinq ans...