Cissé, Thierno Ibrahima
(2023).
« Vérification et correction orthographique automatique pour les langues parlées et très peu dotées : étude de cas sur le Wolof » Mémoire.
Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.
Fichier(s) associé(s) à ce document :
Résumé
Au cours de la dernière décennie, le domaine du Traitement Automatique du Langage Naturel (TALN) a connu des avancées remarquables, principalement en raison des progrès technologiques. Une multitude d’outils linguistiques ont vu le jour, facilitant la recherche dans ce secteur. L’efficacité de ces outils découle de la disponibilité de vastes quantités de données, annotées ou non. Cependant, cette richesse concerne principalement les langues véhiculaires telles que l’Anglais (Ang) et le Français (Fr), et ne reflète pas la réalité de la majorité des langues du monde. Les langues peu dotées, ou Low-Resource Languages (LRLs), se distinguent par leur faible représentation dans le numérique. Elles souffrent d’un manque crucial de ressources, notamment les corpus textuels, essentiels au développement des systèmes de Correction Orthographique Automatique (COA). Ces contraintes posent des défis considérables au TALN pour les LRLs. Cette recherche s’articule autour du développement de systèmes de vérification et de COA pour le Wolof (Wol), langue largement parlée en Afrique de l’Ouest mais considérée comme à très faibles ressources en linguistique computationnelle. Pour combler ce manque, nous avons développé deux systèmes de COA et créé deux corpus de test spécifiques au Wol. Le premier système intègre la distance de Levenshtein pondérée, la programmation dynamique et la structure de données trie pour identifier et corriger les fautes orthographiques. Afin d’évaluer son efficacité, un corpus de mots Wol erronés, assortis de leurs corrections, a été conçu. La seconde approche utilise un modèle d’architecture encodeur-décodeur, entraîné sur un large corpus parallèle de phrases Wol, pour rectifier les erreurs orthographiques au niveau des phrases. Les résultats issus de cette recherche attestent de la contribution notable de ces systèmes à l’amélioration des textes en Wol. Ils forment une solide base pour les futures recherches en COA pour le Wol et pour d’autres langues à ressources limitées. Grâce à ces efforts, nous aspirons à faire progresser la recherche en TALN pour le Wol et à contribuer à la préservation du patrimoine linguistique des nations africaines, assurant la pérennité de leurs expressions culturelles uniques pour les générations futures.
_____________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : Wolof, Traitement Automatique du Langage Naturel, Correction Orthographique Automatique, langues à faibles ressources, distance de Levenshtein, programmation dynamique, structure de données trie, architecture encodeur-décodeur.
Type: |
Mémoire accepté
|
Informations complémentaires: |
Fichier numérique reçu et enrichi en format PDF/A. |
Directeur de thèse: |
Sadat, Fatiha |
Mots-clés ou Sujets: |
Wolof (Langue) / Correction orthographique automatique / Traitement automatique des langues naturelles |
Unité d'appartenance: |
Faculté des sciences > Département d'informatique |
Déposé par: |
Service des bibliothèques
|
Date de dépôt: |
29 janv. 2024 13:00 |
Dernière modification: |
29 janv. 2024 13:00 |
Adresse URL : |
http://archipel.uqam.ca/id/eprint/17331 |