Système de question-réponse visuelle par classification basé sur les LLMs et les transformateurs d'images pour le Haoussa

Mijiyawa, Ali (2026). « Système de question-réponse visuelle par classification basé sur les LLMs et les transformateurs d'images pour le Haoussa » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (4MB)

Résumé

Ce mémoire propose un système de question-réponse visuelle basé sur la classification de données pour le haoussa, une langue africaine peu dotée en ressources. L’approche combine des grands modèles de langue et des transformateurs d’images, en affinant les modèles linguistiques sur des textes en haoussa et en les associant aux représentations visuelles pour prédire des réponses dans un vocabulaire prédéfini. Trente-six combinaisons de modèles ont été évaluées selon trois stratégies d’apprentissage sur le corpusHaV QA de Parida et al. (2023), composé de 6 022 paires questions-réponses et 1 555 images : sans augmentation des données, avec augmentation en ligne des données, et avec augmentation hors ligne des données. La stratégie d’augmentation hors ligne a permis de créer un nouveau jeu de données, HaV QAaug, doublant la taille du corpus original. Les meilleurs résultats sont obtenus avec le modèle pré-entraîné en haoussa Gemini combiné au transformateur d’images ViT-base-patch16-224-in21k, atteignant 35,85 % de précision, 35,89 % de Wu-Palmer et 15,32 % de F1-score, soit un gain de plus de 5 % par rapport à l’état de l’art. Ces résultats démontrent l’importance d’un préentraînement linguistique spécifique et d’un enrichissement des données pour développer des systèmes performants dans des contextes multilingues à faible ressource, en particulier pour les langues africaines. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : question-réponse visuelle, haoussa, traitement automatique des langues naturelles, transformateurs de vision, classification multimodale, langues peu dotées en ressources

Type: Mémoire accepté
Informations complémentaires: Fichier numérique reçu et enrichi en format PDF/A.
Directeur de thèse: Sadat, Fatiha
Mots-clés ou Sujets: Systèmes de questions et réponses / Haoussa (Langue) / Grands modèles de langage / Transformateurs de vision / Traitement automatique des langues naturelles
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 25 mars 2026 09:17
Dernière modification: 25 mars 2026 09:17
Adresse URL : https://archipel.uqam.ca/secure/id/eprint/19810

Statistiques

Voir les statistiques sur cinq ans...