Injection des connaissances linguistiques et visuelles dans les mécanismes d'attention pour un encodage profond du sens des mots : vers l'interprétabilité et l'explicabilité des grands modèles de langue

Mechouma, Toufik (2025). « Injection des connaissances linguistiques et visuelles dans les mécanismes d'attention pour un encodage profond du sens des mots : vers l'interprétabilité et l'explicabilité des grands modèles de langue » Thèse. Montréal (Québec), Université du Québec à Montréal, Doctorat en informatique cognitive.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (1MB)

Résumé

Cette thèse explore l’injection de connaissances linguistiques et visuelles dans les mécanismes d’attention, en particulier le modèle BERT «Bidirectional Encoder Representations from Transformers». Les travaux de recherche menés dans ce cadre visent à intégrer les connaissances linguistiques et visuelles afin d’améliorer l’encodage du sens des mots. Quatre articles principaux sont présentés. Le premier article propose un renforcement du mécanisme d’attention basé sur le produit scalaire utilisé par BERT, en y intégrant un masque de dépendance syntaxique. Cette approche permet de capturer les relations structurelles entre les mots, améliorant ainsi la représentation contextuelle. Le deuxième article introduit le modèle lingBERT, qui intègre des connaissances linguistiques dans l’attention via une stratégie hybride de masquage. Cette méthode combine la technique classique de masquage avec celle masquant les mots ayant des dépendances linguistiques, puis les prédit par la suite, afin d’améliorer la compréhension linguistique du modèle. Le troisième article explore l’utilisation des multiplicateurs de Lagrange dans les mécanismes d’attention, afin d’intégrer des dépendances syntaxiques via une optimisation basée sur des contraintes. L’article présente le modèle SCABERT «Syntaxe-Constraint-Aware Bidirectional Encoder Representations from Transformers». Celui-ci, oriente le processus d’apprentissage et permet une meilleure compréhension des relations linguistiques. Enfin, le quatrième article propose VLG-BERT « Visual and Linguistic Bidirectional Encoder Representations from Transformers » un modèle intégrant des représentations visuelles latentes multimodales dans les «embeddings de mots». L’approche permet d’initialiser les vecteurs de mots par leurs représentations visuelles latentes. Ce cadre vise à capturer des significations profondes en combinant des informations de différentes modalités, ce qui permet d’enrichir les représentations sémantiques et d’améliorer les performances sur des tâches variées. Dans l’ensemble, cette thèse met en évidence l’importance de l’intégration des connaissances linguistiques et visuelles pour optimiser les mécanismes d’attention, ouvrant ainsi la voie à de nouvelles perspectives en termes d’interprétabilité et d’explicabilité pour les grands modèles de langue. Bien que le titre de cette thèse évoque une orientation vers l’interprétabilité des grands modèles de langue, il est important de préciser que cette recherche ne traite pas directement les problématiques d’interprétabilité et d’explicabilité en tant que telles. L’objectif principal est de proposer un encodage plus profond du sens des mots par l’injection de connaissances linguistiques et visuelles dans les mécanismes d’attention. Néanmoins, cette approche ouvre des perspectives intéressantes pour des travaux futurs en interprétabilité, en rendant les processus d’attention potentiellement plus compréhensibles et plus alignés avec des connaissances structurées.

Type: Thèse ou essai doctoral accepté
Informations complémentaires: Fichier numérique reçu et enrichi en format PDF/A.
Directeur de thèse: Biskri, Ismaïl
Mots-clés ou Sujets: Grands modèles de langage / Sens / Attention / Apprentissage automatique / Traitement automatique des langues naturelles / BERT (Bidirectional Encoder Representations from Transformers)
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 12 janv. 2026 13:55
Dernière modification: 12 janv. 2026 13:55
Adresse URL : http://archipel.uqam.ca/id/eprint/19475

Statistiques

Voir les statistiques sur cinq ans...