Remita, Amine
(2024).
« Approches variationnelles pour l'analyse des séquences génomiques évolutives » Thèse.
Montréal (Québec), Université du Québec à Montréal, Doctorat en informatique.
Fichier(s) associé(s) à ce document :
Résumé
Les avancées dans les technologies de séquençage à haut débit ont considérablement élargi les possibilités de l’analyse des séquences génomiques en générant d’énormes quantités de données à faible coût. L’analyse de ces données génomiques requiert la conception et l’implémentation de méthodes de classification et d’inférence statistique efficaces, rapides et adaptées aux données massives. Cependant, les méthodes courantes de classification des séquences génomiques sont encore confrontées à un taux de faux positifs relativement élevé et ne sont pas encore pleinement adaptées pour intégrer efficacement les caractéristiques évolutives au coeur de leurs approches. De plus, les méthodes d’inférence ne sont pas encore optimisées pour traiter de telles quantités de données massives. Les approches variationnelles ouvrent de nouvelles perspectives en permettant une modélisation statistique des propriétés évolutives des séquences dans les processus de classification, de génération et d’inférence. Dans cette thèse, nous explorons ces approches et proposons des méthodes concrètes d’inférence variationnelle pour estimer les paramètres évolutifs et générer des séquences. En amont de ce cadre variationnel, nous avons d’abord conçu une méthodologie robuste pour évaluer et comparer des modèles linéaires génératifs et discriminatifs, destinés à la classification sans alignement des séquences génomiques des virus. Cette procédure prend en considération diverses variables de classification, telles que les types de classifieurs, leurs hyperparamètres, les longueurs des séquences testées et les longueurs des k-mers. Elle a permis une exploration approfondie des propriétés des modèles linéaires génératifs et discriminatifs dans la classification de séquences génomiques. Ensuite, nous avons conçu un modèle variationnel génératif et profond, EvoVGM, qui permet d’estimer efficacement des paramètres évolutifs et de générer des alignements de séquences. Enfin, nous avons élaboré une approche efficace d’inférence bayésienne variationnelle, nnTreeVB, pour l’estimation des paramètres phylogénétiques. Cette approche se distingue par sa capacité à apprendre automatiquement les paramètres des densités a priori, lui conférant ainsi une insensibilité aux spécifications inappropriées de ces dernières. Les contributions de cette thèse ouvrent la voie à l’adoption généralisée des approches variationnelles dans l’analyse des séquences génomiques évolutives. Cette avancée promet d’améliorer considérablement l’intégration des modèles d’évolution dans les domaines de l’apprentissage machine, de l’inférence statistique et de la génération de séquences, créant ainsi de nouvelles perspectives passionnantes pour la recherche en génomique.
_____________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : apprentissage automatique, modélisation probabiliste et statistique, inférence bayésienne, inférence variationnelle, analyse des séquences génomiques, classification des séquences virales, k-mers, modèles linéaires génératifs et discriminatifs, modèles de substitution de chaînes de Markov, phylogénétique bayésienne, modèles génératifs variationnels, génération de séquences, apprentissage des densités a priori, réseaux de neurones profonds
Type: |
Thèse ou essai doctoral accepté
|
Informations complémentaires: |
Fichier numérique reçu et enrichi en format PDF/A. |
Directeur de thèse: |
Diallo, Abdoulaye Baniré |
Mots-clés ou Sujets: |
Apprentissage statistique / Modèles mathématiques / Approche bayésienne / Séquence nucléotidique / Classification / Évolution moléculaire / Génomes / Bio-informatique |
Unité d'appartenance: |
Faculté des sciences > Département d'informatique |
Déposé par: |
Service des bibliothèques
|
Date de dépôt: |
13 août 2024 09:05 |
Dernière modification: |
13 août 2024 09:05 |
Adresse URL : |
http://archipel.uqam.ca/id/eprint/17930 |