Méthodes pour l'identification et l'analyse des signatures génomiques dans le contexte de la classification des séquences biologiques virales

Lebatteux, Dylan (2025). « Méthodes pour l'identification et l'analyse des signatures génomiques dans le contexte de la classification des séquences biologiques virales » Thèse. Montréal (Québec), Université du Québec à Montréal, Doctorat en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (14MB)

Résumé

L’avènement du séquençage à haut débit a révolutionné l’analyse des génomes viraux, entraînant une croissance exponentielle des données génomiques disponibles. Cette abondance de données exige un système de classification taxonomique robuste des organismes viraux, indispensable pour approfondir notre compréhension de leur biologie, notamment face à l’émergence de pandémies (SARS-CoV-2) et d’infections persistantes (HIV-1, HCMV). Bien que l’ICTV actualise régulièrement la taxonomie officielle, la classification des nouvelles souches virales demeure complexe en raison de leur diversité génétique exceptionnelle, de leur évolution rapide et de leur hétérogénéité structurale. Les approches traditionnelles de classification, fondées sur des propriétés phénotypiques ou des alignements de séquences, montrent leurs limites face à la forte divergence des séquences, aux réarrangements génomiques fréquents, et au volume croissant de données à analyser. Dans ce contexte, le développement d’approches taxonomiques basées sur des signatures génomiques intrinsèques, comme les k-mers, se présente comme une alternative prometteuse. L’analyse des variations de ces signatures peut fournir des informations essentielles sur la différenciation des sous-espèces virales et leurs caractéristiques pathogéniques. Cette thèse présente trois approches méthodologiques complémentaires pour l’identification, l’analyse et la hiérarchisation des signatures génomiques dans un contexte de classification des séquences virales. KEVOLVE combine un algorithme génétique avec des méthodes d’apprentissage automatique pour identifier des sous-ensembles minimaux de k-mers discriminants et construire des modèles prédictifs. KANALYZER exploite les alignements par paires pour extraire et caractériser les variations de ces k-mers discriminants, en fournissant des informations sur leur localisation génomique et leur impact sur les séquences protéiques. Le KmerSignificance Score (KSS) propose un système de notation qui évalue la pertinence des k-mers/variations. Il intègre leur pouvoir discriminant via un cadre d’évaluation supervisé et leur signification biologique, à travers l’importance fonctionnelle des protéines affectées et l’impact des mutations sur leurs propriétés physicochimiques. Ces méthodes ont été validées sur des données simulées et appliquées à des virus à forte variabilité nucléotidique et cliniquement pertinents (SARS-CoV-2, HIV-1, HCMV). Pour le HIV-1, les modèles prédictifs de KEVOLVE surpassent les outils de référence pour la classification des sous-types, tout en restant robustes face à des taux de mutation élevés. Sur le SARS-CoV-2, KEVOLVE a démontré son efficacité en surpassant les méthodes statistiques de référence dans l’extraction de motifs hautement discriminants, permettant la construction de modèles de prédiction précis pour des centaines de milliers de séquences. L’analyse par KANALYZER des motifs extraits a révélé leur association avec des mutations connues influençant l’infectiosité et la pathogénicité virales. L’application du KSS a confirmé la pertinence des critères mutationnels définis pour les génotypes des gènes UL55, UL73 et US28 du HCMV, tout en permettant l’annotation de jeux de séquences à plus grande échelle. Couplé à une analyse par clustering hiérarchique, le KSS a permis d’identifier cinq génotypes distincts du gène UL33, chacun caractérisé par un profil mutationnel unique. Les mutations significatives, localisées dans les domaines N-terminal et extracellulaires, suggèrent un rôle dans la modulation de la glycosylation du récepteur, son activité constitutive et l’échappement immunitaire. Ces avancées favorisent une meilleure compréhension de la diversité virale et de ses implications fonctionnelles. Les travaux futurs viseront à étendre ces approches à la classification globale des espèces virales et à les diffuser via une plateforme bioinformatique dédiée. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Classification des séquences virales, apprentissage automatique, algorithme génétique, signatures génomiques, k-mers, mutations

Type: Thèse ou essai doctoral accepté
Informations complémentaires: Fichier numérique reçu et enrichi en format PDF/A.
Directeur de thèse: Diallo, Abdoulaye Banire
Mots-clés ou Sujets: Virus / Classification / Génomes viraux / Séquence nucléotidique / Signatures génomiques / K-mers / Apprentissage automatique / Algorithmes génétiques
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 21 oct. 2025 07:52
Dernière modification: 21 oct. 2025 07:52
Adresse URL : http://archipel.uqam.ca/id/eprint/19190

Statistiques

Voir les statistiques sur cinq ans...