Wu, Chao Jung
(2026).
« Methods for the functional analysis of small RNAS » Thèse.
Montréal (Québec, Canada), Université du Québec à Montréal, Doctorat en informatique.
Fichier(s) associé(s) à ce document :
Résumé
Les petits ARN (sARN), notamment les microARN (miARN) et les petits ARN interférents (siARN), sont des régulateurs essentiels de l’expression des gènes et des biomarqueurs moléculaires prometteurs. Chez les plantes, ils régulent le développement, la défense contre les pathogènes et l’adaptation au stress, tandis que leur reproductibilité en fait des candidats idéaux pour la découverte de biomarqueurs. Les progrès du séquençage de nouvelle génération (NGS) ont permis une détection approfondie des petits ARN. Cependant, l’extraction de signaux fonctionnellement significatifs à partir des données de séquençage des petits ARN (sARN-seq) demeure difficile en raison de l’hétérogénéité des profils d’expression, du chevauchement des voies de biogenèse et de la fragmentation des flux d’analyse. Relever ces défis nécessite une approche interdisciplinaire combinant biologie végétale, biochimie, informatique et apprentissage automatique. L’objectif principal de cette thèse est d’améliorer la découverte de biomarqueurs d’ARN en mobilisant des méthodes informatiques avancées. À cette fin, la recherche intègre la prédiction computationnelle, la modélisation statistique de la biogenèse de l’ARN, le développement de logiciels à grande échelle et des stratégies de contrôle qualité afin de soutenir la faisabilité des applications thérapeutiques. Cette thèse présente une suite de méthodologies bioinformatiques permettant d’identifier, de classer et d’interpréter les petits ARN dans des contextes biologiques et thérapeutiques. Afin de permettre la découverte de biomarqueurs miARN reproductibles à grande échelle, la première contribution de cette thèse présente mirLibSpark, un pipeline distribué pour la prédiction et l’annotation de miARN végétaux utilisant Apache Spark. En intégrant des critères établis par la communauté, ainsi que la prédiction de cibles et l’enrichissement fonctionnel, mirLibSpark permet une analyse à grande échelle sur des données multi-librairies. Tout en offrant un support intégré pour des espèces importantes telles que l’Arabidopsis, le blé et le maïs, mirLibSpark est conçu pour s’adapter à tout génome végétal fourni par l’utilisateur. Afin de mettre en évidence les rôles coordonnés des miARN et siARN en conditions naturelles, la deuxième contribution étudie la dynamique des petits ARN lors de l’acclimatation au froid du blé. Cette étude applique un flux de travail unifié, parallélisé par Spark, à des librairies dérivées d’échantillons de terrain et identifie des ARN interférents (ARNi) sensibles au froid, connus et nouveaux, notamment des espèces à double identité présentant des caractéristiques communes aux miARN et siARN. Ces résultats offrent de nouvelles perspectives sur les origines évolutives et la diversification régulatrice des ARNi dans l’adaptation au stress. Pour améliorer la prédiction des précurseurs d’ARNi, la troisième contribution présente siWalk, un cadre d’apprentissage automatique entraîné sur Arabidopsis, combinant des caractéristiques de séquence, de structure et d’expression guidées par la biogenèse. Bien qu’un modèle de forêt aléatoire ait obtenu la meilleure précision, un modèle d’amplification de gradient est distribué comme alternative compacte et efficace. siWalk comprend aussi un module permettant de localiser les ARNi effecteurs à partir des séquences précurseurs, facilitant la conception rationnelle de vecteurs. Enfin, à titre d’exploration, ArcticFox a été développé pour évaluer l’intégrité des vecteurs d’ARN. Grâce aux lectures longues NGS, ArcticFox profile l’ADN résiduel et les troncatures génomiques dans les préparations de virus adéno-associés recombinants, et introduit des mesures quantitatives pour le contrôle qualité des thérapies à base d’ARN. Fondées sur l’informatique à grande échelle, la modélisation statistique et l’apprentissage automatique, ces contributions constituent une base fiable et interprétable pour faire progresser la bioinformatique des petits ARN dans la classification à haut débit, les études intégratives et les applications thérapeutiques.
_____________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : Bioinformatique des petits ARN, Apprentissage automatique en génomique, Annotation fonctionnelle des ARN, Analyse ARN à grande échelle, Découverte de biomarqueurs ARN, miARN, siARN
| Type: |
Thèse ou essai doctoral accepté
|
| Informations complémentaires: |
Fichier numérique reçu et enrichi en format PDF/A. |
|
Directeur de thèse: |
Diallo, Abdoulaye Banire |
| Mots-clés ou Sujets: |
Bio-informatique / Petits ARN interférents / MicroARN / Biomarqueurs / Apprentissage automatique |
| Unité d'appartenance: |
Faculté des sciences > Département d'informatique |
| Déposé par: |
Service des bibliothèques
|
| Date de dépôt: |
21 avr. 2026 08:51 |
| Dernière modification: |
21 avr. 2026 08:51 |
| Adresse URL : |
https://archipel.uqam.ca/secure/id/eprint/19943 |