Learning to discover biosynthetic gene clusters in fungi

Marcia Soares Almeida, Hayda (2022). « Learning to discover biosynthetic gene clusters in fungi » Thèse. Montréal (Québec, Canada), Université du Québec à Montréal, Doctorat en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (8MB)

Résumé

Les métabolites secondaires produits par les bactéries, les plantes et les champignons sont une riche source de composés bioactifs. Ces composés sont essentiels à plusieurs industries, notamment l’industrie pharmaceutique, pour la production de nombreux produits thérapeutiques tels que les antibiotiques, les immunosuppresseurs et les antitumoraux. Les gènes impliqués dans les voies métaboliques qui synthétisent les composés des métabolites secondaires sont connus sous le nom de groupes de gènes biosynthétiques (BGC). Les champignons filamenteux sont connus pour produire une grande variété de métabolites secondaires, et d’importants efforts de recherche ont été consacrés au développement d’approches pour la découverte de BGC dans les génomes fongiques. La découverte de nouveaux métabolites secondaires pourrait grandement bénéficier la santé humaine. Cependant l’identification des régions de BGC dans les génomes fongiques est un processus complexe et coûteux, et posant un défi aux approches de découverte de BGC fongiques. Cette thèse propose l’application d’approches d’apprentissage automatique pour identifier les BGC dans les génomes fongiques, impliquant trois étapes principales : (1) améliorer la disponibilité de données représentatives sur les BGC fongiques pour soutenir le développement des approches d’apprentissage; (2) identifier les potentielles régions de BGC sur les génomes fongiques; (3) optimiser les composants associés aux potentielles régions de BGC pour faciliter la curation par des experts ainsi que la caractérisation expérimentale des ses composés. Pour améliorer la disponibilité de données représentatives sur les BGC fongiques, des ensembles de données de référence sont construits pour soutenir la conception de la prédiction des régions de BGC comme un problème d’apprentissage supervisé. Comme les ensembles de données contiennent des instances de BGC fongiques conservées et des instances de régions de non-BGC composées de gènes orthologues fongiques, la tâche de prédiction de BGC peut être abordée comme une classification binaire. La prédiction des régions de BGC potentielles est réalisée par TOUCAN, une plateforme d’apprentissage supervisé, pour lequel des modèles de classification sont entraînés sur la base des ensembles de données de référence proposés. TOUCAN s’appuie sur un ensemble d’attributs discriminants (k-mers d’acides aminés, domaines protéiques Pfam, et termes de la Gene Ontology), et sur des méthodes de post-traitement pour identifier les régions candidates de BGC dans les génomes fongiques. Finalement, une approche d’apprentissage par renforcement est proposée afin d’optimiser les régions de BGC potentielles prédites par les outils de l’état de l’art pour la découverte des BGC. L’approche d’apprentissage par renforcement vise à améliorer la composition des régions candidates de BGC en se basant sur les profils de domaines protéiques trouvés dans les instances de BGC et non-BGC, et sur des annotations fonctionnelles des composants des BGC. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : apprentissage automatique, groupes de gènes biosynthétiques, génomique fonctionnelle

Type: Thèse ou essai doctoral accepté
Informations complémentaires: Fichier numérique reçu et enrichi en format PDF/A.
Directeur de thèse: Diallo, Abdoulaye Baniré
Mots-clés ou Sujets: Apprentissage automatique / Groupes de gènes biosynthétiques / Métabolites fongiques / Génomique fonctionnelle
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 02 août 2022 15:44
Dernière modification: 02 août 2022 15:44
Adresse URL : http://archipel.uqam.ca/id/eprint/15707

Statistiques

Voir les statistiques sur cinq ans...