Conception d'une méthode d'apprentissage machine pour la détection des microorganismes bactériens à partir de données de séquençages métagénomiques sans procédure d'alignement

De Montigny, Nicolas (2024). « Conception d'une méthode d'apprentissage machine pour la détection des microorganismes bactériens à partir de données de séquençages métagénomiques sans procédure d'alignement » Mémoire. Montréal (Québec), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (12MB)

Résumé

Les données de séquençage métagénomiques sont complexes à analyser, dû à leur taille, au niveau de connaissances contenu dans les bases de données et aux performances des méthodes disponibles selon de multiples critères. Les méthodes les plus précises utilisent des procédures d’alignement, mais comportent des faiblesses au niveau des ressources informatiques nécessaires. Ainsi, le travail de recherche présent vise à concevoir et implémenter une méthode de classification des données de séquençage métagénomique à large échelle sans se baser sur des procédures d’alignement. Le travail de recherche est de nature conceptuelle, mais il a également été implémenté afin d’en tester les performances sur des données artificielles. Une grande partie du projet est concentré sur la gestion des données et l’apprentissage automatique de modèles à grande échelle. Afin de permettre l’entraînement des modèles sur les génomes entiers puis la classification de données de séquençage métagénomique sans procédure d’alignement, la méthode d’extraction de profils de k-mers est utilisée. La classification est effectuée de façon récurrente avec une stratégie « top-down ». Ainsi, une classification binaire permet d’extraire les séquences bactériennes puis la classification à plusieurs classes est effectuée sur plusieurs niveaux taxonomiques pour les séquences classifiées aux niveaux précédents en passant des niveaux plus vastes aux niveaux plus précis. Pour chaque étape, deux algorithmes classiques et trois réseaux de neurones ont été entraînés sur des génomes entiers provenant de la base de données « Genome Taxonomy Database » et testés par validation croisée sur des données de séquençage simulées à partir de génomes d’entraînement. Les résultats obtenus ne démontrent pas de performances très élevées (toutes moins de 50% pour la précision, rappel et F-mesure), mais plusieurs façons d’améliorer la classification sont suggérées. La comparaison a également été effectués avec d’autres outils, mais les modèles utilisés n’étaient pas assez performants pour fournir une classification. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : apprentissage automatique, séquençage métagénomique, classification sans alignement, classification bactérienne, classification taxonomique

Type: Mémoire accepté
Informations complémentaires: Fichier numérique reçu et enrichi en format PDF/A.
Directeur de thèse: Diallo, Abdoulaye Baniré
Mots-clés ou Sujets: Apprentissage automatique / Séquençage métagénomique / Bactéries / Détection / Classification
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 13 nov. 2024 15:01
Dernière modification: 13 nov. 2024 15:01
Adresse URL : http://archipel.uqam.ca/id/eprint/18182

Statistiques

Voir les statistiques sur cinq ans...