Méthodes bio-informatiques basées sur les flux de travaux pour le séquençage à haut débit

Goimard, Jérémy (2018). « Méthodes bio-informatiques basées sur les flux de travaux pour le séquençage à haut débit » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (12MB)

Résumé

En biologie, l'analyse de données issues du séquençage à haut débit (SHD) se compose d'un ensemble de programmes informatiques dont l'assemblage forme un flux de travaux représentant les étapes d'analyse, programme après programme. Ces flux de travaux en bio-informatique sont gérés par des plateformes logicielles polyvalentes qui permettent d'accéder à des programmes et de les assembler sans avoir de connaissances particulières en informatique. Cependant, une grande part des programmes utilisés dans les flux fonctionnent avec leurs propres types de données. Ils nécessitent souvent de nombreuses dépendances liées à des librairies ou d'autres programmes et ne supportent souvent que le système d'exploitation Linux. Une solution à ce problème est la virtualisation d'applications préinstallées sur de nombreux systèmes d'exploitation, telle que proposée par l'environnement virtuel (EV), ou conteneur. À la fois souple et léger, il permet l'automatisation et le transfert des programmes sur de nombreux supports. L'EV fournit un excellent moyen de répéter des expériences. En raison de la taille des données et la complexité des tâches informatiques, les programmes d'analyse des SHD sont exigeants en ressources matérielles. Pour pallier ce problème, le calcul distribué, quel qu'en soit le niveau de complexité, permettrait l'accès à des ressources matérielles importantes. Il pourrait ainsi répondre aux besoins de traitement des données issues du SHD. En tant que plateforme logicielle de flux de travaux, Armadillo 1.1 répond à une grande partie des attentes. Afin d'y ajouter de nouveaux programmes d'analyse de SHD, ce mémoire propose des solutions pour automatiser l'ajout de nouveaux programmes et de faciliter leur mise à jour. Il propose également un environnement virtuel basé sur Docker qui permet l'utilisation de ces programmes sur l'ensemble des systèmes d'exploitation. Enfin, ce travail explore la possibilité d'exécuter des flux de travaux à la fois localement et sur des calculs distribués. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : flux de travaux, bio-informatique, séquençage haut débit, environnement virtuel, Docker, calcul distribué, cluster, Armadillo

Type: Mémoire accepté
Informations complémentaires: Le mémoire a été numérisé tel que transmis par l'auteur.
Directeur de thèse: Diallo, Abdoulaye Baniré
Mots-clés ou Sujets: Séquençage à haut débit / Flux de travaux / Bio-informatique / Traitement réparti
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 18 oct. 2018 08:53
Dernière modification: 18 oct. 2018 08:53
Adresse URL : http://archipel.uqam.ca/id/eprint/11740

Statistiques

Voir les statistiques sur cinq ans...