Nouvelles méthodes informatiques et statistiques pour analyser les données du criblage à haut débit

Caraus, Iurie (2018). « Nouvelles méthodes informatiques et statistiques pour analyser les données du criblage à haut débit » Thèse. Montréal (Québec, Canada), Université du Québec à Montréal, Doctorat en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (14MB)

Résumé

Le criblage à haut débit (CHD) et le criblage à haut contenu (CHC) sont des techniques expérimentales efficaces permettant aux chercheurs d'identifier un petit nombre de candidats potentiels parmi des millions de composés chimiques (ou par exemple, de petites molécules, d'ADN complémentaire, de petits ARN interférents) pouvant devenir de nouveaux médicaments. Durant les dernières décennies, les nombreux centres CHD/CHC ont été créés dans les campus universitaires (Peter et Roy 2011). Au cours des dernières années, les résultats des CHD/CHC ont trouvé des grandes applications dans la recherche biologique, par exemple pour l'étude des maladies orphelines comme le paludisme et la fibrose kystique (Brewer 2009; Okiyoneda et Lukacs 2012; Preuss et al. 2012). Néanmoins, les données CHD/CHC peuvent contenir des erreurs systématiques (ou des biais spatiaux). Ces erreurs affectent généralement de manière significative toutes les mesures expérimentales, en augmentant ainsi le nombre de faux positifs et de faux négatifs retournés pas des méthodes de recherche de composés actifs. L'application des méthodes statistiques appropriées permet d'éliminer ou de réduire l'effet d'erreurs systématiques dans les données CHD/CHC. Plusieurs chercheurs (Brideau et al. 2003, Makarenkov et al. 2007, Dragiev et al. 2011 et 2012) ont montré que les méthodes d'élimination des erreurs systématiques peuvent être appliquées avec succès aux données CHD/CHC expérimentales. Dans cette thèse, nous proposons de nouvelles méthodes et protocoles statistiques servant à réduire l'impact d'erreurs systématiques dans les analyses CHD/CHC. La thèse est divisée en trois parties principales correspondant à nos trois articles. Le premier article examine les technologies de criblage existantes et leurs biais associés. Ici nous décrivons les différents types d'erreurs systématiques caractéristiques aux données CHD/CHC. Nous parlons de l'avantage des mesures répliquées et randomisées pour obtenir une meilleure précision des résultats dans les campagnes CHD/CHC. Les principales méthodes statistiques qui sont utilisées pour éliminer les erreurs systématiques, essentiellement de type additif, sont également présentées. Dans ce premier article, nous évaluons la grandeur de l'erreur systématique présente dans les données CHD expérimentales publics. Nous proposons également un protocole de prétraitement des données général, adopté à l'analyse des données de criblage. Le deuxième article présente trois nouvelles méthodes statistiques pour éliminer les erreurs systématiques multiplicatives. Pour détecter l'erreur systématique, nous utilisons le test non-paramétrique de Mann-Whitney U. Les biais spatiaux présents dans les essais sont corrigés via la résolution d'un système d'équations nonlinéaires ou par les procédures itératives d'élimination de biais. Nous montrons que les nouvelles méthodes de correction de données suppriment bien des erreurs systématiques multiplicatives présentes dans les lignes et les colonnes de chaque plaque de l'essai considéré. Le troisième article propose de nouvelles méthodes statistiques pour éliminer les erreurs systématiques du type additif et multiplicatif, en considérant les différentes interactions possibles entre ces erreurs. Nous utilisons les tests de Cramer-von-Mises et d'Anderson-Darling pour estimer la qualité de l'ajustement des valeurs originales par des valeurs corrigées et pour déterminer ainsi le meilleur modèle pour les données d'intérêt. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : biais spatial, criblage à haut débit, criblage à haut contenu, erreur systématique, erreur additive, erreur multiplicative

Type: Thèse ou essai doctoral accepté ()
Informations complémentaires: La thèse a été numérisée telle que transmise par l'auteur.
Directeur de thèse: Makarenkov, Vladimir
Mots-clés ou Sujets: Criblage à haut débit / Méthodes statistiques / Erreurs systématiques / Bio-informatique
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 14 sept. 2018 10:45
Dernière modification: 14 sept. 2018 10:45
Adresse URL : http://archipel.uqam.ca/id/eprint/11623

Statistiques

Voir les statistiques sur cinq ans...